맨위로가기

언어 인식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

언어 인식은 텍스트의 언어를 식별하는 기술이다. 언어 식별 방법에는 텍스트 압축률 비교, n-gram 모델 사용, 기능어의 유병률 분석, 문자 조합 및 분음 부호 분석 등 다양한 통계적 및 비통계적 접근 방식이 있다. 유사 언어 식별은 밀접하게 관련된 언어를 구별하는 데 어려움이 있으며, 이를 위한 연구와 데이터 세트가 개발되었다. 아파치 OpenNLP 및 아파치 Tika와 같은 소프트웨어 도구는 언어 인식 기능을 제공한다.

더 읽어볼만한 페이지

  • 자연어 처리 - 정보 추출
    정보 추출은 비정형 또는 반구조화된 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 자연어 처리 기술을 활용하여 개체명 인식, 관계 추출 등의 작업을 수행하며 웹의 방대한 데이터에서 유용한 정보를 얻는 데 사용된다.
  • 자연어 처리 - 단어 의미 중의성 해소
    단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
  • 인공지능의 응용 - 가상 비서
    가상 비서는 음성 또는 텍스트 입력을 해석하여 정보 제공, 일정 관리, 기기 제어 등 다양한 작업을 수행하는 소프트웨어 에이전트로서, 시리, 알렉사, 구글 어시스턴트와 같은 다양한 형태로 발전해 왔으며, 챗GPT와 같은 생성형 AI 기반 가상 비서의 등장과 함께 발전하고 있지만 개인 정보 보호와 같은 과제도 존재한다.
  • 인공지능의 응용 - 질의 응답
    질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다.
  • 음성학 - 음성 인식
    음성 인식은 음성 신호를 텍스트로 변환하는 기술로, 인공지능과 심층 학습의 발전으로 인식 정확도가 향상되어 다양한 분야에 활용되고 있지만 보안 문제가 남아있다.
  • 음성학 - 음성 합성
    음성 합성은 텍스트를 음성으로 변환하는 기술(TTS)로, 기계 장치에서 컴퓨터 기반 시스템으로 발전해왔으며 통계적 모델과 심층 학습 기반 기술 발전을 거쳐 다양한 분야에서 활용되지만 윤리적 문제와 기술적 과제도 안고 있다.
언어 인식
개요
이름언어 식별
영어Language identification
설명텍스트 또는 음성 샘플이 주어진 언어를 결정하는 작업
상세 정보
유형자연어 처리의 하위 분야
목표주어진 텍스트 또는 음성 샘플의 언어 자동 결정
방법통계적 방법
규칙 기반 방법
기계 학습 방법
활용 분야
자동 번역입력 텍스트의 언어 식별 후 해당 언어에 맞는 번역 모델 선택
정보 검색특정 언어로 작성된 문서만 검색
콘텐츠 필터링특정 언어의 콘텐츠만 허용 또는 차단
다국어 웹사이트사용자 언어에 따라 적절한 콘텐츠 제공

2. 언어 식별 방법

언어 식별은 다양한 기술을 사용하여 데이터를 분류하는 통계적 접근 방식을 취한다. 밀접하게 관련된 언어를 구별하는 것은 언어 식별 시스템의 큰 병목 현상 중 하나이다. 불가리아어마케도니아어, 인도네시아어말레이어처럼 유사한 언어는 어휘 및 구조적으로 상당히 겹치기 때문에 시스템이 구별하기 어렵다.

2014년 DSL 공유 작업에서는 6개의 언어 그룹(A(보스니아어, 크로아티아어, 세르비아어), B(인도네시아어, 말레이어), C(체코어, 슬로바키아어), D(브라질 포르투갈어, 유럽 포르투갈어), E(반도 스페인어, 아르헨티나 스페인어), F(미국 영어, 영국 영어))에 13개의 다른 언어(및 언어 변형)가 포함된 데이터 세트를 제공했다. 최고의 시스템은 95% 이상의 결과를 달성했다. DSL 공유 작업의 결과는 관련 문헌에 설명되어 있다.[3]

2. 1. 통계적 방법

언어 식별에는 데이터를 분류하기 위한 다양한 통계적 접근 방식이 사용된다. 텍스트의 압축률을 알려진 언어 집합의 텍스트 압축률과 비교하는 상호 정보 기반 거리 측정 방식이 있다. 이 기술은 역사적 방법을 사용하여 구성된 트리와 밀접하게 일치하는 언어의 계통수를 경험적으로 구성하는 데에도 사용할 수 있다. 상호 정보 기반 거리 측정은 본질적으로 보다 일반적인 모델 기반 방법과 동일하며, 일반적으로 새롭거나 더 간단한 기술보다 낫다고 간주되지 않는다.

n-gram 기반 방법 외에, 특정 기능어의 빈도(예: 영어의 "the")를 기반으로 하는 그레펜스테테(Grefenstette)의 오래된 통계적 방법도 있다. 일반적인 비통계적 직관적 접근 방식(그러나 매우 불확실함)은 일반적인 문자 조합이나 독특한 분음 부호 또는 구두점을 찾는 것이다.[1][2]

2. 1. 1. n-gram 기반 방법

카브나(Cavnar)와 트렌클(Trenkle)(1994) 및 더닝(Dunning)(1994)이 설명한 기술은 각 언어에 대해 "훈련 텍스트"에서 언어 n-gram 모델을 만드는 것이다. 이러한 모델은 문자(카브나 및 트렌클) 또는 인코딩된 바이트(더닝)를 기반으로 할 수 있다. 후자의 경우 언어 식별과 문자 인코딩 감지가 통합된다. 그런 다음 식별이 필요한 모든 텍스트 조각에 대해 유사한 모델을 만들고, 해당 모델을 저장된 각 언어 모델과 비교한다. 가장 유력한 언어는 식별이 필요한 텍스트의 모델과 가장 유사한 모델을 가진 언어이다.

이 접근 방식은 입력 텍스트가 모델이 없는 언어로 되어 있는 경우 문제가 될 수 있다. 이 경우 메서드는 다른 "가장 유사한" 언어를 결과로 반환할 수 있다. 또한 어떤 접근 방식이든 웹에서 흔히 볼 수 있듯이 여러 언어로 구성된 입력 텍스트 조각도 문제가 된다.[1][2]

레후렉(Řehůřek) 및 콜쿠스(Kolkus)(2009)의 방법은 구조화되지 않은 텍스트 조각에서 여러 언어를 감지할 수 있으며, 몇 단어에 불과한 짧은 텍스트에서도 강력하게 작동한다. 이는 n-gram 접근 방식이 어려움을 겪는 부분이다.

2. 1. 2. 상호 정보 기반 거리 측정

언어 식별에는 데이터를 분류하기 위한 다양한 통계적 접근 방식이 사용된다. 한 가지 기술은 텍스트의 압축률을 알려진 언어 집합의 텍스트 압축률과 비교하는 것이다. 이 접근 방식은 상호 정보 기반 거리 측정으로 알려져 있다. 이 기술은 역사적 방법을 사용하여 구성된 트리와 밀접하게 일치하는 언어의 계통수를 경험적으로 구성하는 데에도 사용할 수 있다. 상호 정보 기반 거리 측정은 본질적으로 보다 일반적인 모델 기반 방법과 동일하며, 일반적으로 새롭거나 더 간단한 기술보다 낫다고 간주되지 않는다.

2. 2. 비통계적 방법

일반적인 비통계적 직관적 접근 방식은(그러나 매우 불확실함) 일반적인 문자 조합이나 독특한 분음 부호 또는 구두점을 찾는 것이다.[1][2]

2. 2. 1. 기능어 기반 방법

그레펜슈테테(Grefenstette)의 오래된 통계적 방법은 특정 기능어 (예: 영어의 "the")의 사용 빈도를 기반으로 했다.[1][2]

2. 2. 2. 문자 조합 및 분음 부호 기반 방법

일반적인 비통계적 직관적 접근 방식은(그러나 매우 불확실함) 일반적인 문자 조합이나 독특한 분음 부호 또는 구두점을 찾는 것이다.[1][2]

3. 유사 언어 식별

언어 식별 시스템에서 가장 어려운 문제 중 하나는 매우 유사한 언어를 구별하는 것이다. 예를 들어 불가리아어마케도니아어, 인도네시아어말레이어는 어휘와 구조가 매우 비슷하여 시스템이 구별하기 어렵다.[3]

2014년 DSL 공유 작업에서는[3] 6개 언어 그룹, 13개 언어(및 방언)를 포함하는 데이터 세트를 제공했다(Tan et al., 2014).



가장 성능이 좋은 시스템은 95% 이상의 정확도를 보였다(Goutte et al., 2014). DSL 공유 작업 결과는 Zampieri et al. (2014)에 자세히 나와 있다.

4. 소프트웨어


  • 아파치 OpenNLP는 문자 n-gram 기반 통계적 감지기를 포함하며 103개의 언어를 구별할 수 있는 모델과 함께 제공된다.
  • 아파치 Tika는 18개 언어에 대한 언어 감지기를 포함한다.

참조

[1] 서적 Handbook of Information Science https://books.google[...] Walter de Gruyter 2013-07-31
[2] 서적 Real-World Natural Language Processing: Practical Applications with Deep Learning https://books.google[...] Simon and Schuster 2021-12-14
[3] 웹사이트 VarDial Workshop @ COLING 2014 http://corporavm.uni[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com