맨위로가기

음성 인식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

음성 인식은 컴퓨터가 사람의 음성을 인식하고 이해하는 기술이다. 1950년대부터 연구가 시작되어, 통계적 방법, 은닉 마르코프 모델(HMM), 신경망, 심층 학습 등 다양한 기술을 거쳐 발전해 왔다. 현재는 심층 학습 기반의 종단 간 자동 음성 인식(End-to-end ASR) 기술이 주류를 이루며, 단어 오류율(WER)과 같은 지표로 성능을 평가한다. 음성 인식 기술은 차량 내 시스템, 교육, 의료, 군사, 통신, 장애인 지원 등 다양한 분야에 활용되며, 구글 어시스턴트, 아마존 알렉사, 삼성 빅스비 등 가상 비서 서비스에도 널리 사용된다.

더 읽어볼만한 페이지

  • 음성 인식 - 윈도우 음성 인식
    윈도우 음성 인식은 윈도우 운영체제에 내장된 기능으로, 사용자가 음성 명령으로 컴퓨터를 제어하고 텍스트를 받아쓰는 데 사용되며, 윈도우 비스타부터 도입되어 다양한 언어를 지원하고 로컬 처리 방식으로 작동했으나, 윈도우 11에서는 음성 액세스 기능으로 대체될 예정이다.
  • 음성 인식 - 음성 처리
    음성 처리는 음성 신호 분석, 변환, 합성을 통해 발전해 왔으며 딥 러닝 기술 도입 후 가상 비서 서비스에 통합되어 자연어 처리 및 다양한 응용 분야에서 활용되고 있는 기술 분야이다.
  • 전산언어학 - 알고리즘
    알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
  • 전산언어학 - 단어 의미 중의성 해소
    단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
  • 음성학 - 음성 합성
    음성 합성은 텍스트를 음성으로 변환하는 기술(TTS)로, 기계 장치에서 컴퓨터 기반 시스템으로 발전해왔으며 통계적 모델과 심층 학습 기반 기술 발전을 거쳐 다양한 분야에서 활용되지만 윤리적 문제와 기술적 과제도 안고 있다.
  • 음성학 - 성조
    성조는 음절의 높낮이 변화로 단어의 의미를 구별하는 언어 현상으로, 중국어, 베트남어, 태국어 등에서 나타나며, 단계성조, 곡선성조, 단어성조 등으로 분류되고 성조 변화, 성조 테라싱, 부유 톤 등의 현상을 보이며 다양한 표기법이 사용된다.
음성 인식
음성 인식
개요
다른 이름자동 음성 인식 (Automatic Speech Recognition, ASR)
정의사람이 말하는 음성을 컴퓨터가 텍스트로 변환하는 기술
관련 기술자연어 처리, 패턴 인식, 음향학, 전산 언어학, 신호 처리
음성 인식과 음성 확인/화자 인식의 차이
음성 인식말한 내용을 텍스트로 변환하는 것
음성 확인/화자 인식누가 말했는지 인식하는 것
역사
초기 연구1950년대 Bell 연구소에서 시작
발전1970년대 Hidden Markov Model (HMM) 도입
최근 발전2010년대 딥 러닝 기반 음성 인식 모델 발전
기술
음향 모델음성 신호를 음소와 같은 기본적인 음향 단위로 변환
언어 모델단어와 문장의 확률을 예측하여 문맥을 고려
특징 추출음성 신호에서 필요한 정보(예: 멜-주파수 켑스트럼 계수, MFCC) 추출
디코딩음향 모델과 언어 모델을 결합하여 가장 확률 높은 단어 시퀀스를 찾음
응용 분야
받아쓰기음성을 텍스트로 기록
음성 제어기기를 음성 명령으로 제어
음성 검색음성으로 정보 검색
음성 번역음성을 다른 언어로 번역
보조 기술장애인을 위한 음성 입력 기능 제공
도전 과제
다양한 발음 및 억양개인 발음 차이 및 지역 억양 처리
잡음 환경주변 소음 속에서 음성 인식 정확도 향상
구어체 언어비표준적 구어체 언어 처리
실시간 처리빠르고 정확한 실시간 음성 인식 구현
주요 연구 기관
학계대학 및 연구소
산업계구글, 마이크로소프트, 애플, 아마존, 삼성전자, 네이버, 카카오 등

2. 역사

음성 인식 기술의 역사는 1950년대 벨 연구소에서 단일 화자가 발음하는 숫자를 인식하기 위한 "오드리" 시스템을 개발하면서 시작되었다.[10] 주요 발전 과제는 인식 가능한 어휘의 크기를 늘리고, 여러 화자의 음성을 인식하며, 처리 속도를 높이는 것이었다.

1970년대부터 컴퓨터 보급과 함께 음성 인식 시스템 연구 개발이 활발하게 진행되었다.[16] 초기 일본어 인식률은 60% 정도였고, 화자를 제한하고 사전 훈련을 거친 이상적인 환경에서도 80%가 한계였다.[165] 불특정 다수의 화자 음성을 인식할 수 있는 시스템은 어휘가 제한되어 활용 범위가 좁았다. 반면, 동음이의어가 적은 서구권 언어에서는 90%의 인식률을 보였다.[166]

2010년대 후반부터는 인공지능과 심층 학습의 발전으로 음성 인식 성능이 크게 향상되었다. 구글 어시스턴트아마존 알렉사와 같은 가상 비서의 음성 조작에도 사용될 정도로 실용적인 수준에 도달했지만, 발성 훈련을 받은 성우의 음성도 조건에 따라 인식되지 않는 경우가 있다.[167]

2. 1. 1970년대 이전


  • '''1952년''' - 벨 연구소의 스티븐 발라섹[9], R. 비덜프, K. H. 데이비스는 단일 화자 숫자 인식을 위한 "오드리"[10] 시스템을 개발했다. 이 시스템은 각 발화의 파워 스펙트럼에서 포먼트를 찾았다.[11]
  • '''1960년''' - 구나르 판트는 음성 생성의 음원-필터 모델을 개발하고 발표했다.
  • '''1962년''' - IBM은 1962년 세계 박람회에서 16단어를 인식하는 "슈박스" 기계의 음성 인식 기능을 시연했다.[12]
  • '''1966년''' - 선형 예측 코딩(LPC)은 나고야 대학의 이타쿠라 후미타다와 일본전신전화(NTT)의 사토 슈조가 음성 인식 연구 중에 처음 제안한 음성 코딩 방법이다.[13]
  • '''1969년''' - 존 피어스가 음성 인식 연구에 대해 비판적인 공개 서한을 쓰면서 벨 연구소의 자금 지원이 몇 년 동안 중단되었다.[14] 이 자금 지원 중단은 피어스가 은퇴하고 제임스 L. 플래너건이 인수할 때까지 지속되었다.


라즈 레디는 1960년대 후반 스탠퍼드 대학교 대학원생으로서 연속 음성 인식에 도전한 최초의 인물이다. 이전 시스템은 사용자가 각 단어 후에 일시 정지해야 했다. 레디의 시스템은 체스 게임을 위한 음성 명령을 발행했다.

이 무렵 소련 연구원들은 동적 시간 왜곡(DTW) 알고리즘을 발명하고 이를 사용하여 200단어 어휘를 처리할 수 있는 인식기를 만들었다.[15] DTW는 음성을 10ms 세그먼트와 같은 짧은 프레임으로 나누고 각 프레임을 단일 단위로 처리하여 음성을 처리했다. DTW는 후속 알고리즘에 의해 대체되었지만, 이 기술은 계속 사용되었다. 이 기간에는 화자 독립성 달성이 해결되지 않았다.

2. 2. 1970년대 ~ 1990년대

1971년, 미국 국방 고등 연구 계획국(DARPA)은 5년간 '음성 이해 연구'에 자금을 지원했다. 이 연구는 최소 1,000단어의 어휘를 인식하는 것을 목표로 했다.[16] BBN 테크놀로지스, IBM, 카네기 멜론 대학교, 스탠퍼드 연구소가 이 프로그램에 참여했다.[17][18]

1970년대 후반, 카네기 멜론 대학교 라지 레디의 제자인 제임스 베이커와 재닛 베이커는 음성 인식에 은닉 마르코프 모델(HMM)을 사용하기 시작했다.[20] HMM을 통해 연구자들은 음향, 언어, 구문 등 다양한 지식 원천을 통합된 확률 모델로 결합할 수 있었다.

1980년대 중반, IBM의 프레드 제리넥 팀은 2만 단어 어휘를 처리할 수 있는 음성 활성 타자기인 탕고라를 개발했다.[21] 제리넥의 통계적 접근 방식은 HMM과 같은 통계적 모델링 기법을 사용하는 데 중점을 두었다.[22] HMM은 음성 모델링에 매우 유용한 방법으로 판명되어 1980년대 주요 음성 인식 알고리즘이 되었다.[24][25]

1982년, 제임스와 재닛 베이커가 설립한 드래곤 시스템즈는 IBM의 경쟁업체 중 하나였다.[26]

2. 3. 실용적인 음성 인식 (1990년대 이후)

AT&T는 1992년에 음성 인식 통화 처리 서비스를 배포하여 상담원 없이 전화를 연결했다.[33] 이 기술은 벨 연구소의 Lawrence Rabiner 등이 개발했다. 1990년대 후반, 벨기에에 본사를 둔 음성 인식 회사인 Lernout & Hauspie는 여러 회사를 인수하며 성장했다. L&H 음성 기술은 Windows XP 운영 체제에 사용되었다. L&H는 회계 부정으로 2001년에 폐업할 때까지 업계 선두주자였다. L&H의 음성 기술은 ScanSoft가 인수했고, 2005년에 Nuance가 되었다. 애플(Apple Inc.)은 원래 Nuance의 소프트웨어 라이선스를 통해 디지털 비서 Siri에 음성 인식 기능을 제공했다.[34]

2000년대, DARPA는 2002년의 효과적이고 저렴하며 재사용 가능한 음성 텍스트 변환(EARS) 프로그램과 글로벌 자율 언어 활용(GALE)] 프로그램의 두가지 음성 인식 프로그램에 자금을 지원했다.

3. 인식 기술

음성 인식 기술은 어휘 크기, 화자 독립성, 처리 속도 면에서 발전을 거듭해 왔다.


  • 1952년: 벨 연구소의 스티븐 발라섹, R. 비덜프, K. H. 데이비스는 단일 화자 숫자 인식을 위한 "오드리" 시스템을 개발했다.[9][10] 이 시스템은 각 발화의 파워 스펙트럼에서 포먼트를 찾아 인식했다.[11]
  • 1960년: 구나르 판트는 음성 생성의 음원-필터 모델을 개발하고 발표했다.
  • 1962년: IBM은 1962년 세계 박람회에서 16단어를 인식하는 "슈박스" 기계의 음성 인식 기능을 시연했다.[12]
  • 1966년: 선형 예측 코딩(LPC)이 나고야 대학의 이타쿠라 후미타다와 일본전신전화(NTT)의 사토 슈조에 의해 처음 제안되었다.[13]
  • 1969년: 존 피어스의 비판적인 공개 서한으로 벨 연구소의 음성 인식 연구 자금 지원이 중단되었다.[14] 이는 제임스 L. 플래너건이 인수할 때까지 지속되었다.


라즈 레디는 1960년대 후반 스탠퍼드 대학교 대학원생으로서 연속 음성 인식에 도전한 최초의 인물이다. 이전 시스템은 사용자가 각 단어 후에 일시 정지해야 했지만, 레디의 시스템은 체스 게임을 위한 음성 명령을 발행했다.

이 무렵 소련 연구원들은 동적 시간 왜곡(DTW) 알고리즘을 발명하고 이를 사용하여 200단어 어휘를 처리할 수 있는 인식기를 만들었다.[15] DTW는 음성을 짧은 프레임으로 나누고 각 프레임을 단일 단위로 처리했다. DTW는 후속 알고리즘에 의해 대체되었지만, 이 기술은 계속 사용되었다. 이 기간에는 화자 독립성 달성이 해결되지 않았다.

  • 1971년: 미국 국방고등연구계획국(DARPA)이 5년간의 ''음성 이해 연구''(Speech Understanding Research)에 자금을 지원했다. 최소 1,000단어의 어휘 크기를 목표로 했으며,[16] BBN 테크놀로지스(BBN Technologies), IBM, 카네기 멜론 대학교(Carnegie Mellon University), 스탠퍼드 연구소(Stanford Research Institute)가 참여했다.[17][18]
  • 1972년: 미국전기전자학회(IEEE) 음향, 음성 및 신호 처리 그룹이 회의를 개최했다.
  • 1976년: 필라델피아에서 첫 번째 국제 음성통신 학술대회(ICASSP)가 열렸다.[19]


1960년대 후반 레너드 바움(Leonard E. Baum)은 마르코프 체인(Markov chain)의 수학적 이론을 개발했다. 10년 후, 제임스 베이커(James K. Baker)와 재닛 베이커(Janet M. Baker)는 음성 인식에 은닉 마르코프 모델(HMM)을 사용하기 시작했다.[20] HMM의 사용은 연구자들이 음향, 언어, 구문과 같은 다양한 지식 원천을 통합된 확률 모델로 결합할 수 있게 해주었다.

  • 1980년대 중반: IBM의 프레드 제리넥(Frederick Jelinek) 팀은 2만 단어의 어휘를 처리할 수 있는 음성 활성 타자기인 탕고라(Tangora)를 만들었다.[21] 제리넥의 통계적 접근 방식은 HMM과 같은 통계적 모델링 기법을 사용하는 데 더 중점을 두었다. HMM은 음성 모델링에 매우 유용한 방법으로 판명되어 1980년대 주요 음성 인식 알고리즘이 되었다.[24][25]
  • 1982년: 제임스와 재닛 베이커(Janet M. Baker)가 설립한 드래곤 시스템즈(Dragon Systems)는 IBM의 소수 경쟁업체 중 하나였다.[26]


1980년대에는 n-그램 언어 모델이 도입되기도 했다.

  • 1987년: 백오프 모델을 통해 언어 모델이 여러 길이의 n-그램을 사용할 수 있게 되었고, CSELT[27]는 HMM을 사용하여 언어를 인식했다.


컴퓨터 성능의 급속한 향상은 이 분야의 많은 발전에 기여했다. 1976년 DARPA 프로그램이 끝날 무렵, 연구자들이 사용할 수 있는 최고의 컴퓨터는 4MB RAM을 갖춘 PDP-10이었으며,[28] 30초 분량의 음성을 디코딩하는 데 최대 100분이 걸릴 수 있었다.[29]

1980년대와 1990년대의 실용적인 제품은 다음과 같다.

  • 1984년: 최대 4096단어를 지원하는 Apricot Portable이 출시되었는데, 이 중 64단어만 RAM에 동시에 저장할 수 있었다.[30]
  • 1987년: Kurzweil Applied Intelligence의 음성 인식기
  • 1990년: 소비자용 제품인 Dragon Dictate[31][32]가 출시되었다.
  • 1992년: AT&T는 음성 인식 통화 처리 서비스를 배포하여 상담원 없이 전화를 연결했다.[33] 이 기술은 벨 연구소의 Lawrence Rabiner 등이 개발했다.


Xuedong Huang은 CMU에서 Sphinx-II 시스템을 개발했다. Sphinx-II 시스템은 최초로 화자 독립적인 대규모 어휘 연속 음성 인식을 수행했으며, 1992년 DARPA 평가에서 최고의 성능을 보였다. Huang은 1993년에 Microsoft의 음성 인식 그룹을 설립했다. Kai-Fu Lee는 애플에 합류하여 1992년에 Casper로 알려진 애플 컴퓨터용 음성 인터페이스 프로토타입 개발을 지원했다.

벨기에에 본사를 둔 음성 인식 회사인 Lernout & Hauspie는 1997년 Kurzweil Applied Intelligence, 2000년 Dragon Systems를 포함한 여러 회사를 인수했다. L&H 음성 기술은 Windows XP 운영 체제에 사용되었다. L&H는 회계 부정으로 2001년에 폐업할 때까지 업계 선두주자였다. L&H의 음성 기술은 ScanSoft가 인수했고, 2005년에 Nuance가 되었다. 애플(Apple Inc.)은 원래 Nuance의 소프트웨어 라이선스를 통해 디지털 비서 Siri에 음성 인식 기능을 제공했다.[34]

2000년대, DARPA는 효과적이고 저렴하며 재사용 가능한 음성 텍스트 변환(EARS) 프로그램과 글로벌 자율 언어 활용(GALE)] 프로그램에 자금을 지원했다. EARS 프로그램에는

3. 1. 통계적 방법

음향 모델링과 언어 모델링은 모두 통계 기반 음성 인식 알고리즘의 중요한 부분이다. 많은 시스템에서 숨은 마르코프 모델(HMM)이 널리 사용된다. 언어 모델링은 문서 분류나 통계적 기계 번역과 같은 다른 자연어 처리 응용 프로그램에도 사용된다.[68]

음성 인식에서는 통계적 방법이 자주 사용된다. 이는 대량의 발화를 기록한 학습 데이터에서 음성의 특징을 축적하고, 인식 대상이 되는 입력 음성에서 추출된 특징과 축적된 특징을 비교하면서 가장 가까운 언어 계열을 인식 결과로 출력하는 방법이다.

일반적으로 음성의 음향적 특징과 언어적 특징을 분리하여 다루는 경우가 많다.

  • '''음향 모델''': 인식 대상의 음소가 각각 어떤 주파수 특성을 가지고 있는지를 나타낸다. 혼합 정규분포를 출력 확률로 한 숨은 마르코프 모델이 널리 사용되고 있다.
  • '''언어 모델''': 음소의 나열 순서에 관한 제약을 나타낸다. 예를 들어, 「あなた (a n a t a)」라는 발성 직후에는 「が (g a)」나 「は (w a)」와 같은 발성이 이어질 확률이 높다는 제약이다.
  • 인식 대상 언어가 대규모인 경우(PC상에서의 문서 작성 등)는 n-그램이 자주 사용된다.
  • 인식 대상 언어가 사람 손으로 전부 나열할 수 있을 정도로 작은 경우(내비게이션의 음성 조작 등)는 맥락 자유 문법이 자주 사용된다.


음성 신호는 단편적이거나 짧은 시간의 정상 신호로 볼 수 있으며, 은닉 마르코프 모델(HMM)을 적용할 수 있다. 즉, 10밀리초 정도의 짧은 시간으로 보면 음성 신호는 근사적으로 정상 과정으로 간주할 수 있다. 따라서 음성을 많은 확률 과정의 마르코프 연쇄로 생각할 수 있다.

은닉 마르코프 모델을 이용한 음성 인식은 자동으로 훈련되며, 간단하고 계산량도 그다지 많지 않다. 음성 인식에서 가장 간단한 설정은, 은닉 마르코프 모델이 10밀리초마다 13차원 정도의 실수값 벡터를 출력하는 것이다. 이 벡터는 켑스트럼 계수로 구성된다. 켑스트럼 계수는 짧은 시간의 신호의 푸리에 변환에 코사인 변환을 하여 그 첫 번째(최대) 계수를 추출한 것이다. 은닉 마르코프 모델은 각각 관측된 벡터의 우도를 주는 대각 공분산의 가우스 분포의 혼합이라고도 할 수 있는 확률 분포를 갖는 경향이 있다. 각 단어나 각 음소는 각각 고유한 출력 분포를 갖는다. 단어열 또는 음소열에 관한 은닉 마르코프 모델은 개별 단어나 음소의 은닉 마르코프 모델을 연결한 것이 된다.

음성 인식 시스템에는 이 외에도 다양한 기술을 사용하고 있다. 어휘가 많은 시스템에서는 음소에 대해 문맥 의존성을 고려한다. 또한, 화자 간의 차이와 녹음 상황의 차이를 정규화하기 위해 켑스트럼의 정규화가 이루어진다. 그 외에도 화자 정규화 시도로서, 남녀 간의 정규화를 위한 성도 길이 정규화(VTLN)나, 보다 불특정 다수의 화자에 대응하기 위한 최대 우도 선형 회귀(MLLR)가 있다.

3. 2. 동적 시간 왜곡 (DTW)

동적 시간 왜곡(Dynamic Time Warping, DTW)은 과거 음성 인식에 사용되었던 방법이지만, 현재는 더 성공적인 HMM 기반 접근 방식에 의해 대체되었다.

동적 시간 왜곡은 시간 또는 속도가 다를 수 있는 두 시퀀스 간의 유사성을 측정하기 위한 알고리즘이다. 예를 들어, 한 비디오에서는 사람이 천천히 걷고 다른 비디오에서는 더 빨리 걷는 경우에도, 또는 한 관찰 과정에서 가속과 감속이 있는 경우에도 보행 패턴의 유사성이 감지된다. DTW는 비디오, 오디오 및 그래픽 등 선형 표현으로 변환할 수 있는 모든 데이터에 적용될 수 있다.

잘 알려진 응용 분야 중 하나는 다양한 말하는 속도에 대처하기 위한 자동 음성 인식이다. 일반적으로, 컴퓨터가 특정 제약 조건 하에 주어진 두 시퀀스(예: 시계열) 간의 최적 일치를 찾을 수 있도록 하는 방법이다. 즉, 시퀀스는 서로 일치하도록 비선형적으로 "왜곡"된다. 이 시퀀스 정렬 방법은 종종 은닉 마르코프 모델(HMM)의 맥락에서 사용된다.[1]

3. 3. 은닉 마르코프 모델 (HMM)

현대의 범용 음성 인식 시스템은 은닉 마르코프 모델(HMM)을 기반으로 한다. 이는 기호 또는 양의 시퀀스를 출력하는 통계적 모델이다. 음성 신호는 구간적으로 정상 상태 신호 또는 단시간 정상 상태 신호로 볼 수 있기 때문에 HMM은 음성 인식에 사용된다. 짧은 시간 척도(예: 10밀리초)에서 음성은 정상 과정으로 근사할 수 있으며, 많은 확률적 목적으로 음성은 마르코프 모델로 간주될 수 있다.[69]

HMM이 널리 사용되는 또 다른 이유는 자동으로 학습될 수 있고 사용이 간단하며 계산 가능하기 때문이다. 음성 인식에서 은닉 마르코프 모델은 10밀리초마다 ''n''차원 실수 벡터(여기서 ''n''은 10과 같은 작은 정수) 시퀀스를 출력한다. 이 벡터는 케프스트럼 계수로 구성되며, 이는 음성의 짧은 시간 창에 대한 푸리에 변환을 수행하고 코사인 변환을 사용하여 스펙트럼의 상관 관계를 제거한 다음 처음 몇 개의 (가장 중요한) 계수를 취하여 얻는다. 은닉 마르코프 모델은 각 상태에 대각 공분산 가우스 혼합물인 통계적 분포를 가지는 경향이 있으며, 이는 각 관측 벡터에 대한 가능도를 제공한다. 각 단어 또는 (더 일반적인 음성 인식 시스템의 경우) 각 음소는 다른 출력 분포를 갖게 된다. 단어 또는 음소 시퀀스에 대한 은닉 마르코프 모델은 별도의 단어와 음소에 대해 학습된 개별 은닉 마르코프 모델을 연결하여 만든다.[69]

음성의 디코딩(시스템에 새로운 발화가 제시되고 가장 가능성이 높은 원본 문장을 계산해야 할 때 발생하는 것을 나타내는 용어)은 아마도 비터비 알고리즘을 사용하여 최상의 경로를 찾을 것이며, 여기에는 음향 및 언어 모델 정보를 모두 포함하는 결합 은닉 마르코프 모델을 동적으로 생성하는 방법과 미리 정적으로 결합하는 방법(즉, 유한 상태 변환기 또는 FST 접근 방식) 사이에서 선택할 수 있다.[69]

3. 4. 신경망

신경망은 1980년대 후반부터 자동 음성 인식(ASR)에서 음향 모델링에 사용되어 왔다.[71] 그 이후로 신경망은 음소 분류,[72] 단어 인식,[73] 시청각 음성 인식, 시청각 화자 인식 및 화자 적응 등 음성 인식의 여러 측면에 활용되었다.

초기 신경망은 개별 음소 및 단어와 같은 단시간 단위를 분류하는 데는 효과적이었지만,[74] 연속 인식 작업에서는 큰 성공을 거두지 못했다. 이는 시간적 의존성을 모델링하는 능력이 제한되었기 때문이다.

이러한 한계를 극복하기 위해 초기에는 은닉 마르코프 모델(HMM) 기반 인식에 앞서 전처리, 특징 변환, 차원 축소[75] 단계로 신경망을 사용하기도 했다. 하지만, 최근에는 LSTM(Long short-term memory) 및 순환 신경망(RNN),[39][43][76][77] 시간 지연 신경망(TDNN),[78] 트랜스포머[48][49][50]와 같은 딥러닝 모델들이 발전하면서 음성 인식 분야에서 성능 향상을 이끌어내고 있다.

3. 4. 1. 심층 순전파 및 순환 신경망

DNN은 복잡한 비선형 관계를 모델링할 수 있으며, 추가적인 층은 하위 층의 특징을 구성하여 학습 용량을 크게 향상시킨다.[143] 2010년, 산업 및 학계 연구원들은 공동 연구를 통해 DNN을 사용한 대규모 어휘 음성 인식의 성공 사례를 발표했다. 이들은 의사결정 트리에 의해 구성된 문맥 종속 HMM 상태를 기반으로 DNN의 대규모 출력층을 채택했다.[80][81][82]

심층 학습의 기본 원칙 중 하나는 수작업으로 만든 특징 공학을 없애고 원시 특징을 사용하는 것이다. 이 원칙은 "원시" 스펙트로그램 또는 선형 필터 뱅크 특징에 대한 심층 오토인코더 아키텍처에서 처음으로 성공적으로 탐구되었으며,[85] 스펙트로그램에서 몇 단계의 고정 변환을 포함하는 Mel-Cepstral 특징보다 우수한 성능을 보였다.

3. 4. 2. 종단 간 자동 음성 인식 (End-to-end ASR)

2014년부터 "종단간(End-to-end)" 자동 음성 인식(ASR)에 대한 연구 관심이 높아졌다. 기존의 음운 기반(즉, 모든 HMM 기반 모델) 접근 방식은 발음, 음향 및 언어 모델에 대해 별도의 구성 요소와 훈련이 필요했다. 종단간 모델은 음성 인식기의 모든 구성 요소를 공동으로 학습하여 훈련 과정과 배포 과정을 단순화한다.[87]

종단간 ASR에 대한 최초의 시도는 2014년 딥마인드(DeepMind)의 알렉스 그레이브스(Alex Graves)와 토론토 대학교(University of Toronto)의 나브딥 자이틀리(Navdeep Jaitly)가 도입한 연결주의 시간 분류(Connectionist Temporal Classification, CTC) 기반 시스템이었다.[88] 이 모델은 순환 신경망과 CTC 계층으로 구성되었다. RNN-CTC 모델은 발음과 음향 모델을 함께 학습하지만, HMM과 유사한 조건부 독립 가정으로 인해 언어를 학습할 수 없다. CTC 모델은 음성 음향을 영어 문자에 직접 매핑하는 것을 학습할 수 있지만, 일반적인 철자 오류가 많이 발생하여 전사를 정리하기 위해 별도의 언어 모델에 의존해야 한다.[89] 이후 바이두는 매우 큰 데이터 세트를 사용하여 이 작업을 확장하고 중국어와 영어에서 상업적 성공을 거두었다. 2016년, 옥스포드 대학교는 RNN-CTC 아키텍처와 결합된 시공간 합성곱을 사용하는 최초의 종단간 문장 수준 입술 읽기 모델인 LipNet을 발표했으며, 제한된 문법 데이터 세트에서 사람 수준의 성능을 능가했다.[90][91] 2018년 딥마인드는 대규모 CNN-RNN-CTC 아키텍처를 발표하여 사람 전문가보다 6배 더 나은 성능을 달성했다.[92] 2019년, 엔비디아는 전체 성능 WER이 3%인 Jasper와 QuarzNet이라는 두 개의 CNN-CTC ASR 모델을 출시했다.[93][94]

CTC 기반 모델의 대안적인 접근 방식은 어텐션 기반 모델이다. 어텐션 기반 ASR 모델은 2016년 카네기멜론 대학교(Carnegie Mellon University)와 구글 브레인(Google Brain)의 Chan et al.과 몬트리올 대학교(Université de Montréal)의 Bahdanau et al.이 동시에 도입했다.[98][99] "듣고, 주목하고, 말하다"(Listen, Attend and Spell, LAS)라고 명명된 이 모델은 음향 신호를 "듣고", 신호의 다른 부분에 "주목"하고, 한 번에 한 문자씩 전사를 "말한다". CTC 기반 모델과 달리 어텐션 기반 모델은 조건부 독립 가정이 없으며 발음, 음향 및 언어 모델을 포함한 음성 인식기의 모든 구성 요소를 직접 학습할 수 있다. 2016년 말까지 어텐션 기반 모델은 상당한 성공을 거두었으며, 외부 언어 모델을 사용하든 사용하지 않든 CTC 모델을 능가했다.[100] 원래 LAS 모델 이후로 다양한 확장이 제안되었다. 잠재 시퀀스 분해(Latent Sequence Decompositions, LSD)는 영어 문자보다 더 자연스러운 하위 단어 단위를 직접 방출하기 위해 카네기멜론 대학교, 매사추세츠 공과대학교(MIT) 및 구글 브레인(Google Brain)에 의해 제안되었다.[101] 옥스포드 대학교와 딥마인드는 입술 읽기를 처리하기 위해 LAS를 "보고, 듣고, 주목하고, 말하다"(Watch, Listen, Attend and Spell, WLAS)로 확장하여 사람 수준의 성능을 능가했다.[102]

4. 평가 지표

음성 인식 시스템의 성능은 정확도와 속도로 평가된다.[134][135] 정확도는 단어 오류율(WER)로 평가하며, 속도는 실시간 계수로 측정한다. 단일 단어 오류율(SWER)과 명령 성공률(CSR)도 정확도 측정에 사용된다.

음성 인식은 악센트, 발음, 명료성, 음높이, 음량, 속도, 배경 잡음, 에코, 전기적 특성 등 다양한 요인에 영향을 받는 복잡한 문제이다.[136] 음성 인식의 정확도는 다음과 같은 요소에 따라 달라진다.


  • 어휘 크기 및 혼동 가능성
  • 화자 의존성 대 독립성
  • 단일, 불연속 또는 연속 음성
  • 작업 및 언어 제약 조건
  • 낭독 음성 대 즉흥 음성
  • 열악한 조건

4. 1. 단어 오류율 (WER)

Word error rate|워드 에러 레이트영어(WER)은 인식된 "단어"의 오류율이다. WER을 평가하기 위한 대표적인 말뭉치로 WSJ 말뭉치[155]가 있다.

4. 2. 문자 오류율 (CER)

'''문자 오류율'''(Character Error Rate, CER)은 인식된 단어의 오류율을 의미하며, Letter Error Rate (LER)이라고도 한다. 단어 오류율(WER) 평가와 함께 수행되는 경우가 많다. 2019년 시점의 WSJ 코퍼스에 대한 CER은 1% 미만이다.[156]

4. 3. 음소 오류율 (PER)

'''음소 오류율''' (phoneme error rate|포님 에러 레이트영어; '''PER''')은 인식된 음소의 오류율이다. PER을 평가하기 위한 대표적인 말뭉치로 TIMIT|티밋영어이 있다.[157] 2019년 시점의 TIMIT 말뭉치에 대한 PER은 10%를 밑돌고 있다.[158]

5. 실제와 과제

기계에 의한 음성 인식은 매우 복잡한 문제입니다. 발성은 악센트, 발음, 발음 명료성, 거칠기, 비음, 음고, 음량 및 속도 측면에서 다릅니다. 음성은 배경 잡음과 에코, 전기적 특성에 의해 왜곡됩니다. 음성 인식의 정확도는 다음과 같은 요소에 따라 달라질 수 있습니다.[136]


  • 어휘 크기 및 혼동 가능성
  • 화자 의존성 대 독립성
  • 단일, 불연속 또는 연속 음성
  • 작업 및 언어 제약 조건
  • 낭독 음성 대 즉흥 음성
  • 열악한 조건


실제 음성 인식 활용에는 여러 가지 어려움이 있습니다. 다음은 그 예시입니다.

  • 배경 소음
  • 잡음
  • 배경 대화
  • 어휘
  • 전문 용어
  • 은어
  • 음성
  • 동시 발화자 수
  • 발화 방식(공식적인 발화, 일상 대화)


병렬 모델은 예상치 못한 입력에도 어느 정도 대처할 수 있습니다.[159]

6. 연구 중인 기술

음성 인식률을 높이기 위해 미싱 피처 이론(MFT), 기하학적 음원 분리(GSS) 등의 기술이 연구되고 있다.[153][160]

6. 1. MFT (Missing Feature Theory)

화자의 음성 특징량이 잡음이나 특징 분리 처리에 의해 왜곡되면 음향 모델과의 차이가 커져 오인식의 원인이 된다. 얻어진 음성의 특징량에 왜곡이나 잡음이 어느 정도 포함되어 있는지를 추정하고, 시간축과 주파수축에 대해 신뢰도를 맵으로 가지게 하여, 신뢰도가 낮은 특징량에는 마스크를 씌우거나, 손실된 음성을 복원하는 처리에 활용하는 것이 미싱 피처 이론(Missing feature theory)이다.[153]

6. 2. GSS (Geometric Source Separation)

GSS(Geometric source separation)는 여러 음원을 분리하는 기술이며, 음원 간에 상관관계가 없다면 여러 마이크의 입력 정보를 통해 비교적 쉽게 음원 분리 및 위치 정보(음원 위치 추정)를 얻을 수 있다.[160] 이를 MFT의 잡음 정보로 신뢰도 맵에 반영하면, 잡음이 많은 환경이나 동시 발화 상황에서도 인식률 저하를 크게 막을 수 있다.[160]

7. 응용 분야

음성 인식 기술은 다양한 분야에 폭넓게 활용되고 있다.


  • 차량 내 시스템: 운전 중 안전을 위해 음성으로 전화를 걸거나 음악을 재생하는 등의 기능을 제공한다. 최근에는 자연어 처리 기술을 도입하여 더욱 편리하게 사용할 수 있다.
  • 교육: 컴퓨터 보조 언어 학습(CALL) 분야에서 학습자의 발음을 평가하고 교정하는 데 활용된다. 마이크로소프트 팀즈[108]와 같은 프로그램에서 독서 지도에도 사용된다.
  • 의료: 전자의무기록(EMR) 시스템과 연동하여 의료 문서 작성의 효율성을 높인다. 특히 방사선과나 병리학 분야에서 진료 기록 작성에 유용하다.
  • 군사: 전투기 조종석에서 음성으로 무선 주파수를 설정하거나 자동 조종 시스템을 제어하는 등 다양한 임무를 수행하는 데 활용된다. 유로파이터 타이푼[119], F-35 라이트닝 II[121] 등 최신 전투기에도 적용되고 있다. 헬리콥터[118]항공 교통 관제(ATC) 훈련[118]에도 사용된다.
  • 통신: 대화형 음성 응답(IVR) 시스템과 통합되어 고객 센터 등에서 활용되며, 스마트폰의 음성 인식 기능으로도 널리 사용된다.
  • 장애인 지원: 청각 장애인을 위한 자동 자막 생성[122], 시각 장애인을 위한 컴퓨터 제어[123], 반복성 긴장 장애 환자를 위한 음성 텍스트 변환[123] 등 다양한 방식으로 활용된다. 학습 장애 학생들의 작문 능력 향상에도 도움을 줄 수 있다.[124]
  • 기타: 자동 번역, 홈 오토메이션, 로봇 공학, 가상 비서 (예: 애플의 시리) 등 다양한 분야에서 활용되고 있다.

7. 1. 차량 내 시스템

일반적으로 운전대의 손가락 제어 장치와 같은 수동 제어 입력을 통해 음성 인식 시스템을 활성화하며, 이는 오디오 프롬프트를 통해 운전자에게 알려진다. 오디오 프롬프트가 나온 후, 시스템은 음성 입력을 인식할 수 있는 "듣기 창"을 갖는다.

간단한 음성 명령을 사용하여 전화를 걸거나, 라디오 방송국을 선택하거나, 호환 가능한 스마트폰, MP3 플레이어 또는 음악이 저장된 플래시 드라이브에서 음악을 재생할 수 있다. 음성 인식 기능은 자동차 제조사와 모델에 따라 다르다. 최근의 자동차 모델 중 일부는 고정된 명령어 집합 대신 자연어 음성 인식을 제공하여 운전자가 완전한 문장과 일반적인 구절을 사용할 수 있도록 한다. 따라서 이러한 시스템을 사용하면 사용자가 고정된 명령어 집합을 암기할 필요가 없다.

7. 2. 교육

자동 발음 평가는 음성 인식을 사용하여 발음의 정확성을 확인하는 것으로, 강사나 감독관에 의한 수동 평가와 구분된다.[103][104] 음성 확인, 발음 평가, 발음 채점이라고도 불리는 이 기술의 주요 응용 분야는 컴퓨터 보조 교육과 컴퓨터 보조 언어 학습(CALL)을 결합한 컴퓨터 보조 발음 교육(CAPT), 발음 교정, 또는 억양 수정이다.[105][106][107] 발음 평가는 독서 지도에도 사용되는데, 예를 들어 마이크로소프트 팀즈[108]와 같은 제품이나 Amira Learning의 제품에서 사용된다.[109] 자동 발음 평가는 언어 장애(예: 실어증)의 진단 및 치료에도 사용될 수 있다.[110]

7. 3. 의료

의료 분야에서 음성 인식은 의료 문서화 과정의 프런트엔드 또는 백엔드에 구현될 수 있다. 프런트엔드 음성 인식은 의료 제공자가 음성 인식 엔진에 내용을 받아쓰면, 인식된 단어가 말하는 대로 표시되고, 받아쓰는 사람이 문서를 편집하고 승인하는 방식이다. 백엔드 또는 지연 음성 인식은 의료 제공자가 디지털 받아쓰기 시스템에 내용을 받아쓰면, 음성이 음성 인식 기계를 통해 라우팅되고 인식된 초안 문서가 원본 음성 파일과 함께 편집자에게 전달되어 초안이 편집되고 보고서가 최종적으로 완성되는 방식이다. 현재 업계에서는 지연 음성 인식이 널리 사용되고 있다.[1]

2009년 미국 경기 회복 및 재투자법(American Recovery and Reinvestment Act of 2009, ARRA)은 "의미 있는 사용"(Meaningful Use) 표준에 따라 전자의무기록(EMR)을 사용하는 의사에게 상당한 재정적 이익을 제공한다.[1] 이러한 표준에서는 EMR(현재는 전자 건강 기록(Electronic Health Record, EHR)이라고 더 일반적으로 불림)에 상당한 양의 데이터를 유지해야 한다.[1] 음성 인식은 방사선과/병리학 해석, 진찰 기록 또는 퇴원 요약의 일부로 서술적 텍스트 생성에 더 적합하다.[1] 시력이 있고 키보드와 마우스를 작동할 수 있는 사람들에게 구조화된 불연속 데이터(예: 숫자 값, 목록, 제어된 어휘의 코드)를 입력하는 데 음성 인식을 사용하는 인체 공학적 이점은 상대적으로 미미하다.[1]

대부분의 EHR이 음성 인식 기능을 활용하도록 명시적으로 설계되지 않았다는 점이 문제이다.[1] 임상의가 EHR과 상호 작용하는 과정의 상당 부분은 메뉴를 사용하여 사용자 인터페이스를 탐색하고, 탭/버튼을 클릭하는 것을 포함하며, 키보드와 마우스에 크게 의존한다.[1] 음성 기반 탐색은 인체 공학적 이점을 약간만 제공한다.[1] 반대로, 방사선과 또는 병리학 받아쓰기를 위한 많은 맞춤형 시스템은 음성 "매크로"를 구현한다.[1] 예를 들어, "정상 보고서"와 같은 구문을 사용하면 많은 기본값이 자동으로 채워지거나 검사 유형에 따라 다양한 표준 텍스트가 생성된다(예: 방사선 시스템의 경우 흉부 X선 검사 대 장내 조영제 검사).[1]

단어 처리기와 함께 장기간 음성 인식 소프트웨어를 사용하면 뇌 동정맥 기형 수술적 절제술 치료를 받은 환자의 단기 기억력 강화에 도움이 되는 것으로 나타났다.

7. 4. 군사

지난 10년 동안 전투기에서 음성 인식 기술을 시험하고 평가하는 데 많은 노력이 있었다. 미국의 AFTI/F-16 음성 인식 프로그램, 프랑스의 미라주 항공기 프로그램, 그리고 영국의 다양한 항공기 플랫폼 관련 프로그램들이 대표적이다. 이러한 프로그램을 통해 음성 인식기는 전투기에서 성공적으로 작동되었으며, 무선 주파수 설정, 자동 조종 시스템 제어, 조준점 좌표 및 무기 발사 매개변수 설정, 비행 표시 제어 등에 활용되었다.[118]

JAS-39 그리펜 조종석에서 비행하는 스웨덴 조종사들을 대상으로 한 연구에서는 G-하중이 증가하면 인식률이 떨어진다는 사실이 밝혀졌다. 그러나 적응을 통해 결과를 크게 향상시킬 수 있었고, 호흡 모델을 도입하면 인식 점수가 상당히 향상되었다. 억양은 영향을 미치지 않았지만, 자발적인 발화는 인식에 문제를 일으켰다. 따라서 제한된 어휘와 적절한 구문을 사용하면 인식 정확도를 높일 수 있다.[118]

현재 영국 RAF에서 운용 중인 유로파이터 타이푼은 화자 종속 시스템을 사용한다. 이 시스템은 무기 발사나 착륙장치 하강과 같은 안전에 중요하거나 무기에 중요한 작업에는 사용되지 않지만, 다양한 조종석 기능에 활용된다. 음성 명령은 시각적 또는 청각적 피드백으로 확인된다. 이 시스템은 조종사 작업 부하를 줄이는 데 중요한 설계 기능으로, 조종사가 간단한 음성 명령으로 목표를 할당할 수 있게 해준다.[119][120]

F-35 라이트닝 II (JSF)와 알레니아 아에르마키 M-346 마스터 훈련기에서는 화자 독립 시스템이 개발 및 테스트 중이다. 이러한 시스템은 98% 이상의 단어 정확도를 보였다.[121]

헬리콥터 환경에서도 음성 인식 기술이 연구되고 있다. 헬리콥터는 소음이 심하고 조종사가 마스크를 착용하지 않아 음향 소음 문제가 더 심각하다. 미국 육군 항공 전자 연구 개발 활동(AVRADA)과 영국의 왕립 항공 우주 연구소(RAE)에서 헬리콥터 음성 인식 시스템 응용 분야에 대한 시험 및 평가 프로그램을 수행했다. 프랑스에서는 푸마 헬리콥터에 음성 인식을 적용하는 연구가 진행되었다. 캐나다에서도 통신 무선 제어, 항법 시스템 설정, 자동 표적 인계 시스템 제어 등에 음성 응용 프로그램을 적용하는 연구가 있었다.

항공 교통 관제사(ATC) 훈련에도 음성 인식 시스템이 활용된다. 기존에는 훈련 시스템에서 사람이 "가상 조종사" 역할을 했지만, 음성 인식 및 합성 기술을 통해 훈련 및 지원 인력을 줄일 수 있다. 항공 교통 관제사의 작업은 고도로 구조화된 음성을 사용하므로 음성 인식 작업이 비교적 쉬울 것으로 예상되지만, 실제로는 그렇지 않은 경우가 많다. FAA 문서 7110.65는 항공 교통 관제사가 사용해야 하는 구절을 150개 미만으로 제시하지만, 실제 시뮬레이션 시스템에서는 500,000개가 넘는 구절을 지원한다.

미 공군(USAF), 해병대(USMC), 육군(US Army), 해군(US Navy), FAA뿐만 아니라 호주 왕립 공군(Royal Australian Air Force)과 이탈리아, 브라질, 캐나다의 민간 항공 당국 등 여러 국제 ATC 훈련 기관에서 음성 인식 기능을 갖춘 ATC 시뮬레이터를 사용하고 있다.

7. 5. 통신 및 기타 분야

음성 인식(ASR)은 전화 통신 분야에서 흔히 볼 수 있으며, 컴퓨터 게임 및 시뮬레이션 분야에서도 점점 더 널리 사용되고 있다. 전화 통신 시스템에서 ASR은 대화형 음성 응답(IVR) 시스템과 통합되어 고객 센터에서 주로 사용되고 있다.

모바일 프로세서 속도의 향상으로 스마트폰에서 음성 인식이 실용화되었다. 음성은 주로 사전에 정의되거나 사용자가 지정한 음성 명령을 생성하기 위한 사용자 인터페이스의 일부로 사용된다.

7. 6. 장애인 지원

음성 인식 프로그램은 장애인들에게 다양한 도움을 줄 수 있다.

  • 청각 장애인/난청인: 회의, 강의, 종교 행사 등에서 음성 인식 소프트웨어를 활용하여 대화 내용을 자동으로 자막을 생성할 수 있다.[122]
  • 시각 장애인/저시력 학생: 음성으로 컴퓨터를 제어하거나, 단어를 말하면 컴퓨터가 읽어주도록 하여 화면과 키보드 없이도 컴퓨터를 사용할 수 있다.[123]
  • 신체 장애, 반복성 긴장 장애 등으로 필기/타이핑이 어려운 사람: 음성-텍스트 프로그램을 통해 필기나 타이핑 부담 없이 과제를 작성할 수 있다. 또한 음성 인식 기술로 인터넷 검색 등을 할 수 있다.[123]
  • 학습 장애 학생: 소리 내어 말하는 방식으로 글쓰기 유창성을 높이고, 철자나 구두점에 대한 부담을 줄여 작문 능력을 향상시킬 수 있다.[124]


뇌졸중 및 두개골 절개술 환자의 경우, 디지털 오디오 레코더와 워드 프로세싱 소프트웨어를 음성 인식 소프트웨어와 함께 사용하면 손상된 단기 기억 용량 회복에 도움이 될 수 있다는 사실이 입증되었다.

음성 인식은 손 사용이 어려운 사람들에게도 매우 유용하다. 경미한 반복 스트레스 부상부터 기존 컴퓨터 입력 장치를 사용할 수 없는 장애까지, 다양한 경우에 활용 가능하다. 실제로 키보드를 많이 사용하여 RSI가 발생한 사람들은 음성 인식 기술의 초기 수요층이었다.[125][126] 음성 인식은 청각 장애인 전화 통화 관련 서비스(음성 메일 텍스트 변환, 중계 서비스, 자막 전화 등)에도 사용된다.

학습 장애인 중 사고로 인해 종이에 생각을 적는 데 어려움을 겪는 경우(생각한 내용이 잘못 처리되어 다르게 표현되는 경우)에도 음성 인식 소프트웨어가 도움이 될 수 있지만, 완벽하지는 않다.[127] 또한 텍스트 음성 변환 기술은 지적 장애인에게 가르치기 어려울 수 있다.[128]

난독증이 있는 사람들에게도 도움이 될 수 있지만, 다른 장애에 대한 효과는 아직 불확실하다. 아이가 얼마나 명확하게 발음하는지에 따라 단어가 잘못 인식될 수 있으며, 이 경우 수정에 더 많은 시간이 소요될 수 있다.[129]

7. 7. 기타 응용 분야

8. 소프트웨어 예시

9. 게임 소프트웨어 예시


  • 씨맨
  • 대구
  • 오퍼레이터즈 사이드
  • 데카보이스
  • 포켓몬스터 피카츄 배틀
  • 터치! 제너레이션즈
  • 기동전사 건담 전장의 인연
  • 토크맨

10. 추가 정보

음성 인식 기술과 관련된 더 많은 정보를 얻을 수 있는 자료는 다음과 같다.


  • 음성 인식 관련 학회
  • * ICASSP
  • * 인터스피치
  • * IEEE ASRU
  • 자연어 처리 관련 학회
  • * ACL
  • * NAACL
  • * EMNLP
  • * HLT
  • 주요 학술지
  • * IEEE/ACM 오디오, 음성 및 언어 처리 트랜잭션
  • * 컴퓨터 음성 및 언어
  • * 음성 통신


음성 인식 관련 소프트웨어로는 카네기 멜론 대학교의 스핑크스 툴킷, HTK 툴킷, 칼디 툴킷 등이 있다. 모질라는 커먼 보이스라는 오픈소스 프로젝트를 통해 음성 데이터베이스를 수집하고, DeepSpeech라는 무료 음성 인식 프로젝트를 진행했다.[147] 이 프로젝트는 텐서플로를 사용하며, 2020년 모질라의 자금 지원 중단 이후 Coqui STT로 포크되었다.[148] [149][150]

안드로이드 운영체제에서는 지보드를 통해 음성 인식을 사용할 수 있으며, 마이크로폰 아이콘을 눌러 활성화할 수 있다.[151]

더 많은 소프트웨어 정보는 음성 인식 소프트웨어 목록에서 확인할 수 있다.

10. 1. 학회 및 학술지

음성 인식 관련 학회로는 매년 또는 2년마다 개최되는 SpeechTEK, SpeechTEK Europe, ICASSP, 인터스피치, IEEE ASRU 등이 있다. 자연어 처리 분야의 학회인 ACL, NAACL, EMNLP, HLT 등에서도 음성 처리 관련 논문을 다룬다. 주요 학술지로는 IEEE/ACM 오디오, 음성 및 언어 처리 트랜잭션, 컴퓨터 음성 및 언어, 음성 통신 등이 있다.

10. 2. 관련 서적


  • Fundamentals of Speech Recognition영어 (로렌스 레이비너, 1993)
  • Statistical Methods for Speech Recognition영어 (프레데릭 젤리넥)
  • Spoken Language Processing영어 (쉐우동 황 외, 2001)
  • Computer Speech영어 (만프레드 슈뢰더, 2004)
  • Speech and Language Processing영어 (다니엘 주라프스키, 제임스 H. 마틴, 2008)
  • Automatic Speech Recognition: A Deep Learning Approach영어 (D. 유, L. 덩, 2014)

10. 3. 소프트웨어

카네기 멜론 대학교(Carnegie Mellon University)의 스핑크스 툴킷은 음성 인식에 대해 배우고 실험을 시작하기 위한 좋은 출발점이 될 수 있다. 또 다른 자원(무료이지만 저작권이 있음)으로는 HTK 책(및 함께 제공되는 HTK 툴킷)이 있다. 최신 기술과 최첨단 기술을 위해서는 칼디 툴킷을 사용할 수 있다.[144] 2017년 모질라(Mozilla)는 무료 음성 인식 프로젝트 DeepSpeech(깃허브(GitHub)에서 무료로 이용 가능)[146]를 구축하는 데 도움이 될 대규모 음성 데이터베이스를 수집하기 위한 커먼 보이스(Common Voice)[145]라는 오픈소스 프로젝트를 시작했다.[147] 텐서플로(TensorFlow)를 사용한다.[147] 모질라가 2020년 프로젝트에 대한 자금 지원을 중단했을 때, 원 개발자들에 의해 동일한 오픈소스 라이선스를 사용하는 Coqui STT로 포크되었다.[148] [149][150]

지보드(Gboard)는 모든 안드로이드 애플리케이션에서 음성 인식을 지원한다. 마이크로폰(microphone) 아이콘을 통해 활성화할 수 있다.[151]

상용 클라우드 기반 음성 인식 API도 널리 사용 가능하다.

더 많은 소프트웨어 자원을 보려면 음성 인식 소프트웨어 목록(List of speech recognition software)을 참조할 수 있다.

참조

[1] 웹사이트 Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation http://www.fifthgen.[...] Fifthgen.com 2013-06-15
[2] 논문 International Conference on Communications and Electronics 2010 2010
[3] 웹사이트 British English definition of voice recognition http://www.macmillan[...] Macmillan Publishers Limited. 2012-02-21
[4] 웹사이트 voice recognition, definition of http://www.businessd[...] WebFinance, Inc 2012-02-21
[5] 웹사이트 The Mailbag LG #114 http://linuxgazette.[...] Linuxgazette.net 2013-06-15
[6] 논문 Optimization of data-driven filterbank for automatic speaker verification 2020-09
[7] 논문 Robust text-independent speaker identification using Gaussian mixture speaker models http://www.cs.toront[...] 2014-02-21
[8] 웹사이트 Speaker Identification (WhisperID) http://research.micr[...] Microsoft 2014-02-21
[9] 뉴스 Obituaries: Stephen Balashek https://obits.nj.com[...] 2024-09-09
[10] 웹사이트 IBM-Shoebox-front.jpg https://cdn57.androi[...] androidauthority.net 2019-04-04
[11] 웹사이트 Automatic speech recognition–a brief history of the technology development http://www.ece.ucsb.[...] 2015-01-17
[12] 간행물 Speech Recognition Through the Decades: How We Ended Up With Siri https://www.pcworld.[...] 2018-10-22
[13] 논문 A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol https://ee.stanford.[...] 2024-09-09
[14] 논문 Whither speech recognition? 1969
[15] 서적 Springer Handbook of Speech Processing Springer Science & Business Media 2008
[16] 웹사이트 ISCA Medalist: For leadership and extensive contributions to speech and language processing https://www.superlec[...] 2018-01-23
[17] 간행물 Hello, Hal https://www.newyorke[...] 2015-01-17
[18] 논문 Review of the ARPA speech understanding project
[19] 웹사이트 The Acoustics, Speech, and Signal Processing Society. A Historical Perspective http://www.ece.ucsb.[...] 2018-01-23
[20] 웹사이트 First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki http://ethw.org/Firs[...] 2018-05-01
[21] 웹사이트 Pioneering Speech Recognition http://www-03.ibm.co[...] 2015-01-18
[22] 웹사이트 James Baker interview http://www.sarasinst[...] 2017-02-09
[23] 논문 A historical perspective of speech recognition https://dl.acm.org/d[...] 2014-01
[24] 보고서 Automatic speech recognition–a brief history of the technology development http://www.ece.ucsb.[...] 2015-01-17
[25] 논문 "There's No Data Like More Data": Automatic Speech Recognition and the Making of Algorithmic Culture https://www.journals[...] 2023-07-01
[26] 웹사이트 History of Speech Recognition http://www.dragon-me[...] 2015-01-17
[27] 논문 Interactive voice technology at work: The CSELT experience https://www.scienced[...] 1995-11-01
[28] 웹사이트 A Historical Perspective of Speech Recognition http://cacm.acm.org/[...] Communications of the ACM 2015-01-20
[29] 뉴스 When Cole talks, computers listen https://news.google.[...] Sarasota Journal 2015-11-23
[30] 웹사이트 ACT/Apricot - Apricot history http://actapricot.or[...] 2016-02-02
[31] 웹사이트 Speech Recognition Through the Decades: How We Ended Up With Siri http://www.pcworld.c[...] 2017-07-28
[32] 웹사이트 Ray Kurzweil biography http://www.kurzweila[...] KurzweilAINetwork 2014-09-25
[33] 보고서 Automatic Speech Recognition – A Brief History of the Technology Development http://www.ece.ucsb.[...] 2017-07-28
[34] 웹사이트 Nuance Exec on iPhone 4S, Siri, and the Future of Speech http://techpinions.c[...] Tech.pinions 2011-11-23
[35] 웹사이트 Switchboard-1 Release 2 https://catalog.ldc.[...] 2017-07-26
[36] 웹사이트 The Power of Voice: A Conversation With The Head Of Google's Speech Technology https://techcrunch.c[...] 2011-02-13
[37] 웹사이트 THE COMPUTERS ARE LISTENING https://firstlook.or[...] 2015-05-05
[38] 서적 Connectionist Speech Recognition: A Hybrid Approach Kluwer Academic Publishers
[39] 논문 Long Short-Term Memory
[40] 논문 Deep learning in neural networks: An overview
[41] 간행물 Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets https://mediatum.ub.[...]
[42] 간행물 An application of recurrent neural networks to discriminative keyword spotting http://www6.in.tum.d[...]
[43] 웹사이트 Google voice search: faster and more accurate http://googleresearc[...] 2015-09
[44] 논문 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 2021-06-03
[45] 논문 CvT: Introducing Convolutions to Vision Transformers 2021-03-29
[46] 논문 Attention is All you Need https://papers.nips.[...] Curran Associates 2017
[47] 논문 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2019-05-24
[48] 논문 AST: Audio Spectrogram Transformer 2021-07-08
[49] 논문 SepTr: Separable Transformer for Audio Spectrogram Processing 2022-06-20
[50] 논문 Multi-Encoder Learning and Stream Fusion for Transformer-Based End-to-End Automatic Speech Recognition 2021-07-14
[51] 웹사이트 Li Deng https://lidengsite.w[...] Li Deng Site
[52] 간행물 NIPS Workshop: Deep Learning for Speech Recognition and Related Applications 2009-12
[53] 뉴스 Scientists See Promise in Deep-Learning Programs https://www.nytimes.[...] 2012-11-23
[54] 간행물 Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI
[55] 서적 [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing
[56] 논문 Phoneme recognition using time-delay neural networks http://www.inf.ufrgs[...]
[57] 논문 Developments and Directions in Speech Recognition and Understanding, Part 1
[58] 논문 Untersuchungen zu dynamischen neuronalen Netzen http://people.idsia.[...]
[59] 논문 Artificial Neural Networks and their Application to Speech/Sequence Recognition https://elibrary.ru/[...] McGill University
[60] 논문 Analysis of the correlation structure for a neural predictive model with application to speech recognition
[61] 논문 Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups
[62] 서적 2013 IEEE International Conference on Acoustics, Speech and Signal Processing: New types of deep neural network learning for speech recognition and related applications: An overview 2013
[63] 간행물 Keynote talk: Recent Developments in Deep Neural Networks 2013
[64] 간행물 Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing https://www.isca-spe[...] 2014-09
[65] 웹사이트 Improvements in voice recognition software increase https://www.techrepu[...] 2002-08-27
[66] 웹사이트 Voice Recognition To Ease Travel Bookings: Business Travel News http://www.businesst[...] 1997-03-03
[67] 뉴스 Voice recognition enters the mainstream 1994-03-14
[68] 웹사이트 Microsoft researchers achieve new conversational speech recognition milestone https://www.microsof[...] 2017-08-21
[69] 논문 Minimum Bayes-risk automatic speech recognition http://www.clsp.jhu.[...]
[70] 논문 Edit-Distance of Weighted Automata: General Definitions and Algorithms http://www.cs.nyu.ed[...]
[71] 논문 Phoneme recognition using time-delay neural networks
[72] 논문 Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms https://publications[...] Elsevier BV 2024-09-09
[73] 논문 Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics
[74] 간행물 Vowel Classification for Computer based Visual Feedback for Speech Training for the Hearing Impaired https://www.research[...] ICSLP 2002
[75] 서적 ICASSP 2010
[76] 서적 Proceedings of IJCAI
[77] arXiv Speech recognition with deep recurrent neural networks ICASSP 2013
[78] 논문 Modular Construction of Time-Delay Neural Networks for Speech Recognition http://isl.anthropom[...]
[79] 서적 Proceedings of Interspeech 2012
[80] 논문 Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition https://www.microsof[...]
[81] 논문 Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition
[82] 간행물 Recent Advances in Deep Learning for Speech Research at Microsoft https://pdfs.semanti[...] ICASSP
[83] 논문 Machine Learning Paradigms for Speech Recognition: An Overview http://cvsp.cs.ntua.[...] 2024-09-09
[84] 논문 Deep Learning
[85] 간행물 Binary Coding of Speech Spectrograms Using a Deep Auto-encoder http://citeseerx.ist[...] Interspeech
[86] 서적 Interspeech 2014
[87] 서적 Speech and Language Processing
[88] 논문 Towards End-to-End Speech Recognition with Recurrent Neural Networks https://web.archive.[...] 2019-07-22
[89] arXiv Deep Speech 2: End-to-End Speech Recognition in English and Mandarin
[90] 웹사이트 LipNet: How easy do you think lipreading is? https://www.youtube.[...] 2017-05-05
[91] arXiv LipNet: End-to-End Sentence-level Lipreading 2016-11-05
[92] arXiv Large-Scale Visual Speech Recognition 2018-07-13
[93] 서적 Interspeech 2019
[94] 간행물 QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions 2019-10-22
[95] 논문 Domain Adaptation Speech-to-Text for Low-Resource European Portuguese Using Deep Learning 2023-05
[96] 논문 A Simple Baseline for Domain Adaptation in End to End ASR Systems Using Synthetic Data https://aclanthology[...] Association for Computational Linguistics 2022-05
[97] 서적 2022 IEEE Spoken Language Technology Workshop (SLT) IEEE 2023-01-09
[98] 논문 Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition https://storage.goog[...] 2024-09-09
[99] arXiv End-to-End Attention-based Large Vocabulary Speech Recognition
[100] arXiv Towards better decoding and language model integration in sequence to sequence models 2016-12-08
[101] arXiv Latent Sequence Decompositions 2016-10-10
[102] 서적 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2016-11-16
[103] 간행물 Automatic Pronunciation Assessment — A Review Conference on Empirical Methods in Natural Language Processing 2023-10-21
[104] 논문 Pronunciation assessment 2017-07
[105] 서적 INTERSPEECH 2015 International Speech Communication Association 2015-09-06
[106] 논문 Directions for the future of technology in pronunciation research and teaching 2018-12-31
[107] 논문 Using automatic speech processing for foreign language pronunciation tutoring: Some issues and a prototype https://www.lltjourn[...] 2023-02-11
[108] 뉴스 Reading Coach in Immersive Reader plus new features coming to Reading Progress in Microsoft Teams https://techcommunit[...] Microsoft 2023-02-09
[109] 뉴스 Schools Are Using Voice Technology to Teach Reading. Is It Helping? https://www.edsurge.[...] 2023-03-07
[110] 서적 Proceedings of the 17th ACM Conference on Interaction Design and Children https://psi.engr.tam[...] 2018-06-19
[111] 뉴스 Computer says no: Irish vet fails oral English test needed to stay in Australia https://www.theguard[...] 2017-08-08
[112] 뉴스 Australian ex-news reader with English degree fails robot's English test https://www.smh.com.[...] 2017-08-09
[113] 뉴스 The English test that ruined thousands of lives https://www.bbc.com/[...] 2022-02-09
[114] 웹사이트 13 Words That Can Be Pronounced Two Ways https://www.rd.com/l[...] Reader's Digest 2023-01-24
[115] 웹사이트 The CMU Pronouncing Dictionary http://www.speech.cs[...]
[116] 학회발표 Unsupervised Uncertainty Measures of Automatic Speech Recognition for Non-intrusive Speech Intelligibility Prediction https://www.isca-spe[...] ISCA 2022-01-01
[117] 서적 Common European framework of reference for languages learning, teaching, assessment: Companion volume with new descriptors https://rm.coe.int/c[...] Language Policy Programme, Education Policy Division, Education Department, Council of Europe 2018-02-01
[118] 논문 Speech recognition in the JAS 39 Gripen aircraft: Adaptation to speech at different G-loads http://www.speech.kt[...] Stockholm Royal Institute of Technology
[119] 웹사이트 The Cockpit https://www.eurofigh[...]
[120] 웹사이트 Eurofighter Typhoon – The world's most advanced fighter aircraft http://www.eurofight[...]
[121] 웹사이트 Researchers fine-tune F-35 pilot-aircraft speech system http://www.af.mil/ne[...] United States Air Force 2007-10-15
[122] 웹사이트 Overcoming Communication Barriers in the Classroom http://www.massmatch[...] MassMATCH 2010-03-18
[123] 웹사이트 Speech Recognition for Learning http://www.brainline[...] National Center for Technology Innovation
[124] 웹사이트 Speech recognition in schools: An update from the field http://www.csun.edu/[...]
[125] 웹사이트 Speech recognition for disabled people http://www.businessw[...]
[126] 웹사이트 Friends International Support Group
[127] 논문 Using Speech Recognition Software to Increase Writing Fluency for Individuals with Physical Disabilities https://scholarworks[...]
[128] 간행물 Assistive Technology: Empowering Students with Disabilities 2002-01-01
[129] 논문 Speech Recognition Technology for Disabilities Education
[130] 웹사이트 Projects: Planetary Microphones http://www.planetary[...] The Planetary Society
[131] 서적 Artificial Intelligence and Innovations 2007: From Theory to Applications Springer US 2007-09-19
[132] 웹사이트 What is real-time captioning? {{!}} DO-IT https://www.washingt[...]
[133] 서적 Robustness-Related Issues in Speaker Recognition http://link.springer[...] Springer Singapore 2017-01-01
[134] 보고서 A prototype performance evaluation report Sundial workpackage 8000 1993-01-01
[135] 학회발표 IEEE International Conference on Acoustics Speech and Signal Processing
[136] 웹사이트 The History of Automatic Speech Recognition Evaluation at NIST http://www.itl.nist.[...] National Institute of Standards and Technology
[137] 웹사이트 Letter Names Can Cause Confusion and Other Things to Know About Letter–Sound Relationships https://www.naeyc.or[...]
[138] 뉴스 Listen Up: Your AI Assistant Goes Crazy For NPR Too https://www.npr.org/[...] 2016-03-06
[139] 뉴스 Is it possible to control Amazon Alexa, Google Now using inaudible commands? Absolutely https://www.theregis[...] 2017-08-25
[140] 웹사이트 Attack Targets Automatic Speech Recognition Systems https://motherboard.[...] 2018-01-31
[141] 서적 Fundamentals of Speaker Recognition http://www.fundament[...] Springer
[142] 논문 Automatic Speech Recognition: A Deep Learning Approach Springer 2014
[143] 논문 Deep Learning: Methods and Applications http://research.micr[...]
[144] 논문 The Kaldi speech recognition toolkit IEEE Signal Processing Society
[145] 웹사이트 Common Voice by Mozilla https://web.archive.[...] 2019-11-09
[146] 웹사이트 A TensorFlow implementation of Baidu's DeepSpeech architecture: mozilla/DeepSpeech https://github.com/m[...] 2024-09-09
[147] 웹사이트 GitHub - tensorflow/docs: TensorFlow documentation https://github.com/t[...] 2024-09-09
[148] 웹사이트 Coqui, a startup providing open speech tech for everyone https://github.com/c[...] 2022-03-07
[149] 잡지 Māori are trying to save their language from Big Tech https://www.wired.co[...] 2021-10-16
[150] 웹사이트 Why you should move from DeepSpeech to coqui.ai https://discourse.mo[...] 2021-10-16
[151] 웹사이트 Type with your voice https://support.goog[...] 2024-09-09
[152] 서적 大辞泉
[153] 논문 Recent Advances in End-to-End Automatic Speech Recognition
[154] 기타 例: フィラー(「あー」「えっと」)の除去
[155] 간행물 CSR-I (WSJ0) Complete LDC93S6A https://catalog.ldc.[...] Linguistic Data Consortium
[156] 논문 vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations
[157] 웹사이트 The TIMIT corpus of read speech is designed to provide speech data for acoustic-phonetic studies and for the development and evaluation of automatic speech recognition systems. https://catalog.ldc.[...] Linguistic Data Consortium 2022-07-03
[158] 논문 vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations
[159] 논문 Parallel processing in speech perception with local and global representations of linguistic context http://biorxiv.org/l[...] 2021-07-03
[160] 잡지 多数の人の声を一度に聞き分ける聴覚センサ 2008-09-22
[161] 웹사이트 Mac で音声コントロールを使う https://support.appl[...] 2021-04-08
[162] 웹사이트 マイクロソフト、AIと音声認識のニュアンスを2兆円超で買収へ https://japan.cnet.c[...] 2021-04-13
[163] 웹사이트 PlainTalkとは https://kotobank.jp/[...] 2021-04-09
[164] 잡지 ニューズウィーク日本版(1991年11月7日号) TBSブリタニカ 1991-11-07
[165] 서적 パソコン翻訳の世界 講談社
[166] 뉴스 Wall Street Journal
[167] 웹사이트 「『らんま1/2』の現場は、私だけが落ちこぼれでした」声に特徴がなく、アフレコでは失敗ばかり…それでも井上喜久子が“人気声優”になれたワケ https://bunshun.jp/a[...] 2022-10-21



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com