음성 처리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 기술
4. 응용 분야
참조

1. 개요

음성 처리는 음성 신호를 분석하고 처리하는 기술로, 초기에는 간단한 음성 요소 인식에 집중했으나, 기술 발전을 통해 음성 인식, 음성 합성 등 다양한 분야로 확장되었다. 1950년대부터 시작된 연구는 선형 예측 부호화(LPC) 기술의 개발과 상용화로 이어졌으며, 2000년대 이후 딥 러닝과 인공 신경망 기술을 도입하여 가상 비서와 같은 응용 분야에서 괄목할 만한 성과를 거두었다. 현재는 Transformer 기반 모델과 종단 간 음성 인식 모델이 개발되어 자연어 처리 및 음성 인식의 경계를 넓히고 있다. 음성 처리 기술은 동적 시간 워핑, 은닉 마르코프 모델, 인공 신경망, 위상 인식 처리 등의 기술을 활용하며, 자동 응답 시스템, 가상 비서, 음성 식별 등 다양한 분야에 응용된다.

더 읽어볼만한 페이지

음성 인식 - 윈도우 음성 인식
윈도우 음성 인식은 윈도우 운영체제에 내장된 기능으로, 사용자가 음성 명령으로 컴퓨터를 제어하고 텍스트를 받아쓰는 데 사용되며, 윈도우 비스타부터 도입되어 다양한 언어를 지원하고 로컬 처리 방식으로 작동했으나, 윈도우 11에서는 음성 액세스 기능으로 대체될 예정이다.
음성 인식 - 음성 사용자 인터페이스
음성 사용자 인터페이스는 음성을 사용하여 장치와 상호 작용하는 기술이며, 다양한 분야에서 음성 명령을 지원하고 디자인 및 개인 정보 보호와 같은 과제를 안고 있다.
디지털 신호 처리 - 라플라스 변환
라플라스 변환은 함수 f(t)를 복소수 s를 사용하여 적분을 통해 다른 함수 F(s)로 변환하는 적분 변환이며, 선형성을 가지고 미분방정식 풀이 등 공학 분야에서 널리 사용된다.
디지털 신호 처리 - 디랙 델타 함수
디랙 델타 함수는 원점에서 무한대 값을 갖고 그 외 지점에서 0의 값을 갖는 수학적 개념으로, 분포 또는 측도로 정의되며, 순간적인 충격이나 점 형태 현상 모델링에 활용되고 푸리에 변환, 스케일링, 평행 이동 등의 성질을 가진다.
신호 처리 - 대역폭 (신호 처리)
대역폭은 주파수 영역에서 함수의 퍼짐 정도를 나타내는 척도로, 통신 분야에서는 변조된 반송파 신호가 차지하는 주파수 범위, 다른 분야에서는 시스템 성능을 유지하거나 저하가 발생하는 주파수 범위를 의미하며, 다양한 측정 방식과 함께 여러 분야에서 활용된다.
신호 처리 - 선형 시불변 시스템
선형 시불변 시스템은 선형성과 시불변성을 만족하는 시스템으로, 임펄스 응답으로 특성화되며, 컨볼루션, 주파수 영역 분석 등을 통해 분석하고, 통신, 신호 처리 등 다양한 분야에 응용된다.

음성 처리
개요
분야	컴퓨터 과학, 전기 공학, 언어학
하위 분야	음성 인식 음성 합성 화자 인식 대화 시스템 음성 코딩
기술
신호 처리	푸리에 변환, 필터링, 스펙트럼 분석
패턴 인식	Hidden Markov Model, 심층 신경망
기계 학습	지도 학습, 비지도 학습, 강화 학습
응용 분야
음성 인식	음성 비서, 자동 받아쓰기
음성 합성	텍스트 음성 변환, 음성 기반 게임
음성 코딩	음성 압축, 음성 통신
의료	음성 질환 진단, 보조 기술
보안	화자 인식, 음성 인증
관련 학문
언어학	음성학, 음운론
심리학	인지 심리학, 신경 심리학
뇌과학	청각 피질
전기 공학	신호 처리, 통신 공학
컴퓨터 과학	인공지능, 기계 학습
같이 보기
같이 보기	오디오 신호 처리 자연어 처리 음성 인터페이스 음성 코퍼스 음성 분석 소프트웨어 음향 모델 언어 모델 음성 특징 추출

2. 역사

초창기 음성 처리 및 인식 시도는 주로 모음과 같이 간단한 음성 요소 이해에 집중되었다. 이후, 2000년대 초반까지 은닉 마르코프 모델이 음성 처리의 지배적인 전략이었으나, 보다 현대적인 인공 신경망 및 딥 러닝으로 이동하기 시작했다.

2. 1. 초기 연구 (1950년대 ~ 1960년대)

1952년, 벨 연구소의 스티븐 발라셰크, R. 비들푸, K. H. 데이비스는 한 화자가 말한 숫자를 인식할 수 있는 시스템을 개발했다.^[2] 1940년대에는 음성의 스펙트럼 분석을 이용한 음성 인식 분야의 선구적인 연구가 보고되었다.^[3]

선형 예측 부호화(LPC)는 1966년 나고야 대학교의 이타쿠라 후미타다와 일본 전신 전화 주식회사(NTT)의 사이토 슈조가 처음 제안한 음성 처리 알고리즘이다.^[4] 1970년대에 벨 연구소의 비슈누 S. 아탈과 만프레트 R. 슈로더가 LPC 기술을 더욱 발전시켰다.^[5] LPC는 VoIP 기술의 기반이었으며,^[4] 1978년부터 출시된 Speak & Spell 장난감에 사용된 텍사스 인스트루먼트 LPC 음성 칩과 같은 음성 합성기 칩의 기반이기도 했다.^[6]

2. 2. LPC 기술 발전과 상용화 (1970년대 ~ 1990년대)

선형 예측 부호화(LPC)는 1966년 나고야 대학교의 이타쿠라 후미타다와 일본 전신 전화 주식회사(NTT)의 사이토 슈조가 처음 제안한 음성 처리 알고리즘이다.^[4] 1970년대에 벨 연구소의 비슈누 S. 아탈과 만프레트 R. 슈로더에 의해 LPC 기술이 더욱 발전되었다.^[5] LPC는 VoIP 기술의 기반이었으며,^[4] 1978년부터 출시된 Speak & Spell 장난감에 사용된 텍사스 인스트루먼트 LPC 음성 칩과 같은 음성 합성기 칩의 기반이기도 했다.^[6]

최초로 상업화된 음성 인식 제품 중 하나는 1990년에 출시된 드래곤 디크테이트였다. 1992년, 로렌스 라비너와 벨 연구소의 다른 연구원들이 개발한 기술은 AT&T에서 인간 운영자 없이 전화를 라우팅하는 음성 인식 콜 처리 서비스에 사용되었다. 이 시점에서 이러한 시스템의 어휘는 평균적인 인간의 어휘보다 더 컸다.^[7]

2. 3. 딥 러닝과 인공 신경망의 도입 (2000년대 ~ 현재)

2000년대 초반까지, 지배적인 음성 처리 전략은 은닉 마르코프 모델에서 보다 현대적인 인공 신경망 및 딥 러닝으로 이동하기 시작했다.

2012년, 토론토 대학교의 제프리 힌턴과 그의 팀은 딥 신경망이 대규모 어휘 연속 음성 인식 작업에서 기존의 HMM 기반 시스템보다 훨씬 뛰어난 성능을 낼 수 있음을 입증했다. 이 획기적인 발전은 업계에서 딥 러닝 기술을 널리 채택하는 결과를 가져왔다.^[8]^[9]

2010년대 중반까지, 구글, 마이크로소프트, 아마존, 애플과 같은 회사들은 구글 어시스턴트, 코타나, 알렉사, 시리와 같은 가상 비서에 첨단 음성 인식 시스템을 통합했다.^[10] 이러한 시스템은 더 자연스럽고 정확한 음성 상호 작용을 제공하기 위해 딥 러닝 모델을 활용했다.

구글의 BERT(Bidirectional Encoder Representations from Transformers) 및 OpenAI의 GPT(Generative Pre-trained Transformer)와 같은 Transformer 기반 모델의 개발은 자연어 처리 및 음성 인식의 경계를 더욱 넓혔다. 이러한 모델은 음성을 더욱 상황 인식적이고 의미론적으로 풍부하게 이해할 수 있게 했다.^[11]^[8] 최근 몇 년 동안, 종단 간 음성 인식 모델이 인기를 얻고 있다. 이러한 모델은 특징 추출 및 음향 모델링과 같은 중간 단계를 거치지 않고 오디오 입력을 텍스트 출력으로 직접 변환하여 음성 인식 파이프라인을 단순화한다. 이 접근 방식은 개발 프로세스를 간소화하고 성능을 향상시켰다.^[12]

3. 기술

음성 처리에는 다음과 같은 기술들이 사용된다.

동적 시간 워핑 (Dynamic Time Warping, DTW): 속도가 다를 수 있는 두 시계열 알고리즘의 유사성을 측정한다.
은닉 마르코프 모델 (Hidden Markov Models, HMM): 관찰 목록이 주어졌을 때 숨겨진 변수를 추정한다.
인공 신경망 (Artificial Neural Networks, ANN): 생물학적 뇌의 뉴런을 모델링한 인공 뉴런을 기반으로 한다.
위상 인식 처리 (Phase-aware Processing): 위상 추정을 통해 잡음을 줄이고 음성을 보다 정확하게 복원한다.^[13]^[15]

3. 1. 동적 시간 워핑 (Dynamic Time Warping, DTW)

동적 시간 워핑(DTW)은 속도가 다를 수 있는 두 시계열 알고리즘의 유사성을 측정하기 위한 것이다. 일반적으로 DTW는 특정 제한 및 규칙을 사용하여 주어진 두 시퀀스 (예: 시계열) 간의 최적 매칭을 계산하는 방법이다. 최적 매칭은 모든 제한과 규칙을 충족하고 최소 비용을 갖는 매칭으로 표시되며, 여기서 비용은 각 매칭된 인덱스 쌍의 값 간의 절대 차이의 합으로 계산된다.

3. 2. 은닉 마르코프 모델 (Hidden Markov Models, HMM)

숨겨진 마르코프 모델은 가장 단순한 동적 베이즈 네트워크로 나타낼 수 있다. 이 알고리즘의 목표는 관찰 목록 y(t)가 주어졌을 때 숨겨진 변수 x(t)를 추정하는 것이다. 마르코프 성질을 적용하면, 모든 시간에 걸쳐 숨겨진 변수 x의 값을 알고 있을 때, 시간 ''t''에서 숨겨진 변수 ''x''(''t'')의 조건부 확률 분포는 ''오직'' 시간 ''t'' − 1에서의 숨겨진 변수 ''x''의 값에만 의존한다. 마찬가지로, 관찰 변수 ''y''(''t'')의 값은 숨겨진 변수 ''x''(''t'')의 값에만 의존한다(두 변수 모두 시간 ''t''에서).

3. 3. 인공 신경망 (Artificial Neural Networks, ANN)

인공 신경망(ANN)은 생물학적 뇌의 뉴런을 모델링한 인공 뉴런이라는 연결된 단위 또는 노드의 집합을 기반으로 한다. 생물학적 뇌의 시냅스와 마찬가지로 각 연결은 하나의 인공 뉴런에서 다른 인공 뉴런으로 신호를 전송할 수 있다. 신호를 수신하는 인공 뉴런은 이를 처리한 다음 연결된 추가 인공 뉴런에 신호를 보낼 수 있다. 일반적인 ANN 구현에서 인공 뉴런 간의 연결에서 신호는 실수이고 각 인공 뉴런의 출력은 입력의 합의 일부 비선형 함수로 계산된다.

3. 4. 위상 인식 처리 (Phase-aware Processing)

위상은 일반적으로 무작위 균등 변수로 간주되어 쓸모가 없는 경우가 많다. 이는 위상 래핑 때문이다.^[13] 아크탄젠트 함수의 결과는

2 \pi

에서 주기적인 점프가 발생하여 연속적이지 않다. 위상 언래핑(참조,^[14] 2.3장; 순간 위상 및 주파수) 후에는 다음과 같이 표현할 수 있다.^[13]^[15]

:

\phi(h,l) = \phi_{lin}(h,l) + \Psi(h,l)

, 여기서

\phi_{lin}(h,l) = \omega_0(l') {}_\Delta t

는 선형 위상(

{}_\Delta t

는 각 분석 프레임에서의 시간 이동),

\Psi(h,l)

는 성도의 위상 기여와 위상 소스이다.^[15]

획득된 위상 추정은 잡음 감소에 사용될 수 있다. 즉, 시간(순간 주파수) 및 주파수(군 지연)에 의한 순간 위상의 시간적 평활화^[16] 및 그 미분,^[17] 주파수 간 위상의 평활화가 있다.^[17] 결합된 진폭 및 위상 추정기는 위상의 폰 미세스 분포를 가정하여 음성을 보다 정확하게 복원할 수 있다.^[15]

4. 응용 분야

대화형 음성 응답
가상 비서
음성 식별
감정 인식
콜센터 자동화
로봇

참조

_[1] arXiv The Speed Submission to DIHARD II: Contributions & Lessons Learned 2019-11-06
_[2] 간행물 Speech Recognition, Automatic: History Elsevier 2006
_[3] 서적 Automatic recognition of sound pattern Energiya 1970
_[4] 학술지 A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol https://ee.stanford.[...] 2010
_[5] 학술지 A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol https://ee.stanford.[...] 2010
_[6] 웹사이트 VC&G - VC&G Interview: 30 Years Later, Richard Wiggins Talks Speak & Spell Development http://www.vintageco[...]
_[7] 학술지 A historical perspective of speech recognition 2014-01-01
_[8] 뉴스 Deep Neural Networks for Acoustic Modeling in Speech Recognition https://www.cs.toron[...] 2024-11-05
_[9] 뉴스 SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS https://www.cs.toron[...] 2024-11-05
_[10] 학술지 Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants https://pubmed.ncbi.[...] 2018
_[11] 웹사이트 Vbee https://vbee.vn 2024-11-05
_[12] 서적 Real-World Natural Language Processing: Practical applications with deep learning https://books.google[...] Simon and Schuster 2021-12-21
_[13] 학술지 Phase Estimation in Single-Channel Speech Enhancement: Limits-Potential https://ieeexplore.i[...] 2015-08
_[14] 서적 Single channel phase-aware signal processing in speech communication: theory and practice Wiley 2017
_[15] 컨퍼런스 Harmonic phase estimation in single-channel speech enhancement using von Mises distribution and prior SNR IEEE 2015-04
_[16] 학술지 Phase Estimation in Single Channel Speech Enhancement Using Phase Decomposition https://ieeexplore.i[...] 2015-05
_[17] 학술지 Advances in phase-aware signal processing in speech communication http://linkinghub.el[...] 2016-07
_[18] 서적 音声工学森北出版 2005-02-15

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com