음성 합성
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
음성 합성은 텍스트를 음성으로 변환하는 기술로, 인간의 음성을 모방하는 기계를 만들려는 오랜 시도에서 시작되었다. 1700년대 후반부터 다양한 연구가 진행되었으며, 20세기 중반 보코더와 같은 기술의 개발을 통해 발전했다. 음성 합성 기술은 규칙 기반, 연결형, 통계적 파라메트릭 합성 등 세 가지 주요 기법으로 나뉘며, 각 기법은 음질, 계산량, 실시간 성능 등에서 차이를 보인다.
음성 합성 기술은 시각 장애인, 난독증 환자 등 정보 접근성을 높이는 데 기여하며, 교육, 엔터테인먼트, 자동화 서비스 등 다양한 분야에서 활용된다. 최근에는 음성 복제, 개인화된 음성 생성 등 기술 발전과 함께 활용 분야가 더욱 확대되고 있다. 음성 합성 마크업 언어(SSML)를 사용하여 음성 합성 시스템의 표현력을 높일 수 있으며, 텍스트 정규화, 운율적 특징 구현, 객관적인 평가 기준 마련 등 해결해야 할 과제도 남아 있다.
더 읽어볼만한 페이지
- 음성 합성 - VoiceXML
VoiceXML은 음성 브라우저에게 음성 합성, 자동 음성 인식, 대화 관리, 오디오 재생을 지시하는 XML 기반 마크업 언어로서, 다양한 산업 분야에서 음성 인터페이스 구축에 사용되었으며, 관련 표준과 함께 1999년 개발 후 W3C로 표준 관리가 이관되었으나 현재는 새로운 표준 개발이 중단되었다. - 음성 합성 - 음성 합성 마크업 언어
음성 합성 마크업 언어(SSML)는 음성 합성을 위해 음성의 톤, 억양, 빠르기 등을 조절할 수 있도록 음높이, 윤곽, 속도 등을 지정하는 마크업 언어이다. - 인공지능의 응용 - 가상 비서
가상 비서는 음성 또는 텍스트 입력을 해석하여 정보 제공, 일정 관리, 기기 제어 등 다양한 작업을 수행하는 소프트웨어 에이전트로서, 시리, 알렉사, 구글 어시스턴트와 같은 다양한 형태로 발전해 왔으며, 챗GPT와 같은 생성형 AI 기반 가상 비서의 등장과 함께 발전하고 있지만 개인 정보 보호와 같은 과제도 존재한다. - 인공지능의 응용 - 질의 응답
질의응답 시스템은 자연어 질문을 이해하고 답변을 생성하며, 질문 유형과 사용 기술에 따라 분류되고, 읽기 이해 기반 또는 사전 지식 기반으로 작동하며, 대규모 언어 모델과 다양한 아키텍처 발전에 힘입어 복잡한 질문에 대한 답변과 다양한 분야에 활용이 가능해졌다. - 음성학 - 음성 인식
음성 인식은 음성 신호를 텍스트로 변환하는 기술로, 인공지능과 심층 학습의 발전으로 인식 정확도가 향상되어 다양한 분야에 활용되고 있지만 보안 문제가 남아있다. - 음성학 - 성조
성조는 음절의 높낮이 변화로 단어의 의미를 구별하는 언어 현상으로, 중국어, 베트남어, 태국어 등에서 나타나며, 단계성조, 곡선성조, 단어성조 등으로 분류되고 성조 변화, 성조 테라싱, 부유 톤 등의 현상을 보이며 다양한 표기법이 사용된다.
음성 합성 | |
---|---|
지도 정보 | |
개요 | |
정의 | 인공적으로 인간의 음성을 생성하는 과정 |
다른 이름 | 음성 생성 음성 변환 |
역사 | |
초기 단계 | 기계 장치를 이용한 음성 합성 시도 |
1980년대 | 텍스트 음성 변환(TTS) 시스템 발전 |
현재 | 딥러닝 기반 음성 합성 기술 발전 |
기술 | |
합성 방법 | 연결 합성 포먼트 합성 조음 합성 |
음성 데이터베이스 | 녹음된 음성 데이터 사용 언어 모델 및 알고리즘 사용 |
주요 기술 | 텍스트 분석 음향 모델링 운율 모델링 음성 합성 알고리즘 |
텍스트 분석 | 텍스트 전처리 및 정규화 형태소 분석 및 구문 분석 |
음향 모델링 | 음향 특징 추출 음향 모델 생성 딥러닝 기술 적용 |
운율 모델링 | 발음 속도, 강세, 억양 조절 다양한 운율 생성 |
음성 합성 알고리즘 | 신호 처리 및 음향 합성 기술 음성 파형 생성 및 변환 |
응용 분야 | |
스크린 리더 | 시각 장애인용 음성 지원 |
내비게이션 시스템 | 길 안내 음성 제공 |
인공지능 비서 | 음성 인터페이스 제공 |
음성 안내 시스템 | 공공 장소 안내 방송 |
교육 | 언어 학습 및 교육 자료 제공 |
엔터테인먼트 | 게임 및 오디오 콘텐츠 제작 |
도전 과제 | |
자연스러운 음성 합성 | 인간과 유사한 자연스러운 음성 생성 |
감정 표현 | 음성에 감정 담기 |
다양한 음성 생성 | 다양한 억양 및 발음 생성 |
실시간 음성 합성 | 빠른 처리 속도 및 실시간 음성 합성 |
한국어 음성 합성 | |
특징 | 음절 중심 언어 다양한 발음 규칙 존댓말 및 반말 구분 |
기술적 어려움 | 복잡한 형태소 구조 다양한 발음 변화 문맥에 따른 운율 처리 |
연구 동향 | 딥러닝 기반 한국어 음성 합성 기술 발전 |
참고 자료 | |
주요 연구자 | 조나단 알렌 M. 샤론 허니컷 데니스 클랫 |
참고 도서 | 텍스트에서 음성으로: MITalk 시스템 음성 합성의 발전 |
참고 논문 | 지각 연구를 위한 조음 합성기 텍스트 음성 합성에서 분절 지속 시간의 할당 |
관련 기술 | |
텍스트 음성 변환 (TTS) | 텍스트를 음성으로 변환하는 기술 |
음성 인식 | 인간의 음성을 텍스트로 변환하는 기술 |
자연어 처리 (NLP) | 인간의 언어를 컴퓨터가 이해하고 처리하는 기술 |
관련 소프트웨어 | |
스크린 리더 | 귀가 들리는視覚障害者를 위한 컴퓨터 화면 읽기 소프트웨어 웹사이트 등의 표시를 읽어주는 소프트웨어 |
2. 역사
음성 합성 기술은 전자 신호 처리 기술이 발명되기 훨씬 이전부터 기계 장치를 통해 인간의 목소리를 모방하려는 시도로 시작되었다. 1779년, 독일-덴마크 과학자 크리스티안 고틀리브 크라첸슈타인은 인간의 성도를 모방하여 5개의 장모음을 생성할 수 있는 모델을 제작했다.[5] 1791년에는 헝가리 출신의 볼프강 폰 켐펠렌이 풀무로 작동하는 "음향-기계적 음성 기계"를 개발하여 자음과 모음을 생성할 수 있게 했다.[6] 1837년, 찰스 휘트스톤은 폰 켐펠렌의 설계를 기반으로 "말하는 기계"를 제작했다.[7]
음성 합성 기술은 크게 규칙 기반 합성, 연결형 합성, 통계적 파라메트릭 합성 세 가지로 분류된다.
1930년대, 벨 연구소는 음성을 기본 음색과 공명으로 자동 분석하는 보코더를 개발했다. 호머 더들리는 보코더 연구를 바탕으로 키보드로 작동하는 음성 합성기 보더를 개발하여 1939년 뉴욕 세계 박람회에서 전시했다. 1940년대 후반, 프랭클린 S. 쿠퍼 박사와 하스킨스 연구소는 패턴 재생 장치를 제작하여 스펙트로그램 형태의 음성 음향 패턴 그림을 소리로 변환했다.
최초의 컴퓨터 기반 음성 합성 시스템은 1950년대 후반에 등장했다. 1968년, 우메다 노리코 등은 일본 전기 시험 연구소(Electrotechnical Laboratory)에서 최초의 일반적인 영어 텍스트 음성 변환 시스템을 개발했다.[8] 1961년, 존 래리 켈리 주니어와 루이스 거스트먼[9]은 IBM 704 컴퓨터를 사용하여 "데이지 벨(Daisy Bell)" 노래를 재현했다. 아서 C. 클라크는 이 시연에 깊은 인상을 받아 소설 ''2001: 스페이스 오디세이''에 활용했다.[10][11]
선형 예측 부호화(LPC)는 1966년 나고야 대학의 이타쿠라 후미타다와 일본전신전화(NTT)의 사토 슈조의 연구로 시작되었다.[13] 1970년대 벨 연구소의 비슈누 S. 아탈과 만프레드 R. 슈뢰더에 의해 LPC 기술이 더욱 발전했다.[13] LPC는 1978년 스피크 앤 스펠 장난감에 사용된 텍사스 인스트루먼츠 LPC 음성 칩의 기반이 되었다.
1975년, 이타쿠라 후미타다는 선 스펙트럼 쌍(LSP) 방법을 개발했다.[14][15][16] 1980년, 그의 팀은 LSP 기반 음성 합성 칩을 개발했다. LSP는 1990년대에 거의 모든 국제 음성 부호화 표준에서 필수 구성 요소로 채택되었다.[15]
1980년대와 1990년대의 주요 시스템은 MIT의 데니스 H. 클랫의 연구를 기반으로 한 DECtalk 시스템과 벨 연구소 시스템이었다.[18]
1999년, 도쿄공업대학 팀은 은닉 마르코프 모델(HMM) 음성 합성을 제안했다. 2013년, 구글 팀은 심층 학습 기반 음성 합성을 제안했고, 2017년에는 텍스트 처리 부분이 불필요한 end-to-end 텍스트 음성 합성이 제안되었다.
3. 음성 합성 기술
각 기법은 음질, 계산량, 실시간 성능 등 특징이 다르며, 용도에 맞춰 선택된다.[132][31][140]
3. 1. 규칙 기반 합성
규칙 기반 합성은 음성 생성에 대한 지식을 바탕으로 정해진 규칙에 따라 음성을 합성하는 방식이다. 여기에는 분석 합성과 조음 합성이 있다.
분석 합성은 규칙에 따라 생성 및 제어한 음향 특징량을 합성 모델에 전달하여 음성을 합성하는 기법이다.[132] 합성 모델과 그에 대응하는 음향 특징량의 예는 다음과 같다.
합성 모델 | 음향 특징량 |
---|---|
켑스트럼 분석 | 기본 주파수와 스펙트럼 포락선 |
가산 합성 | 각 주파수와 강도 |
감산 합성 | 여기 신호와 스펙트럼 |
선형 예측 부호화 | 여기 신호와 AR 필터 계수 |
포르망트 음성 합성 | 여기 신호와 포르망트 |
조음 합성은 인간의 발성 기관 및 조음 과정을 모델링하여 음성을 합성하는 방식이다. 분석 합성이 "나온 소리"에 주목하는 반면, 조음 합성은 "소리가 나오는 신체"에 주목한다. 예를 들어, 음성을 성도 길이나 조음 위치의 매개변수로 표현하고, 발성 과정의 물리 모델을 사용하여 음성을 합성한다. 상용으로 사용된 사례도 있는데, NeXT에서 사용되었던 시스템은 캘거리 대학교 연구팀이 스핀오프하여 설립한 Trillium Sound Research Inc.가 개발한 것이다.[136]
3. 2. 연결형 합성
연결형 합성은 녹음된 음성 조각들을 연결하여 음성을 합성하는 방식이다. 여기에는 단위 선택 합성과 다이폰 합성이 있다.단위 선택 합성은 대용량 음성 데이터베이스를 사용한다.[31] 데이터베이스 생성 시, 녹음된 발화는 음소, 이음절, 반음소, 음절, 형태소, 단어, 구, 문장 등으로 분할된다.[30] 각 단위는 음향 매개변수를 기반으로 색인화된다. 실행 시간에는 최적의 단위 연결을 통해 목표 발화를 생성한다. 단위 선택은 녹음된 음성에 최소한의 디지털 신호 처리를 적용하므로, 가장 자연스러운 음성을 생성한다.[31] 최고의 단위 선택 시스템 출력은 실제 사람의 목소리와 구분하기 어려울 정도이다. 그러나 최대 자연스러움을 위해서는 매우 큰 음성 데이터베이스가 필요하며, 수십 시간 분량의 녹음 데이터가 필요할 수 있다.[31]
다이폰 합성은 언어의 모든 다이폰(음가 간 전이)을 포함하는 최소한의 음성 데이터베이스를 사용한다.[31] 예를 들어, 스페인어는 약 800개, 독일어는 약 2500개의 다이폰을 가진다. 런타임에는 디지털 신호 처리 기술을 사용하여 목표 운율을 단위에 적용한다. 다이폰 합성은 연결 합성의 음향적 결함과 포먼트 합성의 로봇 같은 음색을 가진다. 크기가 작다는 장점이 있지만, 상업적 활용은 감소하고 있다. 그러나 무료 소프트웨어 구현이 존재하여 연구는 계속되고 있다.[31]
파형 연결형 음성 합성에는 다음과 같은 것들이 있다.
- 단위 선택형 음성 합성(unit selection synthesis영어)[137][138]는 말뭉치 기반 음성 합성(corpus based synthesis영어)[139]이라고도 불린다. 음성을 합성할 때는 일반적으로 먼저 입력 텍스트를 분석하여 언어 특징량을 얻는다. 다음으로, 기본 주파수와 음소 지속 시간 등을 예측하고, 그에 가장 부합하는 음성 소편을 데이터베이스에서 선택하여 연결한다. 이를 통해 실제 목소리에 가깝고 자연스러운 음성을 합성할 수 있다. 하지만, 더 자연스럽게 들리는 음성을 합성하려면, 예상되는 입력 텍스트에 따라 녹음하는 음성을 늘려야 하므로 데이터베이스가 커진다.
- 다이폰 음성 합성(diphone 음성 합성)은 음성 조각에 다이폰(diphone, 음소 쌍) 파형을 이용한 파형 접속형 음성 합성의 한 종류이다. 다이폰 음성 합성에서는 다이폰 파형이 저장된 데이터베이스에서 입력에 맞는 음성 조각을 선택하고, PSOLA나 MBROLA 등의 기법을 사용하여 운율을 부여하면서 조각들을 연결하여 합성 음성을 생성한다.
3. 3. 통계적 파라메트릭 합성
통계적 파라메트릭 음성 합성(Statistical Parametric Speech Synthesis; SPSS)은 통계 모델에 기반한 음성 합성 방식이다.[140]녹음된 음성으로부터 음성의 특징을 학습한 파라메트릭 생성 모델을 만들고, 그 생성 모델의 출력을 기반으로 음성을 합성한다. 파형 접속형 음성 합성에서는 조건에 따라 합성된 음성의 매끄러움에 문제가 발생할 수 있지만, 통계적 음성 합성에서는 기본적으로 매끄러운 음성을 합성할 수 있다. 또한 기법에 따라, 복수 화자의 중간 음질, 감정이 담긴 변화가 심한 음성 등, 유연하고 다양한 음성 합성이 가능하다.
은닉 마르코프 모델(HMM)을 음향 모델로 사용하는 음성 합성 방식과 심층 신경망(DNN)을 사용하는 신경망 음성 합성 방식이 있다.
HMM 음성 합성은 음향 특징량을 HMM으로 모델링하여 음성을 생성한다. 1999년 도쿄공업대학 연구팀에 의해 제안된 방식으로,[141] 소수의 파라미터로 음성의 특징을 표현할 수 있으며, 모델의 크기와 모델 학습 및 음성 합성에 필요한 계산 비용이 적다. 피처폰이나 전자수첩 등 하드웨어 제약이 큰 단말기에서도 작동한다. 또한 필요한 녹음 시간도 (상용) 단위 선택형 음성 합성에 비해 짧다. 모델의 단순성 때문에 스펙트럼이 사람의 음성에 비해 매끄러운 경향이 있으며, 따라서 합성된 음성은 생생함이 부족하다. 또한 기본 주파수의 궤적도 단순해지는 경향이 있다.
신경망 음성 합성은 2013년에 처음 발표되었으며,[142] DNN을 사용하여 텍스트 또는 스펙트럼으로부터 인공 음성을 생성한다. 초기 연구에서는 HMM 음성 합성과 마찬가지로 음향 특징량을 출력했다. 2016년에는 음성 파형을 직접 출력하는(파형 생성 모델) WaveNet이 등장하여 인간과 동등한 수준의 합성이 가능해졌다.[143]
최근에는 종단간(End-to-End) 모델, Transformer, 확산 모델 등 새로운 기술이 등장하고 있다. 설계된 언어 및 음향 특징량을 사용하는 통계적 매개변수 음성 합성은 특징량에 의존하지 않는 파형 생성, 즉 통계적 음성 파형 합성(statistical speech waveform synthesis / SSWS)으로 범위를 넓히고 있다.[153]
모델명 | 입력 | 출력 | 모델 | 출처 |
---|---|---|---|---|
Tacotron 2 | 텍스트 | 멜스펙트로그램 | 자기회귀(Autoregressive) | arxiv |
FastSpeech 2 | 음소 | 멜스펙트로그램 | Transformer[152] | arxiv |
FastSpeech 2s | 음소 | 파형 | Transformer[152] | arxiv |
4. 활용 분야
음성 합성 기술은 다양한 분야에서 활용되고 있다. 문자를 읽기 어려운 장애인이나 문자를 읽을 수 없는 사람(아이, 외국인 등)에게 화면 읽기 소프트웨어(스크린 리더)로서 오랫동안 쓰이고 있으며, 말을 하기 어려운 사람의 의사소통 대체 수단으로도 이용된다.[42]
사람이 직접 녹음하면 대사가 바뀔 때마다 다시 녹음해야 하지만, 음성 합성 기술을 이용하면 데이터를 수정하는 것만으로 간편하게 음성을 변경할 수 있다. 이러한 장점 덕분에 음성 합성 기술은 정보 접근성 향상, 의사소통 지원, 교육 및 엔터테인먼트, 자동화 서비스 등 다양한 분야에서 활용되고 있다.
- '''정보 접근성 향상:''' 시각 장애인, 난독증 환자 등을 위한 스크린 리더, 음성 안내 시스템 등에 활용된다.
- '''의사소통 지원:''' 발성 장애가 있는 사람들을 위한 대체 의사소통 수단으로 활용된다.
- '''교육 및 엔터테인먼트:''' 교육용 영상, 유튜브 음성 파일, 오디오북, 게임, 애니메이션 등 다양한 콘텐츠 제작에 활용된다.
- '''자동화 서비스:''' 콜센터 자동 응답, ATM, 복합기, 공장 내 방송, 재난 방송, 역, 버스터미널, 공항 안내 방송, 내비게이션, 스마트 스피커 등 다양한 자동화 서비스에 활용된다.
이 외에도 음성 합성은 음성 인식과 결합하여 자연어 처리 인터페이스를 통해 모바일 장치와 상호 작용하는 데 사용될 수 있다. 또한, 제2언어 습득을 위한 교육 도구로 활용되기도 한다.
4. 1. 정보 접근성 향상
음성 합성 기술은 문자를 읽기 어려운 장애인이나 문자를 읽을 수 없는 사람(아이, 외국인 등)에게 화면 읽기 소프트웨어(스크린 리더)로서 오랫동안 쓰이고 있으며, 말을 하기 어려운 사람이 의사소통을 할 수 있는 대체 수단으로도 이용된다.[42]이 기술은 시각 장애인, 난독증 환자 등을 위한 스크린 리더, 음성 안내 시스템 등에 활용된다. 특히, 한국에서는 웹 접근성 향상을 위한 웹 스크린 리더 기술이 발전하고 있으며, 보이스몬, 웹톡스 등이 대표적이다. 웹 스크린 리더는 저시력 시각장애인, 난독증과 같은 학습장애, 인지장애인, 노인, 다문화가족 등의 웹 접근성을 지원하기 위해 사용된다. 최근에는 애플의 보이스오버와 같은 모바일 기기형 스크린 리더도 많이 사용되고 있다.
4. 2. 의사소통 지원
음성 합성은 발성 장애가 있는 사람들을 위한 대체 의사소통 수단으로 활용된다.[101] 최근에는 자신의 목소리를 학습시켜 성대 수술 후에도 사용할 수 있는 기술도 실용화되고 있다.[101]4. 3. 교육 및 엔터테인먼트
음성 합성 기술은 교육용 영상, 오디오북, 게임, 애니메이션 등 다양한 콘텐츠 제작에 활용된다.[119] 외국어 학습, 전자책 읽어주기 등에도 활용된다.[124] 한국에서는 유튜브 음성 파일, 교육용 영상 음성 파일 제작 등에 쓰이고 있다.4. 4. 자동화 서비스
음성 합성은 콜센터 자동 응답, ATM, 복합기, 공장 내 방송, 재난 방송 등 다양한 자동화 서비스에 활용된다.[107] 특히, 한국에서는 역, 버스터미널, 공항 등에서 안내 방송에 쓰이고 있다.[108] 내비게이션, 스마트 스피커 등에도 활용된다.[111]5. 음성 합성 시스템
애플은 1984년 맥킨토시에 MacInTalk 기능을 탑재한 이후, 새로운 OS 버전에 음성 합성 기능을 개선해왔다. Mac OS X v10.4 이상에는 VoiceOver라는 음성 합성 기능이 제공되고 있다.[76] 마이크로소프트 윈도우는 SAPI라는 오디오 관련 API를 제공하며, 윈도우 XP에는 내레이터(Narrator)라는 음성 합성 프로그램이 추가되었다.[76] 윈도우 2000에는 시각 장애인을 위한 텍스트 음성 변환 유틸리티인 내레이터가 포함되어 있다.[72]
구글 어시스턴트, Siri, 코타나 등과 같이 2020년대 주요 개인용 컴퓨터와 스마트폰 운영 체제는 음성 합성을 이용한 읽어주기 기능(스크린 리더)을 탑재하고 있다.
역사적으로 실용화된 다양한 음성 합성 시스템은 다음과 같다.
운영체제 | 음성 합성 시스템 |
---|---|
macOS, iOS | MacInTalk(1984~ ), VoiceOver(맥 OS X v10.4 ~), Siri |
마이크로소프트 윈도우 | SAPI, 내레이터(윈도우 XP), 코타나 |
안드로이드 | 구글 어시스턴트 |
TI-99/4A | 음성 합성 기능 (옵션)[166] |
PC-6001 | 음성 합성 카트리지, PC-6001mkII (내장), PC-6001mkIISR, PC-6601 |
FM-7/FM-77 시리즈 | 음성 합성 보드 (MB22437/FM-77-431) (옵션) |
MZ-1500/2500/2861 | 보이스 보드 (MZ-1M08) (옵션) |
후지쓰 | FMVS-101 일본어 음성 합성 장치 (외장 하드웨어) |
NEC PC-9801 시리즈 | 다양한 소프트웨어 (외장 하드웨어 없음, BEEP 음 스피커 사용) |
오픈 소스 음성 합성 시스템은 다음과 같다.
시스템 이름 | 설명 |
---|---|
Festival 음성 합성 시스템 | 다이폰 기반 합성과 더 현대적이고 사운드가 좋은 기술을 사용 |
gnuspeech | 자유 소프트웨어 재단의 관절 운동 합성 사용[76] |
HMM-based Speech Synthesis System (HTS) | |
Open JTalk | HTS 기반 일본어 음성 합성 시스템 |
MaryTTS | |
다양한 언어 지원 | |
Coqui-TTS | Mozilla TTS의 후속[167] (일본어 미지원) |
PaddleSpeech | 영어 및 중국어 지원 |
ESPnet | |
NVIDIA NeMo |
6. 과제 및 전망
음성 합성 기술은 텍스트 정규화, 동음이의어 처리, 발음 규칙 등 텍스트 분석 기술의 개선이 필요하다. 예를 들어, "My latest project is to learn how to better project my voice"와 같은 문장에서 "project"의 두 가지 발음을 문맥에 맞게 정확히 구분해야 한다.[60] 또한, 숫자, 약어 등도 다양한 문맥에서 올바르게 읽어야 한다.[60]
음성 합성 시스템의 품질 평가 방법론 개발 및 표준화도 중요한 과제이다. 현재는 보편적으로 동의된 객관적인 평가 기준이 부족하여, 서로 다른 시스템 간의 성능 비교가 어렵다.[61] 이를 해결하기 위해, 음성 관련 국제 학회인 ISCA의 SynSIG는 2005년부터 매년 블리자드 챌린지(Blizzard Challenge)라는 경진대회를 개최하여 공통 데이터와 과제를 통해 성능을 공정하게 비교하고 있다.[165]
감정 표현, 억양, 음색 등 운율적 특징을 자연스럽게 구현하는 기술 개발도 필요하다. 청취자가 음성 녹음을 듣고 화자의 감정 상태(예: 미소 짓고 있는지)를 파악할 수 있다는 연구 결과도 있다.[62][63][64]
한국어의 경우, 한자의 음독/훈독 구별, 동음이의어 구별, 악센트 추정, 인명, 지명 읽기 등 텍스트 분석에 어려움이 있다. 따라서 한국어 특성을 반영한 음성 합성 기술 개발 및 데이터 구축이 필요하다.
최근에는 심층 학습 기반 음성 합성 기술이 발전하여 사람 목소리의 자연스러움에 근접하고 있다. 15.ai와 ElevenLabs와 같은 서비스는 감정 표현과 억양을 합성하여 생생한 음성을 생성할 수 있다.[50][53] 그러나, 음성 딥페이크와 같이 범죄에 악용될 수 있다는 우려도 제기되고 있다.[59][80][81]
인공지능 기술 발전에 따라 음성 합성 기술은 더욱 발전할 것이며, 활용 분야는 더욱 확대될 것으로 전망된다.
7. 음성 합성 마크업 언어 (SSML)
음성 합성 마크업 언어(Speech Synthesis Markup Language, SSML)는 음성 합성 시스템에서 텍스트 분석 결과를 제어하고, 발음, 억양, 음성 등을 지정하기 위한 XML 기반 마크업 언어이다. W3C에서 표준으로 제정되었으며, 음성 합성 시스템의 표현력을 높이고 다양한 음성 출력을 가능하게 한다.
2004년 W3C 권고안이 되기 이전에는 Java 음성 마크업 언어(JSML)와 SABLE 등이 있었으나 널리 채택되지는 않았다. 음성 합성 마크업 언어는 VoiceXML과 같은 대화 마크업 언어와는 다르다. 대화 마크업 언어는 텍스트 음성 변환뿐만 아니라 음성 인식 등도 지원한다.
8. 한국의 음성 합성 기술 관련 단체
우쓰노미야대학 대학원 공학연구과 시스템창생공학전공 모리 연구실, 교토대학 대학원 정보학연구과 지능정보학전공 가와하라 연구실, 구마모토대학 대학원 자연과학교육부 정보전기공학전공 오가타 연구실, 고베대학 대학원 시스템정보학연구과 정보과학전공 타키구치 연구실, 도쿄대학 대학원 공학계연구과 기술경영전략학전공 마츠오 연구실, 대학원 공학계연구과 전기계공학전공 미네마쓰·사이토 연구실, 대학원 정보리공학계연구과 시스템정보학전공 시스템정보 제1연구실(사루와타·코야마 연구실), 도쿄공업대학 공학원 정보통신계 고바야시 연구실, 도호쿠대학 대학원 공학연구과 통신공학전공 이토·노세 연구실, 나고야공업대학 대학원 공학연구과 정보공학전공 토쿠다 케이이치(徳田恵一)|도쿠다 게이이치일본어·미나미카쿠 연구실, 나고야대학 대학원 정보학연구과 지능시스템학전공 타케다 연구실, 대학원 정보학연구과 지능시스템학전공 토다 연구실, 야마나시대학 대학원 종합연구부 모리세 마사마사(森勢将雅)|모리세 마사마사일본어, 리쓰메이칸대학 정보리공학부 미디어정보학과 야마시타 연구실, NHK 방송기술연구소, KDDI 종합연구소, 국제전기통신기초기술연구소(ATR), 도시바, NTT, 히타치 등이 음성 합성 연구를 수행한다.[1]
참조
[1]
서적
From Text to Speech: The MITalk system
https://archive.org/[...]
Cambridge University Press
[2]
논문
An articulatory synthesizer for perceptual research
[3]
서적
Progress in Speech Synthesis
https://archive.org/[...]
Springer
[4]
논문
Assignment of segmental duration in text-to-speech synthesis
1994-04-01
[5]
웹사이트
History and Development of Speech Synthesis
http://www.acoustics[...]
Helsinki University of Technology
2006-11-04
[6]
서적
Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine
J. B. Degen
[7]
논문
Speech synthesis for phonetic and phonological models
http://www.haskins.y[...]
2011-12-13
[8]
논문
Review of text-to-speech conversion for English
[9]
뉴스
Louis Gerstman, 61, a Specialist In Speech Disorders and Processes
https://www.nytimes.[...]
1992-03-21
[10]
웹사이트
Arthur C. Clarke Biography
http://www.lsi.usp.b[...]
2017-12-05
[11]
웹사이트
Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
http://www.bell-labs[...]
Bell Labs
2010-02-17
[12]
웹사이트
Anthropomorphic Talking Robot Waseda-Talker Series
http://www.takanishi[...]
[13]
논문
A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol
https://ee.stanford.[...]
2010
[14]
논문
The Distance Measure for Line Spectrum Pairs Applied to Speech Recognition
http://www.work.calt[...]
1998
[15]
웹사이트
List of IEEE Milestones
https://ethw.org/Mil[...]
IEEE
2019-07-15
[16]
웹사이트
Fumitada Itakura Oral History
https://ethw.org/Ora[...]
IEEE Global History Network
2009-05-20
[17]
논문
Interactive voice technology at work: The CSELT experience
1995-11-01
[18]
서적
Multilingual Text-to-Speech Synthesis: The Bell Labs Approach
Springer
[19]
기타
TSI Speech+ & other speaking calculators
[20]
기타
TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide
2011-12
[21]
특허
Talking electronic game
1982-04-27
[22]
웹사이트
Voice Chess Challenger
http://www.ismenio.c[...]
[23]
웹사이트
Gaming's most important evolutions
http://www.gamesrada[...]
[24]
잡지
The Replay Years: Reflections from Eddie Adlum
https://archive.org/[...]
1985-11
[25]
서적
The Untold History of Japanese Game Developers
SMG Szczepaniak
[26]
뉴스
A Short History of Computalker
https://amhistory.si[...]
[27]
뉴스
Ann Syrdal, Who Helped Give Computers a Female Voice, Dies at 74
https://www.nytimes.[...]
2020-08-20
[28]
서적
The Singularity is Near
Penguin Books
[29]
서적
Text-to-speech synthesis
https://archive.org/[...]
Cambridge University Press
2009
[30]
웹사이트
Perfect synthesis for all of the people all of the time.
https://www.cs.cmu.e[...]
[31]
논문
CMU ARCTIC databases for speech synthesis
Language Technologies Institute, School of Computer Science, Carnegie Mellon University
[32]
논문
Language Generation and Speech Synthesis in Dialogues for Language Learning
http://groups.csail.[...]
[33]
논문
Automatic Detection of Unnatural Word-Level Segments in Unit-Selection Speech Synthesis
https://www.cs.cmu.e[...]
[34]
웹사이트
Pitch-Synchronous Overlap and Add (PSOLA) Synthesis
http://www.fon.hum.u[...]
2008-05-28
[35]
논문
The MBROLA Project: Towards a set of high quality speech synthesizers of use for non commercial purposes
http://ai2-s2-pdfs.s[...]
[36]
논문
Modification of Pitch using DCT in the Source Domain
2004-02-01
[37]
뉴스
Education: Marvel of The Bronx
http://content.time.[...]
2019-05-28
[38]
웹사이트
1960 - Rudy the Robot - Michael Freeman (American)
http://cyberneticzoo[...]
2019-05-23
[39]
서적
New York Magazine
https://books.google[...]
New York Media, LLC
1979-07-30
[40]
서적
The Futurist
https://books.google[...]
World Future Society.
1978-01-01
[41]
간행물
Generation and Synthesis of Broadcast Messages
http://citeseerx.ist[...]
1993-09-01
[42]
웹사이트
Music and Computers
http://digitalmusics[...]
Dartmouth College
1993-01-01
[43]
목록
Astro Blaster, Space Fury, Star Trek (arcade game)
[44]
목록
Star Wars, Firefox, Star Wars: Return of the Jedi, Road Runner, Star Wars: The Empire Strikes Back, Indiana Jones and the Temple of Doom, 720°, Gauntlet, Gauntlet II, A.P.B., Paperboy, RoadBlasters, Vindicators Part II, Escape from the Planet of the Robot Monsters
http://www.arcade-mu[...]
[45]
서적
Speech Synthesis and Recognition
CRC
[46]
논문
Physics-based synthesis of disordered voices
http://www.cic.unb.b[...]
International Speech Communication Association
2015-08-27
[47]
논문
Perceptual error identification of human and synthesized voices
2016-01-01
[48]
웹사이트
The HMM-based Speech Synthesis System
https://web.archive.[...]
Hts.sp.nitech.ac.j
2012-02-22
[49]
논문
Speech perception without traditional speech cues
https://web.archive.[...]
1981-05-22
[50]
논문
Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens
2020-01-01
[51]
웹사이트
ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる
https://automaton-me[...]
2021-01-19
[52]
웹사이트
『Portal』のGLaDOSや『UNDERTALE』のサンズがテキストを読み上げてくれる。文章に込められた感情まで再現することを目指すサービス「15.ai」が話題に
https://news.denfami[...]
2021-01-18
[53]
웹사이트
Generative AI comes for cinema dubbing: Audio AI startup ElevenLabs raises pre-seed
https://sifted.eu/ar[...]
2023-01-23
[54]
잡지
AI Can Clone Your Favorite Podcast Host's Voice
https://www.wired.co[...]
2023-04-12
[55]
잡지
This Podcast Is Not Hosted by AI Voice Clones. We Swear
https://www.wired.co[...]
[56]
웹사이트
Voice-generating platform ElevenLabs raises $19M, launches detection tool
https://techcrunch.c[...]
2023-06-20
[57]
웹사이트
ElevenLabs' Powerful New AI Tool Lets You Make a Full Audiobook in Minutes
https://www.lifewire[...]
[58]
논문
Probing the phonetic and phonological knowledge of tones in Mandarin TTS models
http://dx.doi.org/10[...]
ISCA
2020-05-25
[59]
잡지
AI-Generated Voice Deepfakes Aren't Scary Good—Yet
https://www.wired.co[...]
[60]
웹사이트
Speech synthesis
http://www.w3.org/TR[...]
World Wide Web Organization
[61]
웹사이트
Blizzard Challenge
http://festvox.org/b[...]
Festvox.org
[62]
뉴스
Smile -and the world can hear you
https://web.archive.[...]
University of Portsmouth
2008-01-09
[63]
뉴스
Smile – And The World Can Hear You, Even If You Hide
https://www.scienced[...]
2008-01-01
[64]
논문
The vocal communication of different kinds of smile
https://web.archive.[...]
[65]
논문
Epoch extraction based on integrated linear prediction residual using plosion index
2013-12-01
[66]
뉴스
TI will exit dedicated speech-synthesis chips, transfer products to Sensory
http://www.eetimes.c[...]
EE Times
2001-06-14
[67]
웹사이트
1400XL/1450XL Speech Handler External Reference Specification
https://web.archive.[...]
[68]
웹사이트
It Sure Is Great To Get Out Of That Bag!
http://www.folklore.[...]
folklore.org
[69]
웹사이트
Amazon Polly
https://aws.amazon.c[...]
[70]
서적
Amiga Hardware Reference Manual
Addison-Wesley Publishing Company, Inc.
[71]
웹사이트
Translator Library (Multilingual-speech version)
http://uk.aminet.net[...]
1995-06-30
[72]
웹사이트
Accessibility Tutorials for Windows XP: Using Narrator
http://www.microsoft[...]
Microsoft
2011-01-29
[73]
웹사이트
How to configure and use Text-to-Speech in Windows XP and in Windows Vista
http://support.micro[...]
Microsoft
2007-05-07
[74]
웹사이트
An introduction to Text-To-Speech in Android
http://android-devel[...]
Android-developers.blogspot.com
2009-09-23
[75]
논문
The Pediaphon – Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones
http://www.dr-bischo[...]
[76]
웹사이트
gnuspeech
https://www.gnu.org/[...]
Gnu.org
[77]
웹사이트
Smithsonian Speech Synthesis History Project (SSSHP) 1986–2002
http://www.mindsprin[...]
Mindspring.com
[78]
논문
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
2018-06-12
[79]
논문
Neural Voice Cloning with a Few Samples
http://papers.nips.c[...]
[80]
웹사이트
Fake voices 'help cyber-crooks steal cash'
https://www.bbc.com/[...]
BBC
2019-07-08
[81]
뉴스
An artificial-intelligence first: Voice-mimicking software reportedly used in a major theft
https://www.washingt[...]
2019-09-04
[82]
논문
Face2Face: Real-time Face Capture and Reenactment of RGB Videos
http://www.graphics.[...]
Proc. Computer Vision and Pattern Recognition (CVPR), IEEE
[83]
보고서
Synthesizing Obama: Learning Lip Sync from Audio
http://grail.cs.wash[...]
University of Washington
[84]
웹사이트
Voice Cloning for the Masses
https://blog.deeplea[...]
The Batch
2020-04-01
[85]
논문
Effect of Text-to-Speech and Human Reader on Listening Comprehension for Students with Learning Disabilities
https://www.tandfonl[...]
2021-07-03
[86]
논문
2022 Wave Electronics and its Application in Information and Telecommunication Systems (WECONF)
IEEE
2022-05-30
[87]
논문
2021 IEEE EMBS International Conference on Biomedical and Health Informatics (BHI)
IEEE
2021-07-27
[88]
논문
Evolution of Reading Machines for the Blind: Haskins Laboratories" Research as a Case History
https://www.rehab.re[...]
1984
[89]
뉴스
Speech Synthesis Software for Anime Announced
http://www.animenews[...]
2007-05-02
[90]
웹사이트
Code Geass Speech Synthesizer Service Offered in Japan
http://www.animenews[...]
Animenewsnetwork.com
2008-09-09
[91]
웹사이트
Now hear this: Voice cloning AI startup ElevenLabs nabs $19M from a16z and other heavy hitters
https://venturebeat.[...]
2023-06-20
[92]
웹사이트
Sztuczna inteligencja czyta głosem Jarosława Kuźniara. Rewolucja w radiu i podcastach
https://www.press.pl[...]
2023-04-09
[93]
잡지
Generative AI Podcasts Are Here. Prepare to Be Bored
https://www.wired.co[...]
[94]
웹사이트
Arrested Succession Parody On YouTube Features 'Narration' By AI-Generated Ron Howard
https://www.forbes.c[...]
[95]
뉴스
Can A.I. Be Funny? This Troupe Thinks So.
https://www.nytimes.[...]
2023-07-06
[96]
웹사이트
Hot AI startup ElevenLabs, founded by ex-Google and Palantir staff, is set to raise $18 million at a $100 million valuation. Check out the 14-slide pitch deck it used for its $2 million pre-seed.
https://www.business[...]
[97]
웹사이트
AI-Generated Voice Firm Clamps Down After 4chan Makes Celebrity Voices for Abuse
https://www.vice.com[...]
2023-01-30
[98]
웹사이트
Usage of text-to-speech in AI video generation
https://elai.io/
[99]
웹사이트
AI Text to speech for videos
https://www.synthesi[...]
[100]
논문
FAIRSEQ S2 : A Scalable and Integrable Speech Synthesis Toolkit
[101]
뉴스
【Hope】失った私の声で会話を/AI学習 そっくり再現:ベンチャー無償提供がん患者らに希望
https://www.chunichi[...]
2022-08-27
[102]
논문
FAIRSEQ S2 : A Scalable and Integrable Speech Synthesis Toolkit
[103]
웹사이트
History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
http://www.acoustics[...]
[104]
서적
Speech synthesis for phonetic and phonological models
Mouton
[105]
뉴스
Louis Gerstman의 사망 기사 (NY타임스)
http://query.nytimes[...]
[106]
웹사이트
Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
http://www.bell-labs[...]
[107]
뉴스
防災無線が機械音声に 11月1日から本格開始 {{!}} 厚木 {{!}} タウンニュース
https://www.townnews[...]
2018-11-28
[108]
뉴스
阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も
https://japan.cnet.c[...]
2018-11-28
[109]
웹사이트
エクスワードに搭載された快適機能 - 電子辞書 - CASIO
http://arch.casio.jp[...]
2018-11-28
[110]
웹사이트
音声対話
http://healsio.jp/fe[...]
2018-11-28
[111]
웹사이트
音声ニュース配信 朝日新聞アルキキ
http://www.asahi.com[...]
2018-11-28
[112]
웹사이트
Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple
https://machinelearn[...]
2018-11-28
[113]
웹사이트
WaveNet launches in the Google Assistant {{!}} DeepMind
https://deepmind.com[...]
2018-11-28
[114]
웹사이트
5/30サービス開始!NTTドコモの新しいAIエージェント 「my daiz」にエーアイの音声合成AITalkが採用 株式会社AI(エーアイ)
https://www.ai-j.jp/[...]
2018-11-28
[115]
웹사이트
エモパー|機能・サービス|AQUOS ZETA SH-01G|製品ラインアップ|AQUOS:シャープ
http://www.sharp.co.[...]
2018-11-28
[116]
뉴스
Amazon PollyでAlexaの音声をカスタマイズしよう
https://developer.am[...]
2018-11-28
[117]
웹사이트
ロボホン
https://robohon.com/[...]
2018-11-28
[118]
웹사이트
トヨタ KIROBO mini {{!}} KIBO ROBOT PROJECT {{!}} KIROBO・MIRATA {{!}} トヨタ自動車WEBサイト
https://toyota.jp/ki[...]
2018-11-28
[119]
뉴스
テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート {{!}} ロボスタ - ロボット情報WEBマガジン
https://robotstart.i[...]
2018-11-28
[120]
웹사이트
VoiceTextホーム {{!}} HOYA音声合成ソフトウェア
https://voicetext.jp[...]
2018-11-28
[121]
뉴스
NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん
https://www.itmedia.[...]
2018-11-28
[122]
뉴스
“AIアナウンサー”がラジオ放送 Amazonの音声合成技術で
https://www.itmedia.[...]
2018-11-28
[123]
뉴스
ハイウェイラジオのヒミツ 情報の早さ、エリアの細かさ、その仕組みは? {{!}} 乗りものニュース
https://trafficnews.[...]
2018-11-28
[124]
웹사이트
Amazon.co.jp ヘルプ: 読み上げ機能を使用する
https://www.amazon.c[...]
2018-11-28
[125]
뉴스
Remembering Stephen Hawking’s iconic synthesized voice
https://whatsnext.nu[...]
2018-11-28
[126]
웹사이트
受け入れ態勢は?「筆談ホステス」当選の北区議会に聞いた
https://www.nikkan-g[...]
2018-11-28
[127]
논문
統計的音声合成技術の現在・過去・未来
[128]
논문
風雲急を告げる音声合成研究の最新動向
電子情報通信学会
[129]
논문
テキスト音声合成技術の変遷と最先端
[130]
논문
Real‐time speech synthesis by rule
[131]
간행물
規則合成における音声合成単位及び音声合成法 - より高品質を求めて
https://www.jstage.j[...]
[132]
간행물
規則合成における音声合成単位及び音声合成法 - より高品質を求めて
https://www.jstage.j[...]
[133]
간행물
Software for a cascade/parallel formant synthesizer
https://asa.scitatio[...]
[134]
서적
Formant Synthesis Models
https://ccrma.stanfo[...]
Physical Audio Signal Processing
[135]
서적
Formant Synthesis Models
https://ccrma.stanfo[...]
Physical Audio Signal Processing
[136]
웹사이트
Articulatory Speech Synthesis - Summary {{Bracket|Savannah}}
https://savannah.gnu[...]
[137]
논문
Unit selection in a concatenative speech synthesis system using a large speech database
IEEE
[138]
논문
大規模コーパスを用いた音声合成システムXIMERA
[139]
간행물
A Review of Unit Selection Speech Synthesis
https://www.semantic[...]
[140]
논문
An Investigation of Noise Shaping with Perceptual Weighting for Wavenet-Based Speech Generation
https://ieeexplore.i[...]
[141]
논문
Speech synthesis using HMMs with dynamic features
IEEE
1999-05-09
[142]
논문
Statistical parametric speech synthesis using deep neural networks
IEEE
2013-05-26
[143]
논문
WaveNet: A Generative Model for Raw Audio
2016-09-12
[144]
논문
Natural tts synthesis by conditioning wavenet on mel spectrogram predictions
2017
[145]
논문
Clarinet: Parallel wave generation in end-to-end text-to-speech
2018
[146]
논문
Waveglow: A flowbased generative network for speech synthesis
2018
[147]
논문
Efficient neural audio synthesis
2018
[148]
간행물
TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING
2019
[149]
논문
Char2Wav: End-to-End Speech Synthesis
2017-02-18
[150]
논문
Deep Voice: Real-time Neural Text-to-Speech
2017-02-25
[151]
논문
Tacotron: Towards End-to-End Speech Synthesis
2017-03-29
[152]
논문
feed-forward Transformer block
[153]
논문
TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING
2018
[154]
논문
Neural Speech Synthesis with Transformer Network
[155]
논문
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
https://arxiv.org/pd[...]
2023
[156]
웹사이트
Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision
https://google-resea[...]
Google Research
[157]
논문
Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision
2023
[158]
논문
Speech synthesis from neural decoding of spoken sentences
2019
[159]
논문
DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation
2022
[160]
논문
S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations
2021
[161]
논문
S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations
2021
[162]
논문
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement
2023
[163]
논문
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement
2023
[164]
논문
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement
2023
[165]
웹사이트
Blizzard Challenge 2018 - SynSIG
https://www.synsig.o[...]
2018-11-30
[166]
웹사이트
Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002
http://www.mindsprin[...]
[167]
뉴스
KI-Sprachforschungsteam von Mozilla macht allein weiter
https://www.golem.de[...]
Golem.de
2021-03-15
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com