구글 텍스트 음성 변환
1. 개요
구글 텍스트 음성 변환은 구글에서 제공하는 텍스트를 음성으로 변환하는 기술이다. 안드로이드 애플리케이션과 구글 클라우드 음성 변환 서비스를 통해 다양한 언어를 지원하며, 한국어를 포함하여 알바니아어, 아랍어, 벵골어, 중국어, 영어, 프랑스어, 독일어, 힌디어, 일본어, 스페인어 등을 지원한다. 2023년에는 '음성 인식 및 합성'으로 서비스 이름이 변경되었다. 이 기술은 딥마인드의 WaveNet을 기반으로 하며, 인간과 유사한 강세와 억양을 사용하여 음성을 합성하는 것이 특징이다.
| 개발사 | 구글 |
|---|---|
| 출시일 | 2013년 10월 10일 |
| 최신 버전 | 20241030.02/p3 (빌드 702043126) |
| 최신 버전 출시일 | 2024년 12월 2일 |
| 운영체제 | 안드로이드 |
| 종류 | 스크린 리더 |
-
스크린 리더 -
내레이터 (윈도우)
윈도우 내레이터는 시각 장애인을 위해 윈도우 운영체제에 내장된 접근성 기능으로, 텍스트를 음성으로 변환하여 컴퓨터 사용을 돕고 다양한 운영체제 버전을 거치면서 언어 지원, 음성 품질, 사용자 인터페이스 등 사용성이 향상되었다. -
스크린 리더 -
보이스오버 (소프트웨어)
애플의 보이스오버는 시각 장애인 사용자를 위해 개발된 스크린 리더 기능으로, 음성 안내와 제스처를 통해 애플 기기 사용을 돕고, 텍스트 음성 변환, 점자 디스플레이 지원 등의 다양한 기능을 제공한다. -
구글의 서비스 -
유튜브
유튜브는 2005년 설립되어 다양한 비디오 콘텐츠를 공유하는 세계 최대 온라인 동영상 플랫폼으로 성장, 구글에 인수된 후 다양한 서비스를 출시하고 기술적 발전을 이루었으나, 저작권 문제, 극단주의 콘텐츠 확산, 개인정보보호 논란 등 사회적 문제에 직면해 광고 차단 프로그램 단속 강화 정책을 시행하고 있다. -
구글의 서비스 -
구글 검색
구글 검색은 래리 페이지와 세르게이 브린이 개발한 검색 엔진으로, 페이지랭크 알고리즘을 사용하며 검색 품질 개선을 위한 다양한 업데이트를 진행해 왔으나, 개인 정보 보호, 편향성 등의 문제로 비판받기도 한다.
2. 지원 언어
구글 텍스트 음성 변환은 전 세계 사용자들이 사용할 수 있도록 다양한 언어를 지원한다. 지원하는 언어는 다음과 같다.
| 지원 언어 | 국가 |
|---|---|
| 아프리칸스어아프리칸스어 | 남아프리카 공화국 |
| 알바니아어알바니아어 | 알바니아 |
| 암하라어암하라어 | 에티오피아 |
| 아랍어 | 사우디아라비아 |
| 아삼어아삼어 | 인도 |
| 바스크어바스크어 | 스페인 |
| 벵골어벵골어 | 방글라데시, 인도 |
| 보도어brx | 인도 |
| 보스니아어보스니아어 | 보스니아 헤르체고비나 |
| 불가리아어불가리아어 | 불가리아 |
| 버마어미얀마어 | 미얀마 |
| 광둥어광동어 | 홍콩 |
| 카탈루냐어카탈루냐어 | 스페인 |
| 중국어중국어 | 중국, 대만 |
| 크로아티아어크로아티아어 | 크로아티아 |
| 체코어체코어 | 체코 |
| 덴마크어덴마크어 | 덴마크 |
| 도그리어doi | 인도 |
| 네덜란드어네덜란드어 | 벨기에, 네덜란드 |
| 영어 | 호주, 나이지리아, 인도, 영국, 미국 |
| 에스토니아어에스토니아어 | 에스토니아 |
| 필리핀어필리핀어 | 필리핀 |
| 핀란드어핀란드어 | 핀란드 |
| 프랑스어 | 캐나다, 프랑스 |
| 갈리시아어갈리시아어 | 스페인 |
| 독일어독일어 | 독일 |
| 그리스어그리스어 | 그리스 |
| 구자라트어구자라트어 | 인도 |
| 하우사어하우사어 | 나이지리아 |
| 히브리어히브리어 | 이스라엘 |
| 힌디어힌디어 | 인도 |
| 헝가리어헝가리어 | 헝가리 |
| 아이슬란드어아이슬란드어 | 아이슬란드 |
| 인도네시아어인도네시아어 | 인도네시아 |
| 이탈리아어이탈리아어 | 이탈리아 |
| 일본어일본어 | 일본 |
| 자바어자바어 | 인도네시아 |
| 칸나다어칸나다어 | 인도 |
| 카슈미르어카슈미르어 | 인도 |
| 크메르어크메르어 | 캄보디아 |
| 콘칸어콩칸어 | 인도 |
| 한국어한국어 | 대한민국 |
| 라틴어라틴어 | 바티칸 시국 |
| 라트비아어라트비아어 | 라트비아 |
| 리투아니아어리투아니아어 | 리투아니아 |
| 마이틸리어mai | 인도 |
| 말레이어말레이어 | 말레이시아 |
| 말라얄람어말라얄람어 | 인도 |
| 마니푸리어mni | 인도 |
| 마라티어마라티어 | 인도 |
| 네팔어네팔어 | 네팔 |
| 노르웨이어노르웨이어(보크몰) | 노르웨이 |
| 오디아어오리야어 | 인도 |
| 폴란드어폴란드어 | 폴란드 |
| 포르투갈어 | 브라질, 포르투갈 |
| 펀자브어펀자브어 | 인도 |
| 루마니아어루마니아어 | 루마니아 |
| 러시아어러시아어 | 러시아 |
| 산스크리트어산스크리트어 | 인도 |
| 산탈어sat | 인도 |
| 세르비아어세르비아어 | 세르비아 |
| 신디어신드어 | 인도 |
| 싱할라어신할라어 | 스리랑카 |
| 슬로바키아어슬로바키아어 | 슬로바키아 |
| 슬로베니아어슬로베니아어 | 슬로베니아 |
| 스페인어 | 스페인, 미국 |
| 순다어순다어 | 인도네시아 |
| 스와힐리어스와힐리어 | 케냐 |
| 스웨덴어스웨덴어 | 스웨덴 |
| 타밀어타밀어 | 인도 |
| 텔루구어텔루구어 | 인도 |
| 태국어태국어 | 태국 |
| 터키어튀르키예어 | 터키 |
| 우크라이나어우크라이나어 | 우크라이나 |
| 우르두어우르두어 | 파키스탄, 인도 |
| 베트남어베트남어 | 베트남 |
| 웨일스어웨일스어 | 영국 |
2.1. 구글 음성 변환 안드로이드 애플리케이션
안드로이드 애플리케이션에서는 한국어한국어(대한민국)를 포함하여 다음과 같은 다양한 언어를 지원한다.
| 지원 언어 | 국가 |
|---|---|
| 알바니아어알바니아어 | 알바니아 |
| 아랍어 | 사우디아라비아 |
| 아삼어아삼어 | 인도 |
| 바스크어바스크어 | 스페인 |
| 벵골어벵골어 | 방글라데시, 인도 |
| 보도어brx | 인도 |
| 보스니아어보스니아어 | 보스니아 헤르체고비나 |
| 불가리아어불가리아어 | 불가리아 |
| 버마어미얀마어 | 미얀마 |
| 광둥어광동어 | 홍콩 |
| 카탈루냐어카탈루냐어 | 스페인 |
| 중국어중국어 | 중국, 대만 |
| 크로아티아어크로아티아어 | 크로아티아 |
| 체코어체코어 | 체코 |
| 덴마크어덴마크어 | 덴마크 |
| 도그리어doi | 인도 |
| 네덜란드어네덜란드어 | 벨기에, 네덜란드 |
| 영어 | 호주, 나이지리아, 인도, 영국, 미국 |
| 에스토니아어에스토니아어 | 에스토니아 |
| 필리핀어필리핀어 | 필리핀 |
| 핀란드어핀란드어 | 핀란드 |
| 프랑스어 | 캐나다, 프랑스 |
| 갈리시아어갈리시아어 | 스페인 |
| 독일어독일어 | 독일 |
| 그리스어그리스어 | 그리스 |
| 구자라트어구자라트어 | 인도 |
| 하우사어하우사어 | 나이지리아 |
| 히브리어히브리어 | 이스라엘 |
| 힌디어힌디어 | 인도 |
| 헝가리어헝가리어 | 헝가리 |
| 아이슬란드어아이슬란드어 | 아이슬란드 |
| 인도네시아어인도네시아어 | 인도네시아 |
| 이탈리아어이탈리아어 | 이탈리아 |
| 일본어일본어 | 일본 |
| 자바어자바어 | 인도네시아 |
| 칸나다어칸나다어 | 인도 |
| 카슈미르어카슈미르어 | 인도 |
| 크메르어크메르어 | 캄보디아 |
| 콘칸어콩칸어 | 인도 |
| 한국어한국어 | 대한민국 |
| 라틴어라틴어 | 바티칸 시국 |
| 라트비아어라트비아어 | 라트비아 |
| 리투아니아어리투아니아어 | 리투아니아 |
| 마이틸리어mai | 인도 |
| 말레이어말레이어 | 말레이시아 |
| 말라얄람어말라얄람어 | 인도 |
| 마니푸리어mni | 인도 |
| 마라티어마라티어 | 인도 |
| 네팔어네팔어 | 네팔 |
| 노르웨이어노르웨이어(보크몰) | 노르웨이 |
| 오디아어오리야어 | 인도 |
| 폴란드어폴란드어 | 폴란드 |
| 포르투갈어 | 브라질, 포르투갈 |
| 펀자브어펀자브어 | 인도 |
| 루마니아어루마니아어 | 루마니아 |
| 러시아어러시아어 | 러시아 |
| 산스크리트어산스크리트어 | 인도 |
| 산탈어sat | 인도 |
| 세르비아어세르비아어 | 세르비아 |
| 신디어신드어 | 인도 |
| 싱할라어신할라어 | 스리랑카 |
| 슬로바키아어슬로바키아어 | 슬로바키아 |
| 슬로베니아어슬로베니아어 | 슬로베니아 |
| 스페인어 | 스페인, 미국 |
| 순다어순다어 | 인도네시아 |
| 스와힐리어스와힐리어 | 케냐 |
| 스웨덴어스웨덴어 | 스웨덴 |
| 타밀어타밀어 | 인도 |
| 텔루구어텔루구어 | 인도 |
| 태국어태국어 | 태국 |
| 터키어튀르키예어 | 터키 |
| 우크라이나어우크라이나어 | 우크라이나 |
| 우르두어우르두어 | 파키스탄, 인도 |
| 베트남어베트남어 | 베트남 |
| 웨일스어웨일스어 | 영국 |
3. 역사
현대차는 2015년에 Android Auto 앱에 텍스트 음성 변환(Text-to-Speech) 기능을 적용한다고 발표했다. 이후 textPlus, WhatsApp과 같은 앱들도 텍스트 음성 변환 기술을 활용하여 알림을 읽어주거나 음성 응답 기능을 제공하기 시작했다.
3.1. 딥마인드 WaveNet 기술
구글 클라우드 텍스트 음성 변환은 구글의 영국 기반 AI 자회사인 DeepMind가 만든 소프트웨어인 WaveNet을 기반으로 한다. DeepMind는 2014년 구글에 인수되었다. 이 서비스는 경쟁사인 아마존 및 마이크로소프트와 차별화를 시도한다.
대부분의 음성 합성기(애플의 Siri 포함)는 프로그램을 통해 개별 음소를 저장한 다음 이를 조합하여 단어와 문장을 형성하는 연쇄 합성을 사용한다. 반면 WaveNet은 음절, 음소 및 단어에 인간과 유사한 강세와 억양을 사용하여 음성을 합성한다.
대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 음이 서로 뒤따르는지, 현실적인 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.
3.2. 서비스 발전
DeepMind가 개발한 WaveNet을 기반으로 구글 클라우드 텍스트 음성 변환 서비스가 제공되기 시작했다. DeepMind는 2014년 구글에 인수된 영국의 AI 전문 기업이다. 이 서비스는 아마존, 마이크로소프트의 서비스와 차별화를 시도한다.
대부분의 음성 합성기는 연쇄 합성 방식을 사용한다. 이 방식에서는 개별 음소를 미리 저장해 둔 다음, 이를 조합하여 단어와 문장을 구성한다. Siri도 이 방식을 사용한다. WaveNet은 음절, 음소, 단어에 사람과 비슷한 강세와 억양을 넣어 음성을 합성한다.
대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 소리가 서로 뒤따르는지, 실제 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.
2023년, 이 서비스는 '음성 인식 및 합성'으로 이름이 변경되었다.