구글 텍스트 음성 변환

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

구글 텍스트 음성 변환은 구글에서 제공하는 텍스트를 음성으로 변환하는 기술이다. 안드로이드 애플리케이션과 구글 클라우드 음성 변환 서비스를 통해 다양한 언어를 지원하며, 한국어를 포함하여 알바니아어, 아랍어, 벵골어, 중국어, 영어, 프랑스어, 독일어, 힌디어, 일본어, 스페인어 등을 지원한다. 2023년에는 '음성 인식 및 합성'으로 서비스 이름이 변경되었다. 이 기술은 딥마인드의 WaveNet을 기반으로 하며, 인간과 유사한 강세와 억양을 사용하여 음성을 합성하는 것이 특징이다.

구글 텍스트 음성 변환 - [IT 관련 정보]에 관한 문서

개요

개발사	구글
출시일	2013년 10월 10일
최신 버전	20241030.02/p3 (빌드 702043126)
최신 버전 출시일	2024년 12월 2일
운영체제	안드로이드
종류	스크린 리더

📚 더 읽어볼만한 페이지

스크린 리더 - 내레이터 (윈도우)
윈도우 내레이터는 시각 장애인을 위해 윈도우 운영체제에 내장된 접근성 기능으로, 텍스트를 음성으로 변환하여 컴퓨터 사용을 돕고 다양한 운영체제 버전을 거치면서 언어 지원, 음성 품질, 사용자 인터페이스 등 사용성이 향상되었다.
스크린 리더 - 보이스오버 (소프트웨어)
애플의 보이스오버는 시각 장애인 사용자를 위해 개발된 스크린 리더 기능으로, 음성 안내와 제스처를 통해 애플 기기 사용을 돕고, 텍스트 음성 변환, 점자 디스플레이 지원 등의 다양한 기능을 제공한다.
구글의 서비스 - 유튜브
유튜브는 2005년 설립되어 다양한 비디오 콘텐츠를 공유하는 세계 최대 온라인 동영상 플랫폼으로 성장, 구글에 인수된 후 다양한 서비스를 출시하고 기술적 발전을 이루었으나, 저작권 문제, 극단주의 콘텐츠 확산, 개인정보보호 논란 등 사회적 문제에 직면해 광고 차단 프로그램 단속 강화 정책을 시행하고 있다.
구글의 서비스 - 구글 검색
구글 검색은 래리 페이지와 세르게이 브린이 개발한 검색 엔진으로, 페이지랭크 알고리즘을 사용하며 검색 품질 개선을 위한 다양한 업데이트를 진행해 왔으나, 개인 정보 보호, 편향성 등의 문제로 비판받기도 한다.

1. 개요
2. 지원 언어
- 2.1. 구글 음성 변환 안드로이드 애플리케이션
- 2.2. 구글 클라우드 음성 변환
3. 역사
- 3.1. 딥마인드 WaveNet 기술
- 3.2. 서비스 발전

2. 지원 언어

구글 텍스트 음성 변환은 전 세계 사용자들이 사용할 수 있도록 다양한 언어를 지원한다. 지원하는 언어는 다음과 같다.

👆

좌우로 밀어서 보기

지원 언어	국가
아프리칸스어^{아프리칸스어}	남아프리카 공화국
알바니아어^{알바니아어}	알바니아
암하라어^암하라어	에티오피아
아랍어	사우디아라비아
아삼어^아삼어	인도
바스크어^바스크어	스페인
벵골어^벵골어	방글라데시, 인도
보도어^brx	인도
보스니아어^{보스니아어}	보스니아 헤르체고비나
불가리아어^{불가리아어}	불가리아
버마어^미얀마어	미얀마
광둥어^광동어	홍콩
카탈루냐어^{카탈루냐어}	스페인
중국어^중국어	중국, 대만
크로아티아어^{크로아티아어}	크로아티아
체코어^체코어	체코
덴마크어^덴마크어	덴마크
도그리어^doi	인도
네덜란드어^{네덜란드어}	벨기에, 네덜란드
영어	호주, 나이지리아, 인도, 영국, 미국
에스토니아어^{에스토니아어}	에스토니아
필리핀어^필리핀어	필리핀
핀란드어^핀란드어	핀란드
프랑스어	캐나다, 프랑스
갈리시아어^{갈리시아어}	스페인
독일어^독일어	독일
그리스어^그리스어	그리스
구자라트어^{구자라트어}	인도
하우사어^하우사어	나이지리아
히브리어^히브리어	이스라엘
힌디어^힌디어	인도
헝가리어^헝가리어	헝가리
아이슬란드어^{아이슬란드어}	아이슬란드
인도네시아어^{인도네시아어}	인도네시아
이탈리아어^{이탈리아어}	이탈리아
일본어^일본어	일본
자바어^자바어	인도네시아
칸나다어^칸나다어	인도
카슈미르어^{카슈미르어}	인도
크메르어^크메르어	캄보디아
콘칸어^콩칸어	인도
한국어^한국어	대한민국
라틴어^라틴어	바티칸 시국
라트비아어^{라트비아어}	라트비아
리투아니아어^{리투아니아어}	리투아니아
마이틸리어^mai	인도
말레이어^말레이어	말레이시아
말라얄람어^{말라얄람어}	인도
마니푸리어^mni	인도
마라티어^마라티어	인도
네팔어^네팔어	네팔
노르웨이어^{노르웨이어(보크몰)}	노르웨이
오디아어^오리야어	인도
폴란드어^폴란드어	폴란드
포르투갈어	브라질, 포르투갈
펀자브어^펀자브어	인도
루마니아어^{루마니아어}	루마니아
러시아어^러시아어	러시아
산스크리트어^{산스크리트어}	인도
산탈어^sat	인도
세르비아어^{세르비아어}	세르비아
신디어^신드어	인도
싱할라어^신할라어	스리랑카
슬로바키아어^{슬로바키아어}	슬로바키아
슬로베니아어^{슬로베니아어}	슬로베니아
스페인어	스페인, 미국
순다어^순다어	인도네시아
스와힐리어^{스와힐리어}	케냐
스웨덴어^스웨덴어	스웨덴
타밀어^타밀어	인도
텔루구어^텔루구어	인도
태국어^태국어	태국
터키어^{튀르키예어}	터키
우크라이나어^{우크라이나어}	우크라이나
우르두어^우르두어	파키스탄, 인도
베트남어^베트남어	베트남
웨일스어^웨일스어	영국

2.1. 구글 음성 변환 안드로이드 애플리케이션

안드로이드 애플리케이션에서는 한국어^한국어(대한민국)를 포함하여 다음과 같은 다양한 언어를 지원한다.

👆

좌우로 밀어서 보기

지원 언어	국가
알바니아어^{알바니아어}	알바니아
아랍어	사우디아라비아
아삼어^아삼어	인도
바스크어^바스크어	스페인
벵골어^벵골어	방글라데시, 인도
보도어^brx	인도
보스니아어^{보스니아어}	보스니아 헤르체고비나
불가리아어^{불가리아어}	불가리아
버마어^미얀마어	미얀마
광둥어^광동어	홍콩
카탈루냐어^{카탈루냐어}	스페인
중국어^중국어	중국, 대만
크로아티아어^{크로아티아어}	크로아티아
체코어^체코어	체코
덴마크어^덴마크어	덴마크
도그리어^doi	인도
네덜란드어^{네덜란드어}	벨기에, 네덜란드
영어	호주, 나이지리아, 인도, 영국, 미국
에스토니아어^{에스토니아어}	에스토니아
필리핀어^필리핀어	필리핀
핀란드어^핀란드어	핀란드
프랑스어	캐나다, 프랑스
갈리시아어^{갈리시아어}	스페인
독일어^독일어	독일
그리스어^그리스어	그리스
구자라트어^{구자라트어}	인도
하우사어^하우사어	나이지리아
히브리어^히브리어	이스라엘
힌디어^힌디어	인도
헝가리어^헝가리어	헝가리
아이슬란드어^{아이슬란드어}	아이슬란드
인도네시아어^{인도네시아어}	인도네시아
이탈리아어^{이탈리아어}	이탈리아
일본어^일본어	일본
자바어^자바어	인도네시아
칸나다어^칸나다어	인도
카슈미르어^{카슈미르어}	인도
크메르어^크메르어	캄보디아
콘칸어^콩칸어	인도
한국어^한국어	대한민국
라틴어^라틴어	바티칸 시국
라트비아어^{라트비아어}	라트비아
리투아니아어^{리투아니아어}	리투아니아
마이틸리어^mai	인도
말레이어^말레이어	말레이시아
말라얄람어^{말라얄람어}	인도
마니푸리어^mni	인도
마라티어^마라티어	인도
네팔어^네팔어	네팔
노르웨이어^{노르웨이어(보크몰)}	노르웨이
오디아어^오리야어	인도
폴란드어^폴란드어	폴란드
포르투갈어	브라질, 포르투갈
펀자브어^펀자브어	인도
루마니아어^{루마니아어}	루마니아
러시아어^러시아어	러시아
산스크리트어^{산스크리트어}	인도
산탈어^sat	인도
세르비아어^{세르비아어}	세르비아
신디어^신드어	인도
싱할라어^신할라어	스리랑카
슬로바키아어^{슬로바키아어}	슬로바키아
슬로베니아어^{슬로베니아어}	슬로베니아
스페인어	스페인, 미국
순다어^순다어	인도네시아
스와힐리어^{스와힐리어}	케냐
스웨덴어^스웨덴어	스웨덴
타밀어^타밀어	인도
텔루구어^텔루구어	인도
태국어^태국어	태국
터키어^{튀르키예어}	터키
우크라이나어^{우크라이나어}	우크라이나
우르두어^우르두어	파키스탄, 인도
베트남어^베트남어	베트남
웨일스어^웨일스어	영국

2.2. 구글 클라우드 음성 변환

구글 클라우드 음성 변환 서비스는 한국어를 포함하여 다양한 언어를 지원한다. 지원되는 언어는 다음과 같다.

👆

좌우로 밀어서 보기

지원 언어

3. 역사

현대차는 2015년에 Android Auto 앱에 텍스트 음성 변환(Text-to-Speech) 기능을 적용한다고 발표했다. 이후 textPlus, WhatsApp과 같은 앱들도 텍스트 음성 변환 기술을 활용하여 알림을 읽어주거나 음성 응답 기능을 제공하기 시작했다.

3.1. 딥마인드 WaveNet 기술

구글 클라우드 텍스트 음성 변환은 구글의 영국 기반 AI 자회사인 DeepMind가 만든 소프트웨어인 WaveNet을 기반으로 한다. DeepMind는 2014년 구글에 인수되었다. 이 서비스는 경쟁사인 아마존 및 마이크로소프트와 차별화를 시도한다.

대부분의 음성 합성기(애플의 Siri 포함)는 프로그램을 통해 개별 음소를 저장한 다음 이를 조합하여 단어와 문장을 형성하는 연쇄 합성을 사용한다. 반면 WaveNet은 음절, 음소 및 단어에 인간과 유사한 강세와 억양을 사용하여 음성을 합성한다.

대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 음이 서로 뒤따르는지, 현실적인 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.

3.2. 서비스 발전

DeepMind가 개발한 WaveNet을 기반으로 구글 클라우드 텍스트 음성 변환 서비스가 제공되기 시작했다. DeepMind는 2014년 구글에 인수된 영국의 AI 전문 기업이다. 이 서비스는 아마존, 마이크로소프트의 서비스와 차별화를 시도한다.

대부분의 음성 합성기는 연쇄 합성 방식을 사용한다. 이 방식에서는 개별 음소를 미리 저장해 둔 다음, 이를 조합하여 단어와 문장을 구성한다. Siri도 이 방식을 사용한다. WaveNet은 음절, 음소, 단어에 사람과 비슷한 강세와 억양을 넣어 음성을 합성한다.

대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 소리가 서로 뒤따르는지, 실제 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.

2023년, 이 서비스는 '음성 인식 및 합성'으로 이름이 변경되었다.