구글 텍스트 음성 변환
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
구글 텍스트 음성 변환은 구글에서 제공하는 텍스트를 음성으로 변환하는 기술이다. 안드로이드 애플리케이션과 구글 클라우드 음성 변환 서비스를 통해 다양한 언어를 지원하며, 한국어를 포함하여 알바니아어, 아랍어, 벵골어, 중국어, 영어, 프랑스어, 독일어, 힌디어, 일본어, 스페인어 등을 지원한다. 2023년에는 '음성 인식 및 합성'으로 서비스 이름이 변경되었다. 이 기술은 딥마인드의 WaveNet을 기반으로 하며, 인간과 유사한 강세와 억양을 사용하여 음성을 합성하는 것이 특징이다.
더 읽어볼만한 페이지
- 스크린 리더 - 내레이터 (윈도우)
윈도우 내레이터는 시각 장애인을 위해 윈도우 운영체제에 내장된 접근성 기능으로, 텍스트를 음성으로 변환하여 컴퓨터 사용을 돕고 다양한 운영체제 버전을 거치면서 언어 지원, 음성 품질, 사용자 인터페이스 등 사용성이 향상되었다. - 스크린 리더 - 보이스오버 (소프트웨어)
애플의 보이스오버는 시각 장애인 사용자를 위해 개발된 스크린 리더 기능으로, 음성 안내와 제스처를 통해 애플 기기 사용을 돕고, 텍스트 음성 변환, 점자 디스플레이 지원 등의 다양한 기능을 제공한다. - 구글의 서비스 - 유튜브
유튜브는 2005년 설립되어 다양한 비디오 콘텐츠를 공유하는 세계 최대 온라인 동영상 플랫폼으로 성장, 구글에 인수된 후 다양한 서비스를 출시하고 기술적 발전을 이루었으나, 저작권 문제, 극단주의 콘텐츠 확산, 개인정보보호 논란 등 사회적 문제에 직면해 광고 차단 프로그램 단속 강화 정책을 시행하고 있다. - 구글의 서비스 - 구글 검색
구글 검색은 래리 페이지와 세르게이 브린이 개발한 검색 엔진으로, 페이지랭크 알고리즘을 사용하며 검색 품질 개선을 위한 다양한 업데이트를 진행해 왔으나, 개인 정보 보호, 편향성 등의 문제로 비판받기도 한다.
2. 지원 언어
구글 텍스트 음성 변환은 전 세계 사용자들이 사용할 수 있도록 다양한 언어를 지원한다.[8][9] 지원하는 언어는 다음과 같다.
2. 1. 구글 음성 변환 안드로이드 애플리케이션
안드로이드 애플리케이션에서는 한국어|한국어한국어(대한민국)를 포함하여 다음과 같은 다양한 언어를 지원한다.[8]
2. 2. 구글 클라우드 음성 변환
구글 클라우드 음성 변환 서비스는 한국어를 포함하여 다양한 언어를 지원한다.[9] 지원되는 언어는 다음과 같다.
현대차는 2015년에 Android Auto 앱에 텍스트 음성 변환(Text-to-Speech) 기능을 적용한다고 발표했다.[4] 이후 textPlus, WhatsApp과 같은 앱들도 텍스트 음성 변환 기술을 활용하여 알림을 읽어주거나 음성 응답 기능을 제공하기 시작했다.
3. 역사
3. 1. 딥마인드 WaveNet 기술
구글 클라우드 텍스트 음성 변환은 구글의 영국 기반 AI 자회사인 DeepMind가 만든 소프트웨어인 WaveNet을 기반으로 한다.[5] DeepMind는 2014년 구글에 인수되었다.[6] 이 서비스는 경쟁사인 아마존 및 마이크로소프트와 차별화를 시도한다.[7]
대부분의 음성 합성기(애플의 Siri 포함)는 프로그램을 통해 개별 음소를 저장한 다음 이를 조합하여 단어와 문장을 형성하는 연쇄 합성을 사용한다.[5] 반면 WaveNet은 음절, 음소 및 단어에 인간과 유사한 강세와 억양을 사용하여 음성을 합성한다.
대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 음이 서로 뒤따르는지, 현실적인 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.[5]
3. 2. 서비스 발전
DeepMind가 개발한 WaveNet을 기반으로 구글 클라우드 텍스트 음성 변환 서비스가 제공되기 시작했다.[5] DeepMind는 2014년 구글에 인수된 영국의 AI 전문 기업이다.[6] 이 서비스는 아마존, 마이크로소프트의 서비스와 차별화를 시도한다.[7]
대부분의 음성 합성기는 연쇄 합성 방식을 사용한다. 이 방식에서는 개별 음소를 미리 저장해 둔 다음, 이를 조합하여 단어와 문장을 구성한다. Siri도 이 방식을 사용한다.[5] WaveNet은 음절, 음소, 단어에 사람과 비슷한 강세와 억양을 넣어 음성을 합성한다.
대부분의 다른 텍스트 음성 변환 시스템과 달리, WaveNet 모델은 처음부터 원시 오디오 파형을 생성한다. 이 모델은 방대한 양의 음성 샘플을 사용하여 훈련된 신경망을 사용한다. 훈련 과정에서 네트워크는 어떤 소리가 서로 뒤따르는지, 실제 음성 파형이 어떻게 보이는지 등 음성의 기본 구조를 추출한다. 훈련된 WaveNet 모델은 텍스트 입력을 받으면 초당 최대 24,000개의 샘플로 개별 소리 간에 부드럽게 전환하면서 해당 음성 파형을 처음부터 한 번에 하나씩 생성할 수 있다.[5]
2023년, 이 서비스는 '음성 인식 및 합성'으로 이름이 변경되었다.
참조
[1]
웹사이트
Speech Recognition & Synthesis
https://play.google.[...]
2024-12-11
[2]
웹사이트
Speech Recognition & Synthesis googletts.google-speech-apk_20241125.02_p2.702443970
https://www.apkmirro[...]
2024-12-11
[3]
웹사이트
You'll never guess the latest Google app to cross 10 billion installs (seriously)
https://www.androidp[...]
2021-11-08
[4]
웹사이트
Google, Hyundai show off new third-party Android Auto apps
http://www.cnet.com/[...]
CBS Interactive
2015-01-17
[5]
웹사이트
WaveNet
https://www.deepmind[...]
2023-06-22
[6]
뉴스
Google buys UK artificial intelligence startup Deepmind for £400m
https://www.theguard[...]
2014-01-27
[7]
웹사이트
Text-to-Speech AI: Lifelike Speech Synthesis
https://cloud.google[...]
2023-06-22
[8]
Google Play
Google Text-to-Speech
https://play.google.[...]
[9]
문서
Supported voices and languages | Cloud Text-to-Speech Documentation
https://cloud.google[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com