Common Voice
1. 개요
Common Voice는 다양한 음성 샘플을 제공하는 것을 목표로 하는 모질라 재단의 오픈 소스 프로젝트이다. 기존 음성 데이터 세트의 편향성을 개선하고, 다양한 언어와 억양을 가진 화자의 음성 데이터를 확보하는 데 중점을 둔다. 2017년 시작되어, 2022년 10월 기준 100개 이상의 언어에 대한 음성 데이터를 수집하며, 자유롭게 접근 가능한 대규모 음성 데이터베이스를 구축했다.
이미지 준비중입니다.
| 웹사이트 | 커먼 보이스 공식 웹사이트 |
|---|
| 언어 | 다국어 (지원 언어 목록) |
|---|---|
| 개발 | 모질라 재단 |
| 출시일 | 2017년 6월 19일 |
| 저장소 | GitHub 저장소 |
| 라이선스 | Creative Commons CC0 |
2. 목표
Common Voice는 다양한 음성 샘플을 제공하는 것을 목표로 한다. 모질라의 카타리나 보르처트에 따르면, 많은 기존 프로젝트들은 공영 라디오에서 데이터를 가져오거나, 여성과 뚜렷한 억양을 가진 사람들의 음성 데이터를 충분히 포함하지 못하는 데이터 세트를 가지고 있었다.
3. 역사
2017년 11월 29일, 커먼 보이스 프로젝트의 첫 번째 데이터가 공개되었을 때, 전 세계 2만 명 이상의 사용자가 40만 개의 검증된 문장을 등록하여 총 500시간 분량의 영어 음성 데이터가 구축되었다.
2019년 2월, 영어, 프랑스어, 독일어, 중국어를 포함한 18개 언어의 음성 데이터가 첫 번째 버전으로 출시되었다. 여기에는 웨일스어, 카빌어 등 소수 언어도 포함되었으며, 총 42,000명 이상의 기여자가 약 1,400시간 분량의 음성 데이터를 제공했다.
2020년 12월 기준, 60개 언어, 9283h의 음성 기록이 데이터베이스에 축적되었으며, 그중 7335h 분량이 자원 봉사자에 의해 검증되었다.
2022년 초, 벵골어.AI는 기계가 벵골어를 이해하도록 돕는 "방글라 음성 인식" 프로젝트를 위해 커먼 보이스와 협력하여 2000h의 음성 데이터를 수집했다.
4. 음성 데이터베이스
Common Voice 데이터베이스는 LibriSpeech 다음으로 자유롭게 접근 가능한 두 번째로 큰 음성 데이터베이스이다. 2017년 11월 29일에 첫 번째 데이터가 게시되었을 당시 전 세계 20,000명 이상의 사용자가 400,000개의 유효 문장을 등록했으며 총 길이는 500시간이었다.
2019년 2월에는 영어, 프랑스어, 독일어, 중국어를 포함한 18개 언어의 첫 번째 배치가 출시되었으며, 웨일스어, 카빌어와 같이 널리 사용되지 않는 언어도 포함되었다. 여기에는 총 42,000명 이상의 기부자로부터 약 1,400시간의 녹음된 음성 데이터가 포함되었다. 모질라의 카타리나 보르처트에 따르면, 많은 기존 프로젝트들은 공영 라디오에서 데이터를 가져오거나, 여성과 뚜렷한 억양을 가진 사람들을 제대로 대표하지 못하는 데이터 세트를 가지고 있었다.
2020년 7월 기준으로 데이터베이스에는 54개 언어로 총 7,226시간의 음성 녹음이 축적되었으며, 이 중 5,591시간은 자원봉사자가 검증했다. 2021년 5월에는 키냐르완다어를 추가하는 작업을 마친 후, 스와힐리어를 추가하기 위한 보조금을 받았다. 2022년 9월에는 가나의 트위어가 모질라 커먼 보이스 데이터베이스에 추가된 100번째 언어라는 발표가 있었다.
4.1. 지원 언어 목록 (2022년 10월 기준)
Common Voice영어는 2022년 10월 기준으로 다음과 같은 언어에 대한 음성 데이터를 공식적으로 수집한다.
* 압하스어
* 아랍어
* 아르메니아어
* 아삼어
* 아스투리아스어
* 바슈키르어
* 바사어
* 바스크어
* 벨라루스어
* 벵골어
* 브르타뉴어
* 불가리아어
* 카탈루냐어
* 중국어 (광둥어, 중국어 방언)
* 추바슈어
* 체코어
* 덴마크어
* 디베히어
* 네덜란드어
* 영어
* 에스페란토
* 에르자어
* 핀란드어
* 프랑스어
* 프리지아어
* 갈리시아어
* 조지아어
* 독일어
* 그리스어
* 과라니어
* 하우사어
* 하카 친어
* 힌디어
* 헝가리어
* 인도네시아어
* 인테르링구아
* 아일랜드어
* 이탈리아어
* 일본어
* 카빌어
* 카자흐어
* 키냐르완다어
* 한국어
* 쿠르드어 (중앙 쿠르드어, 쿠르만지어 방언)
* 키르기스어
* 라트비아어
* 루간다어
* 마케도니아어
* 말라얄람어
* 몰타어
* 마라티어
* 마리어 (초원 마리어, 구릉 마리어 방언)
* 목샤어
* 몽골어
* 네팔어
* 노르웨이어 (뉘노르스크)
* 오디아어
* 페르시아어
* 폴란드어
* 포르투갈어
* 펀자브어
* 루마니아어
* 로만슈어 (수르실반어, 발라데르어 방언)
* 러시아어
* 사하어
* 산탈어
* 사라이키어
* 사르데냐어
* 세르비아어
* 슬로베니아어
* 스페인어
* 스와힐리어
* 스웨덴어
* 타이완어
* 타밀어
* 타타르어
* 태국어
* 티그레어
* 티그리냐어
* 토키 포나
* 트위어
* 터키어
* 상 소르브어
* 우크라이나어
* 우르두어
* 위구르어
* 우즈베크어
* 베트남어
* 보트어
* 웨일스어