보컬로이드

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

보컬로이드는 실제 사람의 목소리를 기반으로 제작된 음성 합성 소프트웨어 및 그 기술을 지칭한다. 이 기술은 '가수 라이브러리'를 활용하여 음표 정보에 따라 음성을 생성하며, 비브라토, 숨소리 등의 요소를 추가하여 자연스러운 보컬을 구현한다. 2004년 첫 출시 이후 다양한 버전으로 발전해왔으며, PC, iOS, 닌텐도 3DS 등 다양한 플랫폼에서 사용 가능하다. 보컬로이드는 스코어 에디터, 음성 라이브러리, 합성 엔진으로 구성되며, 사용자들은 스코어 에디터를 통해 음표와 가사를 입력하고, 음성 라이브러리에서 음성 조각을 선택하여 합성 엔진을 통해 음성을 생성한다. 보컬로이드 소프트웨어는 MikuMikuDance, VocaListener 등 파생 제품과 보컬로이드 보드, 보컬로이드 키보드와 같은 하드웨어로도 출시되었다. 또한 하츠네 미쿠의 성공을 통해 일본을 중심으로 문화적 영향력을 확대했으며, 2011년 동일본 대지진 당시 기부 활동에도 참여했다.

보컬로이드 - [IT 관련 정보]에 관한 문서
기본 정보
이름보컬로이드
로마자 표기Bokaroido
종류음성 합성, DTM
보컬 신디사이저(가창 합성)

이미지 준비중입니다.

보컬로이드 로고

이미지 준비중입니다.

가성 합성용 뮤직 시퀀서 소프트피아노 롤 표시의 일반적인 이미지
개발자야마하 주식회사
출시일2004년 1월 15일
최신 버전보컬로이드 6
최신 버전 출시일2022년 10월 13일
지원 운영체제마이크로소프트 윈도우
macOS
iOS(모바일 보컬로이드 에디터, 일본만 해당)
지원 언어일본어
영어
한국어
스페인어
중국어
카탈루냐어
라이선스소유권
공식 웹사이트보컬로이드 공식 웹사이트
기술
핵심 기술음성 합성
특징가창 합성
용도데스크톱 음악 제작
설명가성 합성용 뮤직 시퀀서 소프트웨어
기타
관련 용어보카로
📚 더 읽어볼만한 페이지
  • 음성 합성 소프트웨어 - 보카리나
    보카리나는 ㈜티젠스에서 개발한 음성 합성 프로그램 엔진으로, 보라와 카일린 캐릭터 가수를 통해 노래 제작 및 가수 설정 기능을 제공했으나 2018년에 서비스가 종료되었으며, VOCALOID와 유사하지만 직접적인 관련은 없고, 음높이, 다이내믹스, 바이브레이션 조절 및 배경음악 믹싱 기능을 지원했다.
  • 음성 합성 소프트웨어 - 우타우
    UTAU는 사용자가 제작한 음성 라이브러리를 활용하여 노래를 제작할 수 있는 무료 음성 합성 소프트웨어이며, 2008년에 공개되어 다양한 플러그인과 확장성을 제공하며, 보컬로이드의 대안으로도 사용된다.
  • 음악 제작 소프트웨어 - 하츠네 미쿠
    하츠네 미쿠는 크립톤 퓨처 미디어가 개발하고 후지타 사키의 음성을 기반으로 한 VOCALOID 시리즈 첫 음원으로, 다양한 버전 업데이트와 파생 캐릭터를 통해 인기를 얻고 있다.
  • 음악 제작 소프트웨어 - 큐베이스
    스타인버그에서 개발한 큐베이스는 디지털 오디오 워크스테이션으로, MIDI 기능만을 지원하던 아타리 ST용으로 처음 출시되어 매킨토시와 윈도우 운영체제에서도 사용 가능하며, VST를 지원하여 오디오 플러그인 표준을 확립하고 음악가, 작곡가, 프로듀서들에게 널리 사용된다.
  • VOCALOID - 니코니코 동화
    니코니코 동화는 실시간 댓글 기능과 오타쿠 문화 콘텐츠를 특징으로 하는 일본의 동영상 공유 사이트이다.
  • VOCALOID - 크립톤 퓨처 미디어
    크립톤 퓨처 미디어는 1995년 설립된 일본의 음악 소프트웨어 개발 및 서비스 제공 회사로, 보컬로이드 하츠네 미쿠의 성공을 통해 보컬로이드라는 새로운 음악 장르를 개척하고, 피아프로 플랫폼을 통한 사용자 창작 콘텐츠 지원 및 생성 AI 기술 활용 등 사업을 다각화하고 있다.

2. 기술

보컬로이드는 실제 사람 목소리에서 수록한 목소리를 ‘가수 라이브러리’로 데이터화하여 저장한다. 음표 정보가 입력되면 ‘합성 엔진’에서 총 생성한다. 또한, 사람의 목소리에 근접하게 하기 위하여, 강약이나 비브라토, 숨소리와 같은 라이브러리를 더하여 사실적인 보컬로 노래한다. 이 보컬로이드 엔진과 캐릭터 음성, 일반 가수 라이브러리의 조합으로 수많은 소프트웨어가 2004년부터 발매되고 있다. 보컬로이드를 통해 지금까지 보컬 파트를 녹음하여 완성시킨 DTM 제작이 실제 사람의 목소리를 녹음하지 않고도 컴퓨터만으로 음악을 만들 수 있게 되었다. VOCALOID2 엔진까지는 반주가 없는 목소리만 만들 수 있었지만, VOCALOID3 엔진부터는 반주 데이터를 넣어 재생할 수 있게 되었다.



보컬로이드의 ボーカルシンセサイザー일본어 기술은 일반적으로 주파수 영역에서 연결 합성으로 분류되며, 이는 사람의 노래 목소리에서 추출한 음성 단편을 시각-주파수 표현 형태로 이어 붙이고 처리한다. 보컬로이드 시스템은 악보 정보에 비브라토와 같은 음성 표현을 추가하여 사실적인 목소리를 생성할 수 있다. 초기에는 2004년 보컬로이드 출시 당시 보컬로이드의 합성 기술을 Shūhasū-domein kashō ātikyurēshon setsuzoku-hō/周波数ドメイン歌唱アーティキュレーション接続法일본어라고 불렀지만, 2007년 보컬로이드 2 출시 이후로는 더 이상 사용되지 않는다. 음성 아티큘레이션은 비브라토와 노래에 필요한 음성 단편과 같은 "음성 표현"으로 설명된다. 보컬로이드와 보컬로이드 2 합성 엔진은 텍스트를 소리 내어 읽는 것이 아니라 노래를 부르도록 설계되었지만, 보컬로이드-플렉스(Vocaloid-flex)와 보이스로이드(Voiceroid)와 같은 소프트웨어는 그러한 용도로 개발되었다. 이들은 쉰 목소리나 고함과 같은 노래 표현을 자연스럽게 재현할 수 없다.

VOCALOID의 음성 합성 기술은 "소편 연결형"이라고 불리는 방식으로, 사람의 노래를 녹음하여 잘라낸 소편을 주파수 영역(주파수 도메인)에서 연결하고 가공하여 노래를 합성한다. 합성 시 강약, 비브라토, 숨 쉬는 소리 등의 표정 정보를 추가하여 현실적인 노래를 만든다. VOCALOID의 합성 기술 명칭은 "주파수 도메인 가창 아티큘레이션 접속법(Frequency-domain Singing Articulation Splicing and Shaping)"으로 발표되었다. 이 명칭의 "가창 아티큘레이션"은 "비브라토나 음의 단편 등 가창에 필요한 '목소리의 표정'"으로 설명된다. 그러나 이 "주파수 도메인 가창 아티큘레이션 접속법"이라는 명칭은 야마하의 VOCALOID 공식 웹사이트의 VOCALOID2, VOCALOID3 설명에는 사용되지 않는다.

일반에 판매되는 VOCALOID의 합성 엔진은 노래 제작을 전제로 개발되었으며, 글 읽어주기에는 대응하지 않는다. 또한 가창 관련 표현에서도 쉰 목소리나 샤우트 등을 자연스럽게 재현하는 것은 불가능하다.

PC용 VOCALOID는 초기에는 Windows용만 있었지만, 2013년 8월 일부 VOCALOID3 제품에서 Mac OS X 지원이 이루어졌다. 또한 PC 이외의 플랫폼 지원도 진행되어, 2010년 10월 iOS에서 작동하는 iPad, iPhone용 애플리케이션과 임베디드용 하드웨어 제공이 발표되었고, 2013년에는 닌텐도 3DS 지원도 이루어졌다.

==== 시스템 구성 ====

===== 스코어 에디터 =====

스코어 에디터(Score editor영어)는 사용자가 음표나 멜로디를 입력할 수 있는 부분이다. 일본어 라이브러리는 히라가나가타카나, 로마자를 사용하여 가사를 입력할 수 있으며, 영어 라이브러리는 특정 영어 단어를 입력하면 내부 발음 사전에 의해 자동으로 발음 기호로 변환된다. 발음 사전에 등록되어 있지 않는 단어의 경우 직접 발음 기호를 입력해야 하는 불편함이 있다.

스코어 에디터 (예시)
스코어 에디터 (예시)

곡 예시: "사쿠라 사쿠라"
곡 예시: "사쿠라 사쿠라"


VOCALOID3부터는 한국어, 중국어도 지원된다. 다만 한국어 라이브러리는 한글만 가능하고 로마자 입력이 불가능하다는 단점이 있다.

스코어 에디터는 음표, 가사, 그리고 일부 표현을 입력하기 위한 피아노 롤 스타일의 에디터이다. 가사를 입력할 때, 에디터는 내장된 발음 사전을 사용하여 가사를 보컬로이드 음성 기호로 자동 변환한다. 사용자는 등록되지 않은 단어의 음성 기호를 직접 편집할 수 있다. 스코어 에디터는 노래하는 목소리에 표현을 추가하기 위한 다양한 매개변수를 제공한다. 사용자는 목소리를 만들 때 합성된 곡에 가장 적합한 이러한 매개변수를 최적화해야 한다. 이 에디터는 ReWire를 지원하며 DAW와 동기화될 수 있다. MIDI 키보드를 사용하여 미리 정의된 가사가 포함된 곡의 실시간 "재생"도 지원된다.

===== 음성 라이브러리 =====

가성 라이브러리(Singer library영어)에는 음절별로 나뉘어진 음성 조각이 있다. 이 음성 조각은 성우에게 단어나 문장을 읽게 한 뒤 음절별로 나누어 만들어지며, 라이선스는 야마하에서 가지고 있다.

보컬로이드 라이선스는 실제 사람의 음성 조각을 샘플링한 보컬 라이브러리 또는 데이터베이스를 개발한다. 데이터베이스에는 대상 언어의 모든 가능한 음소 조합이 포함되어야 하며, 이음절(두 개의 다른 음소의 연쇄)과 지속적인 모음뿐만 아니라 필요한 경우 두 개 이상의 음소를 가진 다음음절도 포함된다. 예를 들어, "sing"([sIN])이라는 단어에 해당하는 음성은 지속적인 모음 ī와 함께 이음절 "#-s, s-I, I-N, N-#" ( #은 무성 음소를 나타냄)의 순서를 연결하여 합성할 수 있다. 보컬로이드 시스템은 이러한 조각의 피치를 바꿔 멜로디에 맞춘다. 더욱 자연스러운 사운드를 얻으려면 세 개 또는 네 개의 다른 음역을 라이브러리에 저장해야 한다. 일본어의 경우 음역당 500개의 이음절이 필요하지만, 영어의 경우 2,500개가 필요하다. 일본어는 음소가 적고 대부분의 음절 소리가 개방음절(모음으로 끝나는)이기 때문에 이음절이 적다. 일본어에는 기본적으로 자음을 포함하는 이음절 패턴이 세 가지 있다. 무성음-자음, 모음-자음, 자음-모음이다. 반면 영어는 자음으로 끝나는 폐쇄음절이 많고, 자음-자음 및 자음-무성음 이음절도 있다. 따라서 영어 라이브러리에는 일본어 라이브러리보다 더 많은 이음절을 녹음해야 한다. 이러한 언어적 차이로 인해 일본어 라이브러리는 유창한 영어를 부르는 데 적합하지 않다.

가수 라이브러리의 음성 조각은 필요한 음소의 조합을 효율적으로 수집하기 위해 제작된, 스크립트라고 불리는 전용 노래를 녹음하고, 거기에서 필요한 부분을 잘라내어 만들어진다. 영어용 라이브러리는 일본어에 비해 필요한 음성 조각이 많기 때문에 필요한 녹음도 많아지고, 데이터베이스의 용량도 커진다. 스크립트는 많은 제품에서 가사에 특별히 의미 없는 "주문"과 같은 것이 사용되고 있지만, 2010년 9월에 발매된 VY1에서는 제공자의 스트레스 경감을 목표로 가사에 의미 있는 단어를 섞는 등의 고안이 도입되는 등, 끊임없이 개량이 진행되고 있다.

또한, 과거 사람의 노래 소리를 재현하는 시도도 이루어지고 있으며, 2011년에 쇼와 시대를 대표하는 가수인 히바리 미소라의 라이브러리가 발표되었다. 라이브러리를 제작하려면 보컬 트랙만으로, 또한 필요한 음소가 갖춰진 녹음이 필요하다는 점에서, 사망한 가수의 목소리를 사용하여 라이브러리를 만든다는 것은 기본적으로 불가능하다고 여겨졌지만, 히바리 미소라의 라이브러리에서는 히바리 미소라의 장남의 노래 소리로 만들어진 라이브러리에, 두 사람의 목소리 차이를 수학적으로 추출하여 만든 변환 함수를 거는 방법으로 히바리 미소라의 목소리를 재현하고 있다. 2014년에는 싱어송라이터 hide의 노래 소리를 VOCALOID를 활용하여 재현한 음악의 발매가 발표되었다. hide의 음악에서는, 생전의 보컬 데이터를 분석하여 VOCALOID에 필요한 음성 조각을 추출하고, 부족한 음성에 대해서는 야마하의 음성 변환 기술을 활용하여 제작되었다. 2019년에는 "쇼와의 여가수"라고 불린 히바리 미소라(1989년 사망)의 노래 소리를 VOCALOID를 활용하여 재현한 음악이 발표되었다. 히바리 미소라의 음악에서는, 생전의 노래와 말소리를 인공지능에 학습시켜, 그것을 바탕으로 심층 학습 기술에 의해 노래 소리를 재현하는 "VOCALOID:AI"라는 신기술이 사용되고 있다.

보컬로이드의 라이브러리를 제작하려면 노래 소리 제공을 받을 필요가 있지만, 당초에는 가수의 협력을 얻기 어려웠고, 노래 소리 제공자가 명확하게 밝혀진 최초의 제품인 MIRIAM에서는 미리암 스톡리가 자신의 노래 소리 제공을 결정할 때까지 2, 3개월 걸렸다는 것을 밝히고 있다. 일본 국내 제작사에 대해서도, 크립톤 퓨처 미디어사에서는 2007년부터 전개하고 있는 캐릭터 보컬 시리즈에 가수가 아닌 성우를 기용하게 된 계기로서 가수의 기용이 잘 되지 않았다는 점을 들고 있으며, 인터넷사에서도 2008년에 발매한 가쿠포이드에 이은 제2탄의 기획에서 가수의 기용이 난항을 겪었다는 것이 전해지고 있다. 그러나 2010년에는 릴리와 같이, VOCALOID를 발매함으로써 가수의 홍보 효과를 예상하여 기획되는 제품도 등장했다. 2011년 이후로는, 음악 레이블이나 연예 기획사에서 판매되는 제품도 등장하고 있다.

보컬로이드 음성 라이브러리 제작 과정(2014년 야마하 사례)은 다음과 같다.

1. 가수 이미지 결정

어떤 음색을 만들 것인지 결정한다.

2. 준비

몇몇 후보 가수를 선정하여 가 레코딩을 통해 프로토타입을 제작한다. 이미지에 맞춰 음색을 만들거나, 다른 가수의 목소리를 들으면서 음성 이미지를 구체화하고 가수를 결정한다. 가수의 녹음 리허설 역할도 하며, 장시간의 특수한 녹음 중에도 안정적으로 목소리를 유지할 수 있는지 확인한다. 녹음부터 출시까지의 일정을 계획한다.

3. 레코딩

레코딩은 같은 가사를 음역을 바꿔 녹음하며, 일반적으로 약 6시간이 걸린다.
가수의 장점인 음역과 체력을 고려하여, 잘하는 음역을 먼저 녹음하거나, 날짜를 나누는 경우도 있다. 녹음 장비는 스튜디오에 설치된 장비를 사용하며, 가공하지 않은 상태로 Pro Tools 등의 DAW에 녹음한다. 야마하는 개발 스태프가 에피큐러스 스튜디오를 많이 이용했으나 폐쇄되었기 때문에, STUDIO HIPPO, 스튜디오 소닉 가든을 이용하고, 마이크는 노이만 U87Ai, 소니 C-800G 등, 프리앰프는 NEVE, AMEK system, Focusrite, Grace Design 등을 적절히 검토하여 사용한다.
녹음 내용은 대본에 있는 가사를 같은 음정, 같은 템포로 부르는 목소리이다. 음역은 일반적으로 저음, 중음, 고음의 3음역을 녹음한다. 대본에는 "애매한", "몇 개" 등 단편적인 4글자 단어의 지정이 있으며, 가수는 메트로놈과 음정 가이드 음을 들으면서 노래한다. 대본에는 예를 들어 "애매한"이라면 "무음→a", "i→m" … 등 음소로 수집한다는 설명이 있으며, 녹음자는 그 부분을 주의 깊게 모니터링한다. VOCALOID2 초기까지의 대본은 "아다아다이다" 등 무의미한 가사가 지시되어, 가수와 녹음자에게 고통이 되고, 연주 시 연결도 부자연스러워지기 쉬웠기 때문에 개선이 요구되었다.

4. 편집

녹음된 음성 데이터에서 음소를 선택하여 보컬로이드 음성 라이브러리를 만드는 작업으로, 수개월~1년 이상 걸릴 수 있다.
먼저, 스테이셔너리 부분(늘리는 소리)과 아티큘레이션 부분(변화하는 부분)이라는 음소로 채택할 부분을, 재녹음을 포함한 대량의 음성 데이터에서 최적의 부분을 선택하여 잘라내고, 음소 하나하나의 파일로 저장한다. 아티큘레이션에는 2음소와 3음소가 예상되지만, 일본어의 경우 2음소 약 500종류가 필요하며, 저음, 중음, 고음 3음역으로 녹음할 경우 약 1500개의 데이터가 추출된다.

다음으로 WaveLab 등의 음성 파형 편집 소프트웨어를 사용하여 잘라낸 음성 데이터를 처리한다. 많은 파일들에 대해 음압 조정, 음질 조정, 립 노이즈 제거 등의 처리를 하는 작업으로, 상당한 인내심을 요구하는 작업이며, 동시에 최종 제품의 음질에 크게 관련된 조정이다.

5. 변환

다음으로, 야마하에서 제공하는 라이브러리 제작 툴을 사용하여 음성 파일을 보컬로이드 음성 라이브러리로 변환한다.

이것을 VOCALOID 에디터로 시연하면 발음이 불명확하거나, 노이즈가 들어가거나, 연결이 부자연스러운 등 여러 가지 문제점이 발견된다. 그러한 것들에 대해 원래대로 돌아가 다시 처리하거나 추출 범위를 미세 조정하여 수정 버전 라이브러리를 만들고, 시연과 조정을 반복한다.

6. 완성

어느 정도 완성에 가까워지면 사용자 의견 등도 반영하여 최종 버전을 출시한다.

===== 합성 엔진 =====
합성 엔진(Synthesis engine영어)은 스코어 에디터에 입력된 정보를 바탕으로 가성 라이브러리에서 적절한 음성 조각을 골라 주파수, 피치 등을 조절하여 음성을 합성한다.
보컬로이드 합성 엔진
보컬로이드 합성 엔진


합성 엔진은 스코어 에디터에서 보내는 보컬로이드 MIDI라고 하는 전용 MIDI 메시지에 포함된 악보 정보를 받아, 선택된 샘플의 음고와 음색을 주파수 영역에서 조정하고, 이들을 이어 붙여 노래하는 목소리를 합성한다. 보컬로이드DAW에서 접근 가능한 VSTi로 실행될 때, 번들된 플러그인은 스코어 에디터를 우회하여 이러한 메시지를 합성 엔진으로 직접 보낸다.

;음고 변환
:샘플은 서로 다른 음고로 녹음되므로, 샘플을 연결할 때 음고 변환이 필요하다. 엔진은 음표, 어택 타임 및 비브라토 매개변수로부터 원하는 음고를 계산한 다음, 라이브러리에서 필요한 샘플을 선택한다.

;타이밍 조정
:노래하는 목소리에서는 음절의 자음 온셋이 모음 온셋보다 먼저 발음된다. 음표의 시작 위치("Note-On")는 음절의 시작이 아니라 모음 온셋과 같아야 한다. 보컬로이드는 모음 온셋이 "Note-On" 위치에 정확히 일치하도록 샘플 타이밍을 조정하기 위해 메모리에 "합성된 악보"를 유지한다. 타이밍 조정이 없으면 지연이 발생한다.

;샘플 연결
샘플 간의 스펙트럼 엔벨로프 보간
샘플 간의 스펙트럼 엔벨로프 보간

음색 조작을 위한 스펙트럼 피크 처리(SPP)
음색 조작을 위한 스펙트럼 피크 처리(SPP)

:처리된 샘플을 연결할 때, 위상 보정을 통해 샘플 간의 위상을 분산시키고, 여기 + 공명(EpR) 모델이라고 하는 음원-필터 모델을 사용하여 스펙트럼 형태를 추정하여 불연속성을 줄인다.

;음색 조작
:엔진은 샘플의 연결 부근에서 음색을 부드럽게 한다. 지속적인 모음의 음색은 주변 샘플의 스펙트럼 엔벨로프를 보간하여 생성된다. 예를 들어, 영어 단어 "set"의 이중음 "s-e, e, e-t" 시퀀스를 연결할 때, 각 프레임의 지속적인 ē의 스펙트럼 엔벨로프는 "s-e"의 끝에 있는 ē와 "e-t"의 시작 부분에 있는 ē를 보간하여 생성된다.

;변환
:음고 변환 및 음색 조작 후, 엔진은 역 고속 푸리에 변환(IFFT)과 같은 변환을 수행하여 합성된 음성을 출력한다.

==== 버전 ====

===== VOCALOID =====
2003년 2월에 발표된 보컬로이드 엔진이다. 영어일본어 총 2개의 언어를 지원한다.
일반적으로 "V1(브이원)"으로 불린다.
2004년 1월부터 2006년 2월까지 ZERO-G와 크립톤 퓨처 미디어 두 회사에서 PC용 패키지 5개 제품이 출시되었다.
이후 버전과의 호환성이 없어, 보컬 라이브러리를 VOCALOID2 이후의 에디터에서 사용할 수 없다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다.

===== VOCALOID2 =====
2007년 1월에 발표된 보컬로이드 엔진이다. 같은 해 6월부터 2011년 4월까지 PowerFX, 크립톤 퓨처 미디어, ZERO-G, 주식회사 인터넷, AHS, 야마하, 큔 뮤직에서 VOCALOID2 제품 22개를 출시하였다. 영어일본어를 지원한다. 기존 보컬로이드에서 합성 엔진이 완전히 교체되었으며, 에디터의 인터페이스도 개선되었다. 전작과 달리, 보컬로이드2는 인간 목소리 분석 대신 보컬 샘플을 기반으로 결과를 생성했다. 합성 엔진과 사용자 인터페이스는 완전히 개선되었으며, 일본어 보컬로이드는 일본어 인터페이스를 제공했다.

1세대 VOCALOID에서 합성 엔진이 완전히 바뀌었고, 에디터 인터페이스도 새롭게 바뀌었다. 노이즈로 잘라냈던 숨소리 등을 원음 그대로 살려 더욱 사실적인 목소리를 구현할 수 있게 되었고, 허스키한 목소리에도 대응할 수 있게 되었다. 일본어영어 2개 언어를 지원한다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다. 미리 가사를 입력해 두고 MIDI키보드를 사용하여 실시간으로 노래를 "연주"할 수도 있다.

===== VOCALOID3 =====
야마하가 2011년 10월 21일에 발매한 보컬로이드 엔진이다. VOCALOID2와 크게 달라진 점은 없으며, 목소리와 반주를 동시에 재생할 수 있게 되었다. 언어는 기존 일본어, 영어뿐만 아닌 한국어, 중국어, 스페인어를 지원한다.

VOCALOID3 에디터는 총 4가지가 있는데, “VOCALOID3 Editor”와, “Tiny VOCALOID3 Editor”, “VOCALOID Editor for Cubase”, “VOCALOID Editor for Cubase NEO”가 있다.

Tiny VOCALOID3 Editor는 라이브러리에 동봉 되어있는 보컬 에디터인데, VOCALOID3 Editor에 비하여 기능이 한정되어 있다. 17소절만 이용 가능하며 오직 1트랙만 사용 가능하다.

VOCALOID Editor for Cubase는 2013년 1월 출시된 윈도우 전용의 VOCALOID3 에디터이고, VOCALOID Editor for Cubase NEO는 같은 해 8월 출시된 VOCALOID3 에디터이다. VOCALOID Editor for Cubase NEO는 Windows뿐만 아닌 Mac OS에도 대응한다. 지금은 판매하지 않는다.

2011년 6월에 발표되었고, 같은 해 10월부터 제공이 시작되었다.

기존에 어려웠던 빠른 말 표현이나 음색 변화의 부드러움 등이 개선되었다고 한다. VOCALOID3에서는 1에서 2로 바뀔 때와 같은 신호 처리의 근간에 이르는 큰 변경이 아니라, 부자연스러운 부분을 수정하여 개선하는 방향으로 개발되었으며, 라이브러리 제작은 기본적으로 VOCALOID2와 같으므로, 2용 라이브러리를 변환하여 사용할 수도 있다. 언어는 기존의 "일본어", "영어"에 새롭게 "중국어", "한국어", "스페인어" 등 총 5개 언어를 지원한다. 2013년 8월 이후로는 Windows/Mac OS X 모두 지원하는 라이브러리의 출시도 이루어져, 라이브러리에 따라 Mac OS X에서 사용할 수 있게 되었다.

2까지는 에디터와 라이브러리 세트로만 판매되었지만, 3에서는 라이브러리와 에디터를 따로 판매한다. 에디터는 "VOCALOID3 Editor", 라이브러리에 포함된 기능 제한판인 "Tiny VOCALOID3 Editor", DAW "큐베이스"(Cubase)에서 작동하는 "VOCALOID Editor for Cubase", 크립톤 퓨처 미디어 제작의 "Piapro Studio"가 제공된다.

* VOCALOID3 Editor (보컬로이드3 에디터)
* "VOCALOID Editor", "VOCALOID2 Editor"에는 없던 기능으로, 에디터 단독으로 오디오트랙 재생과 VST이펙트 사용 외에도, VOCALOID3 에디터 고유의 Job Plugin이라는 Lua 스크립트 형식의 이펙터 구현 및 자작 등이 가능하다. VOCALOID3용일 뿐만 아니라, VOCALOID2용 라이브러리를 VOCALOID3용으로 변환하여 사용할 수도 있다. 또한, 2까지는 한 번밖에 할 수 없었던 실행 취소와 다시 실행이 3에서는 무한대로 가능해졌다.
* 한편, 2와 달리 ReWire나 VST 악기로 사용할 수 없고, "VOCALOID3 Editor"는 완전한 독립 실행형 음원이다. 단, 다른 소프트웨어 쪽에서 VOCALOID3 Editor와의 연동 기능을 제공하는 것도 있다. 인터넷(インターネット)사는 2012년 11월 9일에 출시한 DAW "Singer Song Writer 10"에 "VOCALOID3 Editor"와 ReWire 연결을 수행하는 플러그인을 탑재했고, 2013년 12월 19일에 AHS가 출시한 MAGIX 제작 DAW "Music Maker MX2 Producer Edition"에는 VOCALOID3 Editor를 연동하여 조작할 수 있는 "V3Sync" 기능이 탑재되어 있다.
* Windows 버전만 해당.

* Tiny VOCALOID3 Editor (타이니 보컬로이드3 에디터)
* 라이브러리에 포함된 기능 제한판 에디터. 17마디까지, 1트랙만 등 제한이 있지만, 라이브러리 단독 구매만으로도 목소리를 출력할 수 있게 되었다.
* Windows 버전만 해당.

* VOCALOID Editor for Cubase (보컬로이드 에디터 포 큐베이스)
* VOCALOID Editor for Cubase NEO (보컬로이드 에디터 포 큐베이스 네오)
* Steinberg사의 DAW "Cubase"에 "VOCALOID3 Editor"의 기능을 통합할 수 있다. 2013년 1월에 Windows 전용 "VOCALOID Editor for Cubase"가 출시되었고, 같은 해 8월에 Windows/Mac OS X 모두 지원하는 "VOCALOID Editor for Cubase NEO"가 출시되었다.

* Piapro Studio (피아프로 스튜디오)
* 야마하가 아닌 크립톤 퓨처 미디어 제작의 에디터로, VST 악기 또는 AU 악기로 작동한다. VOCALOID Editor의 데이터 파일인 vsq, vsqx 파일을 읽어들여 그대로 사용할 수도 있다. 2013년 2월 15일 발매된 "KAITO V3"부터 동사 제작 음원에 포함되는 형태로 제공된다. 2013년 8월 31일에 Windows/Mac OS X 모두 지원하게 되었다.

===== VOCALOID4 =====
2014년 11월 20일에 발표된 보컬로이드 엔진이다. 기존 VOCALOID3에서 품질이 향상되었으며 새로운 기능인 '그로울(Growl)', '리얼타임 레코딩(Realtime Recording)', '피치 렌더링(Pitch Rendering)', '피치 스냅 모드(Pitch Snap Mode)', '크로스 신세시스(Cross Synthesis)'가 추가되었다. 같은 해 12월 17일에 기본 에디터인 VOCALOID4 Editor와 큐베이스 대응 에디터인 VOCALOID4 Editor for Cubase, 그리고 VOCALOID4 대응 라이브러리 VY1V4가 동시에 발매되었다.

2014년 11월 20일에 발표되어, 같은 해 12월 17일부터 음성 편집 소프트웨어인 "VOCALOID4 Editor"와 "VOCALOID4 Editor for Cubase", 음성 라이브러리 제1탄으로 "VOCALOID4 Library VY1V4"가 출시되었다.

이번 버전의 특징은 "표현력"과 "사용 편의성"이며, 새롭게 목소리를 떨며 낮게 내는 소리를 낼 수 있는 "그로울(グロウル)"과 여러 음성 라이브러리를 혼합하여 새로운 음색을 만들거나 라이브러리 간에 음성 제어가 가능한 "크로스 신세시스(クロスシンセシス)"가 탑재되었다. 또한, 피치와 비브라토의 걸리는 정도를 시각적으로 알 수 있는 그래프를 그리는 "피치 렌더링(ピッチレンダリング)", 지금까지 VOCALOID 음성 합성 엔진이 생성했던 피치 곡선을 끄고 로봇 같은 목소리를 생성할 수 있는 "피치 스냅 모드(ピッチスナップモード)", 외부 MIDI 입력 정보를 바탕으로 자음을 우선적으로 발음하기 위해 설정된 지연을 없앤 발성을 하여 VOCALOID 편집 화면에 반영하는 "실시간 레코딩(リアルタイムレコーディング)"이 탑재되었다. 이러한 새로운 기능은 전용 파형 데이터가 필요한 그로울을 제외하고 VOCALOID3의 음성 라이브러리에서도 사용할 수 있다.

음성 라이브러리로는 야마하 외에도 크립톤 퓨처 미디어, AHS, 주식회사 인터넷 각사가 기존 제품의 VOCALOID4 대응 버전 개발을 진행 중이라고 발표했다.

Piapro Studio의 음성 합성 엔진은 2015년 3월 19일에 발매된 "하츠네 미쿠(巡音ルカ) V4X"를 도입함으로써 VOCALOID4 대응 엔진으로 업그레이드할 수 있다.

또한, 이 버전부터 음성 라이브러리에 Tiny VOCALOID Editor가 포함되지 않게 되었다.

===== VOCALOID5 =====
VOCALOID5 로고
VOCALOID5 로고

2018년 7월 12일에 발표된 보컬로이드 엔진이다. 인터페이스가 개선되었으며, 첫 번째 라이브러리는 하루노 소라이다.

보컬로이드5(Vocaloid 5)는 사용자 인터페이스가 대폭 개선되고 엔진이 크게 향상되었다. 이 제품은 번들로만 제공되며, 표준 버전에는 네 가지 음성이, 프리미엄 버전에는 여덟 가지 음성이 포함된다. VOCALOID2 이후로는 처음으로 보컬과 함께 보컬로이드 엔진이 판매되었는데, 이전에는 VOCALOID3부터 별도로 판매되었다.

VOCALOID4부터 UI를 새롭게 했고, 최초로 Mac에서 독립 실행형으로 지원하는 제품이다. 또한 이 버전부터 Steinberg사의 DAW "Nuendo"에서도 작동하게 되었다. 2000개 이상의 프리셋 프레이즈와 오디오를 드래그 앤 드롭만으로 노래의 기본이 완성되는 새로운 제작 흐름을 채택하여, 미리 가사가 들어있는 조정된 프레이즈 중에서 마음에 드는 것을 선택하여 붙이기만 하면 음성 제작이 가능해졌다. 사용자가 세밀하게 조정하는 방식이었던 노래 표현 조정도, 알기 쉽게 시각화된 아이콘을 선택하기만 하면 더욱 빠르고 직접적으로 크리에이터의 감성을 반영할 수 있게 되었다. 또한, 좋아하는 노래 방식, 음색으로 한 번에 변환하는 "스타일 기능", 스스로 조정하기 어려웠던 비브라토 등의 노래 표현 기법을 아이콘을 선택하여 붙이기만 하면 반영할 수 있는 "어택&릴리스 이펙트", 노래의 강약이나 속도, 음소의 길이 등을 파형을 보면서 마우스 조작만으로 조정할 수 있는 "이모션 툴"을 탑재하고 있다. 판매 형태는 스탠다드와 프리미엄 두 가지이며, 둘 다 보이스 뱅크를 미리 탑재하고 있다. 스탠다드는 Amy(여성 영어), Chris(남성 영어), Kaori(여성 일본어), Ken(남성 일본어) 4종. 프리미엄은 여기에 기존 제품 4종(CYBER DIVA II, CYBER SONGMAN II, VY1, VY2)을 더한 8종이다.

===== VOCALOID6 =====
2022년 10월에 출시되었다. 이번 버전은 사전 발표 없이 갑작스럽게 출시되었다.

이 버전부터 "VOCALOID:AI"가 탑재되어 AI 기술을 통해 VOCALOID5보다 만들 수 있는 음성의 폭이 이전보다 압도적으로 넓어졌다. 또한, 이 버전부터 고품질 보컬 제작이 가능한 "더블링(ダブリング)", 음성 데이터를 가져옴으로써 음성을 그대로 VOCALOID6용 보이스 뱅크에서 재현할 수 있는 "VOC

2.1. 시스템 구성

### 스코어 에디터

스코어 에디터(Score editor영어)는 사용자가 음표나 멜로디를 입력할 수 있는 부분이다. 일본어 라이브러리는 히라가나가타카나, 로마자를 사용하여 가사를 입력할 수 있으며, 영어 라이브러리는 특정 영어 단어를 입력하면 내부 발음 사전에 의해 자동으로 발음 기호로 변환된다. 발음 사전에 등록되어 있지 않는 단어의 경우 직접 발음 기호를 입력해야 하는 불편함이 있다.

스코어 에디터 (예시)
스코어 에디터 (예시)

곡 예시: "사쿠라 사쿠라"
곡 예시: "사쿠라 사쿠라"


VOCALOID3부터는 한국어, 중국어도 지원된다. 다만 한국어 라이브러리는 한글만 가능하고 로마자 입력이 불가능하다는 단점이 있다.

스코어 에디터는 음표, 가사, 그리고 일부 표현을 입력하기 위한 피아노 롤 스타일의 에디터이다. 가사를 입력할 때, 에디터는 내장된 발음 사전을 사용하여 가사를 보컬로이드 음성 기호로 자동 변환한다. 사용자는 등록되지 않은 단어의 음성 기호를 직접 편집할 수 있다. 스코어 에디터는 노래하는 목소리에 표현을 추가하기 위한 다양한 매개변수를 제공한다. 사용자는 목소리를 만들 때 합성된 곡에 가장 적합한 이러한 매개변수를 최적화해야 한다. 이 에디터는 ReWire를 지원하며 DAW와 동기화될 수 있다. MIDI 키보드를 사용하여 미리 정의된 가사가 포함된 곡의 실시간 "재생"도 지원된다.

### 음성 라이브러리

가성 라이브러리(Singer library영어)에는 음절별로 나뉘어진 음성 조각이 있다. 이 음성 조각은 성우에게 단어나 문장을 읽게 한 뒤 음절별로 나누어 만들어지며, 라이선스는 야마하에서 가지고 있다.

보컬로이드 라이선스는 실제 사람의 음성 조각을 샘플링한 보컬 라이브러리 또는 데이터베이스를 개발한다. 데이터베이스에는 대상 언어의 모든 가능한 음소 조합이 포함되어야 하며, 이음절(두 개의 다른 음소의 연쇄)과 지속적인 모음뿐만 아니라 필요한 경우 두 개 이상의 음소를 가진 다음음절도 포함된다. 예를 들어, "sing"([sIN])이라는 단어에 해당하는 음성은 지속적인 모음 ī와 함께 이음절 "#-s, s-I, I-N, N-#" ( #은 무성 음소를 나타냄)의 순서를 연결하여 합성할 수 있다. 보컬로이드 시스템은 이러한 조각의 피치를 바꿔 멜로디에 맞춘다. 더욱 자연스러운 사운드를 얻으려면 세 개 또는 네 개의 다른 음역을 라이브러리에 저장해야 한다. 일본어의 경우 음역당 500개의 이음절이 필요하지만, 영어의 경우 2,500개가 필요하다. 일본어는 음소가 적고 대부분의 음절 소리가 개방음절(모음으로 끝나는)이기 때문에 이음절이 적다. 일본어에는 기본적으로 자음을 포함하는 이음절 패턴이 세 가지 있다. 무성음-자음, 모음-자음, 자음-모음이다. 반면 영어는 자음으로 끝나는 폐쇄음절이 많고, 자음-자음 및 자음-무성음 이음절도 있다. 따라서 영어 라이브러리에는 일본어 라이브러리보다 더 많은 이음절을 녹음해야 한다. 이러한 언어적 차이로 인해 일본어 라이브러리는 유창한 영어를 부르는 데 적합하지 않다.

가수 라이브러리의 음성 조각은 필요한 음소의 조합을 효율적으로 수집하기 위해 제작된, 스크립트라고 불리는 전용 노래를 녹음하고, 거기에서 필요한 부분을 잘라내어 만들어진다. 영어용 라이브러리는 일본어에 비해 필요한 음성 조각이 많기 때문에 필요한 녹음도 많아지고, 데이터베이스의 용량도 커진다. 스크립트는 많은 제품에서 가사에 특별히 의미 없는 "주문"과 같은 것이 사용되고 있지만, 2010년 9월에 발매된 VY1에서는 제공자의 스트레스 경감을 목표로 가사에 의미 있는 단어를 섞는 등의 고안이 도입되는 등, 끊임없이 개량이 진행되고 있다.

또한, 과거 사람의 노래 소리를 재현하는 시도도 이루어지고 있으며, 2011년에 쇼와 시대를 대표하는 가수인 히바리 미소라의 라이브러리가 발표되었다. 라이브러리를 제작하려면 보컬 트랙만으로, 또한 필요한 음소가 갖춰진 녹음이 필요하다는 점에서, 사망한 가수의 목소리를 사용하여 라이브러리를 만든다는 것은 기본적으로 불가능하다고 여겨졌지만, 우키키의 라이브러리에서는 우키키의 장남의 노래 소리로 만들어진 라이브러리에, 두 사람의 목소리 차이를 수학적으로 추출하여 만든 변환 함수를 거는 방법으로 우키키의 목소리를 재현하고 있다. 2014년에는 싱어송라이터 hide의 노래 소리를 VOCALOID를 활용하여 재현한 음악의 발매가 발표되었다. hide의 음악에서는, 생전의 보컬 데이터를 분석하여 VOCALOID에 필요한 음성 조각을 추출하고, 부족한 음성에 대해서는 야마하의 음성 변환 기술을 활용하여 제작되었다. 2019년에는 "쇼와의 여가수"라고 불린 히바리 미소라(1989년 사망)의 노래 소리를 VOCALOID를 활용하여 재현한 음악이 발표되었다. 히바리의 음악에서는, 생전의 노래와 말소리를 인공지능에 학습시켜, 그것을 바탕으로 심층 학습 기술에 의해 노래 소리를 재현하는 "VOCALOID:AI"라는 신기술이 사용되고 있다.

보컬로이드의 라이브러리를 제작하려면 노래 소리 제공을 받을 필요가 있지만, 당초에는 가수의 협력을 얻기 어려웠고, 노래 소리 제공자가 명확하게 밝혀진 최초의 제품인 MIRIAM에서는 미리암 스톡리가 자신의 노래 소리 제공을 결정할 때까지 2, 3개월 걸렸다는 것을 밝히고 있다. 일본 국내 제작사에 대해서도, 크립톤 퓨처 미디어사에서는 2007년부터 전개하고 있는 캐릭터 보컬 시리즈에 가수가 아닌 성우를 기용하게 된 계기로서 가수의 기용이 잘 되지 않았다는 점을 들고 있으며, 인터넷사에서도 2008년에 발매한 가쿠포이드에 이은 제2탄의 기획에서 가수의 기용이 난항을 겪었다는 것이 전해지고 있다. 그러나 2010년에는 릴리와 같이, VOCALOID를 발매함으로써 가수의 홍보 효과를 예상하여 기획되는 제품도 등장했다. 2011년 이후로는, 음악 레이블이나 연예 기획사에서 판매되는 제품도 등장하고 있다.

보컬로이드 음성 라이브러리 제작 과정(2014년 야마하 사례)은 다음과 같다.

1. 가수 이미지 결정

어떤 음색을 만들 것인지 결정한다.

2. 준비

몇몇 후보 가수를 선정하여 가 레코딩을 통해 프로토타입을 제작한다. 이미지에 맞춰 음색을 만들거나, 다른 가수의 목소리를 들으면서 음성 이미지를 구체화하고 가수를 결정한다. 가수의 녹음 리허설 역할도 하며, 장시간의 특수한 녹음 중에도 안정적으로 목소리를 유지할 수 있는지 확인한다. 녹음부터 출시까지의 일정을 계획한다.

3. 레코딩

레코딩은 같은 가사를 음역을 바꿔 녹음하며, 일반적으로 약 6시간이 걸린다.
가수의 장점인 음역과 체력을 고려하여, 잘하는 음역을 먼저 녹음하거나, 날짜를 나누는 경우도 있다. 녹음 장비는 스튜디오에 설치된 장비를 사용하며, 가공하지 않은 상태로 Pro Tools 등의 DAW에 녹음한다. 야마하는 개발 스태프가 에피큐러스 스튜디오를 많이 이용했으나 폐쇄되었기 때문에, STUDIO HIPPO, 스튜디오 소닉 가든을 이용하고, 마이크는 노이만 U87Ai, 소니 C-800G 등, 프리앰프는 NEVE, AMEK system, Focusrite, Grace Design 등을 적절히 검토하여 사용한다.
녹음 내용은 대본에 있는 가사를 같은 음정, 같은 템포로 부르는 목소리이다. 음역은 일반적으로 저음, 중음, 고음의 3음역을 녹음한다. 대본에는 "애매한", "몇 개" 등 단편적인 4글자 단어의 지정이 있으며, 가수는 메트로놈과 음정 가이드 음을 들으면서 노래한다. 대본에는 예를 들어 "애매한"이라면 "무음→a", "i→m" … 등 음소로 수집한다는 설명이 있으며, 녹음자는 그 부분을 주의 깊게 모니터링한다. VOCALOID2 초기까지의 대본은 "아다아다이다" 등 무의미한 가사가 지시되어, 가수와 녹음자에게 고통이 되고, 연주 시 연결도 부자연스러워지기 쉬웠기 때문에 개선이 요구되었다.

4. 편집

녹음된 음성 데이터에서 음소를 선택하여 보컬로이드 음성 라이브러리를 만드는 작업으로, 수개월~1년 이상 걸릴 수 있다.
먼저, 스테이셔너리 부분(늘리는 소리)과 아티큘레이션 부분(변화하는 부분)이라는 음소로 채택할 부분을, 재녹음을 포함한 대량의 음성 데이터에서 최적의 부분을 선택하여 잘라내고, 음소 하나하나의 파일로 저장한다. 아티큘레이션에는 2음소와 3음소가 예상되지만, 일본어의 경우 2음소 약 500종류가 필요하며, 저음, 중음, 고음 3음역으로 녹음할 경우 약 1500개의 데이터가 추출된다.

다음으로 WaveLab 등의 음성 파형 편집 소프트웨어를 사용하여 잘라낸 음성 데이터를 처리한다. 많은 파일들에 대해 음압 조정, 음질 조정, 립 노이즈 제거 등의 처리를 하는 작업으로, 상당한 인내심을 요구하는 작업이며, 동시에 최종 제품의 음질에 크게 관련된 조정이다.

5. 변환

다음으로, 야마하에서 제공하는 라이브러리 제작 툴을 사용하여 음성 파일을 보컬로이드 음성 라이브러리로 변환한다.

이것을 VOCALOID 에디터로 시연하면 발음이 불명확하거나, 노이즈가 들어가거나, 연결이 부자연스러운 등 여러 가지 문제점이 발견된다. 그러한 것들에 대해 원래대로 돌아가 다시 처리하거나 추출 범위를 미세 조정하여 수정 버전 라이브러리를 만들고, 시연과 조정을 반복한다.

6. 완성

어느 정도 완성에 가까워지면 사용자 의견 등도 반영하여 최종 버전을 출시한다.

### 합성 엔진

합성 엔진(Synthesis engine영어)은 스코어 에디터에 입력된 정보를 바탕으로 가성 라이브러리에서 적절한 음성 조각을 골라 주파수, 피치 등을 조절하여 음성을 합성한다.

보컬로이드 합성 엔진
보컬로이드 합성 엔진


합성 엔진은 스코어 에디터에서 보내는 보컬로이드 MIDI라고 하는 전용 MIDI 메시지에 포함된 악보 정보를 받아, 선택된 샘플의 음고와 음색을 주파수 영역에서 조정하고, 이들을 이어 붙여 노래하는 목소리를 합성한다. 보컬로이드DAW에서 접근 가능한 VSTi로 실행될 때, 번들된 플러그인은 스코어 에디터를 우회하여 이러한 메시지를 합성 엔진으로 직접 보낸다.

;음고 변환
:샘플은 서로 다른 음고로 녹음되므로, 샘플을 연결할 때 음고 변환이 필요하다. 엔진은 음표, 어택 타임 및 비브라토 매개변수로부터 원하는 음고를 계산한 다음, 라이브러리에서 필요한 샘플을 선택한다.

;타이밍 조정
:노래하는 목소리에서는 음절의 자음 온셋이 모음 온셋보다 먼저 발음된다. 음표의 시작 위치("Note-On")는 음절의 시작이 아니라 모음 온셋과 같아야 한다. 보컬로이드는 모음 온셋이 "Note-On" 위치에 정확히 일치하도록 샘플 타이밍을 조정하기 위해 메모리에 "합성된 악보"를 유지한다. 타이밍 조정이 없으면 지연이 발생한다.

;샘플 연결
샘플 간의 스펙트럼 엔벨로프 보간
샘플 간의 스펙트럼 엔벨로프 보간

음색 조작을 위한 스펙트럼 피크 처리(SPP)
음색 조작을 위한 스펙트럼 피크 처리(SPP)

:처리된 샘플을 연결할 때, 위상 보정을 통해 샘플 간의 위상을 분산시키고, 여기 + 공명(EpR) 모델이라고 하는 음원-필터 모델을 사용하여 스펙트럼 형태를 추정하여 불연속성을 줄인다.

;음색 조작
:엔진은 샘플의 연결 부근에서 음색을 부드럽게 한다. 지속적인 모음의 음색은 주변 샘플의 스펙트럼 엔벨로프를 보간하여 생성된다. 예를 들어, 영어 단어 "set"의 이중음 "s-e, e, e-t" 시퀀스를 연결할 때, 각 프레임의 지속적인 ē의 스펙트럼 엔벨로프는 "s-e"의 끝에 있는 ē와 "e-t"의 시작 부분에 있는 ē를 보간하여 생성된다.

;변환
:음고 변환 및 음색 조작 후, 엔진은 역 고속 푸리에 변환(IFFT)과 같은 변환을 수행하여 합성된 음성을 출력한다.

2.1.1. 스코어 에디터

스코어 에디터(Score editor영어)는 사용자가 음표나 멜로디를 입력할 수 있는 부분이다. 일본어 라이브러리는 히라가나가타카나, 로마자를 사용하여 가사를 입력할 수 있으며, 영어 라이브러리는 특정 영어 단어를 입력하면 내부 발음 사전에 의해 자동으로 발음 기호로 변환된다. 발음 사전에 등록되어 있지 않는 단어의 경우 직접 발음 기호를 입력해야 하는 불편함이 있다.

스코어 에디터 (예시)
스코어 에디터 (예시)

곡 예시: "사쿠라 사쿠라"
곡 예시: "사쿠라 사쿠라"


VOCALOID3부터는 한국어, 중국어도 지원된다. 다만 한국어 라이브러리는 한글만 가능하고 로마자 입력이 불가능하다는 단점이 있다.

스코어 에디터는 음표, 가사, 그리고 일부 표현을 입력하기 위한 피아노 롤 스타일의 에디터이다. 가사를 입력할 때, 에디터는 내장된 발음 사전을 사용하여 가사를 보컬로이드 음성 기호로 자동 변환한다. 사용자는 등록되지 않은 단어의 음성 기호를 직접 편집할 수 있다. 스코어 에디터는 노래하는 목소리에 표현을 추가하기 위한 다양한 매개변수를 제공한다. 사용자는 목소리를 만들 때 합성된 곡에 가장 적합한 이러한 매개변수를 최적화해야 한다. 이 에디터는 ReWire를 지원하며 DAW와 동기화될 수 있다. MIDI 키보드를 사용하여 미리 정의된 가사가 포함된 곡의 실시간 "재생"도 지원된다.

2.1.2. 음성 라이브러리

가성 라이브러리()에는 음절별로 나뉘어진 음성 조각이 있다. 이 음성 조각은 성우에게 단어나 문장을 읽게 한 뒤 음절별로 나누어 만들어지며, 라이선스는 야마하에서 가지고 있다.

보컬로이드 라이선스는 실제 사람의 음성 조각을 샘플링한 보컬 라이브러리 또는 데이터베이스를 개발한다. 데이터베이스에는 대상 언어의 모든 가능한 음소 조합이 포함되어야 하며, 이음절(두 개의 다른 음소의 연쇄)과 지속적인 모음뿐만 아니라 필요한 경우 두 개 이상의 음소를 가진 다음음절도 포함된다. 예를 들어, "sing"([sIN])이라는 단어에 해당하는 음성은 지속적인 모음 ī와 함께 이음절 "#-s, s-I, I-N, N-#" ( #은 무성 음소를 나타냄)의 순서를 연결하여 합성할 수 있다. 보컬로이드 시스템은 이러한 조각의 피치를 바꿔 멜로디에 맞춘다. 더욱 자연스러운 사운드를 얻으려면 세 개 또는 네 개의 다른 음역을 라이브러리에 저장해야 한다. 일본어의 경우 음역당 500개의 이음절이 필요하지만, 영어의 경우 2,500개가 필요하다. 일본어는 음소가 적고 대부분의 음절 소리가 개방음절(모음으로 끝나는)이기 때문에 이음절이 적다. 일본어에는 기본적으로 자음을 포함하는 이음절 패턴이 세 가지 있다. 무성음-자음, 모음-자음, 자음-모음이다. 반면 영어는 자음으로 끝나는 폐쇄음절이 많고, 자음-자음 및 자음-무성음 이음절도 있다. 따라서 영어 라이브러리에는 일본어 라이브러리보다 더 많은 이음절을 녹음해야 한다. 이러한 언어적 차이로 인해 일본어 라이브러리는 유창한 영어를 부르는 데 적합하지 않다.

가수 라이브러리의 음성 조각은 필요한 음소의 조합을 효율적으로 수집하기 위해 제작된, 스크립트라고 불리는 전용 노래를 녹음하고, 거기에서 필요한 부분을 잘라내어 만들어진다. 영어용 라이브러리는 일본어에 비해 필요한 음성 조각이 많기 때문에 필요한 녹음도 많아지고, 데이터베이스의 용량도 커진다. 스크립트는 많은 제품에서 가사에 특별히 의미 없는 "주문"과 같은 것이 사용되고 있지만, 2010년 9월에 발매된 VY1에서는 제공자의 스트레스 경감을 목표로 가사에 의미 있는 단어를 섞는 등의 고안이 도입되는 등, 끊임없이 개량이 진행되고 있다.

또한, 과거 사람의 노래 소리를 재현하는 시도도 이루어지고 있으며, 2011년에 쇼와 시대를 대표하는 가수인 우키키 등(2007년 사망)의 라이브러리가 발표되었다. 라이브러리를 제작하려면 보컬 트랙만으로, 또한 필요한 음소가 갖춰진 녹음이 필요하다는 점에서, 사망한 가수의 목소리를 사용하여 라이브러리를 만든다는 것은 기본적으로 불가능하다고 여겨졌지만, 우키키의 라이브러리에서는 우키키의 장남 히로코 이치의 노래 소리로 만들어진 라이브러리에, 두 사람의 목소리 차이를 수학적으로 추출하여 만든 변환 함수를 거는 방법으로 우키키의 목소리를 재현하고 있다. 2014년에는 싱어송라이터 hide(1998년 사망)의 노래 소리를 VOCALOID를 활용하여 재현한 음악의 발매가 발표되었다. hide의 음악에서는, 생전의 보컬 데이터를 분석하여 VOCALOID에 필요한 음성 조각을 추출하고, 부족한 음성에 대해서는 야마하의 음성 변환 기술을 활용하여 제작되었다. 2019년에는 "쇼와의 여가수"라고 불린 히바리 미소라(1989년 사망)의 노래 소리를 VOCALOID를 활용하여 재현한 음악이 발표되었다. 히바리의 음악에서는, 생전의 노래와 말소리를 인공지능에 학습시켜, 그것을 바탕으로 심층 학습 기술에 의해 노래 소리를 재현하는 "VOCALOID:AI"라는 신기술이 사용되고 있다.

보컬로이드의 라이브러리를 제작하려면 노래 소리 제공을 받을 필요가 있지만, 당초에는 가수의 협력을 얻기 어려웠고, 노래 소리 제공자가 명확하게 밝혀진 최초의 제품인 MIRIAM에서는 미리암 스톡리가 자신의 노래 소리 제공을 결정할 때까지 2, 3개월 걸렸다는 것을 밝히고 있다. 일본 국내 제작사에 대해서도, 크립톤 퓨처 미디어사에서는 2007년부터 전개하고 있는 캐릭터 보컬 시리즈에 가수가 아닌 성우를 기용하게 된 계기로서 가수의 기용이 잘 되지 않았다는 점을 들고 있으며, 또한 인터넷사에서도 2008년에 발매한 가쿠포이드에 이은 제2탄의 기획에서 가수의 기용이 난항을 겪었다는 것이 전해지고 있다. 그러나 2010년에는 릴리와 같이, VOCALOID를 발매함으로써 가수의 홍보 효과를 예상하여 기획되는 제품도 등장했다. 2011년 이후로는, 큐엔 레코드, SBS Artech, 1st PLACE와 같은 음악 레이블이나 연예 기획사에서 판매되는 제품도 등장하고 있다.

보컬로이드 음성 라이브러리 제작 과정(2014년 야마하 사례)은 다음과 같다.

1. 가수 이미지 결정

어떤 음색을 만들 것인지 결정한다.

2. 준비

몇몇 후보 가수를 선정하여 가 레코딩을 통해 프로토타입을 제작한다. 이미지에 맞춰 음색을 만들거나, 다른 가수의 목소리를 들으면서 음성 이미지를 구체화하고 가수를 결정한다. 가수의 녹음 리허설 역할도 하며, 장시간의 특수한 녹음 중에도 안정적으로 목소리를 유지할 수 있는지 확인한다. 녹음부터 출시까지의 일정을 계획한다.

3. 레코딩

레코딩은 같은 가사를 음역을 바꿔 녹음하며, 일반적으로 약 6시간이 걸린다.
가수의 장점인 음역과 체력을 고려하여, 잘하는 음역을 먼저 녹음하거나, 날짜를 나누는 경우도 있다. 녹음 장비는 스튜디오에 설치된 장비를 사용하며, 가공하지 않은 상태로 Pro Tools 등의 DAW에 녹음한다. 야마하는 개발 스태프가 에피큐러스 스튜디오를 많이 이용했으나 폐쇄되었기 때문에, STUDIO HIPPO, 스튜디오 소닉 가든을 이용하고, 마이크는 노이만 U87Ai, 소니 C-800G 등, 프리앰프는 NEVE, AMEK system, Focusrite, Grace Design 등을 적절히 검토하여 사용한다.
녹음 내용은 대본에 있는 가사를 같은 음정, 같은 템포로 부르는 목소리이다. 음역은 일반적으로 저음, 중음, 고음의 3음역을 녹음한다. 대본에는 "애매한", "몇 개" 등 단편적인 4글자 단어의 지정이 있으며, 가수는 메트로놈과 음정 가이드 음을 들으면서 노래한다. 대본에는 예를 들어 "애매한"이라면 "무음→a", "i→m" … 등 음소로 수집한다는 설명이 있으며, 녹음자는 그 부분을 주의 깊게 모니터링한다. VOCALOID2 초기까지의 대본은 "아다아다이다" 등 무의미한 가사가 지시되어, 가수와 녹음자에게 고통이 되고, 연주 시 연결도 부자연스러워지기 쉬웠기 때문에 개선이 요구되었다.

4. 편집

녹음된 음성 데이터에서 음소를 선택하여 보컬로이드 음성 라이브러리를 만드는 작업으로, 수개월~1년 이상 걸릴 수 있다.
먼저, 스테이셔너리 부분(늘리는 소리)과 아티큘레이션 부분(변화하는 부분)이라는 음소로 채택할 부분을, 재녹음을 포함한 대량의 음성 데이터에서 최적의 부분을 선택하여 잘라내고, 음소 하나하나의 파일로 저장한다. 아티큘레이션에는 2음소와 3음소가 예상되지만, 일본어의 경우 2음소 약 500종류가 필요하며, 저음, 중음, 고음 3음역으로 녹음할 경우 약 1500개의 데이터가 추출된다.

다음으로 WaveLab 등의 음성 파형 편집 소프트웨어를 사용하여 잘라낸 음성 데이터를 처리한다. 많은 파일들에 대해 음압 조정, 음질 조정, 립 노이즈 제거 등의 처리를 하는 작업으로, 상당한 인내심을 요구하는 작업이며, 동시에 최종 제품의 음질에 크게 관련된 조정이다.

5. 변환

다음으로, 야마하에서 제공하는 라이브러리 제작 툴을 사용하여 음성 파일을 보컬로이드 음성 라이브러리로 변환한다.

이것을 VOCALOID 에디터로 시연하면 발음이 불명확하거나, 노이즈가 들어가거나, 연결이 부자연스러운 등 여러 가지 문제점이 발견된다. 그러한 것들에 대해 원래대로 돌아가 다시 처리하거나 추출 범위를 미세 조정하여 수정 버전 라이브러리를 만들고, 시연과 조정을 반복한다.

6. 완성

어느 정도 완성에 가까워지면 사용자 의견 등도 반영하여 최종 버전을 출시한다.

2.1.3. 합성 엔진

합성 엔진(Synthesis engine영어)은 스코어 에디터에 입력된 정보를 바탕으로 가성 라이브러리에서 적절한 음성 조각을 골라 주파수, 피치 등을 조절하여 음성을 합성한다.

보컬로이드 합성 엔진
보컬로이드 합성 엔진


합성 엔진은 스코어 에디터에서 보내는 보컬로이드 MIDI라고 하는 전용 MIDI 메시지에 포함된 악보 정보를 받아, 선택된 샘플의 음고와 음색을 주파수 영역에서 조정하고, 이들을 이어 붙여 노래하는 목소리를 합성한다. 보컬로이드가 DAW에서 접근 가능한 VSTi로 실행될 때, 번들된 VST 플러그인은 스코어 에디터를 우회하여 이러한 메시지를 합성 엔진으로 직접 보낸다.

;음고 변환
:샘플은 서로 다른 음고로 녹음되므로, 샘플을 연결할 때 음고 변환이 필요하다. 엔진은 음표, 어택 타임 및 비브라토 매개변수로부터 원하는 음고를 계산한 다음, 라이브러리에서 필요한 샘플을 선택한다.

;타이밍 조정
:노래하는 목소리에서는 음절의 자음 온셋이 모음 온셋보다 먼저 발음된다. 음표의 시작 위치("Note-On")는 음절의 시작이 아니라 모음 온셋과 같아야 한다. 보컬로이드는 모음 온셋이 "Note-On" 위치에 정확히 일치하도록 샘플 타이밍을 조정하기 위해 메모리에 "합성된 악보"를 유지한다. 타이밍 조정이 없으면 지연이 발생한다.

;샘플 연결
샘플 간의 스펙트럼 엔벨로프 보간
샘플 간의 스펙트럼 엔벨로프 보간

음색 조작을 위한 스펙트럼 피크 처리(SPP)
음색 조작을 위한 스펙트럼 피크 처리(SPP)

:처리된 샘플을 연결할 때, 위상 보정을 통해 샘플 간의 위상을 분산시키고, 여기 + 공명(EpR) 모델이라고 하는 음원-필터 모델을 사용하여 스펙트럼 형태를 추정하여 불연속성을 줄인다.

;음색 조작
:엔진은 샘플의 연결 부근에서 음색을 부드럽게 한다. 지속적인 모음의 음색은 주변 샘플의 스펙트럼 엔벨로프를 보간하여 생성된다. 예를 들어, 영어 단어 "set"의 이중음 "s-e, e, e-t" 시퀀스를 연결할 때, 각 프레임의 지속적인 ē의 스펙트럼 엔벨로프는 "s-e"의 끝에 있는 ē와 "e-t"의 시작 부분에 있는 ē를 보간하여 생성된다.

;변환
:음고 변환 및 음색 조작 후, 엔진은 역 고속 푸리에 변환(IFFT)과 같은 변환을 수행하여 합성된 음성을 출력한다.

2.2. 버전

2003년 2월에 발표된 보컬로이드 엔진이다. 영어일본어 총 2개의 언어를 지원한다.
일반적으로 "V1(브이원)"으로 불린다.
2004년 1월부터 2006년 2월까지 ZERO-G와 크립톤 퓨처 미디어 두 회사에서 PC용 패키지 5개 제품이 출시되었다.
이후 버전과의 호환성이 없어, 보컬 라이브러리를 VOCALOID2 이후의 에디터에서 사용할 수 없다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다.

2007년 1월에 발표된 보컬로이드 엔진이다. 같은 해 6월부터 2011년 4월까지 PowerFX, 크립톤 퓨처 미디어, ZERO-G, 주식회사 인터넷, AHS, 야마하, 큔 뮤직에서 VOCALOID2 제품 22개를 출시하였다. 영어일본어를 지원한다. 기존 보컬로이드에서 합성 엔진이 완전히 교체되었으며, 에디터의 인터페이스도 개선되었다.
1세대 VOCALOID에서 합성 엔진이 완전히 바뀌었고, 에디터 인터페이스도 새롭게 바뀌었다. 노이즈로 잘라냈던 숨소리 등을 원음 그대로 살려 더욱 사실적인 목소리를 구현할 수 있게 되었고, 허스키한 목소리에도 대응할 수 있게 되었다. 일본어영어 2개 언어를 지원한다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다. 미리 가사를 입력해 두고 MIDI키보드를 사용하여 실시간으로 노래를 "연주"할 수도 있다.

야마하가 2011년 10월 21일에 발매한 보컬로이드 엔진이다. VOCALOID2와 크게 달라진 점은 없으며, 목소리와 반주를 동시에 재생할 수 있게 되었다. 언어는 기존 일본어, 영어뿐만 아닌 한국어, 중국어, 스페인어를 지원한다.
2011년 6월에 발표되었고, 같은 해 10월부터 제공이 시작되었다.
기존에 어려웠던 빠른 말 표현이나 음색 변화의 부드러움 등이 개선되었다고 한다. VOCALOID3에서는 1에서 2로 바뀔 때와 같은 신호 처리의 근간에 이르는 큰 변경이 아니라, 부자연스러운 부분을 수정하여 개선하는 방향으로 개발되었으며, 라이브러리 제작은 기본적으로 VOCALOID2와 같으므로, 2용 라이브러리를 변환하여 사용할 수도 있다. 언어는 기존의 "일본어", "영어"에 새롭게 "중국어", "한국어", "스페인어" 등 총 5개 언어를 지원한다. 2013년 8월 이후로는 Windows/Mac OS X 모두 지원하는 라이브러리의 출시도 이루어져, 라이브러리에 따라 Mac OS X에서 사용할 수 있게 되었다.
2까지는 에디터와 라이브러리 세트로만 판매되었지만, 3에서는 라이브러리와 에디터를 따로 판매한다. 에디터는 "VOCALOID3 Editor", 라이브러리에 포함된 기능 제한판인 "Tiny VOCALOID3 Editor", DAW "큐베이스"(Cubase)에서 작동하는 "VOCALOID Editor for Cubase", 크립톤 퓨처 미디어 제작의 "Piapro Studio"가 제공된다.

VOCALOID3 에디터는 총 4가지가 있는데, “VOCALOID3 Editor”와, “Tiny VOCALOID3 Editor”, “VOCALOID Editor for Cubase”, “VOCALOID Editor for Cubase NEO”가 있다.

Tiny VOCALOID3 Editor는 라이브러리에 동봉 되어있는 보컬 에디터인데, VOCALOID3 Editor에 비하여 기능이 한정되어 있다. 17소절만 이용 가능하며 오직 1트랙만 사용 가능하다.

VOCALOID Editor for Cubase는 2013년 1월 출시된 윈도우 전용의 VOCALOID3 에디터이고, VOCALOID Editor for Cubase NEO는 같은 해 8월 출시된 VOCALOID3 에디터이다. VOCALOID Editor for Cubase NEO는 Windows뿐만 아닌 Mac OS에도 대응한다. 지금은 판매하지 않는다.

* VOCALOID3 Editor (보컬로이드3 에디터)
* "VOCALOID Editor", "VOCALOID2 Editor"에는 없던 기능으로, 에디터 단독으로 오디오트랙 재생과 VST이펙트 사용 외에도, VOCALOID3 에디터 고유의 Job Plugin이라는 Lua 스크립트 형식의 이펙터 구현 및 자작 등이 가능하다. VOCALOID3용일 뿐만 아니라, VOCALOID2용 라이브러리를 VOCALOID3용으로 변환하여 사용할 수도 있다. 또한, 2까지는 한 번밖에 할 수 없었던 실행 취소와 다시 실행이 3에서는 무한대로 가능해졌다.
* 한편, 2와 달리 ReWire나 VST 악기로 사용할 수 없고, "VOCALOID3 Editor"는 완전한 독립 실행형 음원이다. 단, 다른 소프트웨어 쪽에서 VOCALOID3 Editor와의 연동 기능을 제공하는 것도 있다. 인터넷(インターネット)사는 2012년 11월 9일에 출시한 DAW "Singer Song Writer 10"에 "VOCALOID3 Editor"와 ReWire 연결을 수행하는 플러그인을 탑재했고, 2013년 12월 19일에 AHS가 출시한 MAGIX 제작 DAW "Music Maker MX2 Producer Edition"에는 VOCALOID3 Editor를 연동하여 조작할 수 있는 "V3Sync" 기능이 탑재되어 있다.
* Windows 버전만 해당.

* Tiny VOCALOID3 Editor (타이니 보컬로이드3 에디터)
* 라이브러리에 포함된 기능 제한판 에디터. 17마디까지, 1트랙만 등 제한이 있지만, 라이브러리 단독 구매만으로도 목소리를 출력할 수 있게 되었다.
* Windows 버전만 해당.

* VOCALOID Editor for Cubase (보컬로이드 에디터 포 큐베이스)
* VOCALOID Editor for Cubase NEO (보컬로이드 에디터 포 큐베이스 네오)
* Steinberg사의 DAW "Cubase"에 "VOCALOID3 Editor"의 기능을 통합할 수 있다. 2013년 1월에 Windows 전용 "VOCALOID Editor for Cubase"가 출시되었고, 같은 해 8월에 Windows/Mac OS X 모두 지원하는 "VOCALOID Editor for Cubase NEO"가 출시되었다.

* Piapro Studio (피아프로 스튜디오)
* 야마하가 아닌 크립톤 퓨처 미디어 제작의 에디터로, VST 악기 또는 AU 악기로 작동한다. VOCALOID Editor의 데이터 파일인 vsq, vsqx 파일을 읽어들여 그대로 사용할 수도 있다. 2013년 2월 15일 발매된 "KAITO V3"부터 동사 제작 음원에 포함되는 형태로 제공된다. 2013년 8월 31일에 Windows/Mac OS X 모두 지원하게 되었다.

2014년 11월 20일에 발표된 보컬로이드 엔진이다. 기존 VOCALOID3에서 품질이 향상되었으며 새로운 기능인 '그로울(Growl)', '리얼타임 레코딩(Realtime Recording)', '피치 렌더링(Pitch Rendering)', '피치 스냅 모드(Pitch Snap Mode)', '크로스 신세시스(Cross Synthesis)'가 추가되었다. 같은 해 12월 17일에 기본 에디터인 VOCALOID4 Editor와 큐베이스 대응 에디터인 VOCALOID4 Editor for Cubase, 그리고 VOCALOID4 대응 라이브러리 VY1V4가 동시에 발매되었다.
2014년 11월 20일에 발표되어, 같은 해 12월 17일부터 음성 편집 소프트웨어인 "VOCALOID4 Editor"와 "VOCALOID4 Editor for Cubase", 음성 라이브러리 제1탄으로 "VOCALOID4 Library VY1V4"가 출시되었다.
이번 버전의 특징은 "표현력"과 "사용 편의성"이며, 새롭게 목소리를 떨며 낮게 내는 소리를 낼 수 있는 "그로울(グロウル)"과 여러 음성 라이브러리를 혼합하여 새로운 음색을 만들거나 라이브러리 간에 음성 제어가 가능한 "크로스 신세시스(クロスシンセシス)"가 탑재되었다. 또한, 피치와 비브라토의 걸리는 정도를 시각적으로 알 수 있는 그래프를 그리는 "피치 렌더링(ピッチレンダリング)", 지금까지 VOCALOID 음성 합성 엔진이 생성했던 피치 곡선을 끄고 로봇 같은 목소리를 생성할 수 있는 "피치 스냅 모드(ピッチスナップモード)", 외부 MIDI 입력 정보를 바탕으로 자음을 우선적으로 발음하기 위해 설정된 지연을 없앤 발성을 하여 VOCALOID 편집 화면에 반영하는 "실시간 레코딩(リアルタイムレコーディング)"이 탑재되었다. 이러한 새로운 기능은 전용 파형 데이터가 필요한 그로울을 제외하고 VOCALOID3의 음성 라이브러리에서도 사용할 수 있다.
음성 라이브러리로는 야마하 외에도 크립톤 퓨처 미디어, AHS, 주식회사 인터넷 각사가 기존 제품의 VOCALOID4 대응 버전 개발을 진행 중이라고 발표했다.
Piapro Studio의 음성 합성 엔진은 2015년 3월 19일에 발매된 "하츠네 미쿠(巡音ルカ) V4X"를 도입함으로써 VOCALOID4 대응 엔진으로 업그레이드할 수 있다.
또한, 이 버전부터 음성 라이브러리에 Tiny VOCALOID Editor가 포함되지 않게 되었다.

VOCALOID5 로고
VOCALOID5 로고

2018년 7월 12일에 발표된 보컬로이드 엔진이다. 인터페이스가 개선되었으며, 첫 번째 라이브러리는 하루노 소라이다.
VOCALOID4부터 UI를 새롭게 했고, 최초로 Mac에서 독립 실행형으로 지원하는 제품이다. 또한 이 버전부터 Steinberg사의 DAW "Nuendo"에서도 작동하게 되었다. 2000개 이상의 프리셋 프레이즈와 오디오를 드래그 앤 드롭만으로 노래의 기본이 완성되는 새로운 제작 흐름을 채택하여, 미리 가사가 들어있는 조정된 프레이즈 중에서 마음에 드는 것을 선택하여 붙이기만 하면 음성 제작이 가능해졌다. 사용자가 세밀하게 조정하는 방식이었던 노래 표현 조정도, 알기 쉽게 시각화된 아이콘을 선택하기만 하면 더욱 빠르고 직접적으로 크리에이터의 감성을 반영할 수 있게 되었다. 또한, 좋아하는 노래 방식, 음색으로 한 번에 변환하는 "스타일 기능", 스스로 조정하기 어려웠던 비브라토 등의 노래 표현 기법을 아이콘을 선택하여 붙이기만 하면 반영할 수 있는 "어택&릴리스 이펙트", 노래의 강약이나 속도, 음소의 길이 등을 파형을 보면서 마우스 조작만으로 조정할 수 있는 "이모션 툴"을 탑재하고 있다. 판매 형태는 스탠다드와 프리미엄 두 가지이며, 둘 다 보이스 뱅크를 미리 탑재하고 있다. 스탠다드는 Amy(여성 영어), Chris(남성 영어), Kaori(여성 일본어), Ken(남성 일본어) 4종. 프리미엄은 여기에 기존 제품 4종(CYBER DIVA II, CYBER SONGMAN II, VY1, VY2)을 더한 8종이다.

2022년 10월에 출시되었다. 이번 버전은 사전 발표 없이 갑작스럽게 출시되었다.
이 버전부터 "VOCALOID:AI"가 탑재되어 AI 기술을 통해 VOCALOID5보다 만들 수 있는 음성의 폭이 이전보다 압도적으로 넓어졌다. 또한, 이 버전부터 고품질 보컬 제작이 가능한 "더블링(ダブリング)", 음성 데이터를 가져옴으로써 음성을 그대로 VOCALOID6용 보이스 뱅크에서 재현할 수 있는 "VOCALO CHANGER"가 구현되었다. 더불어, 다국어에도 대응하여 하나의 보이스 뱅크로 일본어, 영어, 중국어를 섞은 가사를 부를 수 있게 되었다. 판매 형태는 다운로드 버전 한 종류이지만, VOCALOID5에서 업그레이드도 가능하다. 단, 업그레이드할 경우 "Steinberg Cubase AI"는 포함되지 않으므로 주의가 필요하다.
음성 라이브러리로는 인터넷(インターネット)사가 "Megpoid"의 AI 대응 업데이트 버전인 "AI Megpoid"를 패키지 버전과 다운로드 버전 모두 야마하와 동시에 출시했다.

2.2.1. VOCALOID

2003년 2월에 발표된 보컬로이드 엔진이다. 영어일본어 총 2개의 언어를 지원한다.
일반적으로 "V1(브이원)"으로 불린다.
2004년 1월부터 2006년 2월까지 ZERO-G와 크립톤 퓨처 미디어 두 회사에서 PC용 패키지 5개 제품이 출시되었다.
이후 버전과의 호환성이 없어, 보컬 라이브러리를 VOCALOID2 이후의 에디터에서 사용할 수 없다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다.

2.2.2. VOCALOID2

2007년 1월에 발표된 보컬로이드 엔진이다. 같은 해 6월부터 2011년 4월까지 PowerFX, 크립톤 퓨처 미디어, ZERO-G, 주식회사 인터넷, AHS, 야마하, 큔 뮤직에서 VOCALOID2 제품 22개를 출시하였다. 영어일본어를 지원한다. 기존 보컬로이드에서 합성 엔진이 완전히 교체되었으며, 에디터의 인터페이스도 개선되었다. 전작과 달리, 보컬로이드2는 인간 목소리 분석 대신 보컬 샘플을 기반으로 결과를 생성했다. 합성 엔진과 사용자 인터페이스는 완전히 개선되었으며, 일본어 보컬로이드는 일본어 인터페이스를 제공했다.

1세대 VOCALOID에서 합성 엔진이 완전히 바뀌었고, 에디터 인터페이스도 새롭게 바뀌었다. 노이즈로 잘라냈던 숨소리 등을 원음 그대로 살려 더욱 사실적인 목소리를 구현할 수 있게 되었고, 허스키한 목소리에도 대응할 수 있게 되었다. 일본어영어 2개 언어를 지원한다. ReWire를 지원하여 다른 음악 제작 소프트웨어와 동기화가 가능하다. DAW에서 VST 악기로 사용할 수도 있다. 미리 가사를 입력해 두고 MIDI키보드를 사용하여 실시간으로 노래를 "연주"할 수도 있다.

2.2.3. VOCALOID3

야마하가 2011년 10월 21일에 발매한 보컬로이드 엔진이다. VOCALOID2와 크게 달라진 점은 없으며, 목소리와 반주를 동시에 재생할 수 있게 되었다. 언어는 기존 일본어, 영어뿐만 아닌 한국어, 중국어, 스페인어를 지원한다.

VOCALOID3 에디터는 총 4가지가 있는데, “VOCALOID3 Editor”와, “Tiny VOCALOID3 Editor”, “VOCALOID Editor for Cubase”, “VOCALOID Editor for Cubase NEO”가 있다.

Tiny VOCALOID3 Editor는 라이브러리에 동봉 되어있는 보컬 에디터인데, VOCALOID3 Editor에 비하여 기능이 한정되어 있다. 17소절만 이용 가능하며 오직 1트랙만 사용 가능하다.

VOCALOID Editor for Cubase는 2013년 1월 출시된 윈도우 전용의 VOCALOID3 에디터이고, VOCALOID Editor for Cubase NEO는 같은 해 8월 출시된 VOCALOID3 에디터이다. VOCALOID Editor for Cubase NEO는 Windows뿐만 아닌 Mac OS에도 대응한다. 지금은 판매하지 않는다.

2011년 6월에 발표되었고, 같은 해 10월부터 제공이 시작되었다.

기존에 어려웠던 빠른 말 표현이나 음색 변화의 부드러움 등이 개선되었다고 한다. VOCALOID3에서는 1에서 2로 바뀔 때와 같은 신호 처리의 근간에 이르는 큰 변경이 아니라, 부자연스러운 부분을 수정하여 개선하는 방향으로 개발되었으며, 라이브러리 제작은 기본적으로 VOCALOID2와 같으므로, 2용 라이브러리를 변환하여 사용할 수도 있다. 언어는 기존의 "일본어", "영어"에 새롭게 "중국어", "한국어", "스페인어" 등 총 5개 언어를 지원한다. 2013년 8월 이후로는 Windows/Mac OS X 모두 지원하는 라이브러리의 출시도 이루어져, 라이브러리에 따라 Mac OS X에서 사용할 수 있게 되었다.

2까지는 에디터와 라이브러리 세트로만 판매되었지만, 3에서는 라이브러리와 에디터를 따로 판매한다. 에디터는 "VOCALOID3 Editor", 라이브러리에 포함된 기능 제한판인 "Tiny VOCALOID3 Editor", DAW "큐베이스"(Cubase)에서 작동하는 "VOCALOID Editor for Cubase", 크립톤 퓨처 미디어 제작의 "Piapro Studio"가 제공된다.

* VOCALOID3 Editor (보컬로이드3 에디터)
* "VOCALOID Editor", "VOCALOID2 Editor"에는 없던 기능으로, 에디터 단독으로 오디오트랙 재생과 VST이펙트 사용 외에도, VOCALOID3 에디터 고유의 Job Plugin이라는 Lua 스크립트 형식의 이펙터 구현 및 자작 등이 가능하다. VOCALOID3용일 뿐만 아니라, VOCALOID2용 라이브러리를 VOCALOID3용으로 변환하여 사용할 수도 있다. 또한, 2까지는 한 번밖에 할 수 없었던 실행 취소와 다시 실행이 3에서는 무한대로 가능해졌다.
* 한편, 2와 달리 ReWire나 VST 악기로 사용할 수 없고, "VOCALOID3 Editor"는 완전한 독립 실행형 음원이다. 단, 다른 소프트웨어 쪽에서 VOCALOID3 Editor와의 연동 기능을 제공하는 것도 있다. 인터넷(インターネット)사는 2012년 11월 9일에 출시한 DAW "Singer Song Writer 10"에 "VOCALOID3 Editor"와 ReWire 연결을 수행하는 플러그인을 탑재했고, 2013년 12월 19일에 AHS가 출시한 MAGIX 제작 DAW "Music Maker MX2 Producer Edition"에는 VOCALOID3 Editor를 연동하여 조작할 수 있는 "V3Sync" 기능이 탑재되어 있다.
* Windows 버전만 해당.

* Tiny VOCALOID3 Editor (타이니 보컬로이드3 에디터)
* 라이브러리에 포함된 기능 제한판 에디터. 17마디까지, 1트랙만 등 제한이 있지만, 라이브러리 단독 구매만으로도 목소리를 출력할 수 있게 되었다.
* Windows 버전만 해당.

* VOCALOID Editor for Cubase (보컬로이드 에디터 포 큐베이스)
* VOCALOID Editor for Cubase NEO (보컬로이드 에디터 포 큐베이스 네오)
* Steinberg사의 DAW "Cubase"에 "VOCALOID3 Editor"의 기능을 통합할 수 있다. 2013년 1월에 Windows 전용 "VOCALOID Editor for Cubase"가 출시되었고, 같은 해 8월에 Windows/Mac OS X 모두 지원하는 "VOCALOID Editor for Cubase NEO"가 출시되었다.

* Piapro Studio (피아프로 스튜디오)
* 야마하가 아닌 크립톤 퓨처 미디어 제작의 에디터로, VST 악기 또는 AU 악기로 작동한다. VOCALOID Editor의 데이터 파일인 vsq, vsqx 파일을 읽어들여 그대로 사용할 수도 있다. 2013년 2월 15일 발매된 "KAITO V3"부터 동사 제작 음원에 포함되는 형태로 제공된다. 2013년 8월 31일에 Windows/Mac OS X 모두 지원하게 되었다.

2.2.4. VOCALOID4

2014년 11월 20일에 발표된 보컬로이드 엔진이다. 기존 VOCALOID3에서 품질이 향상되었으며 새로운 기능인 '그로울(Growl)', '리얼타임 레코딩(Realtime Recording)', '피치 렌더링(Pitch Rendering)', '피치 스냅 모드(Pitch Snap Mode)', '크로스 신세시스(Cross Synthesis)'가 추가되었다. 같은 해 12월 17일에 기본 에디터인 VOCALOID4 Editor와 큐베이스 대응 에디터인 VOCALOID4 Editor for Cubase, 그리고 VOCALOID4 대응 라이브러리 VY1V4가 동시에 발매되었다.

2014년 11월 20일에 발표되어, 같은 해 12월 17일부터 음성 편집 소프트웨어인 "VOCALOID4 Editor"와 "VOCALOID4 Editor for Cubase", 음성 라이브러리 제1탄으로 "VOCALOID4 Library VY1V4"가 출시되었다.

이번 버전의 특징은 "표현력"과 "사용 편의성"이며, 새롭게 목소리를 떨며 낮게 내는 소리를 낼 수 있는 "그로울(グロウル)"과 여러 음성 라이브러리를 혼합하여 새로운 음색을 만들거나 라이브러리 간에 음성 제어가 가능한 "크로스 신세시스(クロスシンセシス)"가 탑재되었다. 또한, 피치와 비브라토의 걸리는 정도를 시각적으로 알 수 있는 그래프를 그리는 "피치 렌더링(ピッチレンダリング)", 지금까지 VOCALOID 음성 합성 엔진이 생성했던 피치 곡선을 끄고 로봇 같은 목소리를 생성할 수 있는 "피치 스냅 모드(ピッチスナップモード)", 외부 MIDI 입력 정보를 바탕으로 자음을 우선적으로 발음하기 위해 설정된 지연을 없앤 발성을 하여 VOCALOID 편집 화면에 반영하는 "실시간 레코딩(リアルタイムレコーディング)"이 탑재되었다. 이러한 새로운 기능은 전용 파형 데이터가 필요한 그로울을 제외하고 VOCALOID3의 음성 라이브러리에서도 사용할 수 있다.

음성 라이브러리로는 야마하 외에도 크립톤 퓨처 미디어, AHS, 주식회사 인터넷 각사가 기존 제품의 VOCALOID4 대응 버전 개발을 진행 중이라고 발표했다.

Piapro Studio의 음성 합성 엔진은 2015년 3월 19일에 발매된 "하츠네 미쿠(巡音ルカ) V4X"를 도입함으로써 VOCALOID4 대응 엔진으로 업그레이드할 수 있다.

또한, 이 버전부터 음성 라이브러리에 Tiny VOCALOID Editor가 포함되지 않게 되었다.

2.2.5. VOCALOID5

VOCALOID5 로고
VOCALOID5 로고

2018년 7월 12일에 발표된 보컬로이드 엔진이다. 인터페이스가 개선되었으며, 첫 번째 라이브러리는 하루노 소라이다.

보컬로이드5(Vocaloid 5)는 사용자 인터페이스가 대폭 개선되고 엔진이 크게 향상되었다. 이 제품은 번들로만 제공되며, 표준 버전에는 네 가지 음성이, 프리미엄 버전에는 여덟 가지 음성이 포함된다. VOCALOID2 이후로는 처음으로 보컬과 함께 보컬로이드 엔진이 판매되었는데, 이전에는 VOCALOID3부터 별도로 판매되었다.

VOCALOID4부터 UI를 새롭게 했고, 최초로 Mac에서 독립 실행형으로 지원하는 제품이다. 또한 이 버전부터 Steinberg사의 DAW "Nuendo"에서도 작동하게 되었다. 2000개 이상의 프리셋 프레이즈와 오디오를 드래그 앤 드롭만으로 노래의 기본이 완성되는 새로운 제작 흐름을 채택하여, 미리 가사가 들어있는 조정된 프레이즈 중에서 마음에 드는 것을 선택하여 붙이기만 하면 음성 제작이 가능해졌다. 사용자가 세밀하게 조정하는 방식이었던 노래 표현 조정도, 알기 쉽게 시각화된 아이콘을 선택하기만 하면 더욱 빠르고 직접적으로 크리에이터의 감성을 반영할 수 있게 되었다. 또한, 좋아하는 노래 방식, 음색으로 한 번에 변환하는 "스타일 기능", 스스로 조정하기 어려웠던 비브라토 등의 노래 표현 기법을 아이콘을 선택하여 붙이기만 하면 반영할 수 있는 "어택&릴리스 이펙트", 노래의 강약이나 속도, 음소의 길이 등을 파형을 보면서 마우스 조작만으로 조정할 수 있는 "이모션 툴"을 탑재하고 있다. 판매 형태는 스탠다드와 프리미엄 두 가지이며, 둘 다 보이스 뱅크를 미리 탑재하고 있다. 스탠다드는 Amy(여성 영어), Chris(남성 영어), Kaori(여성 일본어), Ken(남성 일본어) 4종. 프리미엄은 여기에 기존 제품 4종(CYBER DIVA II, CYBER SONGMAN II, VY1, VY2)을 더한 8종이다.

2.2.6. VOCALOID6

2022년 10월에 출시되었다. 이번 버전은 사전 발표 없이 갑작스럽게 출시되었다.

이 버전부터 "VOCALOID:AI"가 탑재되어 AI 기술을 통해 VOCALOID5보다 만들 수 있는 음성의 폭이 이전보다 압도적으로 넓어졌다. 또한, 이 버전부터 고품질 보컬 제작이 가능한 "더블링(ダブリング)", 음성 데이터를 가져옴으로써 음성을 그대로 VOCALOID6용 보이스 뱅크에서 재현할 수 있는 "VOCALO CHANGER"가 구현되었다. 더불어, 다국어에도 대응하여 하나의 보이스 뱅크로 일본어, 영어, 중국어를 섞은 가사를 부를 수 있게 되었다. 판매 형태는 다운로드 버전 한 종류이지만, VOCALOID5에서 업그레이드도 가능하다. 단, 업그레이드할 경우 "Steinberg Cubase AI"는 포함되지 않으므로 주의가 필요하다.

음성 라이브러리로는 인터넷(インターネット)사가 "Megpoid"의 AI 대응 업데이트 버전인 "AI Megpoid"를 패키지 버전과 다운로드 버전 모두 야마하와 동시에 출시했다.

3. 파생 제품

3.1. 소프트웨어

HRP-4C가 메그포이드의 마스코트인 구미(Gumi)로 코스프레를 한 모습. 2009년 CEATEC JAPAN
HRP-4C가 메그포이드의 마스코트인 구미(Gumi)로 코스프레를 한 모습. 2009년 CEATEC JAPAN

;Vocaloid-flex
야마하는 음성 합성기를 포함한 소프트웨어 애플리케이션인 Vocaloid-flex를 개발했다. 공식 발표에 따르면, 사용자는 다른 보컬로이드 시리즈보다 더 세밀하게 음운 체계를 편집하여 실제 언어 발음에 더 가까워질 수 있었다. 예를 들어, 최종 무성화, 모음의 무성화 또는 자음의 강약 조절이 가능했다. 이것은 2010년 4월 28일에 출시된 비디오 게임 메탈기어 솔리드: 피스 워커에 사용되었다. 주로 기업용 제품이었으며 일반 소비자용 버전은 완전히 출시되지 않았다. 이 소프트웨어는 2009년 CEATEC JAPAN에서 로봇 모델 HRP-4C에도 사용되었다. 가차포이드(Gachapoid)는 V-Talk이라는 이름으로 이 엔진에 접근할 수 있었던 유일하게 상업적으로 출시된 소프트웨어였다. 사용자는 2015년 2월 13일 서비스 종료 전까지 설치일로부터 6개월 동안 무료로 소프트웨어를 사용할 수 있었다.

;VocaListener
VocaListener(보카리스너, 약칭 보카리스)는 노래를 입력해서 보컬로이드의 매개 변수를 자동으로 설정하는 시스템이다. 산업기술종합연구소가 개발했다. 입력된 노래로부터 파라미터를 추정해, 합성된 보컬로이드의 가창과 원래의 가창을 비교하면서 파라미터의 재조정을 반복하는 것으로 원본과 유사한 노래를 얻을 수 있다. 원본을 따라서 가창의 음높이나 가창 스타일을 조정하는 기능도 갖추고 있어 유저의 조정 실력이 낮은 경우나 유저가 조정할 수 없는 표현도 자동으로 조정한다.

2008년 5월 28일 제75회 음악정보과학연구회에서 발표되었으며, 발표에 앞서 같은 해 4월 28일, 니코니코 동화에 보컬리스너를 사용하여 제작한 노래가 공개되어 마치 사람이 부르는 것 같은 자연스러운 음성으로 화제를 모았다.

야마하는 보컬리스너 발표를 계기로 2008년 11월부터 산업기술종합연구소와의 공동 연구를 시작하여 2012년 10월에 "VOCALOID3 Editor"에서 사용 가능한 플러그인인 "VOCALOID3 Job Plugin VocaListener"를 출시했다. 이전에는 2009년 4월에 간이 버전 보컬리스너 기능을 네트워크를 통해 제공하는 서비스 "Net보카리스" 개발을 발표했으며, 2010년 10월에는 "VY1"과 "VY2"를 위한 "Net보카리스" 서비스를 연내에 제공할 것이라고 발표했다. 그러나 클라우드 방식으로 전환하면서 기능을 축소한 결과, 사양 및 성능에 문제가 있어 2011년 4월에 중단되었다. 참고로, 2011년 9월에 발매된 앨범 『THE VOCALOID produced by Yamaha』에는 일부 곡 제작에 보컬리스너가 사용되었다.

2010년 7월에는 원본 음성의 음색을 모방하여 합성 음성의 음색을 변화시키는 기능을 추가한 보컬리스너2(VocaListener2, 보카리스2)가 발표되었다. 보컬리스너2의 기능은 VOCALOID 파라미터 조작만으로는 완성할 수 없기 때문에 2012년 10월 상품화에는 포함되지 않았다.

;MikuMikuDance
3D 보컬로이드 애니메이션 제작을 지원하기 위해 MikuMikuDance 프로그램이 개발되었다. 이 프리웨어는 팬이 만든 캐릭터와 파생 캐릭터의 급증과 보컬로이드 노래 홍보의 증가를 가져왔다. MikuMikuDance 개발자는 2011년 5월 개발 중단(처음에는 개발 은퇴로 발표됨)을 선언했지만 2013년 6월에 다시 소프트웨어 업데이트를 시작했다.

;NetVocaloid
NetVocaloid는 온라인 보컬 합성 서비스였다. 사용자는 서버에서 보컬로이드 엔진을 실행하여 인터넷에 연결된 장치에서 노래하는 음성을 합성할 수 있었다. 사용자가 보컬로이드 소프트웨어를 소유하고 있지 않더라도 이 서비스를 사용할 수 있었다. 이 서비스는 영어와 일본어로 제공되었다. 그러나 2012년 4월부터 야마하 웹사이트에서 더 이상 제공되지 않았다.

보카로넷(ボカロネット)”은 2014년 8월 4일에 시작된, 다양한 기능으로 VOCALOID 음악 제작을 지원하는 회원제 클라우드 컴퓨팅 서비스였다. 주로 다음과 같은 서비스가 제공되었다.

* 보카로듀서(ボカロデューサー) - VOCALOID 제품이나 DAW(Digital Audio Workstation)가 없어도 브라우저에서 VOCALOID를 이용한 음악 제작이 가능했다.
* 보카로스토리지(ボカロストレージ) - 보카로듀서로 제작한 음악을 클라우드에 저장할 수 있었다.
* 어플리케이션과의 연동 - VOCALOID3 Editor, VOCALOID Editor for Cubase, iVOCALOID에서 보카로스토리지에 파일을 직접 업로드 및 다운로드할 수 있었다. 이 기능을 통해 보카로듀서로 제작한 파일을 보카로넷 대응 어플리케이션에서 편집하고, 보카로스토리지에 업로드하여 저장할 수 있었다.

2016년 9월 27일에 서비스가 종료되었다.

NetVOCALOID는 서버에 VOCALOID를 구현하여 음성 합성 기능을 네트워크를 통해 사업자에게 제공하는 SaaS(Software as a Service) 형태의 서비스였다. 일반 사용자를 위한 서비스는 야마하(Yamaha)가 직접 제공하는 것이 아니라 서비스를 제공받은 사업자가 제공하며, 입력 내용은 사업자를 통해 NetVOCALOID 서버로 전송되어 음성 합성이 이루어졌다. 인터넷에 연결된 기기라면 VOCALOID 기능을 제공할 수 있으며, 사양이 낮은 PC나 휴대전화, 게임기 등의 기기에서도 VOCALOID를 이용하는 서비스가 가능했다. 인터넷상의 아바타에 노래를 부르게 하거나, 로봇에 응용하거나, 광고에 활용하는 등의 확장도 가능했다.

NetVOCALOID를 활용한 서비스는 2009년 4월 9일에 인터넷(Internet)사의 「ケータイがくっぽいど」, 크립톤 퓨처 미디어(Crypton Future Media)의 「ミクと歌おう♪」가 시작되었으며, 각각 휴대전화를 통해 「가쿠포이드(がくっぽいど)」, 「하츠네 미쿠(初音ミク)」의 음성을 이용할 수 있었다. 또한, 휴대전화용 서비스에서는 KDDI의 휴대전화 브랜드 「iida(イィダ)」의 2009년부터 시작한 기간 한정 사용자 참가형 캠페인 「iida calling」의 ver.2, ver.3, ver.3.1에서도 NetVOCALOID에 의한 합성 음성이 이용되었다(PC에서도 이용 가능). 위의 서비스들은 모두 휴대전화에서 가사를 텍스트로 입력하면 미리 준비된 곡에 맞춰 합성 음성이 생성되어 곡이 완성되고, 이것을 컬러링(着うた) 등에 이용할 수 있었다. 또한, 2010년 4월에 발매된 게임 소프트웨어 『메탈기어 솔리드 피스 워커(METAL GEAR SOLID PEACE WALKER)』에서는 NetVOCALOID를 사용하여 플레이어가 직접 만든 노래를 부르게 하는 기능이 탑재되었다. NetVOCALOID 서버는 본 게임 전용 서버 시스템 내에 설치되었고, 플레이어의 편집에 맞춰 각 게임기 단말기로 데이터가 다운로드되었다. 참고로, 이 외에도 NetVOCALOID 기술을 사용하고 있다는 것을 앞세우지 않고 전개되고 있는 서비스가 여러 개 존재한다.

;MMDAgent
MMDAgent는 나고야 공업대학의 국제 음성 공학 연구소에서 개발한 소프트웨어이다. 2010년 12월 25일에 알파 버전이 출시되었다. 이 소프트웨어를 통해 사용자는 보컬로이드 마스코트의 3D 모델과 상호 작용할 수 있다. 인터넷에서 공개된 3D 모델과 사운드 파일을 사용하므로 프리웨어로 분류된다.

;Vocaloid Editor for Cubase
이 특정 버전의 보컬로이드는 큐베이스 전용으로 제작되었다. 추가 음성은 없지만 보컬로이드 2 및 보컬로이드 3의 모든 음성을 사용하며 큐베이스 소프트웨어의 플러그인 역할을 한다. 결과적으로 이 버전은 큐베이스 6.5의 대부분의 기능과 호환되며 버스, 필터, 믹서와 같은 도구를 복잡한 문제 없이 사용할 수 있다.

;Vocaloid β-STUDIO
야마하는 β-STUDIO를 제작자들이 노래하는 음성 합성의 미래를 추구하도록 장려하는 오픈 베타라고 설명한다. 2024년 3월 31일에 서비스 종료가 예정된 제한된 서비스 소프트웨어였다. 이 소프트웨어는 AI 기능을 사용하여 사용자를 위한 소프트웨어의 품질과 사용 편의성을 향상시켰다. 처음으로 발표된 보이스뱅크는 UTAU 보이스뱅크인 Gekiyaku와 Kazehiki의 이식 버전이었다.

2023년 8월 22일에 시작된 프로젝트로, 2024년 3월 31일까지 활동했다.

보컬로이드 제품의 차기 버전 테스트가 아닌, 음성 합성 연구에 특화된 실험 스튜디오로 설립되었다. 참가는 추첨제였으며, 당첨자에게는 DAW용 플러그인 "VX-β"가 제공되었다.

VX-β에서는 다음과 같은 전용 보이스뱅크가 제공되었다.

* prtv_0
* prtv_1
* prtv_2
* prtv_3
* 我然β (가젠 베타)
* nagiβ (나기 베타)
* multiβ-N (멀티 베타-N)
* ゲキヤクβ (게키야쿠 베타)
* カゼヒキβ (카제히키 베타)
* 花奏かのんβ (하나카나 카논 베타)
* 杏戸ゆげβ (쿄토 유게 베타)
* Ciちゃんβ (Ci 짱 베타)
* 春日部つむぎβ (카스가부 츠무기 베타)

;VocaloWitter
"i-Vocaloid"로 처음 소개된 이것은 보컬로이드 2 기술을 사용한 보컬로이드 소프트웨어의 모바일 앱 버전이며 iPhone용으로 출시되었다. 야마하는 일본에서 열린 2010년 가을 Y2 디지털 콘텐츠 엑스포에서 iPhone 및 iPad용 보컬로이드 소프트웨어 버전을 선보였다.

;VocaloWitter 제품
*VY1: 일본 여성 보컬. 2010년 12월에 처음 발표되었으며, iPad 및 iPhone용 보컬로이드 소프트웨어 "iVOCALOID"의 개조 버전인 "VY1t"로 출시되었다.
*VY2: 일본 남성 보컬로 출시 예정이었다. VY2 버전은 호환성 및 성능 문제를 위해 VY1 버전을 조정했을 것이지만, 출시되지 않았다.
*아오키 라피스(Aoki Lapis)는 2012년 12월에 추가되었다. 일본 여성 보컬이다. 이 특정 버전의 VocaloWitter 앱은 2013년 9월 11일 iTunes 스토어의 모든 유료 앱 중 1위를 차지했다.

;iVocaloid
2010년 12월부터 iOS에서 작동하는 보컬로이드를 이용한 제품이 제공되고 있다. 야마하는 자체 개발한 음악 제작 소프트웨어와 게임 소프트웨어를 출시했을 뿐만 아니라, 외부 기업을 위해 'iVOCALOID SDK'라는 소프트웨어 개발 키트(SDK) 사양을 제공하고 있으며, 2013년 7월에는 세가가 'iVOCALOID SDK'를 이용한 첫 번째 제품으로 'うた詠み575'를 출시했다.

;iVOCALOID VY1
;iVOCALOID VY2
;iVOCALOID 蒼姫ラピス
: PC용 소프트웨어와 마찬가지로 피아노롤 방식의 인터페이스를 채택한 음악 제작 앱이다. 당시 출시된 보컬로이드 제품에는 없었던 독립적인 반주 동시 재생 기능도 탑재되어 있다. 제작한 음악 데이터를 이메일로 전송하는 기능을 갖추고 있어 PC에서의 본격적인 음악 제작과의 연계가 가능하다. 처음에는 iPad용 애플리케이션으로 출시되었지만, 2011년 9월 업데이트를 통해 iPhone 및 iPod touch도 지원하게 되었다. VY1 음성을 사용한 "iVOCALOID VY1"이 2010년 12월에, VY2 음성을 사용한 "iVOCALOID VY2"가 2011년 9월에, 蒼姫ラピス 음성을 사용한 "iVOCALOID 蒼姫ラピス"가 2012년 11월에 출시되었다.

;VocaloWitter
;VocaloWitter 蒼姫ラピス
: iPhone 및 iPod touch용 애플리케이션으로, 피치 커브를 그리는 방식의 입력을 채택하여 직관적이고 간편한 음성 합성을 가능하게 한다. 2010년 12월에 VY1 음성을 사용한 "iVOCALOID VY1t"가 출시되었고, 2011년에 현재의 "VocaloWitter"(보카로위터)로 이름이 변경되었다. 2012년 11월에는 蒼姫ラピス 음성을 사용한 "VocaloWitter 蒼姫ラピス"가 출시되었다.

;うた詠み575
: 세가(SEGA)가 2013년 7월에 배포를 시작한 앱으로, 5・7・5 형식으로 단어를 입력하면 正岡小豆와 小林抹茶 라이브러리의 음성으로 하이쿠를 읽어준다. 'iVOCALOID SDK'를 이용한 첫 번째 제품이다.

;보카로다마(ボカロダマ)
: 2013년 9월에 배포를 시작한 야마하(Yamaha) 자체 개발 게임 앱이다. 게임 화면을 따라 흐르는 가사의 한 글자씩 적힌 구슬(보카로다마)을 좌우로 슬라이드하여 음계가 할당된 파이프에 겹쳐서 노래를 부르게 할 수 있으며, 보카로다마를 같은 색의 파이프에 겹치면 수록곡의 정확한 음정으로 노래하게 하는 것을 목표로 한다. 음성은 VY1을 사용한다.

;VOCALOID first
: 2013년 11월에 배포를 시작한 음악 제작 앱이다. "iVOCALOID VY1"을 비롯한 'iVOCALOID' 시리즈가 PC용 제품에 준하는 본격적인 음악 제작 방식을 지원하는 것과 달리, 본 앱은 미리 준비된 멜로디 소재를 조합하여 가사를 입력함으로써 음악 제작 경험이 없더라도 보컬로이드를 이용한 음악 제작이 가능하도록 되어 있다. VY1 음성을 사용한다.

;Unity with Vocaloid
"Vocaloid for Unity"라는 이름으로 처음 소개된 이것은 유니티 게임 엔진용 보컬로이드 엔진 버전이다.
게임 엔진 유니티 개발 환경에서 "VOCALOID"의 음성 합성 엔진에 접근하여 그 기능을 이용할 수 있도록 하는 소프트웨어 개발 키트(SDK)이다. "Unity 런타임 버전 VOCALOID Library unity-chan!"이 포함되어 있어 게임 상황이나 사용자 조작에 연동하여 실시간으로 음성을 합성하고, 캐릭터에게 노래를 부르게 하거나, 그 노래 방식을 바꾸는 등의 인터랙티브한 콘텐츠를 쉽게 개발할 수 있다. 2015년 12월 22일부터 제공이 시작되었다.

;Mobile Vocaloid Editor
Mobile Vocaloid Editor는 보컬로이드 4 엔진의 iPad 및 iPhone 버전이다. 기본적으로 VY1 "Lite"가 제공되며 데모 곡이 앱에 포함되어 있다. 이 앱은 "DYN", "PIT", "VIB"를 제공하며 16개의 트랙 데이터를 처리한다. 999마디의 음악을 만들 수 있지만, 전체 보컬로이드 4 편집기와 비교하여 "그르렁거림"이나 "크로스 합성"은 할 수 없다. 이 앱의 입력 항목은 일반적인 보컬로이드 4 데이터 가져오기 방법과 다르다. 대부분의 기능은 한두 손가락으로 사용할 수 있으며 한 손가락으로 매개변수 선을 그릴 수 있다. 또한 iVocaloid와 비교하여 C2~G8의 전체 음역을 지원한다. 영어 보컬이 포함되어 있음에도 불구하고 현재 영어 인터페이스는 없으며 일본에서만 판매된다.

다음 제품을 구매할 수 있다.
*VY1: 일본 여성 보컬 VY1의 정식 버전.
*ZOLA Project: 유우(Yuu), 윌(Wil), 교(Kyo)는 각각 별도로 판매되는 3명의 남성 보컬이다.
*아오키 라피스(Aoki Lapis): 일본 여성 보컬.
*멀리: 일본 여성 보컬.
*뮤: 일본 여성 보컬.
*갈라코(Galaco): 일본 여성 보컬. "레드"와 "블루" 두 가지 버전이 있으며 각각 별도로 판매된다.
*사이버 디바(Cyber Diva): 영어 여성 보컬.
*유즈키 유카리(Yuzuki Yukari): 일본 여성 보컬. "준(Jun)", "온(Onn)", "린(Lin)" 세 가지 버전이 있으며 각각 별도로 판매된다.
*사치코: 일본 여성 보컬.
*메그포이드(Megpoid): 여성 보컬. 일본어 보컬인 "네이티브(Native)"와 "영어(English)" 두 가지 보컬이 있으며 각각 별도로 판매된다.
*유니티 찬(Unity-Chan): 일본 여성 보컬.

3.1.1. VocaListener

VocaListener(보카리스너, 약칭 보카리스)는 노래를 입력해서 보컬로이드의 매개 변수를 자동으로 설정하는 시스템이다. 산업기술종합연구소가 개발했다. 입력된 노래로부터 파라미터를 추정해, 합성된 보컬로이드의 가창과 원래의 가창을 비교하면서 파라미터의 재조정을 반복하는 것으로 원본과 유사한 노래를 얻을 수 있다. 원본을 따라서 가창의 음높이나 가창 스타일을 조정하는 기능도 갖추고 있어 유저의 조정 실력이 낮은 경우나 유저가 조정할 수 없는 표현도 자동으로 조정한다.

2008년 5월 28일 제75회 음악정보과학연구회에서 발표되었으며, 발표에 앞서 같은 해 4월 28일, 니코니코 동화에 보컬리스너를 사용하여 제작한 노래가 공개되어 마치 사람이 부르는 것 같은 자연스러운 음성으로 화제를 모았다.

야마하는 보컬리스너 발표를 계기로 2008년 11월부터 산업기술종합연구소와의 공동 연구를 시작하여 2012년 10월에 "VOCALOID3 Editor"에서 사용 가능한 플러그인인 "VOCALOID3 Job Plugin VocaListener"를 출시했다. 이전에는 2009년 4월에 간이 버전 보컬리스너 기능을 네트워크를 통해 제공하는 서비스 "Net보카리스" 개발을 발표했으며, 2010년 10월에는 "VY1"과 "VY2"를 위한 "Net보카리스" 서비스를 연내에 제공할 것이라고 발표했다. 그러나 클라우드 방식으로 전환하면서 기능을 축소한 결과, 사양 및 성능에 문제가 있어 2011년 4월에 중단되었다. 참고로, 2011년 9월에 발매된 앨범 『THE VOCALOID produced by Yamaha』에는 일부 곡 제작에 보컬리스너가 사용되었다.

2010년 7월에는 원본 음성의 음색을 모방하여 합성 음성의 음색을 변화시키는 기능을 추가한 보컬리스너2(VocaListener2, 보카리스2)가 발표되었다. 보컬리스너2의 기능은 VOCALOID 파라미터 조작만으로는 완성할 수 없기 때문에 2012년 10월 상품화에는 포함되지 않았다.

HRP-4C가 메그포이드의 마스코트인 구미(Gumi)로 코스프레를 한 모습. 2009년 CEATEC JAPAN
HRP-4C가 메그포이드의 마스코트인 구미(Gumi)로 코스프레를 한 모습. 2009년 CEATEC JAPAN

3.1.2. MikuMikuDance

3D 보컬로이드 애니메이션 제작을 지원하기 위해 MikuMikuDance 프로그램이 개발되었다. 이 프리웨어는 팬이 만든 캐릭터와 파생 캐릭터의 급증과 보컬로이드 노래 홍보의 증가를 가져왔다. MikuMikuDance 개발자는 2011년 5월 개발 중단(처음에는 개발 은퇴로 발표됨)을 선언했지만 2013년 6월에 다시 소프트웨어 업데이트를 시작했다.

3.1.3. NetVocaloid

NetVocaloid는 온라인 보컬 합성 서비스였다. 사용자는 서버에서 보컬로이드 엔진을 실행하여 인터넷에 연결된 장치에서 노래하는 음성을 합성할 수 있었다. 사용자가 보컬로이드 소프트웨어를 소유하고 있지 않더라도 이 서비스를 사용할 수 있었다. 이 서비스는 영어와 일본어로 제공되었다. 그러나 2012년 4월부터 야마하 웹사이트에서 더 이상 제공되지 않았다.

보카로넷(ボカロネット)”은 2014년 8월 4일에 시작된, 다양한 기능으로 VOCALOID 음악 제작을 지원하는 회원제 클라우드 컴퓨팅 서비스였다. 주로 다음과 같은 서비스가 제공되었다.

* 보카로듀서(ボカロデューサー) - VOCALOID 제품이나 DAW(Digital Audio Workstation)가 없어도 브라우저에서 VOCALOID를 이용한 음악 제작이 가능했다.
* 보카로스토리지(ボカロストレージ) - 보카로듀서로 제작한 음악을 클라우드에 저장할 수 있었다.
* 어플리케이션과의 연동 - VOCALOID3 Editor, VOCALOID Editor for Cubase, iVOCALOID에서 보카로스토리지에 파일을 직접 업로드 및 다운로드할 수 있었다. 이 기능을 통해 보카로듀서로 제작한 파일을 보카로넷 대응 어플리케이션에서 편집하고, 보카로스토리지에 업로드하여 저장할 수 있었다.

2016년 9월 27일에 서비스가 종료되었다.

NetVOCALOID는 서버에 VOCALOID를 구현하여 음성 합성 기능을 네트워크를 통해 사업자에게 제공하는 SaaS(Software as a Service) 형태의 서비스였다. 일반 사용자를 위한 서비스는 야마하(Yamaha)가 직접 제공하는 것이 아니라 서비스를 제공받은 사업자가 제공하며, 입력 내용은 사업자를 통해 NetVOCALOID 서버로 전송되어 음성 합성이 이루어졌다. 인터넷에 연결된 기기라면 VOCALOID 기능을 제공할 수 있으며, 사양이 낮은 PC나 휴대전화, 게임기 등의 기기에서도 VOCALOID를 이용하는 서비스가 가능했다. 인터넷상의 아바타에 노래를 부르게 하거나, 로봇에 응용하거나, 광고에 활용하는 등의 확장도 가능했다.

NetVOCALOID를 활용한 서비스는 2009년 4월 9일에 인터넷(Internet)사의 「ケータイがくっぽいど」, 크립톤 퓨처 미디어(Crypton Future Media)의 「ミクと歌おう♪」가 시작되었으며, 각각 휴대전화를 통해 「가쿠포이드(がくっぽいど)」, 「하츠네 미쿠(初音ミク)」의 음성을 이용할 수 있었다. 또한, 휴대전화용 서비스에서는 KDDI의 휴대전화 브랜드 「iida(イィダ)」의 2009년부터 시작한 기간 한정 사용자 참가형 캠페인 「iida calling」의 ver.2, ver.3, ver.3.1에서도 NetVOCALOID에 의한 합성 음성이 이용되었다(PC에서도 이용 가능). 위의 서비스들은 모두 휴대전화에서 가사를 텍스트로 입력하면 미리 준비된 곡에 맞춰 합성 음성이 생성되어 곡이 완성되고, 이것을 컬러링(着うた) 등에 이용할 수 있었다. 또한, 2010년 4월에 발매된 게임 소프트웨어 『메탈기어 솔리드 피스 워커(METAL GEAR SOLID PEACE WALKER)』에서는 NetVOCALOID를 사용하여 플레이어가 직접 만든 노래를 부르게 하는 기능이 탑재되었다. NetVOCALOID 서버는 본 게임 전용 서버 시스템 내에 설치되었고, 플레이어의 편집에 맞춰 각 게임기 단말기로 데이터가 다운로드되었다. 참고로, 이 외에도 NetVOCALOID 기술을 사용하고 있다는 것을 앞세우지 않고 전개되고 있는 서비스가 여러 개 존재한다.

3.1.4. MMDAgent

MMDAgent는 나고야 공업대학의 국제 음성 공학 연구소에서 개발한 소프트웨어이다. 2010년 12월 25일에 알파 버전이 출시되었다. 이 소프트웨어를 통해 사용자는 보컬로이드 마스코트의 3D 모델과 상호 작용할 수 있다. 인터넷에서 공개된 3D 모델과 사운드 파일을 사용하므로 프리웨어로 분류된다.

3.1.5. Vocaloid Editor for Cubase

이 특정 버전의 보컬로이드는 큐베이스 전용으로 제작되었다. 추가 음성은 없지만 보컬로이드 2 및 보컬로이드 3의 모든 음성을 사용하며 큐베이스 소프트웨어의 플러그인 역할을 한다. 결과적으로 이 버전은 큐베이스 6.5의 대부분의 기능과 호환되며 버스, 필터, 믹서와 같은 도구를 복잡한 문제 없이 사용할 수 있다.

3.1.6. Vocaloid β-STUDIO

야마하는 β-STUDIO를 제작자들이 노래하는 음성 합성의 미래를 추구하도록 장려하는 오픈 베타라고 설명한다. 2024년 3월 31일에 서비스 종료가 예정된 제한된 서비스 소프트웨어였다. 이 소프트웨어는 AI 기능을 사용하여 사용자를 위한 소프트웨어의 품질과 사용 편의성을 향상시켰다. 처음으로 발표된 보이스뱅크는 UTAU 보이스뱅크인 Gekiyaku와 Kazehiki의 이식 버전이었다.

2023년 8월 22일에 시작된 프로젝트로, 2024년 3월 31일까지 활동했다.

보컬로이드 제품의 차기 버전 테스트가 아닌, 음성 합성 연구에 특화된 실험 스튜디오로 설립되었다. 참가는 추첨제였으며, 당첨자에게는 DAW용 플러그인 "VX-β"가 제공되었다.

VX-β에서는 다음과 같은 전용 보이스뱅크가 제공되었다.

* prtv_0
* prtv_1
* prtv_2
* prtv_3
* 我然β (가젠 베타)
* nagiβ (나기 베타)
* multiβ-N (멀티 베타-N)
* ゲキヤクβ (게키야쿠 베타)
* カゼヒキβ (카제히키 베타)
* 花奏かのんβ (하나카나 카논 베타)
* 杏戸ゆげβ (쿄토 유게 베타)
* Ciちゃんβ (Ci 짱 베타)
* 春日部つむぎβ (카스가부 츠무기 베타)

3.1.7. VocaloWitter

"i-Vocaloid"로 처음 소개된 이것은 보컬로이드 2 기술을 사용한 보컬로이드 소프트웨어의 모바일 앱 버전이며 iPhone용으로 출시되었다. 야마하는 일본에서 열린 2010년 가을 Y2 디지털 콘텐츠 엑스포에서 iPhone 및 iPad용 보컬로이드 소프트웨어 버전을 선보였다.

;VocaloWitter 제품
*VY1: 일본 여성 보컬. 2010년 12월에 처음 발표되었으며, iPad 및 iPhone용 보컬로이드 소프트웨어 "iVOCALOID"의 개조 버전인 "VY1t"로 출시되었다.
*VY2: 일본 남성 보컬로 출시 예정이었다. VY2 버전은 호환성 및 성능 문제를 위해 VY1 버전을 조정했을 것이지만, 출시되지 않았다.
*아오키 라피스(Aoki Lapis)는 2012년 12월에 추가되었다. 일본 여성 보컬이다. 이 특정 버전의 VocaloWitter 앱은 2013년 9월 11일 iTunes 스토어의 모든 유료 앱 중 1위를 차지했다.

3.1.8. iVocaloid

2010년 12월부터 iOS에서 작동하는 보컬로이드를 이용한 제품이 제공되고 있다. 야마하는 자체 개발한 음악 제작 소프트웨어와 게임 소프트웨어를 출시했을 뿐만 아니라, 외부 기업을 위해 'iVOCALOID SDK'라는 소프트웨어 개발 키트(SDK) 사양을 제공하고 있으며, 2013년 7월에는 세가가 'iVOCALOID SDK'를 이용한 첫 번째 제품으로 'うた詠み575'를 출시했다.

;iVOCALOID VY1
;iVOCALOID VY2
;iVOCALOID 蒼姫ラピス
: PC용 소프트웨어와 마찬가지로 피아노롤 방식의 인터페이스를 채택한 음악 제작 앱이다. 당시 출시된 보컬로이드 제품에는 없었던 독립적인 반주 동시 재생 기능도 탑재되어 있다. 제작한 음악 데이터를 이메일로 전송하는 기능을 갖추고 있어 PC에서의 본격적인 음악 제작과의 연계가 가능하다. 처음에는 iPad용 애플리케이션으로 출시되었지만, 2011년 9월 업데이트를 통해 iPhone 및 iPod touch도 지원하게 되었다. VY1 음성을 사용한 "iVOCALOID VY1"이 2010년 12월에, VY2 음성을 사용한 "iVOCALOID VY2"가 2011년 9월에, 蒼姫ラピス 음성을 사용한 "iVOCALOID 蒼姫ラピス"가 2012년 11월에 출시되었다.

;VocaloWitter
;VocaloWitter 蒼姫ラピス
: iPhone 및 iPod touch용 애플리케이션으로, 피치 커브를 그리는 방식의 입력을 채택하여 직관적이고 간편한 음성 합성을 가능하게 한다. 2010년 12월에 VY1 음성을 사용한 "iVOCALOID VY1t"가 출시되었고, 2011년에 현재의 "VocaloWitter"(보카로위터)로 이름이 변경되었다. 2012년 11월에는 蒼姫ラピス 음성을 사용한 "VocaloWitter 蒼姫ラピス"가 출시되었다.

;うた詠み575
: 세가가 2013년 7월에 배포를 시작한 앱으로, 5・7・5 형식으로 단어를 입력하면 正岡小豆와 小林抹茶 라이브러리의 음성으로 하이쿠를 읽어준다. 'iVOCALOID SDK'를 이용한 첫 번째 제품이다.

;보카로다마(ボカロダマ)
: 2013년 9월에 배포를 시작한 야마하 자체 개발 게임 앱이다. 게임 화면을 따라 흐르는 가사의 한 글자씩 적힌 구슬(보카로다마)을 좌우로 슬라이드하여 음계가 할당된 파이프에 겹쳐서 노래를 부르게 할 수 있으며, 보카로다마를 같은 색의 파이프에 겹치면 수록곡의 정확한 음정으로 노래하게 하는 것을 목표로 한다. 음성은 VY1을 사용한다.

;VOCALOID first
: 2013년 11월에 배포를 시작한 음악 제작 앱이다. "iVOCALOID VY1"을 비롯한 'iVOCALOID' 시리즈가 PC용 제품에 준하는 본격적인 음악 제작 방식을 지원하는 것과 달리, 본 앱은 미리 준비된 멜로디 소재를 조합하여 가사를 입력함으로써 음악 제작 경험이 없더라도 보컬로이드를 이용한 음악 제작이 가능하도록 되어 있다. VY1 음성을 사용한다.

3.1.9. Unity with Vocaloid

"Vocaloid for Unity"라는 이름으로 처음 소개된 이것은 유니티 게임 엔진용 보컬로이드 엔진 버전이다.
게임 엔진 유니티 개발 환경에서 "VOCALOID"의 음성 합성 엔진에 접근하여 그 기능을 이용할 수 있도록 하는 소프트웨어 개발 키트(SDK)이다. "Unity 런타임 버전 VOCALOID Library unity-chan!"이 포함되어 있어 게임 상황이나 사용자 조작에 연동하여 실시간으로 음성을 합성하고, 캐릭터에게 노래를 부르게 하거나, 그 노래 방식을 바꾸는 등의 인터랙티브한 콘텐츠를 쉽게 개발할 수 있다. 2015년 12월 22일부터 제공이 시작되었다.

3.1.10. Mobile Vocaloid Editor

Mobile Vocaloid Editor는 보컬로이드 4 엔진의 iPad 및 iPhone 버전이다. 기본적으로 VY1 "Lite"가 제공되며 데모 곡이 앱에 포함되어 있다. 이 앱은 "DYN", "PIT", "VIB"를 제공하며 16개의 트랙 데이터를 처리한다. 999마디의 음악을 만들 수 있지만, 전체 보컬로이드 4 편집기와 비교하여 "그르렁거림"이나 "크로스 합성"은 할 수 없다. 이 앱의 입력 항목은 일반적인 보컬로이드 4 데이터 가져오기 방법과 다르다. 대부분의 기능은 한두 손가락으로 사용할 수 있으며 한 손가락으로 매개변수 선을 그릴 수 있다. 또한 iVocaloid와 비교하여 C2~G8의 전체 음역을 지원한다. 영어 보컬이 포함되어 있음에도 불구하고 현재 영어 인터페이스는 없으며 일본에서만 판매된다.

다음 제품을 구매할 수 있다.
*VY1: 일본 여성 보컬 VY1의 정식 버전.
*ZOLA Project: 유우(Yuu), 윌(Wil), 교(Kyo)는 각각 별도로 판매되는 3명의 남성 보컬이다.
*아오키 라피스(Aoki Lapis): 일본 여성 보컬.
*멀리: 일본 여성 보컬.
*뮤: 일본 여성 보컬.
*갈라코(Galaco): 일본 여성 보컬. "레드"와 "블루" 두 가지 버전이 있으며 각각 별도로 판매된다.
*사이버 디바(Cyber Diva): 영어 여성 보컬.
*유즈키 유카리(Yuzuki Yukari): 일본 여성 보컬. "준(Jun)", "온(Onn)", "린(Lin)" 세 가지 버전이 있으며 각각 별도로 판매된다.
*사치코: 일본 여성 보컬.
*메그포이드(Megpoid): 여성 보컬. 일본어 보컬인 "네이티브(Native)"와 "영어(English)" 두 가지 보컬이 있으며 각각 별도로 판매된다.
*유니티 찬(Unity-Chan): 일본 여성 보컬.
2010년 12월부터 iOS에서 작동하는 보컬로이드를 이용한 제품이 제공되고 있다. 야마하는 자체 개발한 음악 제작 소프트웨어와 게임 소프트웨어를 출시했을 뿐만 아니라, 외부 기업을 위해 'iVOCALOID SDK'라는 소프트웨어 개발 키트(SDK) 사양을 제공하고 있으며, 2013년 7월에는 세가가 'iVOCALOID SDK'를 이용한 첫 번째 제품으로 'うた詠み575'를 출시했다.

;iVOCALOID VY1
;iVOCALOID VY2
;iVOCALOID 蒼姫ラピス
: PC용 소프트웨어와 마찬가지로 피아노롤 방식의 인터페이스를 채택한 음악 제작 앱이다. 당시 출시된 보컬로이드 제품에는 없었던 독립적인 반주 동시 재생 기능도 탑재되어 있다. 제작한 음악 데이터를 이메일로 전송하는 기능을 갖추고 있어 PC에서의 본격적인 음악 제작과의 연계가 가능하다. 처음에는 iPad용 애플리케이션으로 출시되었지만, 2011년 9월 업데이트를 통해 iPhone 및 iPod touch도 지원하게 되었다. VY1 음성을 사용한 "iVOCALOID VY1"이 2010년 12월에, VY2 음성을 사용한 "iVOCALOID VY2"가 2011년 9월에, 蒼姫ラピス 음성을 사용한 "iVOCALOID 蒼姫ラピス"가 2012년 11월에 출시되었다.

;VocaloWitter
;VocaloWitter 蒼姫ラピス
: iPhone 및 iPod touch용 애플리케이션으로, 피치 커브를 그리는 방식의 입력을 채택하여 직관적이고 간편한 음성 합성을 가능하게 한다. 2010년 12월에 VY1 음성을 사용한 "iVOCALOID VY1t"가 출시되었고, 2011년에 현재의 "VocaloWitter"(보카로위터)로 이름이 변경되었다. 2012년 11월에는 蒼姫ラピ스 음성을 사용한 "VocaloWitter 蒼姫ラピス"가 출시되었다.

;うた詠み575
: 세가(SEGA)가 2013년 7월에 배포를 시작한 앱으로, 5・7・5 형식으로 단어를 입력하면 정오카 아즈키(正岡小豆)와 코바야시 맛차(小林抹茶) 라이브러리의 음성으로 하이쿠를 읽어준다. 'iVOCALOID SDK'를 이용한 첫 번째 제품이다.

;보카로다마(ボカロダマ)
: 2013년 9월에 배포를 시작한 야마하(Yamaha) 자체 개발 게임 앱이다. 게임 화면을 따라 흐르는 가사의 한 글자씩 적힌 구슬(보카로다마)을 좌우로 슬라이드하여 음계가 할당된 파이프에 겹쳐서 노래를 부르게 할 수 있으며, 보카로다마를 같은 색의 파이프에 겹치면 수록곡의 정확한 음정으로 노래하게 하는 것을 목표로 한다. 음성은 VY1을 사용한다.

;VOCALOID first
: 2013년 11월에 배포를 시작한 음악 제작 앱이다. "iVOCALOID VY1"을 비롯한 'iVOCALOID' 시리즈가 PC용 제품에 준하는 본격적인 음악 제작 방식을 지원하는 것과 달리, 본 앱은 미리 준비된 멜로디 소재를 조합하여 가사를 입력함으로써 음악 제작 경험이 없더라도 보컬로이드를 이용한 음악 제작이 가능하도록 되어 있다. VY1 음성을 사용한다.

3.2. 하드웨어

보컬로이드는 보컬로이드 보드(Vocaloid-Board)라는 하드웨어 버전으로 출시될 예정이다.

"VY1"(eVY1 버전)의 음성을 사용하는 LSI 사운드 생성기로, 모바일 기기에서 사용할 수 있으며, 보컬로이드 소프트웨어 버전과 달리 실시간 컴퓨팅으로 작동한다. eVocaloid 칩이 탑재된 기기로는 포켓 미쿠가 있다.

보컬로이드 음성이 내장된 키타이다.

2012년 3월에 개최된 "인터랙션 2012"에서 자음과 모음을 입력하는 문자 키로 가사를, 피아노 건반으로 음계를 입력하여 실시간으로 노래를 제작할 수 있는 VOCALOID-board를 사용한 시제품 "VOCALOID 키보드"가 발표되었다. 2015년 니코니코 초회의에서는 가사를 미리 프리셋 해 둠으로써 연주에 전념할 수 있도록 개량된 "VOCALOID 키보드"가 공개되었다. 그리고 2017년 12월 9일, "VKB-100"이라는 제품명으로 VOCALOID 키보드가 발매되었다. 노래 음성 라이브러리를 바꿔 다양한 라이브러리를 사용할 수 있게 되었고, 스마트폰이나 태블릿용으로 배포되는 앱과 블루투스 연결을 통해 라이브러리를 추가하거나 가사를 입력할 수 있게 되었다. 초기 탑재는 VY1이며, 최대 4종류의 라이브러리(하츠네 미쿠, Megpoid, IA, 유즈키 유카리)를 추가할 수 있다. 그중 첫 번째 라이브러리는 무상으로 추가할 수 있다.

3.2.1. 보컬로이드 보드

보컬로이드는 보컬로이드 보드(Vocaloid-Board)라는 하드웨어 버전으로 출시될 예정이다.

3.2.2. e보컬로이드

"VY1"(eVY1 버전)의 음성을 사용하는 LSI 사운드 생성기로, 모바일 기기에서 사용할 수 있으며, 보컬로이드 소프트웨어 버전과 달리 실시간 컴퓨팅으로 작동한다. eVocaloid 칩이 탑재된 기기로는 포켓 미쿠가 있다.

3.2.3. 보컬로이드 키보드

보컬로이드 음성이 내장된 키타이다.

2012년 3월에 개최된 "인터랙션 2012"에서 자음과 모음을 입력하는 문자 키로 가사를, 피아노 건반으로 음계를 입력하여 실시간으로 노래를 제작할 수 있는 VOCALOID-board를 사용한 시제품 "VOCALOID 키보드"가 발표되었다. 2015년 니코니코 초회의에서는 가사를 미리 프리셋 해 둠으로써 연주에 전념할 수 있도록 개량된 "VOCALOID 키보드"가 공개되었다. 그리고 2017년 12월 9일, "VKB-100"이라는 제품명으로 VOCALOID 키보드가 발매되었다. 노래 음성 라이브러리를 바꿔 다양한 라이브러리를 사용할 수 있게 되었고, 스마트폰이나 태블릿용으로 배포되는 앱과 블루투스 연결을 통해 라이브러리를 추가하거나 가사를 입력할 수 있게 되었다. 초기 탑재는 VY1이며, 최대 4종류의 라이브러리(하츠네 미쿠, Megpoid, IA, 유즈키 유카리)를 추가할 수 있다. 그중 첫 번째 라이브러리는 무상으로 추가할 수 있다.

3.2.4. 아니존 VOCALOOP

4. 제품 목록

ZERO-G는 최초로 보컬로이드 제품을 출시한 영국의 제조사이다. 초창기에는 음악 전문가를 위한 제품을 판매했지만, 2009년 소니카 출시를 통해 캐릭터를 활용한 제품도 선보였다. 일본 내 판매는 크립톤 퓨처 미디어가 대행하며, ZERO-G 웹사이트 등에서 다운로드 판매도 이루어진다.

👆
좌우로 밀어서 보기
제품엔진출시일언어성별음성 제공자설명
LEONVOCALOIDNAMM 2004 Winter(2004년1월 15일 ~ 18일)에 출시영어남성-레온과 롤라는 최초의 보컬로이드 엔진 제품이다. 영국의 전문 세션 가수가 음성을 담당했지만, 이름은 공개되지 않았다. 일본에서는 2004년 3월 3일에 출시되었고, 2013년 12월 말 판매 종료되었다.
LOLAVOCALOID영어여성-
MIRIAMVOCALOID2004년 7월 1일영어여성미리엄 스톡리
(가수)
아디에무스의 보컬 미리엄 스톡리가 음성을 담당했다. 일본에서는 2004년 7월 26일에 출시되었고, 2013년 12월 말 판매 종료되었다.
PRIMAVOCALOID22008년 1월 14일영어여성-소프라노 오페라 가수의 목소리를 기반으로 제작되어 고음역에 매력적인 목소리가 특징이다. 일본에서는 2008년 2월 22일에 출시되었다.
소니카VOCALOID22009년 7월 15일영어여성-샘플링 음성에 사용된 사람은 "가수"나 "성우"가 아니라고 한다. 일본에서는 2009년 8월 7일에 출시되었다.
TONIOVOCALOID22010년7월 13일영어남성-전문 남성 오페라 가수의 목소리를 기반으로 제작되었으며, 테너에서 바리톤 음역을 잘 다룬다. 일본에서는 2010년 8월 2일에 출시되었다.
AVANNAVOCALOID32012년12월 22일영어여성레이첼 데이보컬로이드3 최초의 영어 여성 보컬이다. 팝 음악과 켈트 음악을 잘 다루며, 맑고 달콤한 목소리가 특징이다. 일본에서는 2013년 4월 24일에 출시되었다.
DexVOCALOID42015년 11월 20일영어남성Sam Blakeslee미국식 영어 억양을 가진 강력한 남성 보컬로 팝, 록, EDM에 적합하다. Daina와의 듀엣에서 좋은 성능을 발휘한다고 한다.
DainaVOCALOID4영어여성Aki Glancy젊고 소울풀하며 허스키한 여성 보컬로 팝, 댄스, 컨트리에 적합하다.


크립톤 퓨처 미디어는 ZERO-G와 함께 초기 엔진부터 VOCALOID 제품을 판매하고 있는 일본 기업이다. 초기부터 캐릭터 일러스트를 사용한 제품을 판매하여 폭넓은 고객층 확보를 목표로 했다. 특히, 하츠네 미쿠(初音ミク), 카가미네 린·렌(鏡音リン・レン), 메구리네 루카(巡音ルカ)로 구성된 「캐릭터 보컬 시리즈(CV 시리즈)」는 버추얼 아이돌 가수를 프로듀스하는 콘셉트의 제품이다.

👆
좌우로 밀어서 보기
제품엔진발매일언어성별음성 제공자설명
 MEIKOVOCALOID2004년 11월 5일일본어여성하이교 메이코(拝郷メイコ)
(싱어송라이터(シンガーソングライター))
VOCALOID 일본어 라이브러리 제1탄. 팝, 록, 재즈, R&B, 동요까지 폭넓게 소화한다고 알려져 있다. 2014년 2월 4일, MEIKO V3가 발매되었다.
MEIKO V3VOCALOID32014년 2월 4일일본어
영어
 KAITOVOCALOID2006년 2월 17일일본어남성후가 나오토(風雅なおと)
(스튜디오 뮤지션(スタジオ・ミュージシャン))
KAITO는 VOCALOID 일본어 라이브러리 제2탄으로 발매되었다. 2013년 2월 15일, KAITO V3가 발매되었다.
KAITO V3VOCALOID32013년 2월 15일일본어
영어
 하츠네 미쿠(初音ミク)VOCALOID22007년 8월 31일일본어여성후지타 사키(藤田咲)
(성우)
하츠네 미쿠(初音ミク)는 2007년 8월 31일 「캐릭터 보컬 시리즈」 제1탄으로 발매되었다. 발매 후 약 1년 만에 4만 개 이상을 출하하는 대히트 상품이 되었다. 2010년 4월 하츠네 미쿠 아펜드가 발매되었다. 이후 V3 ENGLISH(2013년 8월 31일), V3(2013년 9월 26일), V4X, V4 ENGLISH(2016년 8월 31일), V4 CHINESE(2017년 8월 31일)가 발매되었다.
하츠네 미쿠 아펜드(初音ミク・アペンド)2010년 4월 30일
하츠네 미쿠 V3 ENGLISH(初音ミク V3 ENGLISH)VOCALOID32013년 8월 31일영어
하츠네 미쿠 V3(初音ミク V3)2013년 9월 26일일본어
하츠네 미쿠 V4 ENGLISH(初音ミク V4 ENGLISH)VOCALOID42016년 8월 31일영어
하츠네 미쿠 V4X(初音ミク V4X)일본어
하츠네 미쿠 V4 CHINESE(初音ミク V4 CHINESE)2017년 8월 31일중국어
 카가미네 린·렌(鏡音リン・レン)VOCALOID22007년 12월 27일일본어여성
(카가미네 린)
남성
(카가미네 렌)
시모다 아사미(下田麻美)
(성우)
카가미네 린·렌(鏡音リン・レン)은 「캐릭터 보컬 시리즈」 제2탄이다. 여성 보컬인 카가미네 린과 남성 보컬인 카가미네 렌, 2개를 합쳐 하나의 제품으로 하고 있다. 2008년 7월 18일 act2라는 이름으로 라이브러리 업데이트가 이루어졌다. 2010년 12월 27일에는 카가미네 린·렌 아펜드가 발매되었다. 2015년 12월 24일에는 V4X, V4 ENGLISH가 발매되었다.
카가미네 린·렌 act2(鏡音リン・レン act2)2008년 7월 18일
카가미네 린·렌 아펜드(鏡音リン・レン・アペンド)2010년 12월 27일
카가미네 린·렌 V4 ENGLISH(鏡音リン・レン V4 ENGLISH)VOCALOID42015년 12월 24일영어
카가미네 린·렌 V4X(鏡音リン・レン V4X)일본어
 메구리네 루카(巡音ルカ)VOCALOID22009년 1월 30일일본어
영어
여성아사카와 유(浅川悠)
(성우)
메구리네 루카(巡音ルカ)는 「캐릭터 보컬 시리즈」 제3탄이다. 일본어와 영어, 2개의 라이브러리를 수록한 이중언어이다. 2015년 3월 19일에는 V4X가 발매되었다.
메구리네 루카 V4X(巡音ルカ V4X)VOCALOID42015년 3월 19일


PowerFX는 스웨덴의 제조사로 VOCALOID2부터 참여했다. 일본 내 판매는 크립톤 퓨처 미디어에서 대행하고 있다.

👆
좌우로 밀어서 보기
제품엔진발매일语言성별음성 제공자설명
SWEET ANNVOCALOID22007년 6월 29일영어여성조디
(가수)
VOCALOID2 엔진을 탑재한 최초의 제품. MySpace 프로필에서는 스웨덴인으로 되어 있다([https://myspace.com/vocaloidsweetann Sweet Ann - MySpace]). 음성을 제공한 조디는 오스트레일리아의 가수이다. 일본에서는 2007년 9월 21일에 발매되었다.
BIG-ALVOCALOID22009년 12월 22일영어남성프랭크 샌더슨
(보이스오버 아티스트)
VOCALOID2의 영어 라이브러리에서는 최초의 남성 제품으로, 시원한 중저음 보이스를 특징으로 한다 . 일본에서는 2010년 3월 5일에 발매되었다
OLIVERVOCALOID32011년 12월 21일영어남성-VOCALOID3에서는 최초의 남성 제품으로, 클래식한 보이 소프라노 음성을 수록하고 있다.
YOHIOloidVOCALOID32013년 9월 10일영어
일본어
남성요히오(YOHIO)
(싱어송라이터)
일본에서도 활동하는 스웨덴 출신의 싱어송라이터, 요히오(YOHIO)의 목소리를 기반으로 한 제품이다.
RubyVOCALOID42015년 10월 7일영어여성Misha음성 제공자인 Misha는 UTAU에서 MAKU音ハチ의 목소리를 담당하고 있다.


인터넷은 일본의 DTM 제조업체로, 2008년 하츠네 미쿠(初音ミク)의 히트를 계기로 시장에 진출했다. "아티스트 보컬" 브랜드로 유명 아티스트의 목소리를 사용한 제품과 다른 회사와의 협업을 통해 기존 캐릭터를 활용한 제품을 개발하고 있다.

👆
좌우로 밀어서 보기
제품엔진출시일언어성별음성 제공자설명
 가쿠포이드(がくっぽいど)VOCALOID22008년 7월 31일일본어남성가쿠토(GACKT)
(싱어송라이터, 배우)
VOCALOID2 엔진을 사용한 최초의 남성 음성 제품으로 "아티스트 보컬"의 첫 번째 작품이다. 2012년 7월 13일에는 VOCALOID3 대응 음원 3종이 출시되었다. 2015년 4월 30일에는 VOCALOID4 대응 음원이 출시되었다.
가쿠포이드 NATIVEVOCALOID32012년 7월 13일
VOCALOID42015년 4월 30일
가쿠포이드 POWERVOCALOID32012년 7월 13일
VOCALOID42015년 4월 30일
가쿠포이드 WHISPERVOCALOID32012년 7월 13일
VOCALOID42015년 4월 30일
 메구포이드(Megpoid)VOCALOID22009년 6월 26일일본어여성나카시마 아이(中島愛)
(성우, 가수)
메구포이드(Megpoid)는 "아티스트 보컬"의 두 번째 작품이다. 2011년 10월 21일 VOCALOID3 대응 신음원 4종이 출시되었고, 2012년 3월 16일에는 메구포이드 Native가, 2013년 2월 28일에는 영어판 메구포이드 English가 출시되었다. 2015년 11월 5일에는 총 10종의 VOCALOID4 대응 음원이 출시되었다. 2022년 10월 13일에는 AI Megpoid가 출시되었다.
Megpoid PowerVOCALOID32011년 10월 21일
VOCALOID4
(PowerFat 추가)
2015년 11월 5일
Megpoid WhisperVOCALOID32011년 10월 21일
VOCALOID4
(SoftWhisper 추가)
2015년 11월 5일
Megpoid AdultVOCALOID32011년 10월 21일
VOCALOID4
(MellowAdult 추가)
2015년 11월 5일
Megpoid SweetVOCALOID32011년 10월 21일
VOCALOID4
(NaturalSweet 추가)
2015년 11월 5일
Megpoid NativeVOCALOID32012년 3월 16일
VOCALOID4
(NativeFat 추가)
2015년 11월 5일
Megpoid EnglishVOCALOID32013년 2월 28일영어
AI MegpoidVOCALOID62022년 10월 13일일본어
영어
중국어
릴리(Lily)VOCALOID22010년 8월 25일일본어여성유리(yuri)
(가수)
릴리(Lily)는 에이벡스 매니지먼트(エイベックス・マネジメント) 소속 음악 그룹 "m.o.v.e"의 보컬리스트 유리(yuri)의 목소리를 기반으로 제작된 제품이다. 2012년 4월 19일에 VOCALOID3 버전이 발매되었다.
VOCALOID32012년 4월 19일
 가챠포이드(ガチャッポイド)VOCALOID22010년 10월 8일일본어남성가챠핀(ガチャピン)후지 TV 계열의 TV 프로그램 ポンキッキ 시리즈의 캐릭터 가챠핀(ガチャピン)의 목소리를 기반으로 제작된 제품이다. 2014년 9월 17일에는 VOCALOID3에 대응하는 새로운 음원이 다운로드 버전으로만 출시되었다.
가챠포이드 V3VOCALOID32014년 9월 17일
컬(CUL)VOCALOID32011년 12월 22일일본어여성키타무라 에리(喜多村英梨)
(성우)
컬(CUL)은 2011년 1월에 방영된 VOCALOID 특집 프로그램 "VOCALO Revolution"에서 탄생한 오리지널 캐릭터 컬(CUL)의 목소리로 개발되었다.
코코네(kokone)VOCALOID32014년 2월 14일일본어여성-코코네(kokone)는 "마음에 와 닿는 노래를 부르는 정통파 여성 보컬리스트"로 장르에 구애받지 않고 넓은 음역대를 소화할 수 있는 것이 특징이다.
치카(Chika)VOCALOID32014년 10월 16일일본어여성이토 치아키(伊藤千晃)
(가수)
음악 그룹 "AAA"의 멤버(발매 당시) 이토 치아키의 목소리를 기반으로 한 라이브러리이다.
 오토마치 우나(音街ウナ)VOCALOID42016년 7월 30일일본어여성타나카 아이미(田中あいみ)
(성우)
엠티케이(エム・ティー・ケー)와의 협업 프로젝트로 탄생한 제품. 달콤하고 귀여운 음색의 "Sugar", 활기차고 강력한 음색의 "Spicy" 2종의 라이브러리가 탑재되어 있다. 2023년 6월 22일 AI 오토마치 우나가 출시되었다.
AI 오토마치 우나VOCALOID62023년 6월 22일
하나키보토(花響琴)VOCALOID62024년 4월 18일일본어여성타치바나 레온(立花れおん)파워풀하고 힘찬 음색을 가진 정통파 가수


AH소프트웨어(AH-Software)는 일본의 소프트웨어 판매 회사로, 2009년 12월에 3가지 제품을 동시에 출시하며 시장에 진출했다.

{| class="wikitable"
!colspan="2"|제품!!엔진!!발매일!!언어!!style="white-space:nowrap"|성별!!style="white-space:nowrap"|음성 제공자!!설명
|-
!rowspan="3" style="border-right-style:none;"| !!style="white-space:nowrap; border-left-style:none;"|히야마 키요테루(氷山キヨテル)
|VOCALOID2||2009년 12월 4일||rowspan="3" style="white-space:nowrap"|일본어||rowspan="3"|남성||rowspan="3" style="white-space:nowrap" style="text-align:center"|히야마 타카후미
(가수)||rowspan="3"|‘보컬로이드 선생님’을 표방한 제품으로, 음성을 제공한 히야마 타카후미는 VOCALOID 개발에 참여한 가수이다. 2015년 10월 29일에는 VOCALOID4에 대응하는 2종류의 새로운 음원이 발매되었다.
|-
!히야마 키요테루 내추럴(氷山キヨテル ナチュラル)
|rowspan="2"|VOCALOID4||rowspan="2" style="white-space:nowrap"|2015년 10월 29일
|-
!히야마 키요테루 록(氷山キヨテル ロック)
|-
!rowspan="2" style="border-right-style:none;"| !!style="border-left-style:none;"|카아이 유키(歌愛ユキ)
|VOCALOID2||2009년 12월 4일||rowspan="2" style="white-space:nowrap"|일본어||rowspan="2"|여성||rowspan="2" style="text-align:center"|-||rowspan="2"|‘보컬로이드 초등학생’을 표방한 제품으로 실제 초등학생 여자아이의 노래 소리를 기반으로 만들어졌다. 2015년 10월 29일에는 VOCALOID4에 대응하는 새로운 음원이 발매되었다.
|-
!카아이 유키 내추럴(歌愛ユキ ナチュラル)
|VOCALOID4||style="white-space:nowrap"|2015년 10월 29일
|-
!rowspan="2" style="border-right-style:none;"| !!style="border-left-style:none;"|SF-A2 개발 코드 미키(SF-A2 開発コード miki)
|VOCALOID2||2009년 12월 4일||rowspan="2"|일본어||rowspan="2"|여성||rowspan="2" style="text-align:center"|후루카와 미키
싱어송라이터||rowspan="2">‘아티스트 에디션 01’을 표방한 제품이다. 2015년 6월 18일에는 VOCALOID4에 대응하는 새로운 음원이 발매되었다.
|-
!미키 내추럴(miki ナチュラル)
|VOCALOID4||style="white-space:nowrap"|2015년 6월 18일
|-
!rowspan="3" style="border-right-style:none;"| !!style="border-left-style:none;"|네코무라 이로하(猫村いろは)
|VOCALOID2||style="white-space:nowrap"|2010년 10월 22일||rowspan="3"|일본어||rowspan="3"|여성||rowspan="3" style="text-align:center"|카타쿠라 쿄스케
(가수)||rowspan="3"|[[

5. 문화적 영향

하츠네 미쿠는 보컬로이드의 성공에 일부 기여했다.
하츠네 미쿠는 보컬로이드의 성공에 일부 기여했다.

크립톤 퓨처 미디어의 하츠네 미쿠 보컬로이드2 소프트웨어 출시와 그 성공은 일본에서 보컬로이드 소프트웨어 전반의 인기를 크게 높였다. 특히, 일본의 동영상 공유 웹사이트인 니코니코 동화는 보컬로이드의 인지도와 인기에 큰 영향을 미쳤다. 하츠네 미쿠 사용자이자 일러스트레이터가 제작한 영상에서, 초변형된 미쿠인 "하치유네 미쿠"가 쪽파를 들고 핀란드 민요인 이에반 폴카를 부르는 영상은 많은 조회수를 기록하며 큰 인기를 얻었다. 크립톤은 이 영상이 멀티미디어 콘텐츠 제작, 특히 동인 문화에 보컬로이드를 활용할 수 있는 다양한 가능성을 보여주었다고 언급했다.

니코니코 동화는 사용자들이 협업하여 콘텐츠를 제작하는 공간이 되었다. 사용자가 만든 인기 있는 오리지널 곡에 다른 사용자들이 일러스트, 2D 및 3D 애니메이션, 리믹스를 추가하거나, 미완성 작품을 공개하고 아이디어를 요청하는 등 다양한 방식으로 협업이 이루어졌다. "악의의 이야기" 시리즈와 같이 보컬로이드를 사용하여 이야기를 전달하는 콘텐츠도 인기를 얻어 만화, 책, 연극 작품으로 제작되었다. 카이토가 부른 쿠로우사-P 제작의 "칸타렐라" 역시 연극 작품으로 제작되어 공연되었다. 니코니코 동화의 영향력은 매우 커서, 스튜디오들은 보컬로이드 제품 홍보를 위해 니코니코 동화나 유튜브와 같은 웹사이트에 데모 영상을 게시했다. 가쿠포 마스코트 디자인 아티스트인 미우라 켄타로는 니코니코 동화에 대한 애정으로 무료로 서비스를 제공하기도 했다.

2009년 9월에는 "하치유네 미쿠" 피규어 3개가 로켓으로 발사되었지만, 우주에는 도달하지 못했다. 2009년 11월에는 금성 우주 탐사선 아카츠키의 균형추로 사용될 하츠네 미쿠 알루미늄 플레이트 제작을 위한 청원이 시작되었다. 이 프로젝트는 일본 우주항공연구개발기구(JAXA)의 지원을 받았으며, 여러 언어로 번역된 청원 웹사이트를 통해 1만 명 이상의 서명을 달성했다. 2010년 5월, 하츠네 미쿠를 묘사한 플레이트 3개를 장착한 아카츠키가 다네가시마 우주센터에서 발사되었다.

보컬로이드 소프트웨어는 블랙 록 슈터 캐릭터에도 큰 영향을 미쳤다. 이 캐릭터는 "블랙 록 슈터"라는 노래로 유명해졌고, 여러 개의 피규어가 제작되었으며, 오르뎃이 제작한 오리지널 비디오 애니메이션이 무료로 스트리밍되었다. 보컬로이드 문화를 겨냥한 가상 아이돌 "미야우"도 공개되었으며, 태국 출신 쌍둥이 가상 아이돌은 일본어로 된 싱글을 발표했다.

2010년 8월에는 하츠네 미쿠 테마 카페가 운영되었고, 일본 보컬로이드를 대상으로 한 행사도 마련되었다. 2011년 2월에는 "스노우 미쿠"가 삿포로 눈 축제에 등장했다. 보컬로이드 테마 TV 프로그램인 보카로 레볼루션교토 방송에서 방영을 시작했으며, 보컬로이드 문화 확산을 위해 "컬"이라는 마스코트가 등장했다. Piapro는 패션 브랜드와의 경연 대회를 개최하여 로리타 스타일 디자인을 상품으로 제작하기도 했다. 한 라디오 방송국에서는 보컬로이드 음악으로만 구성된 프로그램을 편성했다.

보컬로이드 소프트웨어는 UTAU와 같은 무료 소프트웨어 개발에도 영향을 미쳤다. Mac音シリーズ/[[맥네 시리즈]]일본어를 위해 리즌 4와 가라지밴드에서 사용할 목적으로 여러 제품이 제작되었으며, UTAU 프로그램에서도 사용할 수 있도록 파일 형식을 변환할 수 있었다. 阿久女イク/Acme Iku일본어 캐릭터를 위해 개발된 Maidloid 프로그램은 에로틱한 소리를 생성한다. AH-소프트웨어는 보이스로이드 소프트웨어를 위해 쓰쿠요미 아이와 쇼타를 개발하여 보컬로이드와 함께 홍보했다. 이 소프트웨어는 노래보다는 말하기를 위한 것이다. 크립톤 퓨처 미디어는 이러한 추가 소프트웨어 개발을 환영하는 입장을 보였다.

2011년 동일본 대지진 당시, 크립톤 퓨처 미디어를 비롯한 여러 회사들이 보컬로이드 관련 기부 활동에 참여했다. 크립톤 퓨처 미디어는 KarenT 레이블 음악 판매 수익금을 일본 적십자사에 기부했고, 하츠네 미쿠 특별 넨도로이드 판매 수익금도 기부했다. AH-소프트웨어는 도호쿠 즌코를 제작하여 도호쿠 지역 부흥을 지원했다.

2012년에는 보컬로이드가 코스프레 관련 서비스 증가에 기여한 요인 중 하나로 언급되었다. 2013년에는 보컬로이드3 올리버가 웹 시리즈 벌과 강아지 고양이의 캐릭터 퍼피캣의 목소리로 사용되었다.

2023년에는 포켓몬스터와의 콜라보레이션 "프로젝트 VOLTAGE"가 발표 및 출시되었다. 이 콜라보레이션은 하츠네 미쿠가 다양한 포켓몬 타입 트레이너로 그려진 그림과 18명의 프로듀서가 제작한 노래들로 구성되었다.

5.1. 한국에서의 보컬로이드

SBS의 자회사인 SBS Artech는 2011년 동일본 대지진 당시 여러 보컬로이드 관련 기부 활동에 참여했다. 크립톤 퓨처 미디어는 다른 여러 회사와 함께 기부 활동에 참여했으며, 크립톤 퓨처 미디어의 KarenT 레이블 음악 판매 수익금은 일본 적십자사에 기부되었다. 또한, 판매액 1,000엔당 일본 적십자사에 기부되는 하츠네 미쿠 특별 넨도로이드인 넨도로이드 하츠네 미쿠: 서포트 ver.가 발표되었다. 크립톤 퓨처 미디어의 기부 활동 외에도 AH-소프트웨어는 도호쿠 지역과 그 문화의 부흥을 촉진하기 위해 보이스로이드 음성 데이터 도호쿠 즌코를 제작했다.

2012년에는 보컬로이드가 코스프레 관련 서비스의 10% 증가에 기여한 요인 중 하나로 언급되었다.

SBS Artech는 한국어를 지원하는 VOCALOID3부터 시장에 진출했으며, SeeU를 발매했다. SeeU는 VOCALOID3 엔진을 기반으로 2011년 10월 21일에 발매되었으며, 한국어와 일본어 라이브러리를 탑재하고 있다. SeeU는 K팝 걸그룹 "Glam"의 멤버 다희의 목소리를 기반으로 제작되었으며, 저음역에서는 허스키하고 고음역에서는 맑은 목소리가 특징이다. SeeU의 캐릭터 일러스트는 KKUEM이 디자인했다. 일본에서는 2011년 12월 16일에 발매되었으며, 2013년 3월 1일경 일본 내 판매가 종료되었다.

이후 VOCALOID4 엔진을 기반으로 한 UNI가 2017년 2월 14일에 발매되었다. 일본에서는 2018년 12월 10일에 발매되었다.

5.2. 일본에서의 보컬로이드

크립톤 퓨처 미디어의 하츠네 미쿠 보컬로이드2 소프트웨어 출시와 그 성공은 일본에서 보컬로이드 소프트웨어 전반의 인기를 크게 높였다. 특히, 일본의 동영상 공유 웹사이트인 니코니코 동화는 보컬로이드의 인지도와 인기에 큰 영향을 미쳤다. 하츠네 미쿠 사용자이자 일러스트레이터가 제작한 영상에서, 초변형된 미쿠인 "하치유네 미쿠"가 쪽파를 들고 핀란드 민요인 이에반 폴카를 부르는 영상은 많은 조회수를 기록하며 큰 인기를 얻었다. 크립톤은 이 영상이 멀티미디어 콘텐츠 제작, 특히 동인 문화에 보컬로이드를 활용할 수 있는 다양한 가능성을 보여주었다고 언급했다.

니코니코 동화는 사용자들이 협업하여 콘텐츠를 제작하는 공간이 되었다. 사용자가 만든 인기 있는 오리지널 곡에 다른 사용자들이 일러스트, 2D 및 3D 애니메이션, 리믹스를 추가하거나, 미완성 작품을 공개하고 아이디어를 요청하는 등 다양한 방식으로 협업이 이루어졌다. "악의의 이야기" 시리즈와 같이 보컬로이드를 사용하여 이야기를 전달하는 콘텐츠도 인기를 얻어 만화, 책, 연극 작품으로 제작되었다. 카이토가 부른 쿠로우사-P 제작의 "칸타렐라" 역시 연극 작품으로 제작되어 공연되었다. 니코니코 동화의 영향력은 매우 커서, 스튜디오들은 보컬로이드 제품 홍보를 위해 니코니코 동화나 유튜브와 같은 웹사이트에 데모 영상을 게시했다. 가쿠포 마스코트 디자인 아티스트인 미우라 켄타로는 니코니코 동화에 대한 애정으로 무료로 서비스를 제공하기도 했다.

2009년 9월에는 "하치유네 미쿠" 피규어 3개가 로켓으로 발사되었지만, 우주에는 도달하지 못했다. 2009년 11월에는 금성 우주 탐사선 아카츠키의 균형추로 사용될 하츠네 미쿠 알루미늄 플레이트 제작을 위한 청원이 시작되었다. 이 프로젝트는 일본 우주항공연구개발기구(JAXA)의 지원을 받았으며, 여러 언어로 번역된 청원 웹사이트를 통해 1만 명 이상의 서명을 달성했다. 2010년 5월, 하츠네 미쿠를 묘사한 플레이트 3개를 장착한 아카츠키가 다네가시마 우주센터에서 발사되었다.

보컬로이드 소프트웨어는 블랙 록 슈터 캐릭터에도 큰 영향을 미쳤다. 이 캐릭터는 "블랙 록 슈터"라는 노래로 유명해졌고, 여러 개의 피규어가 제작되었으며, 오르뎃이 제작한 오리지널 비디오 애니메이션이 무료로 스트리밍되었다. 보컬로이드 문화를 겨냥한 가상 아이돌 "미야우"도 공개되었으며, 태국 출신 쌍둥이 가상 아이돌은 일본어로 된 싱글을 발표했다.

2010년 8월에는 하츠네 미쿠 테마 카페가 운영되었고, 일본 보컬로이드를 대상으로 한 행사도 마련되었다. 2011년 2월에는 "스노우 미쿠"가 삿포로 눈 축제에 등장했다. 보컬로이드 테마 TV 프로그램인 보카로 레볼루션교토 방송에서 방영을 시작했으며, 보컬로이드 문화 확산을 위해 "컬"이라는 마스코트가 등장했다. Piapro는 패션 브랜드와의 경연 대회를 개최하여 로리타 스타일 디자인을 상품으로 제작하기도 했다. 한 라디오 방송국에서는 보컬로이드 음악으로만 구성된 프로그램을 편성했다.

보컬로이드 소프트웨어는 UTAU와 같은 무료 소프트웨어 개발에도 영향을 미쳤다. Mac音シリーズ/[[맥네 시리즈]]일본어를 위해 리즌 4와 가라지밴드에서 사용할 목적으로 여러 제품이 제작되었으며, UTAU 프로그램에서도 사용할 수 있도록 파일 형식을 변환할 수 있었다. 阿久女イク/Acme Iku일본어 캐릭터를 위해 개발된 Maidloid 프로그램은 에로틱한 소리를 생성한다. AH-소프트웨어는 보이스로이드 소프트웨어를 위해 쓰쿠요미 아이와 쇼타를 개발하여 보컬로이드와 함께 홍보했다. 이 소프트웨어는 노래보다는 말하기를 위한 것이다. 크립톤 퓨처 미디어는 이러한 추가 소프트웨어 개발을 환영하는 입장을 보였다.

2011년 동일본 대지진 당시, 크립톤 퓨처 미디어를 비롯한 여러 회사들이 보컬로이드 관련 기부 활동에 참여했다. 크립톤 퓨처 미디어는 KarenT 레이블 음악 판매 수익금을 일본 적십자사에 기부했고, 하츠네 미쿠 특별 넨도로이드 판매 수익금도 기부했다. AH-소프트웨어는 도호쿠 즌코를 제작하여 도호쿠 지역 부흥을 지원했다.

2012년에는 보컬로이드가 코스프레 관련 서비스 증가에 기여한 요인 중 하나로 언급되었다. 2013년에는 보컬로이드3 올리버가 웹 시리즈 벌과 강아지 고양이의 캐릭터 퍼피캣의 목소리로 사용되었다.

2023년에는 포켓몬스터와의 콜라보레이션 "프로젝트 VOLTAGE"가 발표 및 출시되었다. 이 콜라보레이션은 하츠네 미쿠가 다양한 포켓몬 타입 트레이너로 그려진 그림과 18명의 프로듀서가 제작한 노래들로 구성되었다.

5.3. 정치적 이용

2010년 7월 11일 일본 참의원 선거에서 민주당의 후지스에 겐조 후보가 하츠네 미쿠의 이미지를 사용하려 한 사건은 보컬로이드 제작사의 이용 계약과 관련하여 논란이 된 사례 중 하나이다. 당시 민주당은 하츠네 미쿠의 이미지를 통해 젊은 유권자들에게 어필하려 했다. 크립톤 퓨처 미디어는 정치적 목적으로 하츠네 미쿠의 이미지나 이름을 사용하는 것을 거부했으나, 후지스에 겐조는 하츠네 미쿠의 목소리를 사용한 곡 "We Are the One"을 유튜브에 공개했다. 이때 하츠네 미쿠의 이미지는 당의 캐릭터로 대체되었고(뮤직비디오), 크레딧에서 하츠네 미쿠의 이름은 제외되었다.

6. 같이 보기