맨위로가기

음성 부호화

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

음성 부호화는 음성 신호를 압축하여 전송하거나 저장하기 위한 기술로, 파형 부호화, 보코더, 하이브리드 부호화로 분류된다. 파형 부호화는 음질이 높지만 압축률이 낮고, 보코더는 압축률이 높지만 음질이 낮을 수 있으며, 하이브리드 부호화는 이 둘을 결합한 방식으로 CELP가 널리 사용된다. 음성 부호화 기술은 음성 통신, 디지털 통신, 오디오 압축 등 다양한 분야에서 활용되며, 군사적 목적의 연구가 발전에 기여했다. 최근에는 CELP, MDCT, 오퍼스 등 다양한 코덱이 개발되어 사용되고 있으며, 광대역 및 협대역 오디오 코딩 기술이 발전하고 있다.

더 읽어볼만한 페이지

  • 음성 코덱 - G.711
    G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
  • 음성 코덱 - G.729
    G.729는 ITU-T에서 표준화한 8kbps의 음성 코덱으로, ACELP 코딩 방식을 사용하여 VoIP, 화상 회의 등 다양한 통신 시스템에서 활용되며, G.729a(낮은 복잡도), G.729b(음성 활동 감지 및 불연속 전송 기능) 등의 부록을 가진다.
음성 부호화

2. 분류

음성 부호화기는 크게 파형 부호화기, 보코더, 그리고 이 둘을 결합한 하이브리드 부호화기로 나뉜다.[5][38]


  • '''파형 부호화기'''(Waveform Coder)는 음성 신호의 파형을 직접 디지털 형태로 변환하는 방식으로, 음질은 높지만 압축률은 낮다.
  • '''보코더'''(Vocoder)는 음성 생성 모델을 기반으로 음성을 분석하고 합성하는 방식으로, 압축률은 높지만 음질은 파형 부호화 방식에 비해 낮을 수 있다.
  • '''하이브리드 부호화기'''(Hybrid Coder)는 파형 부호화와 보코더의 장점을 결합한 방식으로, 비교적 낮은 비트 전송률에서도 양호한 음질을 얻을 수 있다.


각 부호화 방식의 특징은 다음과 같다.

음성 부호화 알고리즘의 분류와 특성
분류레이트(kbps)복잡성부호화 방식의 예
파형 부호화(시간 영역)12-64낮음PCM, ADPCM, CVSD
파형 부호화(주파수 영역)12-256중간SBC
하이브리드 부호화4.8-16높음CELP, ACELP, VCELP
분석 합성 부호화0.6-4.8높음LPC, AMBE, MELP


2. 1. 파형 부호화기 (Waveform Coder)

파형 부호화는 음성 신호의 파형을 직접 디지털 형태로 변환하는 방식이다. 음질은 높지만 압축률은 상대적으로 낮은 편이며, 시간 도메인 방식과 주파수 도메인 방식으로 나뉜다.[5][38]

음성 부호화 알고리즘의 분류와 특성
분류레이트(kbps)복잡성부호화 방식의 예
파형 부호화(시간 영역)12-64낮음PCM, ADPCM, CVSD
파형 부호화(주파수 영역)12-256중간SBC



초기 디지털 전화 시스템에서는 A-law와 μ-law 알고리즘이 사용되었다. 이 알고리즘은 샘플당 8비트만 필요했지만, 실제로는 12 비트 해상도를 제공했다.[7] 이는 인간 청각 인지와 일치하는 로그 압축 방식을 사용했기 때문이다. 낮은 진폭의 잡음은 낮은 진폭의 음성 신호와 함께 들리지만, 높은 진폭의 신호에 의해 가려지는(마스킹) 원리를 이용했다. 이러한 방식은 음악 신호에는 왜곡을 발생시키지만, 음성 신호에는 적합했다. 당시에는 33%의 대역폭 감소 효과가 있어 기술적으로 유리했다.

2008년에는 G.711.1 코덱이 ITU-T에 의해 표준화되었으며, 입력 샘플링 속도는 16 kHz이다.[8]

2. 1. 1. 시간 도메인 방식

펄스 부호 변조(PCM), 적응 차분 펄스 부호 변조(ADPCM) 등은 시간 영역에서 파형을 부호화하는 가장 오래된 기술이다. 압축률은 낮지만, 비교적 간단하게 부호화가 가능하고 부호화 지연도 없기 때문에, 주로 전화 회선 등의 부호화 방식으로 사용되어 왔다.[38]

주요 부호화 방식은 다음과 같다.

펄스 부호 변조(pulse code modulation|펄스 코드 변조영어)는 가장 기본적인 파형 부호화 방식이다. 선형 PCM과 인간의 청각의 대수적인 특성을 이용하여 신호의 진폭이 커질수록 양자화의 스텝 폭을 크게 하는 비선형 PCM의 2가지 종류가 있다. 비선형 PCM의 규격으로 압신 특성으로 ''μ-law''(북미・일본) 및 ''A-law''(유럽 기타)를 사용하는 ITU-T G.711이 전화 등에서의 음성 부호화 용도로 사용되고 있다. 4kHz의 대역폭을 가진 전화 품질의 음성(표본화 주파수 8kHz)을 64kbps로 부호화할 수 있다.

음성 신호의 인접한 샘플 사이에는 상관 관계가 있으므로 과거 샘플 값을 이용하여 현재 샘플 값을 예측할 수 있다. 이전 샘플 값을 예측값으로 하여 다음 샘플 값과의 차이만 부호화하는 차분 PCM(differential pulse code modulation|차분 펄스 코드 변조영어)을 개량하여 양자화 폭을 적응적으로 변화시키는 방식이 적응 차분 PCM(adaptive differential pulse code modulation|적응 차분 펄스 코드 변조영어)이다.

규격으로는 전화 품질의 음성을 32kbps로 부호화하는 ITU-T G.721이 1984년에 권고되었고, 그 후 16kbps, 24kbps, 32kbps, 40kbps(2~5비트/샘플)로 부호화하는 ITU-T G.726이 권고되었다. 적응 차분 PCM은 일본의 PHS(personal handy-phone system) 등에서 사용되고 있다.

델타 변조(delta modulation|델타 변조영어)는 차분 PCM의 1비트 버전으로, 이전 샘플 값에 대한 샘플 값의 크기를 1비트로 부호화한다. 델타 변조를 응용한 것으로는 적응 델타 변조(adaptive delta modulation|적응 델타 변조영어), 델타-시그마(Δ-Σ) 변조 등이 있다. 다른 방식에 비해 단순한 하드웨어로 음성 부호화가 가능하기 때문에, 디지털 회로가 고가였던 시대에 고안되었다.

적응 델타 변조는 델타 변조의 양자화 폭을 적응적으로 변화시키는 방식으로, 적응 차분 PCM의 1비트 버전에 해당한다. CVSD(continuously variable slope delta modulation|연속 가변 기울기 델타 변조영어)라고도 불린다. CVSD는 MIL-STD-188-113(16kbps 및 32kbps)과 Federal-Standard 1023(12kbps)의 규격이 있으며, 미국의 군사용 전술무선 통신 시스템에서 암호화 통신을 위한 음성 부호화 방식으로 사용되었다.

델타-시그마 변조는 전송 도중의 오류가 나중에까지 영향을 미치는 델타 변조의 문제점을 해결한 것으로, 델타 변조에서 샘플 값의 차분을 구하는 회로와 양자화를 수행하는 회로 사이에 적분 회로를 둔 것이다. 델타-시그마 변조는 초기 전자식 전화 교환기에서 사용되었으며, AD 변환 및 DA 변환용 LSI 기술로 널리 사용되고 있다.

2. 1. 2. 주파수 도메인 방식

주파수 영역 부호화는 음성 신호를 주파수 영역의 데이터로 변환하고, 주파수별 전력 밀도의 차이와 인간의 청각 모델을 이용하여 주파수별 양자화 폭과 비트 할당을 변경하며 불필요한 정보를 삭제한다. 인간의 지각상의 특성을 이용하기 때문에, 지각 부호화(perceptual audio coding영어)라고 불리기도 한다.[38] 이 방법은 CELP 등 다른 방식에 비해 비트 전송률이 낮을 때 음성 품질이 좋지 않아 주로 높은 비트 전송률에서 사용되며, 전화 회의나 음악을 포함한 오디오 신호 부호화에 사용된다. CELP와 조합하여 사용되기도 한다. 주요 방식으로는 변환 부호화와 서브밴드 부호화가 있으며, MP3AAC 등의 오디오 압축 기술로도 사용되고 있다.

  • 서브밴드 부호화 (Sub-band coding): 필터를 사용하여 입력을 여러 주파수 영역으로 분해하고, 각 영역을 부호화하는 방식이다. 각 주파수 영역마다 다른 비트 할당을 통해 정보를 압축한다. 변환 부호화와 매우 유사하며, 변형 DCT 등을 사용한 부호화 방식도 서브밴드 부호화로 통칭하기도 한다.
  • ITU-T G.722는 두 개의 서브밴드로 나누어 ADPCM으로 부호화를 수행하는 방식으로, 7kHz의 대역폭을 가진 음성 신호를 64kbps 이하로 부호화할 수 있다.
  • 변환 부호화 (Transform coding): 어떤 직교 변환을 사용하여 입력을 여러 주파수 영역으로 분해하고, 각각을 부호화하는 방식이다. 적응 변환 부호화(adaptive transform coding영어)라고도 한다.
  • 주로 이산 코사인 변환(DCT)의 일종인 변형 DCT(modified discrete cosine transform|,MDCT영어)가 사용된다. 전력 밀도와 마스킹 특성 등 인간의 청각 심리학상의 특성으로부터 대역별 비트 배분을 결정한다. 전력 밀도가 낮은 영역이나 인간의 청각 특성상 잘 들리지 않는 주파수 영역에 적은 비트를 할당하여 정보를 압축한다. 서브밴드 부호화와 매우 유사하지만, 대역 분할 수 등의 설정이 용이하고 다양한 직교 변환을 사용할 수 있어 자유도가 높다.
  • ITU-T G.722.1 annex C는 이산 코사인 변환과 유사한 Modulated Lapped Transform(MLT)라고 불리는 변환을 사용하며, 14kHz의 대역폭의 고음질 음성 신호를 24, 32, 48kbps로 부호화할 수 있다. 화상 회의용으로 사용된다.


주파수 영역에서의 부호화는 다른 부호화 방식과 결합되어, 다루는 주파수 범위를 넓히거나 많은 비트 전송률을 지원하는 목적으로 사용되는 경우가 있다. 예를 들어, SBR(spectral band replication영어)은 주파수 영역에서의 부호화를 응용한 것으로, CELP 등의 방식으로 저역의 정보를 부호화하고, 고역 정보는 대략적인 스펙트럼 정보만을 부호화하여 수신 측에서 저역 성분으로부터 예측 복원한다. SBR은 HE-AAC나 mp3PRO 등의 코덱에서 사용되고 있다. 비슷한 생각은 HFR(high-frequency regeneration영어, high-frequency reconstruction영어)이라는 이름으로도 알려져 있으며, 음성 부호화 방식으로 오래전부터 연구되어 왔다.[25]

이러한 방식들은 휴대 전화용 음성 부호화 규격인 EVRC-WB, AMR-WB, VMR-WB 등에 사용되고 있다.

2. 2. 보코더 (Vocoder)

보코더(Vocoder)는 음성 생성 모델을 기반으로 음성을 분석하고 합성하는 방식이다.[5] 압축률은 높지만 음질은 파형 부호화 방식에 비해 낮을 수 있다. 보코더는 음원(성대)과 성도의 특성을 나타내는 합성 필터로 음성을 모델화한다.[27]

보코더의 종류는 다음과 같다:

  • 선형 예측 코더 (LPC): 음성 신호를 선형 예측 모델을 사용하여 분석하고, 예측 계수와 잔차 신호를 부호화한다.[38] 1960년대부터 1970년대에 걸쳐 개발된 초기 분석 합성 부호화 방식으로, CELP 등 다른 방식의 기반이 되었다.[28]
  • 포먼트 코더 (Formant Coder): 음성의 특징적인 주파수 성분인 포먼트를 추출하여 부호화한다.[38]
  • 신경망 보코더: 기계 학습, 즉 딥 러닝 기술을 이용하여 음성을 모델링하고 합성한다.[6]


분석 합성 부호화는 낮은 비트 전송률에서의 부호화가 필요한 무선 통신 분야, 특히 위성 전화나 군사용 전술 무선 통신 등에서 사용된다.[27] 1976년에는 LPC 보코더를 사용한 초기 규격인 Federal-Standard 1015(LPC-10e)가 발표되었는데, 이는 음성을 2.4kbps로 부호화할 수 있었으며, 주로 군용 및 정부용 암호화 통신에 사용되었다.[28]

그 외에도 다음과 같은 다양한 보코더 방식이 존재한다.

  • Multi-Band Excitation (MBE): 서로 다른 주파수별로 유성음무성음의 구분을 파라미터화하는 방식이다. IMBE, AMBE, MELP, MELPe 등의 부호화 방식이 있다.
  • Sinusoidal Coding (정현파 부호화): 음성을 정현파의 조합으로 표현하는 방법이다.
  • 파형 보간 부호화: 유성음무성음은 천천히 변화하는 파형과 무작위 위상으로 빠르게 변화하는 파형으로 모델링할 수 있다는 생각에 기반한 부호화 방식이다.

2. 3. 하이브리드 부호화기 (Hybrid Coder)

'''하이브리드 부호화''' (hybrid coder영어, analysis-by-synthesis coder영어)는 파형 부호화와 분석 합성 부호화를 조합한 방법이다. 분석 합성 부호화와 마찬가지로 성대에 해당하는 음원과 성도의 특성을 나타내는 합성 필터로 음성을 모델링하고 파라미터화하지만, 성도의 파라미터를 사용하여 음성 파형을 재합성하고, 원래의 음성 파형에 최대한 가깝게 되도록 음원 파라미터를 구하는 것이 특징이다. '합성에 의한 분석'(analysis-by-synthesis|,영어AbS)을 기반으로 하기 때문에 '''AbS 부호화'''라고도 한다. 파형 부호화와 비교하면 음성의 적절한 모델링을 통해 비교적 낮은 비트 전송률(4.8-16kbps)에서도 양호한 음질을 얻을 수 있으며, 휴대 전화 등 낮은 비트 전송률이 요구되는 기기에서 많이 사용된다.[26]

CELP(CELP, code excited linear prediction coder영어, 셀프)는 하이브리드 부호화 방식 중에서 가장 널리 사용되는 음성 부호화 알고리즘이다. 성도에 해당하는 합성 필터로 선형 예측 필터를, 성대에 해당하는 음원으로 적응형 및 고정형 코드북을 사용한다. 합성 분석 방식을 사용하여 음성 파형을 재합성하고 청감 보정을 수행한 후의 신호와 원래 신호를 비교하여 코드북에서 오차가 최소가 되는 것을 탐색한다. 합성 분석은 음질 향상에 크게 기여하지만, 계산량이 많아 처음 제안되었을 때는 실시간 부호화가 불가능했다. 따라서 계산량을 줄이기 위한 다양한 파생 방식이 고안되었다. 대표적인 CELP 파생 방식은 다음과 같다.

  • VSELP(vector sum excited linear prediction영어)
  • ACELP(algebraic CELP영어)
  • LD-CELP(low delay CELP영어)


VSELP(vector sum excited linear prediction영어, 벡터 합 여기 선형 예측)는 여러 개의 기저 벡터를 준비하고, 기저 벡터의 합(+/-)을 고정형 코드북으로 취급하는 방식이다. 개별 기저 벡터별 선형 예측 필터의 출력을 미리 구해두면, 모든 기저 벡터의 합에 따른 출력은 이들을 합성하여 구할 수 있어 계산량을 대폭 줄일 수 있다.

VSELP 방식은 2세대 이동 통신에서 주로 사용되었으며, 일본에서는 PDC, 북미에서는 D-AMPS의 부호화 방식으로 사용되었다.

ACELP( algebraic CELP영어)는 미리 대수적으로 결정된 위치에 배치된 진폭이 +1/-1인 펄스 조합을 고정형 코드북으로 취급하는 방식이다. 대수적 성격으로 인해 코드 탐색 효율이 좋고, 코드북 전체를 테이블로 준비할 필요가 없어 메모리도 절감할 수 있다. 또한 유연성이 있어 큰 크기의 코드북을 쉽게 구현할 수 있다. 따라서 VoIP 및 휴대 전화용으로 많은 표준화 방식에서 널리 사용되고 있다.

ACELP 방식은 ITU-T G.723.1(5.3kbps), G.729(8kbps), G.722.2(6.6-23.85kbps) 및 휴대 전화용 GSM AMR(GSM/W-CDMA용), AMR-WB(W-CDMA용, AMR의 와이드 밴드 버전), EVRC(CDMA2000용), VMR-WB(CDMA2000용의 와이드 밴드 버전), SMV(CDMA2000용), PDC-EFR(PDC용) 등에 사용되고 있다.

LD-CELP(low delay CELP영어)는 부호화 지연을 2ms 이하로 저지연화한 CELP이다. CELP를 포함한 많은 부호화 방식은 샘플 값을 20ms 정도의 프레임으로 묶어 프레임 단위로 부호화 처리를 한다. 따라서 방식에 따라 결정되는 일정 부호화 지연이 발생한다. LD-CELP는 프레임 단위의 처리를 하지 않고, 과거의 샘플 값으로부터 뒤쪽으로 선형 예측 계수 등의 파라미터를 구하며, 5 샘플 단위로 코드북 탐색을 함으로써 저지연화를 실현하고 있다.

LD-CELP 방식은 ITU-T G.728(16kbps)에서 사용되며, 32kbps의 ADPCM과 동등한 음질을 실현하고 있다.

3. 음성 부호화의 역사

A-law와 μ-law 알고리즘은 G.711 PCM 디지털 전화에 사용되는 초기 음성 부호화 방식으로, 샘플당 8비트만 필요하지만 12 비트 해상도를 제공한다.[7] 1960년대에는 다양한 델타 변조 알고리즘이 시도되었지만, A-law/μ-law 알고리즘이 초기 디지털 전화 시스템에 채택되었다.

음성 부호화 기술의 역사는 19세기 말 그래험 벨의 전화기 발명(1876년)과 함께 시작되었다. 미국 벨 연구소의 호머 더들리(Homer Dudley)는 1928년에 보코더의 기본 아이디어를 발상하였다. 당시 대륙간 횡단 케이블의 주파수 대역폭 제한으로 인해 음성을 더 좁은 대역으로 보내기 위해 고안되었다.[34]

더들리는 1939년에 음성의 주파수 스펙트럼을 여러 채널로 나누어 분석하고, 성대 소리의 기본 주기(피치)와 유성/무성 구별 정보를 함께 보내 수신 측에서 음성을 합성하는 채널 보코더를 발표했다.[35][36] 또한, 음성 합성 부분과 건반을 조합한 건반 연주형 스피치 신시사이저인 보더(voder)를 1939년 뉴욕 세계 박람회에서 공개했다.

채널 보코더는 제2차 세계 대전 중인 1943년, 처칠 수상과 루즈벨트 대통령의 비밀 회담용 비화 통신 시스템 SIGSALY에 실용화되었다.[34]

비화 장치 SIGSALY의 일부 (미국 국립 암호 박물관 전시)
SIGSALY는 채널 보코더의 각 채널 출력을 6단계로 대수양자화하고 PCM 부호화한 후 암호화하여 전송하는 방식[37]으로, PCM을 이용한 최초의 실용적인 음성 통신 시스템이자 분석 합성 부호화(보코더)를 디지털통신에 응용한 최초의 사례였다.

이후 디지털 신호 처리 기술이 발전하면서 1966년경 이타쿠라 후미타다 등에 의해 선형 예측 부호화(LPC) 방식이 고안되었고, 1985년에는 CELP 부호화 방식이 발표되었다.[34]

4. 음성 부호화 관련 기술

벡터 양자화는 음성을 표현하는 매개변수를 압축하는 방법 중 하나이다. 벡터 양자화에서는 매개변수 간의 상관 관계를 이용하여 벡터 단위로 양자화를 수행하여 정보량을 줄인다. 예를 들어 선형 예측 계수를 특정 비트 수로 양자화할 때 사용된다. 벡터 양자화의 응용으로, 양자화를 여러 단계로 나누어 최종 양자화 벡터를 여러 단계별 코드북의 합으로 나타내는 멀티 스테이지 벡터 양자화 등의 기술이 개발되었다.

선 스펙트럼 쌍(line spectral pairs)은 선형 예측 계수를 표현하기 위해 사용되며, 선형 예측 계수를 사용하는 부호화 방식의 대부분에서 사용된다. 선형 예측 필터의 계수는 양자화 오차에 민감하며, 오차가 크면 필터가 발진하는 문제가 있다. 선 스펙트럼 쌍은 선형 예측 계수와 등가인 계수로, 선 스펙트럼 쌍으로 표현된 필터는 양자화 오차의 영향을 적게 받으며, 또한 선형 예측 계수와 비교하여 변화가 부드럽고 보간이 용이하다. 따라서, CELP에 대표되는 많은 음성 부호화 방식에서 선형 예측 계수의 표현을 위해 이용되고 있다.

이론적으로, 성도를 고정 길이와 일정한 직경을 가진 음향관의 배열로 모델링했을 때, 선 스펙트럼 쌍은 성문을 열었을 때와 닫았을 때 각각의 공진 주파수 쌍에 해당하는 파라미터이다. 이러한 이유로 선 스펙트럼 쌍이라고 불린다.

음성 강조(speech enhancement|스피치 인핸스먼트영어)는 다양한 알고리즘을 사용하여 음질을 개선하는 기술이다. 음성 부호화에서는 배경 잡음을 줄이기 위한 기술로 주로 사용된다.

분석 합성 부호화 방식이나 하이브리드 부호화 등 많은 음성 부호화 방식에서는 음성을 어떤 모델에 적용하여 파라미터화하기 때문에, 음성 신호에 배경 잡음이 포함되면 파라미터화가 제대로 이루어지지 않아 음질이 악화된다. 따라서, 휴대 전화나 무선 통신 등 비교적 낮은 비트 전송률의 부호화 방식이 사용되는 기기에서는, 어떤 음성 강조 처리를 한 후에 부호화를 하는 경우가 많다. 또한, 음성 인식 등의 프런트 엔드로도 자주 사용된다.

음성 신호는 신호 레벨의 변동이 크고 주파수별 레벨 차이도 큰 반면, 배경 잡음은 변동이 비교적 작다는 등 통계적인 성질의 차이를 이용한다. 서브 밴드별 배경 잡음의 레벨을 예측하고, 배경 잡음이 큰 서브 밴드의 레벨을 낮춤으로써 전체 잡음을 줄일 수 있다.

음성 강조는 휴대 전화용 부호화 방식인 EVRC (CDMA2000용), SMV (CDMA2000용) 등이나, 잡음이 많은 환경에서의 이용을 전제로 하는 MELPe 등에서 부호화 방식의 일부로 포함되어 있다.

5. 현대 음성 압축

현대 음성 압축 기술은 군사적 목적의 보안 음성 통신 연구에서 큰 영향을 받아 발전했다.[9] 초고밀도 집적 회로(VLSI) 기술의 발전으로 복잡한 음성 압축 알고리즘을 구현하는 것이 가능해졌다.

선형 예측 코딩(LPC) 기반의 코드 여기 선형 예측(CELP) 코딩이 널리 사용된다.[9] CELP는 스펙트럼 엔벨로프를 모델링하는 선형 예측 단계와 선형 예측 모델의 잔차에 대한 코드북 기반 모델의 두 단계로 나뉜다.

수정 이산 코사인 변환(MDCT) 기반의 코덱은 AAC-LD,[10] G.729.1,[11] CELT,[13] Opus[14][15] 등이 있으며, 보이스 오버 IP(VoIP) 및 화상 회의에 사용된다. Opus 코덱은 SILK와 CELT 알고리즘을 결합하여 다양한 환경에서 최적의 성능을 제공한다.

Codec2,[20] MELPe,[21] Lyra,[22] Satin[23] 등 저비트 전송률 코덱의 개발도 활발히 진행 중이다.

음성 부호화는 일반적인 오디오 압축 기술과, 음성 신호 처리를 통해 음성을 모델화하는 매개변수를 추출하는 기술을 조합한 것이다. 음성 부호화 알고리즘은 크게 파형 부호화, 하이브리드 부호화, 분석 합성 부호화(보코더)로 나눌 수 있다.

음성 부호화 알고리즘의 분류와 특성
분류레이트(kbps)복잡성부호화 방식의 예
파형 부호화(시간 영역)12-64낮음PCM, ADPCM, CVSD
파형 부호화(주파수 영역)12-256중간SBC
하이브리드 부호화4.8-16높음CELP, ACELP, VCELP
분석 합성 부호화0.6-4.8높음LPC, AMBE, MELP



주파수 영역 부호화는 음성 신호를 주파수 영역의 데이터로 변환하고, 주파수별 전력 밀도의 차이와 인간의 청각 모델을 이용하여 주파수별 양자화 폭과 비트 할당을 변경하며, 불필요한 정보를 삭제한다.

'''하이브리드 부호화'''는 파형 부호화와 분석 합성 부호화를 조합한 방법으로, CELP(CELP)는 하이브리드 부호화 방식 중에서 가장 널리 사용되는 음성 부호화 알고리즘이다.

'''분석 합성 부호화'''는 보코더를 사용한 부호화 방식이다.

'''선형 예측 부호화'''(LPC)는 음성을 음원(잔차)과 선형 필터(계수)로 분석하고 재합성하여 부호화하는 기법으로, 이 기법을 사용한 보코더를 '''LPC 보코더'''라고 한다.

5. 1. 광대역 오디오 코딩


  • 선형 예측 부호화(LPC)
  • WCDMA 네트워크용 AMR-WB
  • CDMA2000 네트워크용 VMR-WB
  • VoIP 및 화상 회의용 Speex, IP-MR, SILK (일부 Opus), USAC/xHE-AAC
  • 수정된 이산 코사인 변환(MDCT)
  • VoIP 및 화상 회의용 AAC-LD, G.722.1, G.729.1, CELT 및 Opus
  • 적응 차분 펄스 부호 변조(ADPCM)
  • VoIP용 G.722
  • 신경 음성 코딩
  • Lyra (구글): V1은 로그멜 스펙트로그램의 신경망 재구성을 사용하고, V2는 종단간 오토인코더임.
  • Satin (마이크로소프트)
  • LPCNet (모질라, Xiph): LPC 특징의 신경망 재구성[24]

5. 2. 협대역 오디오 코딩

참조

[1] 논문 Low bit rate speech coding Wiley
[2] 간행물 "Technology and standards for low-bit-rate vocoding methods," in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.
[3] 간행물 "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.
[4] 간행물 A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.
[5] 웹사이트 Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology, 2004 http://users.ece.gat[...]
[6] 논문 SoundStream: An End-to-End Neural Audio Codec 2022
[7] 서적 Digital coding of waveforms Prentice-Hall
[8] 간행물 G.711.1 : Wideband embedded extension for G.711 pulse code modulation http://www.itu.int/r[...] ITU-T 2022-12-24
[9] 논문 Application of MFCC in Text Independent Speaker Recognition https://pdfs.semanti[...] 2019-10-18
[10] 회의록 MPEG-4 Enhanced Low Delay AAC - A New Standard for High Quality Communication https://www.iis.frau[...] Audio Engineering Society 2019-10-20
[11] 서적 VoIP Voice and Fax Signal Processing https://books.google[...] John Wiley & Sons 2008
[12] 웹사이트 Inside iPhone 4: FaceTime video calling http://www.appleinsi[...] AppleInsider 2010-06-09
[13] 웹사이트 Presentation of the CELT codec http://people.xiph.o[...]
[14] Home page Opus Codec https://opus-codec.o[...] Xiph.org Foundation 2012-07-31
[15] 회의록 High-Quality, Low-Delay Music Coding in the Opus Codec Audio Engineering Society 2013-10
[16] 뉴스 WhatsApp laid bare: Info-sucking app's innards probed https://www.theregis[...] 2015-10-27
[17] 서적 Security in Computing and Communications: 5th International Symposium, SSCC 2017 Springer 2017-09-13
[18] 서적 Cyber Security in Parallel and Distributed Computing: Concepts, Techniques, Applications and Case Studies John Wiley & Sons 2019
[19] 웹사이트 Open Source Software used in PlayStation4 https://doc.dl.plays[...] Sony Interactive Entertainment Inc. 2017-12-11
[20] 웹사이트 GitHub - Codec2 https://github.com/x[...] 2019-11
[21] 간행물 “A scalable phonetic vocoder framework using joint predictive vector quantization of MELP parameters,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, 2006, pp. I 705–708, Toulouse, France
[22] 웹사이트 Google Makes Its Lyra Low Bitrate Speech Codec Public https://www.makeuseo[...] 2022-07-21
[23] 웹사이트 Lyra, Satin and the future of voice codecs in WebRTC https://bloggeek.me/[...] 2022-07-21
[24] 웹사이트 LPCNet: Efficient neural speech synthesis https://github.com/x[...] Xiph.Org Foundation 2023-08-08
[25] 간행물 "High-Frequency Regeneration in Speech Coding Systems"
[26] 문서 Springer Handbook of Speech Processing には、当時のスーパーコンピュータであるCRAY-1を用い1秒の信号を符号化するのに125秒必要だった、との記述がある。
[27] 서적 Springer Handbook of Speech Processing Springer
[28] 간행물 California Coding: Early LPC Speech in Santa Barbara, Marina del Rey, and Silicon Valley 1967-1982 2004-01
[29] 간행물 Noise Pre-Processing for Tactical Secure Voice Communications 1999-11
[30] 웹사이트 IMBE and AMBE http://www.dvsinc.co[...] Digital Voice Systems 2010-05-15
[31] 간행물 Noise Pre-Processing for Tactical Secure Voice Communications 1999-11
[32] 문서 例えば、LPCボコーダーやCELPなど多くの符号化で使われる線形予測法|線形予測係数は時間領域のパラメータだが、いったん線スペクトル対](LSP)という周波数領域の等価なパラメータに変換された後に処理される。線形予測係数と比べて量子化誤差の影響が小さく、また変化が滑らかで補間が行いやすい。
[33] 웹사이트 Enhanced Variable Rate Codec, Speech Service Option 3 and 68 for Wideband Spread Spectrum Digital Systems http://www.3gpp2.org[...] 3rd Generation Partnership Project 2 2010-05-17
[34] 문서 音声分析合成の基礎技術とその音声符号化への応用 http://www.murase.m.[...] 電子情報通信学会
[35] 간행물 The Vocoder
[36] 특허 Signal Transmission https://www.google.c[...] US Patent 1939-05-21
[37] 간행물 A History of Secure Voice Coding http://www.nsa.gov/a[...] 1993-07
[38] 웹사이트 Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004 http://users.ece.gat[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com