G.718

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 특징
4. 기술적 구성
5. 응용 분야
6. 상호 운용성
7. 표준화
참조

1. 개요

G.718은 광대역 음성 부호화 알고리즘을 핵심으로 하는 여러 알고리즘의 계층적 조합으로 구성된 음성 부호화 표준이다. 다양한 비트 전송률과 대역폭을 지원하며, 네트워크 환경에 따라 음질을 유연하게 조절할 수 있도록 설계되었다. G.718은 3GPP2의 VMR-WB 코덱을 기반으로 하며, ACELP 알고리즘을 핵심으로 사용하여 음성 신호를 부호화한다. IP 네트워크와 같이 패킷 손실 및 지연이 많은 환경에서의 사용을 고려하여, 프레임 손실 시 음질 저하를 방지하기 위한 보조 정보도 추출한다.

더 읽어볼만한 페이지

ITU-T G 시리즈 권고 - G.711
G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
ITU-T G 시리즈 권고 - HDSL
HDSL은 T1 및 E1 서비스용 디지털 가입자 회선 기술 표준으로, 에코 제거 방식을 통해 전이중 통신을 지원하며, 이후 새로운 대칭 DSL 기술로 대체되었다.
음성 코덱 - G.711
G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
음성 코덱 - G.729
G.729는 ITU-T에서 표준화한 8kbps의 음성 코덱으로, ACELP 코딩 방식을 사용하여 VoIP, 화상 회의 등 다양한 통신 시스템에서 활용되며, G.729a(낮은 복잡도), G.729b(음성 활동 감지 및 불연속 전송 기능) 등의 부록을 가진다.
ITU-T 권고 - 비대칭 디지털 가입자 회선
비대칭 디지털 가입자 회선(ADSL)은 전화선을 이용하여 다운로드 속도가 더 빠른 비대칭적인 고속 데이터 통신을 제공하는 기술로, 주파수 분할 이중 방식과 이산 다중톤 변조 방식을 사용하며 거리와 잡음에 따라 속도 저하가 발생할 수 있고 광섬유 인터넷의 발전으로 서비스가 축소되고 있다.
ITU-T 권고 - 팩시밀리
팩시밀리는 문서나 그림을 전기 신호로 원격 전송하고 복제하는 기술 및 장치이며, 유선, 무선, 전화선을 이용한 전송 방식으로 발전해왔고, 기술적 분류를 거쳐 소형화, 고속화되었으며, 21세기에는 사용량이 감소했으나 특정 분야에서 활용된다.

G.718
일반 정보
종류	ITU-T 권고
공식 명칭	8-32 kbit/s의 프레임 오류에 강건한 협대역 및 광대역 임베디드 가변 비트 전송률 음성 및 오디오 코딩
영어 명칭	Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s
상태	유효
시작 연도	2008년
버전	(03/11)
버전 날짜	2011년 3월
조직	ITU-T
위원회	해당 사항 없음
기반 표준	해당 사항 없음
관련 표준	G.719 G.722.1
약칭	해당 사항 없음
분야	오디오 압축
라이선스	자유롭게 사용 가능
웹사이트	ITU-T G.718 권고안

2. 역사

G.718은 국제전기통신연합(ITU-T)에서 승인한 음성 부호화 표준이다. G.729.1과 유사하게 여러 음성 부호화 방식을 계층적으로 조합하여 비트 전송률과 대역폭의 유연성을 높였다. 핵심 음성 부호화 알고리즘으로는 CELP의 일종인 ACELP를 사용한다.^[3]

협대역 및 광대역 버전을 지원하며, 입출력 샘플링 주파수는 광대역의 경우 16 kHz, 협대역의 경우 8 kHz 또는 16 kHz이다. G.718 광대역 코덱의 8 kbps 음질은 G.722.2의 12.65 kbit/s와 동일하며, G.718 협대역 코덱의 8 kbps 음질은 G.722.2의 11.8 kbit/s와 같다.^[3]

G.718은 8, 12, 16, 24, 32 kbps의 5가지 비트 전송률을 지원하며, 코덱이 출력하는 비트 열은 5계층의 내장 구조로 되어 있어 필요한 계층만 쉽게 추출할 수 있다.

비트 전송률 8 kbps에 해당하는 코어층(제1층)은 ACELP를 사용하고, 제2층은 4 kbps의 ACELP 확장층이다. 제3층부터 제5층까지는 MDCT(수정 이산 코사인 변환)를 사용하며, 제2층까지 부호화하지 못한 정보를 부호화한다. 제3층에는 통신로에서 프레임 손실 시 음질 저하를 막기 위한 보조 정보도 포함된다. 제3층은 4 kbps, 그 이상은 8 kbps 단위로 정보가 증가하며 음질이 향상된다.

각 계층과 사용하는 기술은 다음과 같다. 협대역 버전에서는 제1층과 제2층만 구현된다.

G.718의 전체 구성
계층	기술	샘플링 주파수	비트 전송률	설명
1	ACELP (algebraic CELP)	12.8 kHz	8 kbps	코어층 (VMR-WB 사양이 기반)
2	ACELP 확장층	12.8 kHz	+4 kbps	코어층의 추가 부분
3	MDCT	12.8/16 kHz	+4 kbps	프레임 손실 시용 정보 + 부가 정보
4-5	MDCT	16 kHz	+8 kbps 단위	부가 정보

G.718은 음성과 음악 등 일반적인 오디오 신호를 모두 지원하며, ITU-T G.722.2(AMR-WB)와의 상호 운용성을 위해 옵션으로 G.722.2(12.65 kbps)를 지원할 수 있다. 이 경우 제1층과 제2층을 G.722.2 mode 2(12.65 kbps)로 대체한다.

G.718의 부호화 데이터는 실시간 전송 프로토콜(RTP)을 사용하여 인터넷으로 전송할 수 있으며, 이를 위한 데이터 형식은 IETF RFC의 드래프트가 제안되고 있다.^[4]

3. 특징

G.718은 여러 음성 부호화 방식을 계층적으로 조합하여 비트 전송률과 대역폭의 유연성을 향상시킨 것이다. G.729.1이 유사한 아이디어를 사용한 예이다. G.718은 핵심적인 음성 부호화 알고리즘으로 CELP의 일종인 ACELP를 사용한다.

G.718의 주요 특징은 다음과 같다.

음성과 음악 등 일반적인 오디오 신호를 모두 지원한다.
입출력 샘플링 주파수는 광대역의 경우 16 kHz, 협대역의 경우 8 kHz 또는 16 kHz이다.
8~32 kbps까지 5 종류의 비트 전송률(8, 12, 16, 24, 32 kbps)을 지원한다.
5계층의 내장 구조 비트스트림을 갖는다.
8 kbps의 코어층은 ACELP를 사용한다.
20 ms의 프레임 길이, 부호화 지연은 광대역의 경우 42.875 ms, 협대역의 경우 43.875 ms이다.
여러 음성 부호화 알고리즘을 계층적으로 조합하였다.

또한, G.718은 유사한 목적으로 사용되는 ITU-T G.722.2(AMR-WB)와의 상호 운용성을 위해 옵션으로 G.722.2(12.65 kbps)를 지원할 수 있다. 이 경우 제1층과 제2층을 G.722.2 mode 2 (12.65 kbps)로 대체한다.

4. 기술적 구성

G.718은 음성 부호화 방식을 계층적으로 조합하여 비트 전송률과 대역폭의 유연성을 높인 기술이다. G.729.1이 유사한 아이디어를 사용한 예시이다.^[3]

핵심 음성 부호화 알고리즘으로 CELP의 일종인 ACELP를 사용한다. G.718은 협대역 버전과 광대역 버전을 지원하며, 입출력 샘플링 주파수는 광대역의 경우 16 kHz, 협대역의 경우 8 kHz 또는 16 kHz이다.

G.718 광대역 코덱의 8 kbps 음질은 G.722.2의 12.65 kbps와 동등하며, G.718 협대역 코덱의 8 kbps 음질은 G.722.2의 11.8 kbps와 같을 정도로 코어 부분의 성능이 우수하다.^[3]

G.718은 8, 12, 16, 24, 32 kbps의 5가지 비트 전송률을 지원하며, 코덱이 출력하는 비트 열은 5계층의 내장 구조로 되어 있다. 8 kbps의 코어층은 ACELP를 사용하며, 이후 계층에서 MDCT(수정 이산 코사인 변환) 기반 부호화 알고리즘을 통해 음질을 향상시킨다.

G.718은 기존 광대역 음성 부호화 알고리즘을 핵심으로 하는 여러 알고리즘의 계층적 조합으로 구성된다. 입력 신호를 핵심 알고리즘으로 부호화하고, 부호화하지 못한 잔여 부분을 다른 알고리즘을 사용하여 부가 정보로 추가한다.

4. 1. 계층 구조

G.718은 5개의 계층으로 구성되어 있으며, 각 계층은 특정 비트 전송률에 대응한다. 하위 계층은 상위 계층의 기반이 되며, 상위 계층으로 갈수록 음질이 향상된다. 협대역 버전에서는 제1층과 제2층만 구현된다.

각 계층과 사용하는 기술은 다음과 같다.

G.718의 전체 구성
계층	기술	샘플링 주파수	비트 전송률	설명
1	ACELP (algebraic CELP)	12.8 kHz	8 kbps	코어층 (VMR-WB 사양이 기반)
2	ACELP 확장층	12.8 kHz	+4 kbps	코어층의 추가 부분
3	MDCT	12.8/16 kHz	+4 kbps	프레임 손실 시용 정보 + 부가 정보
4-5	MDCT	16 kHz	+8 kbps 단위	부가 정보

비트 전송률 8 kbps에 대응하는 것이 코어층인 제1층이며, ACELP를 부호화 알고리즘으로 사용한다. 제2층은 4 kbps의 ACELP 확장층이다. 제3층부터 제5층까지는 MDCT(수정 이산 코사인 변환)를 사용한 부호화 알고리즘을 사용하며, 제2층까지 부호화하지 못했던 정보의 부호화를 수행한다. 제3층에는 통신로에서 프레임이 손실된 경우 음질 저하를 방지하기 위한 보조 정보도 저장된다. 제3층은 4 kbps, 그 이상은 8 kbps 단위로 정보가 증가하며, 그에 따라 음질이 향상된다.

4. 2. 제1층 (코어층)

G.718의 제1층은 3GPP2에서 정의한 광대역 음성 부호화 코덱인 VMR-WB 사양을 기반으로 한다. 핵심 기술은 ACELP(algebraic code excited linear prediction) 알고리즘이다. 제1층에서는 샘플링 주파수 16 kHz의 입력 신호를 12.8 kHz로 재샘플링하여 부호화 처리를 한다.

제1층은 20ms 프레임에 대해 다음과 같은 처리를 거쳐 부호화를 수행한다.

12. 8 kHz로 재샘플링, 하이패스 필터를 이용한 직류 성분 제거 등의 전처리
스펙트럼 분석 (음성 구간 감지 및 잡음 억제용)
입력이 광대역/협대역인지 감지
스펙트럼 분석 결과에 따른 음성 구간 감지 (voice activity detection)
스펙트럼 분석 결과에 따른 잡음 스펙트럼 추정
추정된 잡음 스펙트럼을 이용한 잡음 억제
ACELP를 위한 선형 예측 계수 계산 등
청감 가중된 음성 신호 계산
오픈 루프에서의 피치 주파수 (음성 파형의 기본 주파수) 분석
배경 잡음 스펙트럼 추정값 갱신
신호 프레임 내용에 따른 처리 모드 선택

이러한 처리 후, 신호 프레임 내용에 따라 다음 모드 중 하나를 선택해 부호화를 수행한다.

무성 부호화 모드 (unvoiced coding mode): 무성음의 경우 처리
유성 부호화 모드 (voiced coding mode): 주기적 반복이 있는 유성음의 경우 처리
전이 부호화 모드 (transition coding mode): 유성음 시작 시점 처리
비연속 전송과 컴포트 노이즈 생성 (discontinuous transmission and comfort noise generation, DTX/CNG): 무음 시 무음 데이터 (silence insertion descriptor, SID) 또는 NO_DATA 프레임 생성. 디코더 측에서 완전한 무음을 피하기 위해 적절한 레벨의 배경 노이즈 (컴포트 노이즈) 생성.
제네릭 부호화 모드 (generic coding mode): 위에 해당하지 않는 경우 처리

G.718은 IP 네트워크처럼 패킷 손실 및 지연이 많은 환경을 고려하여 프레임 손실 시 음질 저하를 막는 보조 정보를 추출한다. 이 정보는 제3층에 저장되어 복호화 시 사용된다.

4. 3. 제2층 (ACELP 확장층)

코어 기능 확장인 제2층도 ACELP를 사용하여 12.8 kHz로 샘플링된 프레임에 대해 부호화 처리를 수행한다.^[4] 제1층에서의 부호화 모드 및 코드북 값을 사용하여 제1층에서 부호화하지 못했던 잔차 신호를 계산하고, 이를 ACELP의 코드북을 사용하여 부호화한다. 동작은 제1층의 부호화 모드에 따라 다르지만, 기본적으로 다음을 수행한다.

12.8 kHz로 샘플링된 6.4kHz 이하의 신호 성분에 대해, 원래 신호와 제1층에서 부호화된 신호와의 잔차를 부호화한다.
AMR-WB의 알고리즘을 사용하여 6.4kHz~7kHz의 신호 성분을 생성한다.

4. 4. 제3층 이상 (MDCT)

제3층 이상은 광대역 버전에서만 사용되며, 샘플링 주파수는 16 kHz이다. 이 계층들에서는 제2층까지 부호화할 수 없었던 잔차(residual) 부분을 MDCT(수정 이산 코사인 변환)를 사용하여 주파수 영역의 계수로 변환하여 부호화한다.^[4]

일반적으로 음성과 음악은 그 소리의 특성이 상당히 다르다. G.718에서는 신호에 음성 성분이 많은지 음악 성분이 많은지를 판정하고, 제3층과 제4층에서 사용되는 부호화 방법을 전환한다. 음성/음악 판정은 제2층 이하에서 부호화할 수 있었던 신호와 실제 입력 신호와의 주파수 영역에서의 차이를 조사하여 수행한다. 제2층 이하는 음성 부호화용 알고리즘을 사용하기 때문에, 음악 등을 포함하는 신호는 제대로 부호화되지 않아 실제 입력 신호보다 부호화 후 신호의 에너지가 커지는 영역이 많아진다. 이를 이용하여 부호화 후 에너지가 커지는 영역의 에너지 총합을 구해 판정한다.

신호의 음성/음악 성분 비율에 따라 다른 부호화 방법을 사용하는데, 음성 성분이 많은 경우에는 제3층과 제4층에서 AVQ(algebraic vector quantization|대수 벡터 양자화^영어)를 사용한다. 음악 성분이 많은 경우에는 제3층에서 BS-SGC(band-selective shape-gain vector quantization|대역 선택 형상-이득 벡터 양자화^영어)를, 제4층에서는 FPC(factorial pulse coding|팩토리얼 펄스 코딩^영어)를 사용한다. 제5층에서는 항상 FPC를 사용하여 그 이하 계층에서 부호화할 수 없었던 주파수 영역에서의 잔차를 부호화한다.^[4]

제3층 이상에서 사용되는 MDCT 계수의 부호화 방식을 표로 정리하면 다음과 같다.

G.718의 제3층 이상에서 사용되는 부호화 방식
계층	부호화 방식	설명
제3층	AVQ (algebraic vector quantization\|대수 벡터 양자화^영어)	음성 성분이 많은 경우
제3층	BS-SGC (band-selective shape-gain vector quantization\|대역 선택 형상-이득 벡터 양자화^영어)	음악 성분이 많은 경우
제4층	AVQ (algebraic vector quantization\|대수 벡터 양자화^영어)	음성 성분이 많은 경우
제4층	FPC (factorial pulse coding\|팩토리얼 펄스 코딩^영어)	음악 성분이 많은 경우
제5층	FPC (factorial pulse coding\|팩토리얼 펄스 코딩^영어)

5. 응용 분야

G.718은 VoIP(Voice over IP), 화상 회의, 이동 통신 등 다양한 통신 환경에서 사용될 수 있다. 특히, 패킷 손실 및 지연이 발생할 수 있는 IP 네트워크 환경에서 안정적인 음질을 제공하는 데 강점이 있다. G.718의 부호화 데이터는 실시간 전송 프로토콜(RTP)을 사용하여 인터넷으로 전송할 수 있으며, 이를 위한 데이터 형식은 IETF RFC의 드래프트가 제안되고 있다.^[4]

6. 상호 운용성

ITU-T G.722.2(AMR-WB)와의 상호 운용성을 위하여 선택적으로 G.722.2(12.65 kbps)를 지원할 수 있다). 이 경우 제1층과 제2층을 G.722.2 mode 2(12.65 kbps)로 대체한다.

7. 표준화

G.718의 부호화 데이터는 실시간 전송 프로토콜(RTP)을 사용하여 인터넷으로 전송할 수 있으며, 이를 위한 데이터 형식은 IETF RFC 드래프트에서 제안되고 있다.^[4]

참조

_[1] 웹사이트 G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s https://www.itu.int/[...] 2021-06-13
_[2] 웹사이트 Trademarks http://www.voiceage.[...] Voiceage.com 2008-11-05
_[3] 간행물 Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s ITU-T 2008-06
_[4] 간행물 RTP payload format for G.718 speech/audio http://tools.ietf.or[...] IETF 2009-04

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com