소리 압축

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 무손실 음성 압축
- 2.1. 개요 및 특징
- 2.2. 평가 기준
3. 비가역 음성 압축
4. 음성 부호화
- 4.1. 개요 및 특징
- 4.2. 초기 알고리즘
5. 음질 보완 기술
- 5.1. 개요 및 종류
참조

1. 개요

소리 압축은 오디오 파일의 크기를 줄이기 위한 기술로, 무손실 압축과 비가역 압축으로 나뉜다. 무손실 압축은 원본 음성 데이터의 손실 없이 압축하며, FLAC, 몽키스 오디오 등이 대표적이다. 반면, 비가역 압축은 MP3와 같이 일부 데이터를 버려 압축률을 높이며, 지각 심리학 원리를 활용하여 사람이 인지하지 못하는 소리를 제거한다. 음성 부호화는 사람의 목소리에 특화된 압축 기술로, 낮은 비트 전송률로 높은 음질을 얻을 수 있다. 디지털 음향 기기에는 음질 보완 기술이 탑재되어 비가역 압축으로 인한 음질 저하를 개선하기도 한다.

더 읽어볼만한 페이지

정보기술 용어 - 그리드 컴퓨팅
그리드 컴퓨팅은 지리적으로 분산된 컴퓨터 자원을 연결하여 가상 슈퍼컴퓨터를 구축하는 기술이며, 유휴 자원을 활용하고 과학 연구 등 다양한 분야에 활용된다.
정보기술 용어 - 컴퓨터 클러스터
컴퓨터 클러스터는 여러 대의 상용 컴퓨터를 고속 네트워크로 연결하여 고성능 컴퓨팅 시스템을 구축하는 방식으로, 슈퍼컴퓨터를 포함한 다양한 분야에서 높은 가용성과 확장성을 제공하며, 클러스터 미들웨어를 통해 시스템 관리, 부하 분산, 통신 방식, 데이터 공유 등을 지원하고 노드 장애 관리를 위한 펜싱 기술을 활용한다.

소리 압축
개요
오디오 압축 방식 다이어그램
종류	손실 압축 무손실 압축
관련 분야	음성 부호화 데이터 압축
손실 압축
설명	데이터를 압축하는 과정에서 일부 정보가 손실되는 압축 방식이다. 압축률을 높일 수 있지만, 복원된 데이터는 원본과 완전히 동일하지 않다.
사용 분야	MP3 AAC Opus
원리	인간의 청각 특성을 이용, 인간이 잘 듣지 못하는 주파수 대역이나 작은 신호는 제거하여 데이터 양을 줄인다.
무손실 압축
설명	데이터를 압축해도 정보 손실이 전혀 없는 압축 방식이다. 압축률은 손실 압축에 비해 낮지만, 복원된 데이터는 원본과 완전히 동일하다.
사용 분야	FLAC Apple Lossless 압축된 WAV
원리	데이터의 중복성을 제거하거나, 효율적인 코딩 방식을 사용하여 데이터 양을 줄인다.
역사
초기 PCM 레코더	1967년, 일본 NHK 방송기술연구소에서 개발 (하야시 켄지)
디지털 오디오 워크스테이션 (DAW)	1970년대 후반
오디오 압축 표준	1980년대 후반, ISO/MPEG 그룹에서 개발
초기 코덱	MPEG-1 Layer II MP3
고급 코덱	AAC Vorbis
기술적 배경
PCM 레코더	PCM (Pulse Code Modulation) 방식 사용 아날로그 오디오 신호를 디지털 신호로 변환하여 기록
초기 PCM 레코더 개발 목적	아날로그 레코더의 음질 열화 문제 해결
기타
관련 용어	코덱 비트 레이트 샘플링 레이트

2. 무손실 음성 압축

기록 매체의 가격 하락과 인터넷 속도 향상으로, 음성 파일을 영구 보관하기 위한 무손실 압축 포맷이 자주 사용된다. 레코딩 엔지니어나 오디오 마니아들이 이러한 포맷을 선호한다.^[5]

2. 1. 개요 및 특징

몽키스 오디오(Monkey's Audio), FLAC, Shorten 등의 무손실 압축 포맷이 대표적이다. 레코딩 엔지니어나 오디오 마니아들이 이러한 포맷을 자주 사용한다. 압축률은 원본의 50%에서 60% 수준이다^[5].블루레이 디스크나 HD DVD에는 돌비 트루HD(Dolby TrueHD)와 같은 무손실 압축 포맷이 사용되기도 한다.

음성 데이터는 모든 정보를 유지하면서 크게 압축하기 어렵다. 실제 소리는 매우 복잡하고, 패턴 반복을 찾기 힘들기 때문이다. 이는 컴퓨터 그래픽스보다 실제 사진을 압축하기 어려운 것과 비슷하다. 컴퓨터가 만든 소리도 복잡한 파형을 가져 압축이 쉽지 않다. 음성 파형을 단순화하기 어렵고, 인간의 귀처럼 주파수 영역으로 변환해야 하기 때문이다.

음성의 표본화된 값은 빠르게 변하므로, 일반적인 데이터 압축 알고리즘으로는 처리하기 어렵다. FLAC, Shorten, TTA 등의 코덱은 선형 예측법을 사용하여 신호의 주파수 스펙트럼을 추정한다.

무손실 오디오 코덱은 음질 문제가 없으므로, 다음과 같은 요소로 유용성을 판단한다.

압축 및 복원 속도
압축률
지원하는 비트 심도, 샘플링 레이트, 채널 수
소프트웨어 및 하드웨어 지원
오류 정정 능력

데이터 자체는 손실되지 않지만, 디코더 성능에 따라 음질이 저하될 수 있다. 일부 오디오 마니아들은 슈퍼 오디오 CD 압축을 선호하지 않으며, 유니버설 뮤직의 "SHM 사양"처럼 비압축을 강조한 제품도 출시된다^[6]。

2. 2. 평가 기준

무손실 오디오 코덱은 음질에는 문제가 없기 때문에, 유용성은 다음 관점에서 판단된다.

평가 기준
압축·신장 속도
압축률
대응하는 비트 심도·샘플링 레이트·채널 수
소프트웨어·하드웨어에서의 채용 상황
오류 정정 능력

데이터 상의 열화는 존재하지 않지만, 디코더의 성능 등에 의해 음질의 열화가 발생할 수 있다. 오디오 마니아 사이에서는 슈퍼 오디오 CD의 압축을 선호하지 않는 경향이 있으며, 유니버설 뮤직의 "SACD～SHM 사양～" 등 비압축에 집착한 소프트가 릴리스되고 있다^[6]。

3. 비가역 음성 압축

비가역 음성 압축은 지각 심리학의 일부인 청각 심리학의 성과를 응용하여 지각 부호화라고도 불린다. 인간의 청각은 모든 소리 정보를 인식하는 것은 아니기 때문에, 사람이 들을 수 없는 소리를 식별하여 정확도를 줄이거나 생략하여 부호화함으로써 압축률을 높인다.^[8]

이러한 방식은 비트 수 감소에는 큰 영향을 주지 않지만, 노이즈 셰이핑 현상을 통해 압축 효율을 높인다. 신호 부호화에 사용되는 비트 수를 줄이면 S/N가 나빠지는데, 청각 심리학에 기반한 비가역 압축은 증가된 노이즈를 "숨기는" 기법을 사용한다. 예를 들어, 고주파 성분에 할당하는 비트 수를 줄여 노이즈를 감춘다.^[8]

지각 모델을 기반으로 한 중복성 감소만으로 충분한 압축이 어려울 경우, 추가적인 비가역 압축을 수행한다. 음원에 따라 음질 저하 없이 압축이 가능하며, 초당 비트 등으로 데이터 전송률을 조정할 수 있다. 다양한 청각 모델이 존재하며, 각각 특정 용도에 맞게 사용된다.

3. 1. 개요 및 원리

압축 전과 각종 비가역 압축을 적용한 동일한 음악의 스펙트로그램 비교. 비가역적이기 때문에 압축 전과 압축 후의 스펙트럼이 다르다. 그러나 그렇다고 해서 음질 저하를 판별할 수 있는 것은 아니다.

비가역 오디오 압축은 MP3 플레이어나 컴퓨터와 같은 직접적인 이용뿐만 아니라, DVD 비디오 및 디지털 텔레비전에서의 오디오 압축, 인터넷상의 스트리밍 미디어, 위성 라디오나 케이블 라디오 등 다양한 분야에서 사용되고 있다. 비가역 압축은 중요하지 않은 데이터를 버리기 때문에, 가역 압축보다 훨씬 압축률이 높다(원본의 5%에서 20%).^[7]

비가역 오디오 압축 개발에는 지각 심리학의 일부인 청각 심리학의 성과가 응용되고 있기 때문에 지각 부호화라는 명칭으로 불린다. 인간의 청각은 모든 오디오 데이터를 인식하는 것은 아니다. 많은 비가역 압축에서는 먼저, 지각되지 않는다고 생각되는 소리, 즉 인간의 귀에는 들리지 않는 소리(전형적인 예로는 고주파 성분이나 큰 소리와 동시에 울리는 작은 소리 등)를 식별하여, 지각적 중복성을 줄인다. 이러한 소리는 정확도를 줄여 부호화되거나, 전혀 부호화되지 않는다.^[8]

이러한 들리지 않는 소리의 제거는 비트 수 감소 효과가 그렇게 크지 않다. 비가역 압축에서의 압축의 대부분은 노이즈 셰이핑이라는 현상에 의한 것이다. 신호를 부호화하는 비트 수를 줄이면, S/N이 악화된다. 청각 심리학에 기초한 비가역 압축에서는, 이러한 증가된 노이즈를 지각되지 않도록 "숨기는" 기법이 중요하다. 이것은 예를 들어, 고주파 성분에 할당하는 비트 수를 삭감함으로써 이루어진다. 그렇게 하는 것은, 원본 정보에 고주파 성분이 적기 때문이 아니라, 인간의 귀가 낮은 주파수밖에 지각할 수 없기 때문이다. 그것에 의해 노이즈가 은폐되어, 지각되지 않게 된다.

지각 모델에 기초한 중복성 감소만으로는 충분한 압축률을 얻을 수 없는 경우, 추가적인 비가역 압축이 필요하게 된다. 음원에 따라서는, 그렇게 해도 음질 저하를 느끼지 않는 경우도 있다. 예를 들어, 인간의 목소리는 음악보다 압축 가능하다. 비가역 압축의 많은 것은 데이터 레이트를 조정·설정 가능하며, 예를 들어 초당 비트로 표현한다. 추가적인 압축에서도 인간의 청각 모델에 기초하여, 소리의 중요성을 판단하여 압축해 간다. 실제 청각 모델은 다양하며, 각각 특정 용도에 특화되어 있다.

3. 2. 부호화 방식

비가역 오디오 압축은 MP3 플레이어나 컴퓨터와 같은 직접적인 이용뿐만 아니라, DVD 비디오, 디지털 텔레비전, 인터넷 스트리밍 미디어, 위성 라디오, 케이블 라디오 등 다양한 상황에서 사용된다. 비가역 압축은 중요하지 않은 데이터를 버려 가역 압축보다 압축률이 훨씬 높다(원본의 5%에서 20%).^[7]

비가역 오디오 압축 개발에는 지각 심리학의 일부인 청각 심리학 성과가 응용되어 지각 부호화라고도 불린다. 인간의 청각은 모든 오디오 데이터를 인식하지 못한다. 따라서 많은 비가역 압축에서는 인간의 귀에 들리지 않는 소리를 식별하여 지각적 중복성을 줄인다. 대표적으로 고주파 성분이나 큰 소리와 동시에 울리는 작은 소리 등이 있으며, 이러한 소리는 정확도를 줄여 부호화하거나 아예 부호화하지 않는다.^[8]

하지만 들리지 않는 소리를 제거하는 것만으로는 비트 수 감소 효과가 크지 않다. 비가역 압축에서 대부분의 압축은 노이즈 셰이핑이라는 현상에 의해 이루어진다. 신호 부호화에 사용되는 비트 수를 줄이면 S/N가 나빠지는데, 청각 심리학에 기반한 비가역 압축에서는 이렇게 증가된 노이즈를 지각되지 않도록 "숨기는" 기법이 중요하다. 예를 들어 고주파 성분에 할당하는 비트 수를 줄이는 방식으로 이루어지는데, 이는 원본 정보에 고주파 성분이 적어서가 아니라 인간의 귀가 낮은 주파수밖에 지각하지 못하기 때문이다. 이를 통해 노이즈가 은폐되어 들리지 않게 된다.

지각 모델 기반의 중복성 감소만으로 충분한 압축률을 얻을 수 없을 때는 추가적인 비가역 압축이 필요하다. 음원에 따라서는 추가 압축을 해도 음질 저하를 느끼지 못하는 경우도 있다. 예를 들어 사람의 목소리는 음악보다 압축하기 쉽다. 비가역 압축은 대부분 데이터 레이트를 조정·설정할 수 있으며, 초당 비트 등으로 표현한다. 추가적인 압축에서도 인간의 청각 모델을 바탕으로 소리의 중요도를 판단하여 압축하며, 실제 청각 모델은 다양하고 각각 특정 용도에 특화되어 있다.

3. 2. 1. 변환 영역 부호화

많은 손실 압축 알고리즘은 수정 이산 코사인 변환(MDCT) 등을 사용하여 시간 영역의 표본 파형을 주파수 영역으로 변환한다. 주파수 영역으로 변환하면 주파수 성분별로 가청성을 고려하여 비트를 할당한다. 주파수 성분의 가청성은 먼저 마스킹 임계값을 계산하여 그 미만의 소리는 인간이 인지하지 못한다고 판단한다.^[9]

마스킹 임계값 계산에는 최소 가청값과 동시 마스킹의 원리를 사용하며, 경우에 따라 시간적 마스킹도 이용한다. 등청감 곡선을 사용하여 각 주파수 성분의 가중치를 부여하기도 한다. 이러한 뇌를 포함한 인간의 청각 모델에 기반한 현상들을 심리 음향 모델이라고 부른다.^[10]

3. 2. 2. 시간 영역 부호화

선형 예측 부호화(LPC)는 사람의 음성을 압축하는 데 사용되는 방식이다. 이 경우, 음원을 양자화하기 전에 백색 잡음화(평탄화)를 수행한다.^[7]

3. 3. 활용 분야

비가역 오디오 압축은 MP3 플레이어나 컴퓨터와 같은 직접적인 이용뿐만 아니라, DVD 비디오, 디지털 텔레비전, 인터넷 스트리밍 미디어, 위성 라디오, 케이블 라디오 등 다양한 분야에서 사용되고 있다. 비가역 압축은 중요하지 않은 데이터를 버리기 때문에, 가역 압축보다 훨씬 압축률이 높다(원본의 5%에서 20%).^[7]

비가역 압축 알고리즘의 특성상, 신장과 재압축을 반복할 때마다 음질이 저하된다. 따라서 편집 과정에서 임시 저장하는 방식으로는 적절하지 않다. 반면, 듣는 것만을 목적으로 이용하는 경우에는 어느 정도의 음질을 유지하면서도 파일 용량을 크게 줄일 수 있다.

3. 4. 평가 기준

비가역 오디오 코덱의 유용성은 다음 관점에서 판단된다.^[11]

평가 기준
음질
압축률
압축 및 복원 속도
알고리즘의 본질적인 지연 시간 (실시간 스트리밍에서 중요)
소프트웨어 및 하드웨어의 채용 상황

비가역 압축 포맷은 스트리밍이나 실시간 이용(휴대 전화망에서의 음성 디지털 전송 시 등)이 많다. 따라서 데이터는 흐름에 따라 즉시 복원될 필요가 있으며, 전체 데이터 전송 완료 후에 복원하는 방식은 채용할 수 없다. 오디오 코덱이 반드시 스트리밍 용도로 사용할 수 있는 것은 아니므로, 스트리밍용으로 설계된 코덱을 선택해야 한다.^[11]

데이터의 인코딩/디코딩에 사용되는 방식에 따라 지연 시간이 다르다. 코덱에 따라서는 비교적 긴 기간의 데이터를 해석하여 효율을 최적화하기 때문에 지연 시간이 커진다. 알고리즘의 본질적인 지연 시간은 중요하다. 예를 들어, 전화처럼 양방향 데이터 전송(음성 통화)이 있는 경우, 지연이 커지면 서비스 품질에 치명적인 문제가 발생한다.

압축 속도는 알고리즘이 실시하는 조작 횟수에 비례하지만, 지연 시간은 1블록의 음성을 처리하기까지 해석하는 표본 수에 비례한다. 최소의 경우, 지연 시간은 0이다(예를 들어, 단순히 비트 심도를 작게 하는 경우). LPC와 같은 시간 영역 알고리즘도 지연 시간이 작기 때문에 전화에서의 스피치 압축에 자주 사용된다. MP3 등의 알고리즘에서는 주파수 영역의 심리 음향 모델을 구현하여 다수의 표본을 해석하기 때문에 지연 시간은 23밀리초 정도가 된다(양방향 통신에 사용하면 46밀리초가 된다).

4. 음성 부호화

음성 부호화는 사람의 목소리에 특화된 압축 기술이다. 사람의 귀를 근사한 지각 모델은 말소리와 음악에서 약간 다르다. 다루어야 할 주파수 범위가 말소리가 음악보다 훨씬 좁고, 파형도 그렇게 복잡하지 않다.

4. 1. 개요 및 특징

음성 부호화는 사람의 목소리를 대상으로 하는 음성 압축의 중요한 범주이다. 사람의 목소리는 낮은 비트 전송률로도 높은 음질의 부호화가 가능하다.

이는 일반적으로 다음과 같은 기법을 조합함으로써 실현된다.

사람의 말소리만을 대상으로 부호화한다.
인간의 청각이 들을 수 있는 범위의 주파수만을 대상으로 하며, 그 외의 부분을 버린다.

음성 부호화의 초기 알고리즘으로, A-law 알고리즘과 μ-law 알고리즘(→G.711)이 있다.

4. 2. 초기 알고리즘

음성 부호화의 초기 알고리즘으로는 A-law 알고리즘과 μ-law 알고리즘(→G.711)이 있다.

5. 음질 보완 기술

일부 디지털 음향 기기에는 비가역 압축으로 손실된 음질을 보완하는 기술이 탑재되어 있다.

5. 1. 개요 및 종류

음악 감상 용도로, 비가역 압축 음성에서 흔히 발생하는 음질 열화를 개선하기 위해 일부 디지털 음향 기기에는 음질 보정 기술이 탑재되어 있다. 주로 손실된 고주파수 음역을 흉내 내어 복원하는 방법을 사용하는데, 원음에 가깝게 복원하는 것은 불가능하지만, 이에 가까운 파형을 재현할 수 있다.^[1] 그러나 품질이 낮은 압축으로 인해 거슬리는 노이즈가 추가된 경우에는 효과가 거의 없다.^[1]

이 기술은 각 제조사가 독자적으로 구현하고 있으며, 소니(Sony)의 "DSEE", 야마하(Yamaha)의 "뮤직 인핸서", 파이오니아(Pioneer)의 "어드밴스드 사운드 리트리버", 켄우드(Kenwood)의 "Supreme" 등이 있다.^[1] 이러한 기술은 디지털 오디오 플레이어, AV 앰프 등의 기기뿐만 아니라 PC용 재생 소프트웨어에도 탑재되어 있다.^[1]

참조

_[1] 문서 可逆圧縮は元の音声の性質によって圧縮後のサイズ・圧縮率が大きく異なり、非可逆圧縮はビットレートの設定によって異なるため、あくまで目安である
_[2] 웹사이트 放送博物館所蔵資料未来につながる機器たち｜NHK 放送博物館 https://web.archive.[...] 2021-12-04
_[3] 웹사이트 一録音エンジニアの回顧録～アナログからデジタルへ～第 2 回アナログレコードの音質改善とデジタル録音の導入 https://www.jas-audi[...] 2021-12-04
_[4] 학술지 ステレオ用PCM録音機 https://jglobal.jst.[...] 1969
_[5] 웹사이트 FLAC Comparison http://flac.sourcefo[...] 2013-03-06
_[6] 웹사이트 麻倉怜士のデジタル閻魔帳：SACDでよみがえる戦時中の名演奏 (1/3) https://www.itmedia.[...] ITmedia +D LifeStyle 2012-08-27
_[7] 서적 Audio-Video Engineering Nirali Prakashan
_[8] 학술지 Implementing a Novel Approach an Convert Audio Compression to Text Coding via Hybrid Technique http://ijcsi.org/pap[...] 2013-03-06
_[9] 학술지 Audio Signal Processing Using Wavelet Transform http://compmathsjour[...] 2013-03-06
_[10] 서적 Three-Dimensional Model Analysis and Processing Springer
_[11] 서적 Audio-Video Engineering Nirali Prakashan

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com