맨위로가기

음질

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

음질은 소리의 품질을 의미하며, 디지털 오디오는 아날로그 신호를 펄스 부호 변조(PCM) 방식으로 변환하여 저장한다. PCM은 양자화 오류를 발생시키며, 오디오 압축 기술을 통해 데이터 용량을 줄일 수 있다. 음질 평가는 주관 평가와 객관 평가로 나뉘며, 주관 평가는 사람이 직접 소리를 듣고 판단하는 방법으로, 객관 평가는 소리의 물리적 특징을 기반으로 평가 값을 추정하는 방법이다. 국제 전기 통신 연합(ITU)은 음성 및 오디오 신호에 대한 주관 및 객관 품질 평가법을 권고하고 있다.

2. 디지털 오디오

디지털 오디오는 펄스 부호 변조(PCM)를 통해 아날로그 신호를 디지털 형태로 변환하여 저장하는 방식이다.[4] 표본화 정리에 따르면, 대역폭 B의 모든 대역 제한 신호는 초당 2B개 이상의 샘플로 완벽하게 설명될 수 있다.[5]

사람의 가청 주파수 대역은 0~20kHz이므로, 디지털 오디오는 40kHz 이상으로 샘플링되어야 한다. 실제로는 초음파 주파수를 걸러내야 하기 때문에, 이보다 높은 샘플링 속도인 44.1kHz(CD 오디오) 또는 48kHz(DVD)가 사용된다.

PCM에서 각 오디오 샘플은 제한된 정밀도로 순간적인 음압을 나타낸다. 이 제한된 정확도는 양자화 오류를 발생시키는데, 이는 노이즈 형태로 기록에 추가된다. 각 샘플에 비트가 추가될 때마다 양자화 오류는 약 6dB 감소한다. 예를 들어, CD 오디오는 샘플당 16비트를 사용하므로, 최대 음압 레벨보다 약 96dB 낮은 양자화 노이즈를 갖는다.

PCM을 저장하는 데 필요한 공간은 샘플당 비트 수, 초당 샘플 수, 채널 수에 따라 달라진다. CD 오디오의 경우 초당 44,100 샘플, 샘플당 16비트, 스테레오 오디오의 경우 2 채널로 초당 1,411,200비트가 된다.

2. 1. 오디오 압축

비압축 PCM 방식은 데이터 용량이 크기 때문에, 오디오 압축을 사용하여 저장 공간을 줄일 수 있다.[4] 오디오 압축은 오디오 코덱을 사용하여 처리되며, 크게 무손실 압축과 손실 압축으로 나뉜다.

무손실 코덱은 오디오 샘플에서 반복되거나 중복되는 부분을 효율적으로 저장하는 방식으로, 정보를 버리지 않고 압축한다. 따라서 무손실 디코더를 통해 재생하면 음질 변화 없이 원래의 PCM을 얻을 수 있다. 무손실 오디오 압축은 파일 크기를 30~50% 정도 줄여준다. 대표적인 무손실 오디오 코덱으로는 FLAC, ALAC, 몽키 오디오 등이 있다.

손실 오디오 압축은 심리음향학 원리를 이용하여 사람이 듣기 어렵거나 불가능한 소리의 세부 정보를 줄여 압축률을 높인다. 이러한 정보를 제거한 후, 나머지 부분에 손실 압축을 적용하여 파일 크기를 크게 줄인다. 손실 오디오 압축은 파일 크기를 75~95%까지 줄일 수 있지만, 중요한 정보가 삭제될 경우 음질이 저하될 수 있다. 대표적인 손실 오디오 압축 방식으로는 MP3, Ogg Vorbis, AAC 등이 있다.[4]

3. 음질 평가

음질 평가는 소리의 물리적 특성뿐만 아니라 인간의 청각심리학적인 측면, 그리고 음성/음악 등 표현 내용의 특성을 모두 고려해야 한다.[6] 음질 평가 방법은 크게 주관 평가와 객관 평가로 나뉜다.

음질과 관련된 물리량으로는 주파수 특성, 왜율, SN비, 다이내믹 레인지 등이 있다.[6] 그러나 AACMP3 등의 오디오 압축 방식에서는 청감상 느껴지지 않더라도 물리적인 SN비가 매우 낮을 수 있다.[7] 이는 압축 시 지각 특성을 이용하여 잡음이나 왜곡을 제어하기 때문이다. 따라서 이러한 시스템의 음질은 물리량만으로는 평가할 수 없으며, 청각심리학적 특성이나 음성 및 음악의 특성을 반영한 평가가 필요하다.

음질을 비교, 관리하기 위해서는 정량화가 필요한데, 정량화 방법으로는 주관 평가와 객관 평가가 있다. 주관 평가는 사람이 실제로 소리를 듣고 판단하는 방법[8]이며, 객관 평가는 소리의 다양한 물리적 특징으로부터 주관 평가 값을 추정하는 방법이다.

주관 평가와 객관 평가의 특징은 다음과 같다.

주관 평가객관 평가
종합성・범용성×
비용×
재현성×
자동화×



국제 전기 통신 연합(ITU)은 음성 및 오디오 신호에 대한 주관/객관 품질 평가법을 권고하고 있다.[11]

주관 품질 평가법(음성)
규격 번호명칭
ITU-T P.800Methods for subjective determination of transmission quality
ITU-T P.830Subjective performance assessment of telephone-band and wideband digital codecs



주관 품질 평가법(오디오)
규격 번호명칭
ITU-R BS.1284General methods for the subjective assessment of sound quality
ITU-R BS.1116-1Methods for the subjective assessment of small impairments in audio system including multichannel sound systems
ITU-R BS.1534
(MUSHRA)
Method for the subjective assessment of intermediate quality levels of coding systems (MUSHRA)



객관 품질 평가법(음성)
규격 번호명칭
ITU-T P.563Single-ended method for objective speech quality assessment in narrow-band telephony applications (no-reference algorithm)
ITU-T P.861
(PSQM)
Objective quality measurement of telephone-band (300-3400 Hz) speech codecs
ITU-T P.862
(PESQ)
Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs



객관 품질 평가법(오디오)
규격 번호명칭
ITU-R BS.1387-1
(PEAQ)
Method for objective measurements of perceived audio quality


3. 1. 주관 평가

주관 평가는 사람이 직접 소리를 듣고 음질을 판단하는 방법으로, 평균 의견 점수(MOS)가 대표적이다. 주관 평가는 시험 환경, 평가 음원, 평가자에 따라 결과가 달라질 수 있으므로, 신뢰성을 확보하기 위해 다수의 평가자, 전용 평가 설비, 표준화된 음원 등이 필요하다.

음성에 대한 주관 평가 국제 표준은 ITU-T P.800이 있으며, 오디오에 대한 주관 평가 국제 표준은 ITU-R BS.1284, BS.1116, BS.1534 (MUSHRA) 등이 있다.[12]

3. 1. 1. 주관 평가 방법 (음성)

주관 품질 평가로 가장 일반적인 것은 평균 의견 점수(MOS)로, 음성의 전반적인 주관 품질 평가법으로 ITU-T 권고 P.800에서 정의된다.[12] 여러 평가자가 품질을 "매우 좋음" ~ "매우 나쁨"의 5단계로 평가하고, 전체 평균(MOS 값)을 구한다. ITU-T 권고 P.800에는 MOS 외에 DMOS, CMOS가 정의되어 있다.[12]

  • MOS(Mean Opinion Score): 절대 범주 척도법(Absolute Category Rating, ACR)을 사용. 평가 대상 음성을 듣고 5단계로 절대 평가한다.


MOS의 평가 범주
범주평점
매우 좋음(Excellent)5
좋음(Good)4
보통(Fair)3
나쁨(Poor)2
매우 나쁨(Bad)1


  • DMOS(Degradation Mean Opinion Score): 방해 범주 척도법(Degradation Category Rating, DCR)을 사용. 레퍼런스 음성(원본)과 평가 대상 음성을 비교하여 5단계로 상대 평가한다. 레퍼런스 음성의 0.5~1초 후에 평가 대상 음성이 들린다.


DMOS의 평가 범주
범주평점
열화가 전혀 인정되지 않음(Degradation is inaudible)5
열화가 인정되지만 신경 쓰이지 않음(Degradation is audible but not annoying)4
열화가 약간 신경 쓰임(Degradation is slightly annoying)3
열화가 신경 쓰임(Degradation is annoying)2
열화가 매우 신경 쓰임(Degradation is very annoying)1


  • CMOS(Comparison Mean Opinion Score): 비교 범주 척도법(Comparison Category Rating, CCR)을 사용. 레퍼런스 음성과 평가 대상 음성을 비교하여 7단계로 상대 평가한다. 레퍼런스 음성과 평가 대상 음성의 순서는 무작위로 변경된다.


CMOS의 평가 범주
범주평점
훨씬 좋음(Much Better)3
좋음(Better)2
약간 좋음(Slightly Better)1
거의 같음(About the Same)0
약간 나쁨(Slightly Worse)-1
나쁨(Worse)-2
훨씬 나쁨(Much Worse)-3



전화를 대상으로 하는 음성 평가법으로는, 수신 품질만을 대상으로 하는 수신 의견 평가법(listening-opinion test)과, 지연이나 에코 등도 포함한 대화에서의 품질을 대상으로 하는 대화 의견 평가법(conversation-opinion test)으로 나눌 수 있다. 어느 것을 평가하든 평가 흐름은 변하지 않는다.

이 외에, 전화용 디지털음성 코덱의 주관 평가값의 구체적인 측정 방법으로서 ITU-T 권고 P.830이 정의되어 있다.

3. 1. 2. 주관 평가 방법 (오디오)

평균 오피니언 평점은 오디오 품질 평가 전반에 대한 주관 평가 방법으로 국제 전기 통신 연합 권고 BS.1284에서 정의된다.[13] 이는 MOS, DMOS, CMOS를 포함하며 평가 카테고리도 음성의 경우와 동일하다.

평가 대상 파라미터는 다음과 같다.[13]

  • 공간감(Spatial impression): 연주가 적절한 공간에서 이루어지는 것처럼 보이는지 평가한다. (예: 잔향, 직접/간접, 방 크기)
  • 스테레오감(Stereo impression): 사운드 이미지가 정확하고 적절한 방향 분포를 갖는지 평가한다. (예: 넓이, 정확성)
  • 투명성(Transparency): 연주의 모든 세부 사항이 명확하게 느껴지는지 평가한다. (예: 깨끗함/탁함)
  • 음의 밸런스(Sound balance): 개별 음원이 전체 사운드 이미지 내에서 적절한 밸런스를 갖는지 평가한다. (예: 음원 강약, 압축/자연스러움)
  • 음색(Timbre): 각 음원의 다른 사운드 특성이 정확하게 묘사되는지 평가한다. (예: 붐빔/샤프함, 어두움/밝음, 따뜻함/차가움)
  • 잡음 및 왜곡 없음(Freedom from noise and distortions): 전기/음향 잡음, 소음, 비트 오류, 왜곡 등 방해 현상의 부재를 평가한다. (예: 방해 유무)
  • 주 인상(Main impression): 전체 사운드 이미지와 다양한 매개변수의 상호 작용을 고려한 각 매개변수의 주관적인 평균이다.


고품질 오디오 및 다채널 시스템의 미세한 음질 저하를 평가하는 방법으로 ITU-R BS.1116-1이 정의되어 있다.[14] BS.1116-1은 DMOS와 유사한 5단계 평가 범주를 사용하여 소수점 이하 첫째 자리까지 평점을 결정한다.

BS.1116-1의 평가 범주
범주평점
들리지 않음5.0
들리지만 거슬리지 않음4.0
약간 거슬림3.0
거슬림2.0
매우 거슬림1.0



시험은 ''은닉 기준을 포함한 3자극 이중 블라인드 테스트''(double-blind triple-stimulus with hidden reference영어)로 수행된다. 레퍼런스 음(원음)과 2개의 평가 대상 음을 비교하며, 무작위로 레퍼런스 음(은닉 기준)이 포함된 쪽에 5.0 평점을 부여한다. 이 방법은 미세한 열화도 감지할 수 있어 열화가 적은 시스템 평가에 적합하다.[14]

중품질 오디오 압축 시스템 평가에는 ITU-R BS.1534 (MUSHRA)가 사용된다.[15] MUSHRA법은 AAC, HE-AAC 등 오디오 코덱 평가에 사용된다.

MUSHRA법에서는 레퍼런스 음, 평가 대상 음, 숨겨진 기준(레퍼런스 음), 숨겨진 앵커(가장 열화가 큰 음)를 동시에 제시하여 비교 평가한다. 평가는 5단계(100~0점) 연속 품질 척도를 사용한다. MUSHRA법은 레퍼런스 음과의 비교뿐 아니라 다른 코덱 음과의 비교도 자유롭게 할 수 있어 정확한 평가가 용이하다.[15] 숨겨진 앵커를 통해 열화된 음의 청취 방식을 알 수 있으며, 열화 구분이 쉬워진다.

숨겨진 앵커는 원음에 3.5kHz 로우패스 필터를 적용하여 고음을 제거한 음을 사용하며, 여러 개가 포함될 수 있다. (7kHz 로우패스 필터, 잡음 추가, 스테레오감 제거 등)

3. 2. 객관 평가

평균 의견 평점으로 대표되는 주관 품질 평가법은 비용과 시간이 많이 소요된다는 단점이 있어, 주관 평가와 대응이 잘 되는 음성의 객관 품질 평가법은 오래전부터 연구되어 왔다. 객관 평가는 소리의 물리적 특징을 분석하여 주관 평가 결과를 추정하는 방법으로, 시간과 비용을 절감하고 동일한 조건에서 일관된 결과를 얻을 수 있다는 장점이 있다. 평가 대상(명료도, 자연스러움, 잡음/왜곡 등)에 따라 다양한 알고리즘이 사용된다.

3. 2. 1. 객관 평가 방법 (음성)

가장 기본적인 평가 방법으로, 원래의 음성 신호와 통신 회선 등을 거쳐온 신호로부터 신호 대 잡음비(SNR)를 구하는 방법과, 짧은 시간 단위로 측정한 신호 대 잡음비를 장시간의 음성 구간에서 평균한 세그멘탈 SNR(SSNR)이 있다. 이러한 방법은 단순한 알고리즘으로 값을 구할 수 있기 때문에 이전부터 사용되어 왔다. 구해지는 값은 음성 파형을 바꾸지 않는 특정 시스템에서는 주관 평가와 상관 관계에 있지만, 복잡한 음성 부호화 방식을 사용하는 더 일반적인 시스템에서는 주관 평가값과 크게 달라지는 단점이 있다.

또한, 인간이 포르만트 등 주파수 영역의 파라미터로 음성을 인식하고 있다는 점을 이용하여, 음성 스펙트럼의 모양이나 모양을 주는 파라미터에 의한 왜곡 평가도 가능하다. 이타쿠라-사이토 거리(Itakura–Saito distance영어), LPC켑스트럼 거리(linear predictive coding cepstral distance영어) 등을 사용한 평가 방법이 제안되어 있다.

이들을 더욱 발전시켜 인간의 다양한 청각 심리학상의 특성을 고려한 파라미터를 사용한 수청 품질의 객관 평가 방법으로, ITU-T P.861(PSQM, perceptual speech quality measure영어)과, 그것의 개선판인 ITU-T P.862(PESQ, perceptual evaluation of speech quality영어)가 있다.

ITU-T P.862에서 정의된 PESQ는 전화 등에서의 음성 수신 품질을 객관적으로 평가하기 위한 알고리즘으로, 그 전신인 PSQM을 개선한 것이다. 지연이나 에코 등 대화 품질에서의 열화 요인은 고려되지 않는다. PESQ는 레퍼런스 음성(원음)과 평가 대상 음성을 입력으로 받아, 다음의 2단계 처리를 통해 평가값을 추정한다.

# 지각 모델링: 레퍼런스/평가 대상 음성을 인간의 청각 심리 모델에 기반하여 주파수 영역에서 매개변수화한다.

# 인지 모델링: 매개변수화된 값으로부터 잡음이나 왜곡 등의 방해 값을 계산하여 MOS 값에 매핑한다.

ITU-T P.862는 300-3400Hz의 전화 대역의 음성 신호 평가를 대상으로 한다. 유사한 알고리즘을 사용하여 7kHz의 광대역 음성을 대상으로 하는 권고로서 ITU-T P.862.2가 있다.

3. 2. 2. 객관 평가 방법 (오디오)

신호 대 잡음비나 왜율은 오랫동안 오디오의 객관적 품질 평가 방법으로 사용되었지만, 현대의 디지털 신호 처리를 사용한 다양한 오디오 압축 코덱에서는 유효한 평가 방법이 아니다.[16] 따라서 음성의 객관 품질 평가 방법과 마찬가지로 오디오에서도 새로운 객관 품질 평가 방법이 연구되고 있다. ITU-R BS.1387-1에서 정의된 PEAQ|Perceived evaluation of audio quality영어가 그 대표적인 예이다.

4. 한국의 오디오 기술 발전과 전망

한국은 MP3 플레이어, 스마트폰 등 디지털 오디오 기기 생산 강국으로서, 고음질 오디오 코덱 개발 및 음질 평가 기술 확보에 대한 필요성이 높다. 최근에는 딥러닝 기반의 객관적 음질 평가 기술 개발이 활발하게 이루어지고 있으며, 이는 음향 기기, 음성 통신, 방송 등 다양한 분야에서 활용될 수 있다. 특히, AI 기반 음질 개선 기술은 노이즈 제거, 음성 복원 등 다양한 분야에서 활용되며, 사용자 경험 향상에 기여할 것으로 기대된다.

참조

[1] 웹사이트 Sound Quality or Timbre http://hyperphysics.[...] 2017-04-13
[2] 웹사이트 Quality of sound and the tech behind it: What to look for when choosing a speaker - Pocket-lint http://www.pocket-li[...] 2017-04-13
[3] 웹사이트 Pitch, Loudness and Quality of Musical Notes - Pass My Exams: Easy exam revision notes for GSCE Physics http://www.passmyexa[...] 2017-04-13
[4] 뉴스 What is pulse code modulation (PCM)? - Definition from WhatIs.com http://searchnetwork[...] 2017-04-13
[5] 웹사이트 The Sampling Theorem http://www.dspguide.[...] 2017-04-13
[6] 논문 Sound quality : a definition for a sonic architecture Proc. 12th International Congress on Sound and Vibration, Lisbon 2005-07
[7] 논문 Perceptual Coding of Digital Audio Proceedings of the IEEE, pp.451-513 2000
[8] 서적 Springer Handbook of Speech Processing Springer 2007
[9] 웹사이트 主観評価と客観評価 http://www.ntt.co.jp[...] 2010-06-15
[10] 서적 Handbook for Sound Engineers, Second Edition: The New Audio Cyclopedia Focal Press 1991
[11] 간행물 音楽再生時における物理的歪と音色の好みの関係 Technical report of IEICE. EA 102(398), pp.57-62 2002
[12] 간행물 ITU-T 勧告 P.800: Methods for subjective determination of transmission quality https://www.itu.int/[...]
[13] 간행물 ITU-R 勧告 BS.1284: General methods for the subjective assessment of sound quality https://www.itu.int/[...]
[14] 간행물 ITU-R 勧告 BS.1116: Methods for the subjective assessment of small impairments in audio systems including multichannel sound systems https://www.itu.int/[...]
[15] 간행물 EBU listening tests on Internet audio codecs EBU TECHNICAL REVIEW 2000-06
[16] 간행물 ITU-R 勧告 BS.1387: Method for objective measurements of perceived audio quality (PEAQ) https://www.itu.int/[...]
[17] 웹인용 What is Sound Quality and How is it Judged {{!}} Tutorials {{!}} Team Audionutz http://www.teamaudio[...] 2017-04-13
[18] 웹인용 Sound Quality or Timbre http://hyperphysics.[...] 2017-04-13
[19] 웹인용 Quality of sound and the tech behind it: What to look for when choosing a speaker - Pocket-lint http://www.pocket-li[...] 2017-04-13
[20] 웹인용 Pitch, Loudness and Quality of Musical Notes - Pass My Exams: Easy exam revision notes for GSCE Physics http://www.passmyexa[...] 2017-04-13



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com