머리전달함수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

머리전달함수(HRTF)는 음파가 머리, 귓바퀴, 몸통에 의해 필터링되는 방식을 설명하며, 소리가 청각 시스템에 도달하기 전의 과정을 나타낸다. 개인의 머리와 귀 모양에 따라 HRTF가 다르므로 소스 위치를 결정하는 데 도움이 된다. HRTF는 머리 관련 임펄스 응답(HRIR)의 푸리에 변환이며, 가상 청취 공간을 만들거나 녹음 및 재생 기술에 활용된다. 가상 청취 공간에서는 헤드폰을 통해 소리의 공간적 배치를 가능하게 하며, 컴퓨터 게임, Windows, Apple, Qualcomm 등 다양한 플랫폼에서 공간 음향 기술로 사용된다. HRTF는 기하학적 모델을 통해 추정될 수도 있다.

머리전달함수

개요

명칭	머리전달함수
영어 명칭	Head-Related Transfer Function (HRTF)
일본어 명칭	頭部伝達関数 (Toubu Dentatsu Kansū)

정의

정의	공간상의 특정 위치에서 사람의 고막까지 소리가 전달되는 과정에서 발생하는 음향적 변화를 설명하는 함수이다.
설명	HRTF는 소리의 방향과 거리를 인지하는 데 중요한 역할을 한다. HRTF는 개인의 머리, 귀, 몸통의 형태에 따라 달라진다.

작동 원리

음파의 변화	머리와 귀의 형태에 의해 음파가 회절, 반사, 흡수되면서 변화한다. 이러한 변화는 소리의 주파수 응답에 영향을 미친다.
방향 인지	양이 차이 (interaural level difference, ILD): 양쪽 귀에 도달하는 소리의 크기 차이. 양시간차 (interaural time difference, ITD): 양쪽 귀에 도달하는 시간 차이.
거리 인지	직접음 대 반사음 비율: 직접음과 반사음의 상대적인 크기. 명료도: 소리의 선명도. 음색: 소리의 색깔.

측정 및 모델링

측정 방법	마이크로폰을 이용하여 고막 위치에서 소리를 측정한다. 다양한 방향에서 소리를 발생시켜 HRTF를 측정한다.
모델링 방법	머리, 귀, 몸통의 형태를 3D 모델링한다. 음향 시뮬레이션을 통해 HRTF를 계산한다.

활용 분야

가상 현실 (VR)	현실감 있는 3차원 음향 효과를 제공한다.
게임	소리의 방향과 거리를 정확하게 표현하여 몰입감을 높인다.
보청기	개인의 청각 특성에 맞춰 소리를 최적화한다.
음향 설계	콘서트홀, 강당 등의 음향 특성을 개선한다.
3D 오디오	3차원 공간에서 소리의 위치를 정확하게 재현한다.
기타	군사: 3차원 사운드 기술을 통해 소리의 방향을 정확하게 인지하여 전투 상황에서 활용한다. 통신: 3차원 음향 기술을 통해 음성 통화 시 몰입감을 높인다.

HRTF 데이터베이스

공개 데이터베이스	다양한 기관에서 HRTF 데이터를 공개하고 있다.
개인 맞춤형 HRTF	개인의 머리, 귀, 몸통 형태를 측정하여 HRTF를 생성한다.

양이 차이 (ILD)	Interaural Level Difference
양시간차 (ITD)	Interaural Time Difference
머리 음영 효과	Head Shadow Effect
핀나 효과	Pinna Effect

2. 정의 및 작동 원리

인간은 두 개의 귀를 가지고 있지만, 3차원 공간에서 소리의 위치를 파악할 수 있다. 이는 뇌, 내이, 그리고 외이(귓바퀴)가 함께 작용하여 위치를 추론하기 때문이다. 소리원의 위치를 파악하는 능력은 인간과 조상들에게 진화론적으로 필요한 능력이었다. 눈은 관찰자 주변 세계의 일부분만 볼 수 있으며, 어둠 속에서는 시야가 제한되기 때문이다. 반면에 소리원 위치 파악 능력은 주변의 빛과 관계없이 모든 방향에서 작동한다.

인간은 한쪽 귀에서 얻는 단서(모노럴 단서)와 양쪽 귀에서 수신되는 단서(차이 단서 또는 바이노럴 단서)를 비교하여 소리원의 위치를 추정한다. 차이 단서에는 도달 시간 차이와 강도 차이가 있다. 모노럴 단서는 소리원과 인간의 해부학적 구조 사이의 상호 작용에서 비롯된다. 이러한 수정은 소리원의 위치를 인코딩하며, 소리원의 위치와 귀의 위치를 관련시키는 임펄스 응답을 통해 캡처될 수 있다. 이 임펄스 응답을 머리전달함수(HRIR)라고 한다. HRIR과 임의의 소리원을 컨볼루션하면 소리가 마치 소리원 위치에서 재생되었고, 청취자의 귀가 수신기 위치에 있는 것처럼 들리도록 변환된다. HRIR은 가상 서라운드 사운드를 생성하는 데 사용되어 왔다.

머리전달함수(HRTF)는 주어진 음파 입력(주파수 및 소스 위치)이 머리, 귓바퀴, 몸통의 회절 및 반사 속성에 의해 어떻게 필터링되는지 설명하며, 소리가 고막과 내이의 변환 기계에 도달하기 전의 과정을 설명한다(청각 시스템 참조). 생물학적으로, 이러한 외부 구조의 소스 위치별 사전 필터링 효과는 특히 소리의 고도 결정에 있어 소스를 신경학적으로 결정하는 데 도움이 된다.

2.1. 기술적 유도

HRTF는 HRIR(머리 관련 임펄스 응답)의 푸리에 변환이다.

선형 시불변 시스템 분석에서 전달 함수는 주파수의 함수로, 출력 신호 스펙트럼과 입력 신호 스펙트럼의 복소수 비율로 정의된다. 주파수 f에서 모든 선형 시불변 시스템의 전달 함수 H(f)는 다음과 같다.

:H(f) = 출력(f) / 입력(f)

따라서 주어진 음원 위치에서 HRTF를 얻는 데 사용되는 한 가지 방법은 음원에서 발생하는 임펄스 Δ(t)에 대해 고막에서 머리 관련 임펄스 응답(HRIR), h(t)을 측정하는 것이다. HRTF H(f)는 HRIR h(t)의 푸리에 변환이다.

이상적인 기하학을 가진 "더미 헤드"에 대해 측정한 경우에도 HRTF는 주파수와 3개의 공간 변수의 복잡한 함수이다. 그러나 머리에서 1m 이상 떨어진 거리에서는 HRTF가 거리에 반비례하여 감쇠한다고 할 수 있다. 가장 많이 측정된 것은 이 원거리장 HRTF, H(f, θ, φ)이다. 더 가까운 거리에서는 귀 사이에서 관찰되는 레벨의 차이가 매우 커질 수 있으며, 원거리장에서 무시할 만한 레벨 차이가 관찰되는 저주파수 영역에서도 마찬가지이다.

2.2. 위상 및 크기 합성

HRTF 위상 합성은 양이 시간차(ITD) 스케일링 팩터를 이용하여 이루어진다. 인체 측정 특징을 바탕으로 시간 지연을 추정하고, 이를 통해 위상 응답을 모델링한다. 낮은 주파수 대역에서는 위상 추정의 신뢰도가 떨어지지만, 고주파수에서는 귓바퀴의 특징이 위상 응답에 영향을 미친다. 이전 연구에 따르면 HRTF 위상 응답은 대부분 선형적이며, 양이 시간차가 유지되는 한 청취자는 양이 시간차 스펙트럼의 세부 사항에 둔감하다. 따라서 방향과 고도에 따라 달라지는 시간 지연으로 위상 응답을 모델링할 수 있다.

스케일링 팩터는 인체 측정 특징의 함수이다. 예를 들어, N명의 피험자로 구성된 훈련 세트에서 각 HRTF 위상을 고려하여 단일 ITD 스케일링 팩터를 그룹의 평균 지연으로 설명할 수 있다. 이 스케일링 팩터는 주어진 개인의 방향과 고도의 함수로 시간 지연을 추정할 수 있게 한다. 추정된 시간 지연은 왼쪽 및 오른쪽 귀의 위상 응답으로 변환된다.

HRTF 위상은 ITD 스케일링 팩터로 설명할 수 있으며, 이는 참조 원본으로 사용되는 개인의 인체 측정 데이터를 통해 정량화된다. 일반적인 경우, 희소 벡터 β는 다음과 같이 정의된다.

: $\beta = [\beta_1, \beta_2, \ldots, \beta_N]^T$

이 벡터는 훈련 데이터의 인체 측정 특징의 선형 중첩으로 피험자의 인체 측정 특징을 나타낸다 (y = βX). 이 희소 벡터를 스케일링 벡터 H에 적용하는 과정은 비음수 축소 매개변수 λ를 사용한 최소화 문제로 표현할 수 있다.

: $\beta = \operatorname{argmin}\limits_\beta \left( \sum_{a=1}^A \left( y_a - \sum_{n=1}^N \beta_n X_n^2 \right) + \lambda \sum_{n=1}^N \beta_n \right)$

이를 통해 ITD 스케일링 팩터 값 H는 다음과 같이 추정된다.

: $H' = \sum_{n=1}^N \beta_n H_n.$

여기서 데이터 세트의 모든 사람에 대한 ITD 스케일링 팩터는 벡터 H ∈ R^N에 쌓이며, H_n은 n번째 사람의 스케일링 팩터를 나타낸다.

이 최소화 문제는 최소 절대 수축 및 선택 연산자를 사용하여 해결된다. HRTF는 인체 측정 특징과 동일한 관계를 가진다고 가정한다. 따라서 인체 측정 특징에서 희소 벡터 β를 학습한 후, 이를 HRTF 텐서 데이터에 적용하여 대상의 HRTF 값 H'를 다음과 같이 얻는다.

: $H'_{d,k} = \sum_{n=1}^N \beta_n H_{n,d,k}$

여기서 각 대상의 HRTF는 크기가 D × K인 텐서로 표현된다. D는 HRTF 방향의 수이고, K는 주파수 빈의 수이다. 훈련 세트의 모든 HRTF에 해당하는 모든 H_n,d,k는 새로운 텐서 H ∈ R^N×D×K에 쌓인다. 따라서 H_n,d,k는 n번째 사람의 d번째 HRTF 방향에 대한 k번째 주파수 빈에 해당한다. H'_d,k는 합성된 HRTF의 모든 d번째 HRTF 방향에 대한 k번째 주파수를 나타낸다.

3. 측정 및 응용

머리전달함수(HRTF)는 컴퓨터 게임, 가상현실, 증강현실 등에서 몰입형 오디오 경험을 제공하는 데 사용된다. 마이크로소프트의 Windows 10 이상에는 Microsoft 공간 음향이 포함되어 있으며, Xbox One 및 Hololens 2에서 사용되는 동일한 공간 오디오 프레임워크이다. Windows PC 또는 Xbox One에서는 이 프레임워크가 HRTF를 적용하기 위해 Windows Sonic for Headphones, 돌비 애트모스, DTS Headphone:X를 포함한 여러 가지 다운스트림 오디오 프로세서를 사용할 수 있다.

애플(Apple Inc.) 역시 애플 또는 비츠가 생산한 헤드폰과 함께 사용되는 장치용 공간 음향을 가지고 있다. 헤드폰으로 음악을 재생할 때 돌비 애트모스를 활성화하고 HRTF를 적용할 수 있다. 퀄컴 스냅드래곤은 일부 안드로이드 폰 브랜드에서 사용되는 유사한 헤드 추적 공간 오디오 시스템을 가지고 있다. 유튜브는 360도 및 VR 비디오에 헤드 추적 HRTF를 사용한다.

3.1. 가상 청각 공간에서의 소리 정위

헤드폰을 통해 가상 청각 공간을 만들기 위해 머리전달함수(HRTF)를 활용할 수 있다. 스피커 전달 함수, HRTF, 마이크 전달 함수, 그리고 헤드폰-고막 전달 함수 간의 관계를 이용하면, 헤드폰에서 재생되는 소리가 마치 특정 위치에서 발생하는 것처럼 느껴지도록 만들 수 있다.

가상 청취 공간을 만들 때 기본적인 가정은 청취자의 고막에 도달하는 음향 파형이 헤드폰을 착용했을 때와 자유 공간에 있을 때 동일하다면, 청취자의 경험 역시 동일해야 한다는 것이다.

일반적으로 헤드폰에서 나오는 소리는 머리 내부에서 발생하는 것으로 인식된다. 가상 청취 공간에서는 헤드폰이 소리를 "외부화"할 수 있어야 한다. HRTF를 사용하면 아래 설명된 기술을 통해 소리를 공간적으로 배치할 수 있다.

x₁(t)를 스피커를 구동하는 전기 신호, y₁(t)를 청취자 고막 내부의 마이크에서 수신된 신호라고 하자. 마찬가지로, x₂(t)를 헤드폰을 구동하는 전기 신호, y₂(t)를 해당 신호에 대한 마이크 응답이라고 하자. 가상 청취 공간의 목표는 y₂(t) = y₁(t)가 되도록 x₂(t)를 선택하는 것이다. 이러한 신호에 푸리에 변환을 적용하면 다음 두 가지 방정식을 얻는다.

: Y₁ = X₁LFM
: Y₂ = X₂HM

여기서 L은 자유 공간에서의 스피커 전달 함수, F는 HRTF, M은 마이크 전달 함수, H는 헤드폰-고막 전달 함수이다. Y₁ = Y₂로 설정하고 X₂에 대해 풀면 다음을 얻는다.

: X₂ = X₁LF/H

따라서 원하는 전달 함수는 다음과 같다.

: T= LF/H

이론적으로 x₁(t)가 이 필터를 통과하고 결과 x₂(t)가 헤드폰에서 재생되면 고막에서 동일한 신호를 생성해야 한다. 이 필터는 한쪽 귀에만 적용되므로, 다른 쪽 귀에 대해서는 다른 필터를 만들어야 한다. 이 과정은 가상 환경의 여러 위치에서 반복되어, 나이퀴스트 기준에 의해 설정된 샘플링 조건을 만족하면서 각 위치에서 재현될 두 귀에 대한 머리전달함수 배열을 생성한다.

3.2. 녹음 및 재생 기술

HRTF는 컴퓨터 게임, 가상현실, 증강현실 등에서 몰입형 오디오 경험을 제공하는 데 사용된다. Windows 10 이상에는 Microsoft 공간 음향이 포함되어 있으며, Xbox One 및 Hololens 2에서 사용되는 동일한 공간 오디오 프레임워크이다. Windows PC 또는 Xbox One에서는 이 프레임워크가 HRTF를 적용하기 위해 Windows Sonic for Headphones, 돌비 애트모스, DTS Headphone:X를 포함한 여러 가지 다운스트림 오디오 프로세서를 사용할 수 있다.

애플(Apple Inc.) 역시 애플 또는 비츠가 생산한 헤드폰과 함께 사용되는 장치용 공간 음향을 가지고 있다. 헤드폰으로 음악을 재생할 때 돌비 애트모스를 활성화하고 HRTF를 적용할 수 있다. 퀄컴 스냅드래곤은 일부 안드로이드 폰 브랜드에서 사용되는 유사한 헤드 추적 공간 오디오 시스템을 가지고 있다. 유튜브는 360도 및 VR 비디오에 헤드 추적 HRTF를 사용한다.

4. 한계 및 극복

머리전달함수(HRTF)는 개인마다 머리와 귀의 모양이 다르기 때문에 개인차가 존재한다.

4.1. 기하학적 모델로부터의 HRTF 추정

Mesh2HRTF와 EAC 같은 오픈 소스 프로그램을 통해 머리 형상으로부터 대략적인 HRTF를 추론할 수 있다. Mesh2HRTF는 머리의 전체 3D 메시에 대한 물리적 시뮬레이션을 실행하며, EAC는 기존 HRTF로 훈련된 신경망을 사용하여 사진 및 기타 대략적인 측정값으로 작동한다.