스펙트로그램

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

스펙트로그램은 시간과 주파수를 축으로 하고, 신호의 강도를 색상 또는 밝기로 표현하는 그래프이다. 다양한 형식으로 변형 가능하며, 진폭 또는 파워 스펙트로그램으로 구분된다. 스펙트로그램은 대역 통과 필터 또는 단시간 푸리에 변환(STFT)을 사용하여 생성되며, 위상 정보를 포함하지 않아 원래 신호를 완벽하게 복원할 수는 없지만, 오디오 조각에 이미지를 숨기거나, 소리를 생성하는 데 사용될 수 있다. 조류의 소리 연구, 언어 훈련, 음성학 및 음성 합성 연구, 음성 인식, 그리고 생체 의학 신호 분석 등 다양한 분야에 응용된다. 멜 스펙트로그램은 멜 척도를 사용하여 주파수를 표현하며, 딥 러닝 기반 음성 처리에 활용된다.

스펙트로그램

개요

정의	시간 경과에 따른 신호의 주파수 스펙트럼을 시각적으로 표현한 것
다른 이름	음향 스펙트럼 소노그램 보이스프린트

형태

시각적 표현	이미지
축	x축: 시간 y축: 주파수
색상/밝기	주어진 시간에 특정 주파수의 신호 진폭

응용 분야

음향학	동물 음성 식별 언어학 음성학 음성 인식 음악 분석 지진학 레이더 의학

기술적 정보

생성 방법	일련의 푸리에 변환을 사용하여 생성
대안적 방법	웨이블릿 변환

📚 더 읽어볼만한 페이지

음향 측정 - 빔포밍
빔포밍은 신호 처리 기술로, 송신 시 신호의 위상과 진폭을 제어하여 특정 방향으로 전파 에너지를 집중시키고, 수신 시 특정 방향의 신호를 우선 수신하며, 일반 빔포밍과 적응형 빔포밍으로 나뉘어 여러 분야에서 활용된다.
시간-주파수 분석 - 분수 푸리에 변환
분수 푸리에 변환은 푸리에 변환을 일반화하여 시간과 주파수 사이 영역으로 신호를 변환하며, 신호 처리, 양자 물리학, 광학 시스템 설계 등 다양한 분야에 응용되는 시간-주파수 영역에서의 회전으로 해석될 수 있다.
시간-주파수 분석 - 웨이블릿
웨이블릿은 시간-주파수 분석에 사용되는 다양한 스케일의 진동 파형으로, 연속 웨이블릿 변환(CWT)과 이산 웨이블릿 변환(DWT)으로 나뉘며, 다중 해상도 분석(MRA) 기반 이산 웨이블릿 변환은 효율적인 계산을 제공하고 이미지 압축, 신호 처리, 잡음 제거 등에 응용된다.
신호 처리 - 대역폭 (신호 처리)
대역폭은 주파수 영역에서 함수의 퍼짐 정도를 나타내는 척도로, 통신 분야에서는 변조된 반송파 신호가 차지하는 주파수 범위, 다른 분야에서는 시스템 성능을 유지하거나 저하가 발생하는 주파수 범위를 의미하며, 다양한 측정 방식과 함께 여러 분야에서 활용된다.
신호 처리 - 선형 시불변 시스템
선형 시불변 시스템은 선형성과 시불변성을 만족하는 시스템으로, 임펄스 응답으로 특성화되며, 컨볼루션, 주파수 영역 분석 등을 통해 분석하고, 통신, 신호 처리 등 다양한 분야에 응용된다.

1. 개요
2. 형식
- 2.1. 강도
3. 생성
4. 한계 및 재합성
5. 응용 분야
- 5.1. 멜 스펙트로그램
6. 한국에서의 활용

2. 형식

스펙트로그램은 주로 두 개의 차원을 가진 그래프 형태로 표현되며, 가로축은 시간, 세로축은 주파수를 나타낸다. 특정 시간과 주파수에서의 신호 강도는 이미지의 각 점의 밝기 또는 색상으로 표현된다.

형식에는 다양한 변형이 가능하다. 필요에 따라 가로축과 세로축을 바꾸어 시간이 위아래로 흐르게 할 수 있다. 또는, 강도를 Z축으로 표현하여 폭포 플롯과 같은 3차원 형태로 나타낼 수도 있다. 주파수 축은 선형 눈금 또는 로그 눈금을 사용하여 나타낼 수 있다. 예를 들어, 음성 신호에서 배음 관계를 나타내는 경우에는 주파수를 선형 눈금으로 표시하고, 음악적 또는 음색적 관계를 나타내는 경우에는 주파수를 로그 눈금으로 표시한다.

바이올린 연주 녹음의 스펙트로그램. 기본 주파수의 정수 배수로 발생하는 하모닉스를 확인할 수 있다.

돌고래 발성의 스펙트로그램; 지저귐, 클릭 및 조화는 각각 역 V자, 수직선 및 수평 줄무늬로 표시된다.

FM 신호의 스펙트로그램. 이 경우 신호 주파수는 시간 프로필에 따라 정현파 주파수로 변조된다.

8MHz 너비의 PAL-I 텔레비전 신호의 상단 스펙트럼과 하단 폭포(스펙트로그램).

마운트 레이니어 국립공원의 사운드스케이프 생태에 대한 스펙트로그램으로, 다양한 생물과 항공기의 소리가 강조되어 있다.

스펙트로그램 (프리웨어 [https://github.com/Christoph-Lauer/Sonogram-Visible-Speech Sonogram visible Speech]로 생성됨).

피아노 화음에 대한 변수-Q 변환 스펙트로그램 (FFmpeg의 showcqt 필터를 사용하여 생성됨).

2.1. 강도

스펙트로그램에서 진폭의 크기를 강도로 하는 것을 진폭 스펙트로그램(앰플리튜드 스펙트로그램/amplitude spectrogram^영어), 진폭의 제곱을 강도로 하는 것을 파워 스펙트로그램(파워 스펙트로그램/power spectrogram^영어)이라고 한다.

강도는 종종 레벨 표현(대수 스케일)으로 나타낸다. 기준량은 용도에 따라 다르며, 순수하게 대수 표현을 할 때는 $1$ , 스펙트로그램 내의 상대적인 관계를 볼 때는 피크값 $max(S)$ 이나 중앙값 $median(S)$ 이 사용된다. 수치는 dB 단위를 채택하는 경우가 많다.

3. 생성

스펙트로그램은 크게 두 가지 방법으로 생성할 수 있다. 하나는 대역 통과 필터군을 사용하는 방법이고, 다른 하나는 단시간 푸리에 변환(STFT)으로 계산하는 방법이다.

* 필터를 사용한 기법은 주로 아날로그 연속 신호에 사용된다. 신호의 주파수 범위를 등간격으로 나누는데, 선형 등간격과 대수 등간격이 있다. 각 필터의 출력을 시간에 따라 기록하고, 이를 주파수 대역 순서대로 쌓아 올리면 가로축을 시간, 세로축을 주파수로 하는 스펙트로그램이 완성된다.
* 디지털 신호에서는 STFT를 사용하여 스펙트로그램을 생성한다. 시간 계열에서 샘플링된 데이터를 덩어리로 나누고, 각 덩어리마다 푸리에 변환을 수행한다. 각 덩어리의 변환 결과(스펙트럼)를 수직으로 놓고 시계열로 배열하면 스펙트로그램이 완성된다.

빛의 스펙트럼은 시간에 따라 광학 분광기를 사용하여 직접 생성할 수도 있다.

4. 한계 및 재합성

스펙트로그램은 신호의 정확한 위상 정보를 포함하지 않기 때문에, 스펙트로그램만으로 원래 신호를 완벽하게 복원하는 것은 불가능하다. 하지만 위상이 중요하지 않은 경우에는 원래 신호의 근사치를 생성할 수 있다. Analysis & Resynthesis Sound Spectrograph, 패턴 재생과 같은 소프트웨어를 사용하여 스펙트로그램으로부터 소리를 생성하거나, 이미지 형태의 스펙트로그램을 소리로 변환할 수 있다.

스펙트로그램에는 약간의 위상 정보가 시간 지연(또는 군 지연)과 같은 다른 형태로 나타나며, 이는 순시 주파수의 쌍대이다.

분석 창의 크기와 모양은 다양하게 변경될 수 있다. 더 작은(짧은) 창은 주파수 표현의 정밀도를 희생하면서 타이밍에서 더 정확한 결과를 생성한다. 더 큰(긴) 창은 타이밍 표현의 정밀도를 희생하면서 더 정확한 주파수 표현을 제공한다. 이것은 하이젠베르크 불확정성 원리의 한 예이다.

다음 프로그램들은 디지털 이미지를 스펙트로그램으로 해석하여 소리로 변환할 수 있다.
* [http://www.uisoftware.com/PAGES/acceuil_meta.html MetaSynth] (Macintosh)
* [https://www.abc.se/~re/Coagula/Coagula.html Coagula] (Windows)
* [http://www.coppercloudmusic.com/enscribe/ Enscribe] (Linux)
* [http://arss.sourceforge.net/ The Analysis & Resynthesis Sound Spectrograph] (크로스 플랫폼)
* [http://faculty.washington.edu/dillon/PhonResources/javoice/vowjavoice2.html JavOICe] (Java 애플릿)
* FL Studio의 "BeepMap"

나인 인치 네일스 앨범 "Year Zero" 유출판의 마지막 부분에 있는 화이트 노이즈 부분의 스펙트로그램

전자 음악 아티스트들은 음악에 스펙트로그램 이미지를 숨기는 기법을 사용하기도 한다. 예를 들어, 에이펙스 트윈은 Windowlicker 트랙에 자신의 이미지를 숨겼고, 나인 인치 네일스는 앨범 "Year Zero"에서 이 기법을 사용했다.

현대 음악 제작 과정에서 스펙트로그램을 사용하여 주파수나 시점을 지정하여 소리의 강도를 변경하고, 다시 원래 소리로 되돌리는 작업이 이루어지기도 한다.

5. 응용 분야

초기 아날로그 스펙트로그램은 박새와 같은 조류의 소리 연구를 포함한 광범위한 분야에 적용되었으며, 현대 디지털 장비를 사용한 현재 연구가 계속되고 있으며 모든 동물 소리에 적용되고 있다. 현대 디지털 스펙트로그램의 사용은 특히 동물 소리의 주파수 변조(FM) 연구에 유용하다. 구체적으로 FM 짹짹거림, 광대역 클릭 노이즈, 사회적 조화의 특징은 스펙트로그램으로 가장 쉽게 시각화할 수 있다.

스펙트로그램은 난청이 심한 인구 집단의 언어 결손을 극복하고 언어 훈련을 돕는 데 유용하다.

음성학과 음성 합성 연구는 종종 스펙트로그램의 사용을 통해 용이해진다.

딥 러닝 기반 음성 합성에서 시퀀스-투-시퀀스 모델로 먼저 스펙트로그램 (또는 멜 스케일의 스펙트로그램)을 예측한 다음, 스펙트로그램을 신경 보코더에 공급하여 합성된 원시 파형을 도출한다.

스펙트로그램 생성 과정을 반전시켜 스펙트로그램이 임의의 이미지가 되도록 신호를 만들 수 있다. 이 기술은 오디오 조각에 그림을 숨기는 데 사용될 수 있으며, 여러 전자 음악 아티스트가 사용해 왔다. 스테가노그래피도 참조하십시오.

일부 현대 음악은 스펙트로그램을 중간 매체로 사용하여 생성된다. 즉, 서로 다른 주파수의 강도를 시간 경과에 따라 변경하거나, 이를 그림으로 그린 다음 역 변환하여 새로운 주파수를 생성한다. 오디오 타임스케일-피치 변형 및 위상 보코더를 참조하십시오.

스펙트로그램은 필터와 같은 신호 프로세서를 통해 테스트 신호를 통과시켜 그 성능을 확인하는 결과를 분석하는 데 사용될 수 있다.

고해상도 스펙트로그램은 RF 및 마이크로파 시스템 개발에 사용된다.

스펙트로그램은 이제 벡터 네트워크 분석기로 측정된 산란 파라미터를 표시하는 데 사용된다.

미국 지질조사소(US Geological Survey)와 IRIS 컨소시엄은 지진 관측소를 모니터링하기 위해 거의 실시간 스펙트로그램 디스플레이를 제공한다.

스펙트로그램은 순환 신경망과 함께 음성 인식에 사용될 수 있다.

개인의 스펙트로그램은 중국 정부에 의해 중국의 대량 감시 프로그램의 일부로 수집된다.

진동 신호의 경우, 스펙트로그램의 색상 척도는 시간 경과에 따른 파형의 진폭 피크 주파수를 식별한다. 시간 또는 주파수 그래프와 달리 스펙트로그램은 피크 값을 시간 및 주파수와 상관시킨다. 진동 테스트 엔지니어는 스펙트로그램을 사용하여 연속 파형의 주파수 내용을 분석하고, 강한 신호를 찾아내며, 진동 동작이 시간 경과에 따라 어떻게 변하는지 결정한다.

스펙트로그램은 두 가지 다른 응용 분야에서 음성을 분석하는 데 사용될 수 있다. 바로 인공 와우 사용자에서 음성 결함을 자동 감지하고 음소-속성 특징을 추출하기 위한 음소 클래스 인식이다.

화자의 발음 특징을 얻기 위해 일부 연구자들은 바이오닉스에서 아이디어를 얻어 짧은 시간 스펙트로그램의 선형 중첩에서 화자의 발음을 안정적으로 표현하기 위해 스펙트로그램 통계를 사용하여 특징적인 스펙트로그램을 달성하는 방법을 제안했다.

연구자들은 스펙트로그램 기술을 활용하여 ECG 신호 분석에 대한 새로운 접근 방식을 모색하고 있으며, 아마도 향상된 시각화와 이해를 위해서일 것이다. 특징 추출을 위해 MFCC를 통합하면 오디오 처리에서 방법을 차용하여 생체 의학 신호에서 관련 정보를 추출하는 학제 간 응용이 가능하다는 것을 시사한다.

온도 표시 페인트(TIP)의 정확한 해석은 항공 및 기타 산업 응용 분야에서 매우 중요하다. TIP의 2D 스펙트로그램은 온도 해석에 사용될 수 있다.

스펙트로그램은 인간 흉부의 변화율에 대한 신호를 처리하는 데 사용될 수 있다. 스펙트로그램을 사용하여 호흡 신호를 시각화함으로써 연구자들은 신경망 모델을 기반으로 호흡 상태를 분류하는 접근 방식을 제안했다.

5.1. 멜 스펙트로그램

멜 스펙트로그램(mel spectrogram^en-short)은 주파수 축이 멜 척도로 표현된 스펙트로그램이다. 인간의 청각 특성을 반영하여 주파수 정보를 압축하므로, 딥 러닝 기반 음성 처리 분야에서 전처리 과정으로 자주 사용된다.

(선형) 스펙트로그램에 멜 필터뱅크를 적용하면 주파수 축의 차원 수가 줄어들어, 청각 특성에 기반한 차원 압축 기능을 수행한다. 멜 스펙트로그램은 진폭 스펙트로그램을 비가역적으로 변환한 것이기 때문에, 멜 스펙트로그램에서 진폭 스펙트로그램을 엄밀하게 재생할 수 없다. 진폭 스펙트로그램 추정에는 비음수 최소 자승법과 최소 자승법, 클리핑이 사용된다.

초기 아날로그 스펙트로그램은 박새와 같은 조류의 소리 연구를 포함한 광범위한 분야에 적용되었으며, 음성학, 음성 합성 연구, 음성 인식 등에 활용된다.

6. 한국에서의 활용

한국에서는 스펙트로그램 기술이 음성학, 음성 합성, 음성 인식 등 다양한 분야에서 활용되고 있다. 특히 딥 러닝 기반 음성 합성에서는 시퀀스-투-시퀀스 모델을 통해 스펙트로그램을 예측하고, 이를 신경 보코더에 입력하여 합성된 음성 파형을 생성한다. 또한, 스펙트로그램은 인공 와우 사용자들의 음성 결함을 자동으로 감지하고, 음소-속성 특징을 추출하여 음소 클래스를 인식하는 등 음성 분석에도 활용된다.

일부 연구자들은 바이오닉스의 아이디어를 차용하여, 짧은 시간 스펙트로그램의 선형 중첩에서 화자의 발음을 안정적으로 표현하기 위해 스펙트로그램 통계를 활용하여 특징적인 스펙트로그램을 추출하는 방법을 제안하기도 했다.

최근에는 스펙트로그램 기술이 ECG 신호 분석과 같은 생체 의학 분야에도 활용되고 있으며, 오디오 처리에서 사용되는 MFCC(Mel-Frequency Cepstral Coefficients)를 특징 추출에 통합하여 학제 간 응용 가능성을 보여주고 있다.