맨위로가기

스픽스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

스픽스는 VoIP 및 파일 기반 압축에 사용되는 음성 코덱으로, 높은 음질과 낮은 비트레이트를 목표로 개발되었다. 이 코덱은 프리웨어/오픈 소스, 무특허, 무로열티로 제공되며, 협대역, 광대역, 초광대역을 지원한다. 스픽스는 가변 비트레이트(VBR) 및 음성 활동 감지(VAD)와 같은 기능을 제공하며, 다양한 샘플링 레이트, 품질 매개변수, 복잡도 조절 옵션을 지원한다. 스픽스는 스트리밍, 화상 회의, VoIP 시스템, 비디오 게임 등 다양한 분야에 응용되며, 윈도우, 리눅스, 플래시 플레이어, 아이폰의 Siri 등에서 활용된다.

더 읽어볼만한 페이지

  • Xiph.Org 프로젝트 - FLAC
    FLAC은 조시 콜슨이 개발한 무손실 오디오 코덱으로, 원본 음질을 유지하면서 파일 크기를 줄이기 위해 오디오 데이터를 압축하며, 4~32비트 샘플 크기, 최대 8 채널을 지원하고, 미국 국립 문서 기록 관리청에서 디지털 오디오에 선호되는 형식으로 지정되었다.
  • Xiph.Org 프로젝트 - Vorbis
    Vorbis는 Xiph.Org 재단에서 개발한 로열티 없는 자유 소프트웨어 오디오 코덱으로, MP3의 대안으로 개발되어 가변, 평균, 고정 비트레이트를 지원하며 갭리스 디코딩을 통해 끊김 없는 재생이 가능하고 MP3보다 나은 음질을 제공한다.
  • 오픈 포맷 - HTML
    HTML은 웹 페이지 제작을 위한 표준 마크업 언어로서, 팀 버너스리가 제안하고 구현한 후 인터넷 발전과 함께 널리 사용되며, SGML에 기반하여 하이퍼텍스트 기능으로 다양한 콘텐츠를 표현하고 연결하며, W3C와 WHATWG에서 표준화를 진행하고 최신 버전은 HTML Living Standard이다.
  • 오픈 포맷 - 오픈 소스
    오픈 소스는 제품 설계 및 재배포를 장려하는 모델로, 소프트웨어 개발에서 시작하여 개방형 협업을 장려하며 다양한 분야에서 활용되고 있고 오픈 소스 이니셔티브와 같은 단체가 운동을 지원한다.
  • 오디오 코덱 - NICAM
    NICAM은 1970년대 BBC에서 개발된 디지털 오디오 방송 시스템으로, 32kHz 샘플링 주파수와 14비트 PCM을 사용하여 음성 신호를 인코딩하고 스테레오 음향, 이중 언어 방송, 데이터 채널 전송 등의 기능을 제공하며 아날로그 방송의 음성 전송 방식으로 사용되었으나 디지털 방송으로의 전환으로 사용이 줄어들었다.
  • 오디오 코덱 - G.711
    G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
스픽스 - [IT 관련 정보]에 관한 문서
일반 정보
파일 확장자.spx
MIME 형식audio/x-speex, audio/speex, audio/ogg
소유자Xiph.Org 재단, Jean-Marc Valin
파일 형식손실 오디오
컨테이너Ogg
웹사이트Speex 공식 웹사이트
libspeex 소프트웨어 정보
이름libspeex
개발자Xiph.Org 재단, Jean-Marc Valin
최초 릴리스1.0 / 2003년 3월
최신 릴리스 버전1.2.1
운영 체제크로스 플랫폼
장르오디오 코덱, 참조 구현
라이선스BSD 스타일 라이선스
웹사이트Xiph.org 다운로드
기술 정보
유형음성 압축 코덱

2. 설명

스픽스는 VoIP와 파일 기반 압축에 사용할 목적으로 개발되었다. 개발 목표는 높은 품질의 음성과 낮은 비트레이트에 최적화된 코덱을 개발하는 것이었다. 이 목표를 달성하기 위해 스픽스는 다중 비트레이트를 사용하며, 초광대역(32 kHz 샘플링 레이트), 광대역(16 kHz 샘플링 레이트), 협대역(전화 품질, 8 kHz 샘플링 레이트)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 만들어졌기 때문에 스픽스는 손실된 패킷에 강해야 한다. 이러한 이유로 인해 CELP가 스픽스를 위해 사용할 인코딩 기술로 채택되었다.[35] CELP가 낮은 비트레이트와 높은 비트레이트에서 작업을 잘 수행하고 크기를 잘 조정할 수 있다는 것이 오랫동안 증명됐다는 것이 가장 큰 이유 중 하나이다.

스픽스의 주요 특징은 다음과 같다.

특징
프리웨어/오픈 소스, 무특허, 무로열티
동일한 비트스트림에서 협대역과 광대역의 통합
광범위한 사용가능 비트레이트(2 kbit/s에서 44kbit/s)
동적 비트레이트 전환과 가변 비트레이트(VBR)
음성 활동 감지(Voice Activity Detection, VBR과 통합)(1.2 버전에서는 지원하지 않음)
가변 복잡성
32 kHz에서 초광대역 모드(48 kHz까지)
강도 스테레오 인코딩 옵션


3. 기능

스픽스(Speex)는 VoIP와 파일 기반 압축에 사용하기 위해 개발된 음성 코덱이다. 높은 음성 품질과 낮은 비트레이트를 목표로 개발되었으며, 이를 위해 다중 비트레이트를 사용하여 초광대역(32 kHz), 광대역(16 kHz), 협대역(전화 품질, 8 kHz)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 설계되었기 때문에 손실된 패킷에 강하다. 이러한 특징으로 인해 CELP 인코딩 기술이 사용되었다.[35] CELP는 낮은 비트레이트와 높은 비트레이트에서 모두 잘 작동하며 크기 조정이 가능하다는 장점이 있다.

스픽스의 주요 기능은 다음과 같다:


  • 프리웨어/오픈 소스이며, 특허로열티가 없다.
  • 동일한 비트스트림에서 협대역과 광대역을 통합한다.
  • 광범위한 비트레이트(2 kbit/s에서 44kbit/s)를 지원한다.
  • 동적 비트레이트 전환과 가변 비트레이트(VBR)를 지원한다.
  • 음성 활동 감지(VAD, VBR과 통합) 기능을 제공한다. (1.2 버전부터 Any Activity Detection으로 대체)
  • 가변 복잡도를 지원한다.
  • 32 kHz에서 초광대역 모드(최대 48 kHz)를 지원한다.
  • 강도 스테레오 인코딩 옵션을 제공한다.
  • 불연속 전송(DTX) 기능을 지원한다.
  • 인식 강화 (Perceptual enhancement) 기능을 지원한다.
  • 알고리즘적 지연시간은 협대역(8kHz) 30ms, 광대역(16kHz) 34ms이다.

3. 1. 샘플링 레이트

스픽스는 주로 8 kHz, 16 kHz, 32 kHz의 세 가지 샘플링 레이트로 개발되었다. 8 kHz는 전화 통화와 같은 협대역, 16 kHz는 광대역, 32 kHz는 초광대역에 해당한다.[7]

3. 2. 품질

Speex 코덱은 음성 압축에 사용되며, 다양한 품질 설정을 통해 음질과 비트 전송률 간의 균형을 맞출 수 있다.

  • 품질: Speex 인코딩은 0부터 10까지의 품질 매개변수로 제어된다.
  • 고정 비트 전송률(CBR): 품질 매개변수는 정수이다.
  • 가변 비트 전송률(VBR): 품질 매개변수는 실수(부동소수점)이다.
  • 복잡도 (가변): 인코더의 복잡도는 1에서 10까지의 정수로 조절할 수 있다.
  • 복잡도가 높을수록 CPU 요구 사항은 높아지지만, 노이즈 레벨은 낮아진다. (복잡도 1은 복잡도 10보다 1~2dB 정도 노이즈가 높지만, CPU 요구는 5배 낮다.)
  • 일반적으로 2와 4 사이가 최적의 균형이다.[38]
  • 비음성 사운드(예: DTMF 톤)를 인코딩하거나 실시간 인코딩이 아닌 경우에는 더 높은 설정을 사용하는 것이 좋다.
  • 가변 비트 전송률 (VBR): 인코딩되는 오디오의 "어려움"에 따라 비트 전송률을 동적으로 변경한다.
  • 모음이나 '높은 진폭과 짧은 지속시간을 갖는 음(high-energy transient)'은 높은 비트 전송률이 필요하지만, 마찰음은 낮은 비트 전송률로도 충분하다.
  • 장점: 동일 품질에 대해 더 낮은 비트 전송률, 또는 특정 비트 전송률에 대해 더 좋은 품질을 얻을 수 있다.
  • 단점:
  • 최종 평균 비트 전송률을 보장할 수 없다.
  • VoIP 같은 실시간 응용 프로그램에서는 최대 비트 전송률이 낮아야 하지만 그렇지 못하다.
  • VBR로 인코딩된 음성을 암호화해도 완전한 보안을 유지하지 못한다.[14]
  • 평균 비트 전송률 (ABR): 특정 목표 비트 전송률에 맞추기 위해 VBR 품질을 동적으로 조절한다.
  • 전체 품질은 정확한 품질 설정을 한 VBR보다 약간 낮다.
  • 음성 활동 감지 (VAD): 오디오가 음성인지 무음/배경음인지를 감지한다.
  • VBR에서는 항상 활성화되며, 비VBR 작업에서만 작동 여부를 선택할 수 있다.
  • 비음성 부분은 안정 소음 발생 (CNG)을 위해 충분한 비트로 인코딩된다.
  • VAD를 지원했던 마지막 버전은 1.1.12이며, v 1.2부터 Any Activity Detection으로 대체되었다.
  • 불연속 전송 (DTX): 배경음이 정지 상태일 때 전송을 완전히 멈춘다.
  • 사라진 각 프레임은 5비트로 표현된다 (250 bit/s).
  • 인식 강화 (Perceptual enhancement): 디코더에서 작동하며, 코딩/디코딩 과정에서 발생한 소음을 감소시킨다.
  • 객관적으로는 원음과의 차이를 발생시키지만, 주관적으로는 더 나은 소리로 들리게 한다.
  • 알고리즘적 지연: Speex는 프레임 크기만큼의 지연이 발생한다.
  • 협대역(8kHz): 30ms 지연
  • 광대역(16kHz): 34ms 지연
  • 이 값은 CPU 시간을 포함하지 않는다.

3. 3. 복잡도 (가변)

Speex는 인코더에 허용되는 복잡도를 변경할 수 있도록 설계되었다. 이는 gzip 압축의 -1에서 -9까지의 옵션과 유사하게 1에서 10까지의 범위의 정수로 검색을 제어하여 수행된다. 일반적인 사용에서 복잡도 1의 노이즈 레벨은 복잡도 10보다 1에서 2 dB 정도 높지만, 복잡도 10의 CPU 요구 조건은 복잡도 1보다 5배 높다. 실제 최적의 균형은 2와 4 사이이다.[38]

3. 4. 가변 비트레이트 (VBR)

Speex영어가변 비트레이트(VBR) 인코딩을 지원한다. VBR은 코덱이 인코딩하는 오디오의 "어려움"에 따라 비트레이트를 동적으로 변경할 수 있게 한다. Speex영어의 예에서 모음 및 고에너지 과도 현상과 같은 소리는 좋은 품질을 얻기 위해 더 높은 비트레이트가 필요한 반면, 마찰음 (예: ㅅ, ㅆ, s, f 소리)은 적은 비트로도 적절하게 코딩할 수 있다.[14]

이러한 특징 덕분에 VBR은 동일한 품질에 대해 더 낮은 비트레이트를 달성하거나, 특정 비트레이트에 대해 더 좋은 품질을 얻을 수 있다. 그러나 VBR에는 세 가지 주요 단점이 있다.[14]

  • 첫째, 품질만 지정하면 최종 평균 비트레이트에 대한 보장이 없다.
  • 둘째, VoIP와 같은 일부 실시간 응용 프로그램에서는 통신 채널의 특성상 최대 비트레이트가 낮아야 하지만 그렇지 못하다.
  • 셋째, VBR로 인코딩된 음성을 암호화하는 것은 구문의 비트레이트 변화 패턴을 분석하여, 최소한 구문의 작은 사전이 있는 제어된 설정에서는 구문을 식별할 수 있으므로 완전한 개인 정보를 보장하지 못할 수 있다.


Speex영어 인코딩은 0부터 10까지 범위의 품질 매개변수로 대부분 제어된다. 고정 비트레이트(CBR) 작동에서는 품질 매개변수가 정수이며, VBR 작동에서는 품질 매개변수가 실수(부동소수점)이다.

3. 5. 평균 비트레이트 (ABR)

평균 비트레이트(ABR)는 VBR의 문제점 중 하나를 해결한 방식으로, 특정 목표 비트레이트에 맞추기 위해 품질을 동적으로 조절한다. 품질과 비트레이트의 비율이 실시간으로 조절되기 때문에, 정확한 품질 설정을 한 VBR로 인코딩한 것보다 전체 품질이 약간 낮아지는 경향이 있다.[14]

3. 6. 음성 활동 감지 (VAD)

음성 활동 감지(VAD)가 동작하면 스픽스는 오디오가 음성을 인코딩하고 있는지 혹은 무음이나 배경음을 인코딩하고 있는지를 감지할 수 있다. VAD는 VBR로 인코딩할 경우에 무조건적으로 활성화되므로 비VBR 작업에서만 작동 여부를 선택할 수 있다. 이 기능이 활성화됐을 경우 스픽스는 비음성 부분을 감지하고 배경음을 재구성하기 위해 충분한 비트로 그것들을 인코딩한다. 이것을 '안정 소음 발생'(CNG)라고 한다.[38] VAD를 지원했던 마지막 버전은 1.1.12이며, v 1.2부터 Any Activity Detection으로 대체되었다.

3. 7. 불연속 전송 (DTX)

불연속 전송(DTX)은 음성 활동 감지(VAD) 및 가변 비트 전송률(VBR)에 추가된 기능으로, 배경 잡음이 일정하게 유지될 때 전송을 완전히 중단한다. 파일에서는 사라진 각 프레임에 대해 5비트가 사용된다(초당 250비트에 해당).[38]

3. 8. 인식 강화 (Perceptual enhancement)

인식 강화는 코딩/디코딩 과정에서 발생한 소음을 줄이기 위해 디코더에서 사용하는 기능이다. 대부분의 경우 인식 강화를 사용하면 객관적으로 원음과 차이가 발생하지만, 주관적으로는 더 좋게 들린다.[38]

3. 9. 알고리즘적 지연

모든 코덱은 전송할 때 지연이 발생한다. 스픽스는 이러한 지연이 프레임 크기와 같다. 협대역(8kHz)에서 지연 시간은 30ms이고, 광대역(16kHz)에서는 34ms이다.[38] 이 값들은 프레임을 인코딩하거나 디코딩하는 데 걸리는 CPU 시간은 포함하지 않는다.

4. 응용

스픽스 코덱은 다양한 애플리케이션에서 활용되고 있다.

분야애플리케이션 예시설명
스트리밍화상 회의 (TeamSpeak, Mumble)음성 데이터 전송에 스픽스 코덱 사용
VoIP 시스템Asterisk음성 통화에 스픽스 코덱 활용
비디오 게임Xbox Live,[15] 시빌라이제이션 4, DropMix 보컬 트랙 등게임 내 음성 채팅 및 오디오 데이터 압축에 사용
오디오 처리마이크로소프트 윈도우의 DirectShow 필터, OpenACM 코덱, 리눅스의 libvorbis, 오디오 플레이어 플러그인 등다양한 오디오 처리 프로그램에서 스픽스 코덱 지원[16]
RTP스픽스의 미디어 유형은 RTP를 통해 전송되거나 컨테이너 없이 전송될 때는 audio/speex
랜드 워리어제너럴 다이내믹스 제작, 레이시온 설계 EPLRS 라디오미국 육군의 랜드 워리어 시스템에서 VoIP에 스픽스 사용
Ear Bible1GB 플래시 메모리 내장 외이도형 헤드폰,[18] New American Standard Bible 녹음본 사전 탑재[17]
ASL Safety & Security리눅스 기반 VIPA OS 소프트웨어[20]주요 국제 항공 운송 허브 및 철도 네트워크의 장거리 공공 주소 시스템 및 음성 경보 시스템에 사용[19]
Rockbox음성 인터페이스에 스픽스 사용, 지원되는 플레이어에서 스픽스 파일 재생 가능
Vernier LabQuest과학 교육을 위한 휴대용 데이터 수집 장치, 내장 또는 외부 마이크를 사용한 음성 주석에 스픽스 사용[21]
아이폰용 구글 모바일 앱스픽스 통합,[22] 구글 음성 검색 아이폰 앱에서 음성을 구글 서버로 전송하여 해석하는 데 사용[23]
어도비 플래시 플레이어2008년 10월 출시된 Flash Player 10.0.12.36부터 스픽스 지원,[24] Flash Media Server 또는 P2P 통신에 사용, 플래시 비디오 컨테이너 형식 (.flv)에서 사용 가능[25][26][27]
JavaSonics ListenUp음성 녹음기, 스픽스를 사용하여 브라우저에서 녹음된 음성 메시지 압축, 언어 훈련, 전사, 소셜 네트워킹 등에 활용[28]
Siri아이폰 4S의 음성 지원, 음성 압축 알고리즘으로 스픽스 사용[29]
Half-Life 1게임 내 VoIP 기능으로 Speex 코덱을 사용하며 기본적으로는 비활성화되어 있지만 서버 관리자의 설정이 필요하다.
Civilization IV레너드 니모이의 내레이션을 Speex로 압축
TeamSpeak3종류의 코덱 중 하나로 Speex를 지원


5. MIME

스픽스(Speex)의 미디어 타입은 Ogg에 저장될 경우 `audio/ogg`이며, RTP를 통해 전송되거나 컨테이너가 없을 경우에는 `audio/speex`이다.[7] IANA 등록 전에는 `audio/x-speex`였다.

참조

[1] 웹사이트 PlayOgg! - FSF - Free Software Foundation http://www.fsf.org/c[...] 2010-03-17
[2] 웹사이트 people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin http://people.xiph.o[...] Xiph.Org 2009-09-11
[3] 웹사이트 Speex News https://speex.org/ne[...] Xiph.Org Foundation 2023-04-13
[4] 웹사이트 The Speex Codec Manual - Speex License http://www.speex.org[...] Xiph.Org Foundation 2009-09-01
[5] 웹사이트 Sample Xiph.Org Variant of the BSD License http://www.xiph.org/[...] Xiph.Org Foundation 2009-08-29
[6] 웹사이트 Speex: A Free Codec For Free Speech http://www.speex.org Xiph.Org 2009-09-01
[7] 웹사이트 Introduction to CELP Coding http://speex.org/doc[...] Xiph.Org 2009-09-01
[8] 문서 FLV format specification http://download.macr[...] Adobe 2016-04-18
[9] 웹사이트 Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz http://downloads.xip[...] Xiph.Org 2009-09-01
[10] 웹사이트 Speex FAQ – Under what license is Speex released? http://www.speex.org[...] Xiph.Org 2009-09-01
[11] 웹사이트 Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization http://www.xiph.org/[...] Xiph.Org 2009-09-01
[12] 웹사이트 Speex homepage https://speex.org/ 2017-04-11
[13] 웹사이트 Codec description https://www.speex.or[...]
[14] 웹사이트 Spot me if you can: Uncovering Spoken Phrases in Encrypted VoIP Conversations (Charles V. Wright Lucas Ballard Scott E. Coull Fabian Monrose Gerald M. Masson) http://www.cs.jhu.ed[...]
[15] LugRadio Theora codec maintainer http://www.lugradio.[...] LugRadio
[16] 웹사이트 A free codec for free speech http://www.speex.org[...] Speex 2012-12-29
[17] 웹사이트 The worlds most convenient Audio Bible http://www.earbible.[...] Ear Bible 2012-12-29
[18] 웹사이트 Support http://www.earbible.[...] Ear Bible 2012-12-29
[19] 웹사이트 PA/VA, PSIM Software and Station Management Systems > ASL Safety & Security http://www.asl-contr[...] Asl-control.co.uk 2012-12-29
[20] Webarchive IPAM 400: IP Based Intelligent Public Address Amplifier http://www.asl-contr[...] 2011-09-04
[21] 웹사이트 LabQuest 2 > Vernier Software & Technology http://www.vernier.c[...] Vernier.com 2012-12-29
[22] 웹사이트 Legal Notices http://www.google.co[...] Google Inc. 2014-12-05
[23] 웹사이트 Deconstructing Google Mobile's Voice Search on the iPhone https://waxy.org/200[...] 2008-11-18
[24] 문서 Flash Player 10 Datasheet https://www.adobe.co[...] Adobe 2009-09-01
[25] 웹사이트 Speex for Flash http://askmeflash.co[...] AskMeFlash.com 2009-08-12
[26] 웹사이트 Speex vs Nellymoser https://web.archive.[...] AskMeFlash.com 2009-08-12
[27] 웹사이트 Video File Format Specification, Version 10 https://www.adobe.co[...] Adobe Systems Incorporated 2014-12-05
[28] 웹사이트 JavaSonics ListenUp voice recording Applet for Java that uploads messages to a web server http://www.javasonic[...] Javasonics.com 2012-12-29
[29] 웹사이트 Applidium — News http://applidium.com[...] Applidium.com 2012-12-29
[30] 웹인용 people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin http://people.xiph.o[...] Xiph.Org 2009-09-11
[31] 웹인용 Speex News https://speex.org/ne[...] Xiph.Org Foundation 2017-04-11
[32] 웹인용 The Speex Codec Manual - Speex License http://www.speex.org[...] Xiph.Org Foundation 2009-09-01
[33] 웹인용 Sample Xiph.Org Variant of the BSD License http://www.xiph.org/[...] Xiph.Org Foundation 2009-08-29
[34] 웹사이트 Speex: A Free Codec For Free Speech http://www.speex.org Xiph.Org 2009-09-01
[35] 웹사이트 Introduction to CELP Coding http://speex.org/doc[...] Xiph.Org 2009-09-01
[36] 간행물 Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz http://downloads.xip[...] Xiph.org 2009-09-01
[37] 간행물 Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization http://www.xiph.org/[...] Xiph.Org 2003-03-24
[38] 웹사이트 Codec Description http://www.speex.org[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com