스픽스
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
스픽스는 VoIP 및 파일 기반 압축에 사용되는 음성 코덱으로, 높은 음질과 낮은 비트레이트를 목표로 개발되었다. 이 코덱은 프리웨어/오픈 소스, 무특허, 무로열티로 제공되며, 협대역, 광대역, 초광대역을 지원한다. 스픽스는 가변 비트레이트(VBR) 및 음성 활동 감지(VAD)와 같은 기능을 제공하며, 다양한 샘플링 레이트, 품질 매개변수, 복잡도 조절 옵션을 지원한다. 스픽스는 스트리밍, 화상 회의, VoIP 시스템, 비디오 게임 등 다양한 분야에 응용되며, 윈도우, 리눅스, 플래시 플레이어, 아이폰의 Siri 등에서 활용된다.
더 읽어볼만한 페이지
- Xiph.Org 프로젝트 - FLAC
FLAC은 조시 콜슨이 개발한 무손실 오디오 코덱으로, 원본 음질을 유지하면서 파일 크기를 줄이기 위해 오디오 데이터를 압축하며, 4~32비트 샘플 크기, 최대 8 채널을 지원하고, 미국 국립 문서 기록 관리청에서 디지털 오디오에 선호되는 형식으로 지정되었다. - Xiph.Org 프로젝트 - Vorbis
Vorbis는 Xiph.Org 재단에서 개발한 로열티 없는 자유 소프트웨어 오디오 코덱으로, MP3의 대안으로 개발되어 가변, 평균, 고정 비트레이트를 지원하며 갭리스 디코딩을 통해 끊김 없는 재생이 가능하고 MP3보다 나은 음질을 제공한다. - 오픈 포맷 - HTML
HTML은 웹 페이지 제작을 위한 표준 마크업 언어로서, 팀 버너스리가 제안하고 구현한 후 인터넷 발전과 함께 널리 사용되며, SGML에 기반하여 하이퍼텍스트 기능으로 다양한 콘텐츠를 표현하고 연결하며, W3C와 WHATWG에서 표준화를 진행하고 최신 버전은 HTML Living Standard이다. - 오픈 포맷 - 오픈 소스
오픈 소스는 제품 설계 및 재배포를 장려하는 모델로, 소프트웨어 개발에서 시작하여 개방형 협업을 장려하며 다양한 분야에서 활용되고 있고 오픈 소스 이니셔티브와 같은 단체가 운동을 지원한다. - 오디오 코덱 - NICAM
NICAM은 1970년대 BBC에서 개발된 디지털 오디오 방송 시스템으로, 32kHz 샘플링 주파수와 14비트 PCM을 사용하여 음성 신호를 인코딩하고 스테레오 음향, 이중 언어 방송, 데이터 채널 전송 등의 기능을 제공하며 아날로그 방송의 음성 전송 방식으로 사용되었으나 디지털 방송으로의 전환으로 사용이 줄어들었다. - 오디오 코덱 - G.711
G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
스픽스 - [IT 관련 정보]에 관한 문서 | |
---|---|
일반 정보 | |
파일 확장자 | .spx |
MIME 형식 | audio/x-speex, audio/speex, audio/ogg |
소유자 | Xiph.Org 재단, Jean-Marc Valin |
파일 형식 | 손실 오디오 |
컨테이너 | Ogg |
웹사이트 | Speex 공식 웹사이트 |
libspeex 소프트웨어 정보 | |
이름 | libspeex |
개발자 | Xiph.Org 재단, Jean-Marc Valin |
최초 릴리스 | 1.0 / 2003년 3월 |
최신 릴리스 버전 | 1.2.1 |
운영 체제 | 크로스 플랫폼 |
장르 | 오디오 코덱, 참조 구현 |
라이선스 | BSD 스타일 라이선스 |
웹사이트 | Xiph.org 다운로드 |
기술 정보 | |
유형 | 음성 압축 코덱 |
2. 설명
스픽스는 VoIP와 파일 기반 압축에 사용할 목적으로 개발되었다. 개발 목표는 높은 품질의 음성과 낮은 비트레이트에 최적화된 코덱을 개발하는 것이었다. 이 목표를 달성하기 위해 스픽스는 다중 비트레이트를 사용하며, 초광대역(32 kHz 샘플링 레이트), 광대역(16 kHz 샘플링 레이트), 협대역(전화 품질, 8 kHz 샘플링 레이트)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 만들어졌기 때문에 스픽스는 손실된 패킷에 강해야 한다. 이러한 이유로 인해 CELP가 스픽스를 위해 사용할 인코딩 기술로 채택되었다.[35] CELP가 낮은 비트레이트와 높은 비트레이트에서 작업을 잘 수행하고 크기를 잘 조정할 수 있다는 것이 오랫동안 증명됐다는 것이 가장 큰 이유 중 하나이다.
스픽스의 주요 특징은 다음과 같다.
특징 |
---|
프리웨어/오픈 소스, 무특허, 무로열티 |
동일한 비트스트림에서 협대역과 광대역의 통합 |
광범위한 사용가능 비트레이트(2 kbit/s에서 44kbit/s) |
동적 비트레이트 전환과 가변 비트레이트(VBR) |
음성 활동 감지(Voice Activity Detection, VBR과 통합)(1.2 버전에서는 지원하지 않음) |
가변 복잡성 |
32 kHz에서 초광대역 모드(48 kHz까지) |
강도 스테레오 인코딩 옵션 |
스픽스(Speex)는 VoIP와 파일 기반 압축에 사용하기 위해 개발된 음성 코덱이다. 높은 음성 품질과 낮은 비트레이트를 목표로 개발되었으며, 이를 위해 다중 비트레이트를 사용하여 초광대역(32 kHz), 광대역(16 kHz), 협대역(전화 품질, 8 kHz)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 설계되었기 때문에 손실된 패킷에 강하다. 이러한 특징으로 인해 CELP 인코딩 기술이 사용되었다.[35] CELP는 낮은 비트레이트와 높은 비트레이트에서 모두 잘 작동하며 크기 조정이 가능하다는 장점이 있다.
3. 기능
스픽스의 주요 기능은 다음과 같다:3. 1. 샘플링 레이트
스픽스는 주로 8 kHz, 16 kHz, 32 kHz의 세 가지 샘플링 레이트로 개발되었다. 8 kHz는 전화 통화와 같은 협대역, 16 kHz는 광대역, 32 kHz는 초광대역에 해당한다.[7]
3. 2. 품질
Speex 코덱은 음성 압축에 사용되며, 다양한 품질 설정을 통해 음질과 비트 전송률 간의 균형을 맞출 수 있다.3. 3. 복잡도 (가변)
Speex는 인코더에 허용되는 복잡도를 변경할 수 있도록 설계되었다. 이는 gzip 압축의 -1에서 -9까지의 옵션과 유사하게 1에서 10까지의 범위의 정수로 검색을 제어하여 수행된다. 일반적인 사용에서 복잡도 1의 노이즈 레벨은 복잡도 10보다 1에서 2 dB 정도 높지만, 복잡도 10의 CPU 요구 조건은 복잡도 1보다 5배 높다. 실제 최적의 균형은 2와 4 사이이다.[38]
3. 4. 가변 비트레이트 (VBR)
Speex영어는 가변 비트레이트(VBR) 인코딩을 지원한다. VBR은 코덱이 인코딩하는 오디오의 "어려움"에 따라 비트레이트를 동적으로 변경할 수 있게 한다. Speex영어의 예에서 모음 및 고에너지 과도 현상과 같은 소리는 좋은 품질을 얻기 위해 더 높은 비트레이트가 필요한 반면, 마찰음 (예: ㅅ, ㅆ, s, f 소리)은 적은 비트로도 적절하게 코딩할 수 있다.[14]
이러한 특징 덕분에 VBR은 동일한 품질에 대해 더 낮은 비트레이트를 달성하거나, 특정 비트레이트에 대해 더 좋은 품질을 얻을 수 있다. 그러나 VBR에는 세 가지 주요 단점이 있다.[14]
Speex영어 인코딩은 0부터 10까지 범위의 품질 매개변수로 대부분 제어된다. 고정 비트레이트(CBR) 작동에서는 품질 매개변수가 정수이며, VBR 작동에서는 품질 매개변수가 실수(부동소수점)이다.
3. 5. 평균 비트레이트 (ABR)
평균 비트레이트(ABR)는 VBR의 문제점 중 하나를 해결한 방식으로, 특정 목표 비트레이트에 맞추기 위해 품질을 동적으로 조절한다. 품질과 비트레이트의 비율이 실시간으로 조절되기 때문에, 정확한 품질 설정을 한 VBR로 인코딩한 것보다 전체 품질이 약간 낮아지는 경향이 있다.[14]
3. 6. 음성 활동 감지 (VAD)
음성 활동 감지(VAD)가 동작하면 스픽스는 오디오가 음성을 인코딩하고 있는지 혹은 무음이나 배경음을 인코딩하고 있는지를 감지할 수 있다. VAD는 VBR로 인코딩할 경우에 무조건적으로 활성화되므로 비VBR 작업에서만 작동 여부를 선택할 수 있다. 이 기능이 활성화됐을 경우 스픽스는 비음성 부분을 감지하고 배경음을 재구성하기 위해 충분한 비트로 그것들을 인코딩한다. 이것을 '안정 소음 발생'(CNG)라고 한다.[38] VAD를 지원했던 마지막 버전은 1.1.12이며, v 1.2부터 Any Activity Detection으로 대체되었다.
3. 7. 불연속 전송 (DTX)
불연속 전송(DTX)은 음성 활동 감지(VAD) 및 가변 비트 전송률(VBR)에 추가된 기능으로, 배경 잡음이 일정하게 유지될 때 전송을 완전히 중단한다. 파일에서는 사라진 각 프레임에 대해 5비트가 사용된다(초당 250비트에 해당).[38]
3. 8. 인식 강화 (Perceptual enhancement)
인식 강화는 코딩/디코딩 과정에서 발생한 소음을 줄이기 위해 디코더에서 사용하는 기능이다. 대부분의 경우 인식 강화를 사용하면 객관적으로 원음과 차이가 발생하지만, 주관적으로는 더 좋게 들린다.[38]
3. 9. 알고리즘적 지연
모든 코덱은 전송할 때 지연이 발생한다. 스픽스는 이러한 지연이 프레임 크기와 같다. 협대역(8kHz)에서 지연 시간은 30ms이고, 광대역(16kHz)에서는 34ms이다.[38] 이 값들은 프레임을 인코딩하거나 디코딩하는 데 걸리는 CPU 시간은 포함하지 않는다.
4. 응용
스픽스 코덱은 다양한 애플리케이션에서 활용되고 있다.
분야 | 애플리케이션 예시 | 설명 |
---|---|---|
스트리밍 | 화상 회의 (TeamSpeak, Mumble) | 음성 데이터 전송에 스픽스 코덱 사용 |
VoIP 시스템 | Asterisk | 음성 통화에 스픽스 코덱 활용 |
비디오 게임 | Xbox Live,[15] 시빌라이제이션 4, DropMix 보컬 트랙 등 | 게임 내 음성 채팅 및 오디오 데이터 압축에 사용 |
오디오 처리 | 마이크로소프트 윈도우의 DirectShow 필터, OpenACM 코덱, 리눅스의 libvorbis, 오디오 플레이어 플러그인 등 | 다양한 오디오 처리 프로그램에서 스픽스 코덱 지원[16] |
RTP | 스픽스의 미디어 유형은 RTP를 통해 전송되거나 컨테이너 없이 전송될 때는 audio/speex | |
랜드 워리어 | 제너럴 다이내믹스 제작, 레이시온 설계 EPLRS 라디오 | 미국 육군의 랜드 워리어 시스템에서 VoIP에 스픽스 사용 |
Ear Bible | 1GB 플래시 메모리 내장 외이도형 헤드폰,[18] New American Standard Bible 녹음본 사전 탑재[17] | |
ASL Safety & Security | 리눅스 기반 VIPA OS 소프트웨어[20] | 주요 국제 항공 운송 허브 및 철도 네트워크의 장거리 공공 주소 시스템 및 음성 경보 시스템에 사용[19] |
Rockbox | 음성 인터페이스에 스픽스 사용, 지원되는 플레이어에서 스픽스 파일 재생 가능 | |
Vernier LabQuest | 과학 교육을 위한 휴대용 데이터 수집 장치, 내장 또는 외부 마이크를 사용한 음성 주석에 스픽스 사용[21] | |
아이폰용 구글 모바일 앱 | 스픽스 통합,[22] 구글 음성 검색 아이폰 앱에서 음성을 구글 서버로 전송하여 해석하는 데 사용[23] | |
어도비 플래시 플레이어 | 2008년 10월 출시된 Flash Player 10.0.12.36부터 스픽스 지원,[24] Flash Media Server 또는 P2P 통신에 사용, 플래시 비디오 컨테이너 형식 (.flv)에서 사용 가능[25][26][27] | |
JavaSonics ListenUp | 음성 녹음기, 스픽스를 사용하여 브라우저에서 녹음된 음성 메시지 압축, 언어 훈련, 전사, 소셜 네트워킹 등에 활용[28] | |
Siri | 아이폰 4S의 음성 지원, 음성 압축 알고리즘으로 스픽스 사용[29] | |
Half-Life 1 | 게임 내 VoIP 기능으로 Speex 코덱을 사용하며 기본적으로는 비활성화되어 있지만 서버 관리자의 설정이 필요하다. | |
Civilization IV | 레너드 니모이의 내레이션을 Speex로 압축 | |
TeamSpeak | 3종류의 코덱 중 하나로 Speex를 지원 |
5. MIME
스픽스(Speex)의 미디어 타입은 Ogg에 저장될 경우 `audio/ogg`이며, RTP를 통해 전송되거나 컨테이너가 없을 경우에는 `audio/speex`이다.[7] IANA 등록 전에는 `audio/x-speex`였다.
참조
[1]
웹사이트
PlayOgg! - FSF - Free Software Foundation
http://www.fsf.org/c[...]
2010-03-17
[2]
웹사이트
people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin
http://people.xiph.o[...]
Xiph.Org
2009-09-11
[3]
웹사이트
Speex News
https://speex.org/ne[...]
Xiph.Org Foundation
2023-04-13
[4]
웹사이트
The Speex Codec Manual - Speex License
http://www.speex.org[...]
Xiph.Org Foundation
2009-09-01
[5]
웹사이트
Sample Xiph.Org Variant of the BSD License
http://www.xiph.org/[...]
Xiph.Org Foundation
2009-08-29
[6]
웹사이트
Speex: A Free Codec For Free Speech
http://www.speex.org
Xiph.Org
2009-09-01
[7]
웹사이트
Introduction to CELP Coding
http://speex.org/doc[...]
Xiph.Org
2009-09-01
[8]
문서
FLV format specification
http://download.macr[...]
Adobe
2016-04-18
[9]
웹사이트
Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz
http://downloads.xip[...]
Xiph.Org
2009-09-01
[10]
웹사이트
Speex FAQ – Under what license is Speex released?
http://www.speex.org[...]
Xiph.Org
2009-09-01
[11]
웹사이트
Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization
http://www.xiph.org/[...]
Xiph.Org
2009-09-01
[12]
웹사이트
Speex homepage
https://speex.org/
2017-04-11
[13]
웹사이트
Codec description
https://www.speex.or[...]
[14]
웹사이트
Spot me if you can: Uncovering Spoken Phrases in Encrypted VoIP Conversations (Charles V. Wright Lucas Ballard Scott E. Coull Fabian Monrose Gerald M. Masson)
http://www.cs.jhu.ed[...]
[15]
LugRadio
Theora codec maintainer
http://www.lugradio.[...]
LugRadio
[16]
웹사이트
A free codec for free speech
http://www.speex.org[...]
Speex
2012-12-29
[17]
웹사이트
The worlds most convenient Audio Bible
http://www.earbible.[...]
Ear Bible
2012-12-29
[18]
웹사이트
Support
http://www.earbible.[...]
Ear Bible
2012-12-29
[19]
웹사이트
PA/VA, PSIM Software and Station Management Systems > ASL Safety & Security
http://www.asl-contr[...]
Asl-control.co.uk
2012-12-29
[20]
Webarchive
IPAM 400: IP Based Intelligent Public Address Amplifier
http://www.asl-contr[...]
2011-09-04
[21]
웹사이트
LabQuest 2 > Vernier Software & Technology
http://www.vernier.c[...]
Vernier.com
2012-12-29
[22]
웹사이트
Legal Notices
http://www.google.co[...]
Google Inc.
2014-12-05
[23]
웹사이트
Deconstructing Google Mobile's Voice Search on the iPhone
https://waxy.org/200[...]
2008-11-18
[24]
문서
Flash Player 10 Datasheet
https://www.adobe.co[...]
Adobe
2009-09-01
[25]
웹사이트
Speex for Flash
http://askmeflash.co[...]
AskMeFlash.com
2009-08-12
[26]
웹사이트
Speex vs Nellymoser
https://web.archive.[...]
AskMeFlash.com
2009-08-12
[27]
웹사이트
Video File Format Specification, Version 10
https://www.adobe.co[...]
Adobe Systems Incorporated
2014-12-05
[28]
웹사이트
JavaSonics ListenUp voice recording Applet for Java that uploads messages to a web server
http://www.javasonic[...]
Javasonics.com
2012-12-29
[29]
웹사이트
Applidium — News
http://applidium.com[...]
Applidium.com
2012-12-29
[30]
웹인용
people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin
http://people.xiph.o[...]
Xiph.Org
2009-09-11
[31]
웹인용
Speex News
https://speex.org/ne[...]
Xiph.Org Foundation
2017-04-11
[32]
웹인용
The Speex Codec Manual - Speex License
http://www.speex.org[...]
Xiph.Org Foundation
2009-09-01
[33]
웹인용
Sample Xiph.Org Variant of the BSD License
http://www.xiph.org/[...]
Xiph.Org Foundation
2009-08-29
[34]
웹사이트
Speex: A Free Codec For Free Speech
http://www.speex.org
Xiph.Org
2009-09-01
[35]
웹사이트
Introduction to CELP Coding
http://speex.org/doc[...]
Xiph.Org
2009-09-01
[36]
간행물
Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz
http://downloads.xip[...]
Xiph.org
2009-09-01
[37]
간행물
Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization
http://www.xiph.org/[...]
Xiph.Org
2003-03-24
[38]
웹사이트
Codec Description
http://www.speex.org[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com