스픽스
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
스픽스는 VoIP 및 파일 기반 압축에 사용되는 음성 코덱으로, 높은 음질과 낮은 비트레이트를 목표로 개발되었다. 이 코덱은 프리웨어/오픈 소스, 무특허, 무로열티로 제공되며, 협대역, 광대역, 초광대역을 지원한다. 스픽스는 가변 비트레이트(VBR) 및 음성 활동 감지(VAD)와 같은 기능을 제공하며, 다양한 샘플링 레이트, 품질 매개변수, 복잡도 조절 옵션을 지원한다. 스픽스는 스트리밍, 화상 회의, VoIP 시스템, 비디오 게임 등 다양한 분야에 응용되며, 윈도우, 리눅스, 플래시 플레이어, 아이폰의 Siri 등에서 활용된다.
더 읽어볼만한 페이지
- Xiph.Org 프로젝트 - FLAC
FLAC은 조시 콜슨이 개발한 무손실 오디오 코덱으로, 원본 음질을 유지하면서 파일 크기를 줄이기 위해 오디오 데이터를 압축하며, 4~32비트 샘플 크기, 최대 8 채널을 지원하고, 미국 국립 문서 기록 관리청에서 디지털 오디오에 선호되는 형식으로 지정되었다. - Xiph.Org 프로젝트 - Vorbis
Vorbis는 Xiph.Org 재단에서 개발한 로열티 없는 자유 소프트웨어 오디오 코덱으로, MP3의 대안으로 개발되어 가변, 평균, 고정 비트레이트를 지원하며 갭리스 디코딩을 통해 끊김 없는 재생이 가능하고 MP3보다 나은 음질을 제공한다. - 오픈 포맷 - HTML
HTML은 웹 페이지 제작을 위한 표준 마크업 언어로서, 팀 버너스리가 제안하고 구현한 후 인터넷 발전과 함께 널리 사용되며, SGML에 기반하여 하이퍼텍스트 기능으로 다양한 콘텐츠를 표현하고 연결하며, W3C와 WHATWG에서 표준화를 진행하고 최신 버전은 HTML Living Standard이다. - 오픈 포맷 - 오픈 소스
오픈 소스는 제품 설계 및 재배포를 장려하는 모델로, 소프트웨어 개발에서 시작하여 개방형 협업을 장려하며 다양한 분야에서 활용되고 있고 오픈 소스 이니셔티브와 같은 단체가 운동을 지원한다. - 오디오 코덱 - NICAM
NICAM은 1970년대 BBC에서 개발된 디지털 오디오 방송 시스템으로, 32kHz 샘플링 주파수와 14비트 PCM을 사용하여 음성 신호를 인코딩하고 스테레오 음향, 이중 언어 방송, 데이터 채널 전송 등의 기능을 제공하며 아날로그 방송의 음성 전송 방식으로 사용되었으나 디지털 방송으로의 전환으로 사용이 줄어들었다. - 오디오 코덱 - G.711
G.711은 8 kHz 표본 추출 주파수와 64 kbit/s의 비트 전송률을 갖는 파형 음성 코더로, μ-law와 A-law라는 두 가지 컴팬딩 알고리즘을 사용하며, 부록 I, II 및 확장 표준을 통해 네트워크 환경에서의 효율성과 음질을 높인다.
2. 설명
스픽스는 VoIP와 파일 기반 압축에 사용할 목적으로 개발되었다. 개발 목표는 높은 품질의 음성과 낮은 비트레이트에 최적화된 코덱을 개발하는 것이었다. 이 목표를 달성하기 위해 스픽스는 다중 비트레이트를 사용하며, 초광대역(32 kHz 샘플링 레이트), 광대역(16 kHz 샘플링 레이트), 협대역(전화 품질, 8 kHz 샘플링 레이트)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 만들어졌기 때문에 스픽스는 손실된 패킷에 강해야 한다. 이러한 이유로 인해 CELP가 스픽스를 위해 사용할 인코딩 기술로 채택되었다.[35] CELP가 낮은 비트레이트와 높은 비트레이트에서 작업을 잘 수행하고 크기를 잘 조정할 수 있다는 것이 오랫동안 증명됐다는 것이 가장 큰 이유 중 하나이다.
스픽스의 주요 특징은 다음과 같다.
스픽스(Speex)는 VoIP와 파일 기반 압축에 사용하기 위해 개발된 음성 코덱이다. 높은 음성 품질과 낮은 비트레이트를 목표로 개발되었으며, 이를 위해 다중 비트레이트를 사용하여 초광대역(32 kHz), 광대역(16 kHz), 협대역(전화 품질, 8 kHz)을 지원한다. 스픽스는 휴대폰용이 아닌 VoIP용으로 설계되었기 때문에 손실된 패킷에 강하다. 이러한 특징으로 인해 CELP 인코딩 기술이 사용되었다.[35] CELP는 낮은 비트레이트와 높은 비트레이트에서 모두 잘 작동하며 크기 조정이 가능하다는 장점이 있다.
3. 기능
스픽스의 주요 기능은 다음과 같다:3. 1. 샘플링 레이트
스픽스는 주로 8 kHz, 16 kHz, 32 kHz의 세 가지 샘플링 레이트로 개발되었다. 8 kHz는 전화 통화와 같은 협대역, 16 kHz는 광대역, 32 kHz는 초광대역에 해당한다.[7]
3. 2. 품질
Speex 코덱은 음성 압축에 사용되며, 다양한 품질 설정을 통해 음질과 비트 전송률 간의 균형을 맞출 수 있다.3. 3. 복잡도 (가변)
Speex는 인코더에 허용되는 복잡도를 변경할 수 있도록 설계되었다. 이는 gzip 압축의 -1에서 -9까지의 옵션과 유사하게 1에서 10까지의 범위의 정수로 검색을 제어하여 수행된다. 일반적인 사용에서 복잡도 1의 노이즈 레벨은 복잡도 10보다 1에서 2 dB 정도 높지만, 복잡도 10의 CPU 요구 조건은 복잡도 1보다 5배 높다. 실제 최적의 균형은 2와 4 사이이다.[38]
3. 4. 가변 비트레이트 (VBR)
Speex영어는 가변 비트레이트(VBR) 인코딩을 지원한다. VBR은 코덱이 인코딩하는 오디오의 "어려움"에 따라 비트레이트를 동적으로 변경할 수 있게 한다. Speex영어의 예에서 모음 및 고에너지 과도 현상과 같은 소리는 좋은 품질을 얻기 위해 더 높은 비트레이트가 필요한 반면, 마찰음 (예: ㅅ, ㅆ, s, f 소리)은 적은 비트로도 적절하게 코딩할 수 있다.[14]
이러한 특징 덕분에 VBR은 동일한 품질에 대해 더 낮은 비트레이트를 달성하거나, 특정 비트레이트에 대해 더 좋은 품질을 얻을 수 있다. 그러나 VBR에는 세 가지 주요 단점이 있다.[14]
Speex영어 인코딩은 0부터 10까지 범위의 품질 매개변수로 대부분 제어된다. 고정 비트레이트(CBR) 작동에서는 품질 매개변수가 정수이며, VBR 작동에서는 품질 매개변수가 실수(부동소수점)이다.
3. 5. 평균 비트레이트 (ABR)
평균 비트레이트(ABR)는 VBR의 문제점 중 하나를 해결한 방식으로, 특정 목표 비트레이트에 맞추기 위해 품질을 동적으로 조절한다. 품질과 비트레이트의 비율이 실시간으로 조절되기 때문에, 정확한 품질 설정을 한 VBR로 인코딩한 것보다 전체 품질이 약간 낮아지는 경향이 있다.[14]
3. 6. 음성 활동 감지 (VAD)
음성 활동 감지(VAD)가 동작하면 스픽스는 오디오가 음성을 인코딩하고 있는지 혹은 무음이나 배경음을 인코딩하고 있는지를 감지할 수 있다. VAD는 VBR로 인코딩할 경우에 무조건적으로 활성화되므로 비VBR 작업에서만 작동 여부를 선택할 수 있다. 이 기능이 활성화됐을 경우 스픽스는 비음성 부분을 감지하고 배경음을 재구성하기 위해 충분한 비트로 그것들을 인코딩한다. 이것을 '안정 소음 발생'(CNG)라고 한다.[38] VAD를 지원했던 마지막 버전은 1.1.12이며, v 1.2부터 Any Activity Detection으로 대체되었다.
3. 7. 불연속 전송 (DTX)
불연속 전송(DTX)은 음성 활동 감지(VAD) 및 가변 비트 전송률(VBR)에 추가된 기능으로, 배경 잡음이 일정하게 유지될 때 전송을 완전히 중단한다. 파일에서는 사라진 각 프레임에 대해 5비트가 사용된다(초당 250비트에 해당).[38]
3. 8. 인식 강화 (Perceptual enhancement)
인식 강화는 코딩/디코딩 과정에서 발생한 소음을 줄이기 위해 디코더에서 사용하는 기능이다. 대부분의 경우 인식 강화를 사용하면 객관적으로 원음과 차이가 발생하지만, 주관적으로는 더 좋게 들린다.[38]
3. 9. 알고리즘적 지연
모든 코덱은 전송할 때 지연이 발생한다. 스픽스는 이러한 지연이 프레임 크기와 같다. 협대역(8kHz)에서 지연 시간은 30ms이고, 광대역(16kHz)에서는 34ms이다.[38] 이 값들은 프레임을 인코딩하거나 디코딩하는 데 걸리는 CPU 시간은 포함하지 않는다.
4. 응용
스픽스 코덱은 다양한 애플리케이션에서 활용되고 있다.
5. MIME
스픽스(Speex)의 미디어 타입은 Ogg에 저장될 경우 `audio/ogg`이며, RTP를 통해 전송되거나 컨테이너가 없을 경우에는 `audio/speex`이다.[7] IANA 등록 전에는 `audio/x-speex`였다.
참조
[1]
웹사이트
PlayOgg! - FSF - Free Software Foundation
http://www.fsf.org/c[...]
2010-03-17
[2]
웹사이트
people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin
http://people.xiph.o[...]
Xiph.Org
2009-09-11
[3]
웹사이트
Speex News
https://speex.org/ne[...]
Xiph.Org Foundation
2023-04-13
[4]
웹사이트
The Speex Codec Manual - Speex License
http://www.speex.org[...]
Xiph.Org Foundation
2009-09-01
[5]
웹사이트
Sample Xiph.Org Variant of the BSD License
http://www.xiph.org/[...]
Xiph.Org Foundation
2009-08-29
[6]
웹사이트
Speex: A Free Codec For Free Speech
http://www.speex.org
Xiph.Org
2009-09-01
[7]
웹사이트
Introduction to CELP Coding
http://speex.org/doc[...]
Xiph.Org
2009-09-01
[8]
문서
FLV format specification
http://download.macr[...]
Adobe
2016-04-18
[9]
웹사이트
Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz
http://downloads.xip[...]
Xiph.Org
2009-09-01
[10]
웹사이트
Speex FAQ – Under what license is Speex released?
http://www.speex.org[...]
Xiph.Org
2009-09-01
[11]
웹사이트
Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization
http://www.xiph.org/[...]
Xiph.Org
2009-09-01
[12]
웹사이트
Speex homepage
https://speex.org/
2017-04-11
[13]
웹사이트
Codec description
https://www.speex.or[...]
[14]
웹사이트
Spot me if you can: Uncovering Spoken Phrases in Encrypted VoIP Conversations (Charles V. Wright Lucas Ballard Scott E. Coull Fabian Monrose Gerald M. Masson)
http://www.cs.jhu.ed[...]
[15]
LugRadio
Theora codec maintainer
http://www.lugradio.[...]
LugRadio
[16]
웹사이트
A free codec for free speech
http://www.speex.org[...]
Speex
2012-12-29
[17]
웹사이트
The worlds most convenient Audio Bible
http://www.earbible.[...]
Ear Bible
2012-12-29
[18]
웹사이트
Support
http://www.earbible.[...]
Ear Bible
2012-12-29
[19]
웹사이트
PA/VA, PSIM Software and Station Management Systems > ASL Safety & Security
http://www.asl-contr[...]
Asl-control.co.uk
2012-12-29
[20]
Webarchive
IPAM 400: IP Based Intelligent Public Address Amplifier
http://www.asl-contr[...]
2011-09-04
[21]
웹사이트
LabQuest 2 > Vernier Software & Technology
http://www.vernier.c[...]
Vernier.com
2012-12-29
[22]
웹사이트
Legal Notices
http://www.google.co[...]
Google Inc.
2014-12-05
[23]
웹사이트
Deconstructing Google Mobile's Voice Search on the iPhone
https://waxy.org/200[...]
2008-11-18
[24]
문서
Flash Player 10 Datasheet
https://www.adobe.co[...]
Adobe
2009-09-01
[25]
웹사이트
Speex for Flash
http://askmeflash.co[...]
AskMeFlash.com
2009-08-12
[26]
웹사이트
Speex vs Nellymoser
https://web.archive.[...]
AskMeFlash.com
2009-08-12
[27]
웹사이트
Video File Format Specification, Version 10
https://www.adobe.co[...]
Adobe Systems Incorporated
2014-12-05
[28]
웹사이트
JavaSonics ListenUp voice recording Applet for Java that uploads messages to a web server
http://www.javasonic[...]
Javasonics.com
2012-12-29
[29]
웹사이트
Applidium — News
http://applidium.com[...]
Applidium.com
2012-12-29
[30]
웹인용
people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin
http://people.xiph.o[...]
Xiph.Org
2009-09-11
[31]
웹인용
Speex News
https://speex.org/ne[...]
Xiph.Org Foundation
2017-04-11
[32]
웹인용
The Speex Codec Manual - Speex License
http://www.speex.org[...]
Xiph.Org Foundation
2009-09-01
[33]
웹인용
Sample Xiph.Org Variant of the BSD License
http://www.xiph.org/[...]
Xiph.Org Foundation
2009-08-29
[34]
웹사이트
Speex: A Free Codec For Free Speech
http://www.speex.org
Xiph.Org
2009-09-01
[35]
웹사이트
Introduction to CELP Coding
http://speex.org/doc[...]
Xiph.Org
2009-09-01
[36]
간행물
Speex releases - pre-1.0 - NEWS and ChangeLog in speex-0.0.1.tar.gz
http://downloads.xip[...]
Xiph.org
2009-09-01
[37]
간행물
Speex reaches 1.0; Xiph.Org now a 501(c)(3) Non-Profit Organization
http://www.xiph.org/[...]
Xiph.Org
2003-03-24
[38]
웹사이트
Codec Description
http://www.speex.org[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com