VoiceXML

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
- 2.1. 개발 배경
- 2.2. 발전 과정
3. 활용 분야
4. 기술 구성
- 4.1. 기본 구조
- 4.2. 전송 프로토콜
5. 관련 표준
6. 구현 현황
7. 미래 전망
참조

1. 개요

VoiceXML은 음성 대화를 기술하기 위해 1999년 AT&T, IBM, Lucent, Motorola에 의해 표준화된 마크업 언어이다. VoiceXML은 W3C에 의해 관리되었으며, 버전 2.0은 2004년, 2.1은 2007년에 권고안으로 채택되었다. 이 기술은 주문 조회, 택배 추적, 길 안내 등 다양한 분야에서 활용되었으며, 음성 브라우저에게 음성 합성, 음성 인식, 대화 관리 등을 지시하는 태그를 포함한다. 관련 표준으로는 SRGS, SISR, SSML, PLS, CCXML 등이 있으며, 과거에는 HP, OnMobile 등에서 VoiceXML 플랫폼을 구현했으나, 2022년 12월 현재 관련 플랫폼을 제공하는 곳은 거의 없다. VoiceXML 3.0 개발은 VoiceXML 포럼 해산으로 중단되었다.

더 읽어볼만한 페이지

XML 기반 프로그래밍 언어 - XSLT
XSLT는 XML 문서를 다른 형식으로 변환하는 언어로서, 함수형 프로그래밍 및 패턴 매칭 언어의 영향을 받아 W3C 표준으로 발전해 왔으며 XPath를 사용하여 XML 문서의 특정 부분을 선택 및 조작하고, 다양한 환경에서 사용 가능하다.
XML 기반 프로그래밍 언어 - SMIL
SMIL은 멀티미디어 프레젠테이션 제작을 위한 XML 기반 마크업 언어이며, 다양한 미디어 요소를 통합하여 동기화된 프레젠테이션을 만들 수 있도록 지원한다.
음성 합성 - 음성 합성 마크업 언어
음성 합성 마크업 언어(SSML)는 음성 합성을 위해 음성의 톤, 억양, 빠르기 등을 조절할 수 있도록 음높이, 윤곽, 속도 등을 지정하는 마크업 언어이다.
음성 합성 - 페이저
페이저는 관련 내용 및 같이 보기를 포함하고 있다.
VoIP 프로토콜 - 실시간 전송 프로토콜
실시간 전송 프로토콜(RTP)은 스트리밍 미디어의 실시간 전송을 위해 설계된 프로토콜로, IP 네트워크에서 오디오/비디오 전송의 표준으로 사용되며, 멀티미디어 데이터 전송, 타임스탬프, 순서 제어, QoS 피드백 등을 제공한다.
VoIP 프로토콜 - T.38
T.38은 IP 네트워크를 통해 팩스를 전송하는 프로토콜로, T.30 프로토콜을 기반으로 하며 스푸핑, 데이터 중복 기술을 사용하여 네트워크 문제를 해결하고, CNG, CED 신호와 이미지 데이터를 UDP 또는 TCP로 중계한다.

2. 역사

AT&T, IBM, 루슨트, 모토로라는 1999년 3월 음성 대화를 지정하기 위한 표준 마크업 언어 개발을 위해 VoiceXML 포럼을 결성했다. 포럼은 1999년 9월 회원 의견 수렴을 위해 VoiceXML 0.9를 발표했고, 2000년 3월에는 VoiceXML 1.0을 발표했다. 곧 포럼은 표준 관리를 W3C에 넘겼다.^[1] W3C는 VoiceXML 2.0의 여러 중간 버전을 제작했으며, 2004년 3월에 최종 "권고안" 단계에 도달했다.^[2]

VoiceXML 2.1은 VoiceXML 2.0 표준 구현에 대한 피드백을 기반으로 VoiceXML 2.0에 비교적 적은 수의 추가 기능을 추가했다. 이는 VoiceXML 2.0과 하위 호환되며 2007년 6월에 W3C 권고안 상태에 도달했다.^[3]

2. 1. 개발 배경

AT&T, IBM, 루슨트, 모토로라는 1999년 3월 음성 대화를 지정하기 위한 표준 마크업 언어를 개발하기 위해 VoiceXML 포럼을 결성했다. 1999년 9월까지 포럼은 회원 의견을 수렴하기 위해 VoiceXML 0.9를 발표했으며, 2000년 3월에는 VoiceXML 1.0을 발표했다. 곧 포럼은 표준 관리를 W3C에 넘겼다.^[1] W3C는 VoiceXML 2.0의 여러 중간 버전을 제작했으며, 2004년 3월에 최종 "권고안" 단계에 도달했다.^[2]

VoiceXML 2.1은 VoiceXML 2.0 표준 구현에 대한 피드백을 기반으로 VoiceXML 2.0에 비교적 적은 수의 추가 기능을 추가했다. 이는 VoiceXML 2.0과 하위 호환되며 2007년 6월에 W3C 권고안 상태에 도달했다.^[3]

2. 2. 발전 과정

AT&T, IBM, 루슨트, 모토로라는 1999년 3월 음성 대화를 지정하기 위한 표준 마크업 언어를 개발하기 위해 VoiceXML 포럼을 결성했다. 1999년 9월까지 포럼은 회원 의견을 수렴하기 위해 VoiceXML 0.9를 발표했으며, 2000년 3월에는 VoiceXML 1.0을 발표했다. 곧 포럼은 표준 관리를 W3C에 넘겼다.^[1] W3C는 VoiceXML 2.0의 여러 중간 버전을 제작했으며, 2004년 3월에 최종 "권고안" 단계에 도달했다.^[2]

VoiceXML 2.1은 VoiceXML 2.0 표준 구현에 대한 피드백을 기반으로 VoiceXML 2.0에 비교적 적은 수의 추가 기능을 추가했다. 이는 VoiceXML 2.0과 하위 호환되며 2007년 6월에 W3C 권고안 상태에 도달했다.^[3]

3. 활용 분야

VoiceXML 애플리케이션은 주문 조회, 택배 추적, 길 안내, 긴급 알림, 기상 알람, 항공편 추적, 음성으로 이메일 접속, 고객 관계 관리, 처방전 재발급, 오디오 뉴스 잡지, 음성 다이얼링, 부동산 정보, 전국 전화번호 안내 애플리케이션 등 여러 산업 및 상업 분야에서 널리 사용된다.

매일 수백만 통의 전화 호출에 응답하고 처리하는 상업용 VoiceXML 애플리케이션은 주문 문의, 화물 추적, 운전 방향 지시, 긴급 알림, 모닝콜, 항공편 추적, 이메일 음성 접근, 고객 관계 관리, 약 재충전, 음성 뉴스 잡지, 음성 다이얼, 부동산 정보, 전화번호 안내 등에도 이용된다.

4. 기술 구성

VoiceXML 애플리케이션은 주문 조회, 택배 추적, 길 안내, 긴급 알림, 기상 알람, 항공편 추적, 음성 이메일 접속, 고객 관계 관리, 처방전 재발급, 오디오 뉴스 잡지, 음성 다이얼링, 부동산 정보, 전국 전화번호 안내 애플리케이션 등 여러 산업 및 상업 분야에서 널리 사용된다.

역사적으로 VoiceXML 플랫폼 공급업체는 표준을 다양하게 구현하고 독점 기능을 추가했다. 하지만 2004년 3월 16일 W3C 권고안으로 채택된 VoiceXML 2.0 표준은 이러한 차이점 대부분을 명확하게 했다. 표준 사용을 장려하는 업계 단체인 VoiceXML 포럼은 공급업체 구현이 표준을 준수하는지 인증하는 적합성 테스트 프로세스를 제공한다.

4. 1. 기본 구조

VoiceXML에는 음성 브라우저에게 음성 합성, 자동 음성 인식, 대화 관리 및 오디오 재생을 지시하는 태그가 있다. 다음은 VoiceXML 문서의 예시이다.

```xml

```

VoiceXML 인터프리터에 의해 해석되면 "Hello world"가 합성된 음성으로 출력된다.

일반적으로, HTTP는 VoiceXML 페이지를 가져오기 위한 전송 프로토콜로 사용된다. 일부 애플리케이션은 정적 VoiceXML 페이지를 사용할 수 있지만, 다른 애플리케이션은 톰캣, Weblogic, IIS, 또는 WebSphere와 같은 애플리케이션 서버를 사용하여 동적 VoiceXML 페이지를 생성한다.

4. 2. 전송 프로토콜

일반적으로 HTTP는 VoiceXML 페이지를 가져오는 데 사용되는 전송 프로토콜이다. 일부 애플리케이션은 정적 VoiceXML 페이지를 사용할 수 있지만, 다른 애플리케이션은 톰캣, Weblogic, IIS, WebSphere와 같은 애플리케이션 서버를 사용하여 동적 VoiceXML 페이지를 생성한다.

5. 관련 표준

W3C의 음성 인터페이스 프레임워크는 VoiceXML과 밀접하게 관련된 다음과 같은 표준도 정의하고 있다.

5. 1. 음성 인식 문법 명세 (SRGS) 및 의미 해석 (SISR)

음성 인식 문법 명세 (SRGS)는 음성 인식기가 어떤 문장 패턴을 예상해야 하는지 알려주는 데 사용된다. 이러한 패턴을 문법이라고 한다. 음성 인식기가 가장 가능성이 높은 문장을 결정하면 해당 문장에서 의미적 의미를 추출하여 VoiceXML 인터프리터로 반환해야 한다. 이 의미 해석은 음성 인식의 의미 해석 (SISR) 표준을 통해 지정된다. SISR은 SRGS 내부에서 문법과 관련된 의미 결과를 지정하는 데 사용된다. 즉, 음성 인식기가 반환하는 의미 구조를 생성하는 ECMAScript 할당 집합이다.

SRGS(Speech Recognition Grammar Specification)는 음성 인식 시스템이 인식해야 할 문장 패턴을 시스템에 기억시키는 데 사용된다. 이 패턴을 문법(grammar)이라고 부른다. 음성 인식 시스템이 가장 그럴듯한 문장을 선택했을 때, 해당 문장으로부터 의미를 추출하여 VoiceXML 인터프리터에 반환해야 한다. 이러한 의미 해석을 생성하는 규칙을 기술하는 사양이 SISR(Semantic Interpretation for Speech Recognition)이다. SISR은 ECMAScript 형식으로 기술되며, SRGS 내에 포함되어 사용된다.

5. 2. 음성 합성 마크업 언어 (SSML)

음성 합성 마크업 언어(SSML)는 텍스트를 음성으로 합성할 때, 어떤 음성 합성기 음성을 사용할지, 언제 더 크거나 부드럽게 말할지 등 최적의 렌더링 방법을 지정하는 데 사용되는 마크업 언어이다.^[1] 예를 들어, 어떤 목소리를 사용할지, 음량은 어느 정도로 할지 등의 정보를 지정할 수 있다.^[2]

5. 3. 발음 렉시콘 명세 (PLS)

발음 렉시콘 명세 (PLS)는 단어의 발음을 정의하는 데 사용된다. 생성된 발음 정보는 음성 브라우징 애플리케이션에서 음성 인식기와 음성 합성기 모두에서 사용될 수 있다.

5. 4. 호출 제어 확장성 마크업 언어 (CCXML)

호출 제어 확장성 마크업 언어(CCXML)는 W3C의 보완적인 표준이다. CCXML 인터프리터는 일부 VoiceXML 플랫폼에서 발신자와 음성 브라우저 간의 초기 통화 설정을 처리하고, 음성 브라우저에 통화 전송 및 연결 끊기와 같은 전화 서비스를 제공하는 데 사용된다. CCXML은 VoiceXML이 아닌 환경에서도 사용될 수 있다.

5. 5. MSML, MSCML, MediaCTRL

미디어 서버 애플리케이션에서는 여러 통화 다리가 서로 상호 작용해야 하는 경우가 많다. 다자간 회의가 그 예이다. 이러한 애플리케이션에 대한 VoiceXML의 몇 가지 단점이 확인되어, 여러 회사에서 이러한 환경을 처리하기 위해 특정 스크립팅 언어를 설계했다. 미디어 서버 마크업 언어(MSML)는 Convedia의 솔루션이었고, 미디어 서버 제어 마크업 언어(MSCML)는 Snowshore의 솔루션이었다. Snowshore는 현재 Dialogic의 소유이며 Convedia는 현재 Radisys의 소유이다. 이러한 언어에는 외부 스크립트(예: VoiceXML)가 IVR 기능이 필요한 통화 다리에서 실행될 수 있도록 하는 '후크'도 포함되어 있다.

이러한 스크립팅 시스템의 후속 제품에 대해 작업이 진행되었으며, 개방적이고 널리 채택된 표준으로 발전되기를 희망하는 ''mediactrl''("미디어 제어")이라는 IETF 워킹 그룹이 있었다.^[5] mediactrl 워킹 그룹은 2013년에 종료되었다.^[6]

6. 구현 현황

2022년 12월 현재, VoiceXML 2.0/2.1 플랫폼 구현을 제공하는 곳은 거의 없다.

7. 미래 전망

VoiceXML 3.0은 새로운 주요 기능을 갖춘 VoiceXML의 차기 주요 릴리스로 예정되어 있었다. 그러나 2022년 5월 VoiceXML 포럼이 해산되면서,^[4] 새로운 표준 개발은 중단되었다.

참조

_[1] 웹사이트 Introduction – VoiceXML http://www.voicexml.[...] 2017-02-23
_[2] 웹사이트 W3C recommends VoiceXML 2.0 http://www.infoworld[...] InfoWorld 2017-02-23
_[3] 웹사이트 Voice Extensible Markup Language (VoiceXML) 2.1 http://www.w3.org/TR[...] 2017-02-23
_[4] 웹사이트 VoiceXML Forum Dissolves After Successful Completion of its Mission https://voicexml.org[...] 2022-05-31
_[5] 웹사이트 Media Server Control (mediactrl) http://www.ietf.org/[...] 2009-01-18
_[6] 웹사이트 Media Server Control (Mediactrl) - https://datatracker.[...]
_[7] 웹사이트 OpenVXI https://www.voip-inf[...] 2019-06-03
_[8] 기타 VoiceXML Forum Tutorial on VoiceXML http://www.voicexml.[...] 2003
_[9] 뉴스 W3C recommends VoiceXML 2.0 http://www.infoworld[...] InfoWorld 2004-03-17
_[10] 웹사이트 Voice Extensible Markup Language (VoiceXML) 2.1 http://www.w3.org/TR[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

기업
HP (OCMP)
온모바일 (Ozone Speech Platform)
알바리아
아바야 (Avaya Experience Portal)
OpenVXI
시스코
제네시스
뉘앙스 커뮤니케이션즈
Phonologies
플럼 보이스
Telesoft Technologies