맨위로가기

윈도우 음성 인식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

윈도우 음성 인식(WSR)은 사용자가 음성 명령을 통해 컴퓨터를 제어하고 텍스트를 받아쓰는 기능을 제공하는 프로그램이다. 마이크로소프트는 1993년부터 음성 인식 기술 개발을 시작하여, 윈도우 비스타에 처음으로 WSR을 통합했다. WSR은 윈도우 7, 8.x, 10, 11 등 여러 버전의 윈도우에서 기능을 개선해왔으며, 윈도우 11에서는 음성 액세스 앱으로 대체될 예정이다. WSR은 미국 영어, 영국 영어, 프랑스어, 독일어, 일본어, 중국어, 스페인어를 지원하며, 음성 명령, 마우스 제어, 매크로 등 다양한 기능을 제공한다.

더 읽어볼만한 페이지

  • 음성 인식 - 음성 처리
    음성 처리는 음성 신호 분석, 변환, 합성을 통해 발전해 왔으며 딥 러닝 기술 도입 후 가상 비서 서비스에 통합되어 자연어 처리 및 다양한 응용 분야에서 활용되고 있는 기술 분야이다.
  • 음성 인식 - 음성 사용자 인터페이스
    음성 사용자 인터페이스는 음성을 사용하여 장치와 상호 작용하는 기술이며, 다양한 분야에서 음성 명령을 지원하고 디자인 및 개인 정보 보호와 같은 과제를 안고 있다.
  • 윈도우 구성 요소 - 인터넷 익스플로러
    마이크로소프트가 개발한 웹 브라우저인 인터넷 익스플로러는 윈도우 운영 체제와의 통합으로 높은 시장 점유율을 유지했으나, 웹 표준 문제와 보안 취약점으로 비판받으며 2015년 엣지에 자리를 내주고 2022년 지원이 종료되었지만, 엣지의 IE 모드로 레거시 호환성을 유지하고 있다.
  • 윈도우 구성 요소 - 원격 데스크톱 서비스
    원격 데스크톱 서비스(RDS)는 네트워크를 통해 원격으로 컴퓨터의 데스크톱 환경에 접근할 수 있게 해주는 기술이며, 클라이언트 소프트웨어, 서버 구성 요소, 다양한 역할을 수행하는 구성 요소로 구성된다.
윈도우 음성 인식 - [IT 관련 정보]에 관한 문서
기본 정보
이름윈도우 음성 인식
개발사마이크로소프트
출시일2006년 11월 30일
운영 체제윈도우 비스타 이상
장르음성 인식
윈도우 비스타 음성 인식 튜토리얼. 워드패드에서 텍스트를 선택하여 삭제하는 모습이 묘사되어 있다.
윈도우 비스타의 윈도우 음성 인식 튜토리얼. 워드패드에서 텍스트를 선택하여 삭제하는 모습이 묘사되어 있다.

2. 역사

마이크로소프트는 WSR 이전부터 음성 인식 및 음성 합성 연구에 수년간 참여했다. 1993년, 카네기 멜론 대학교 출신의 쉬에동 황을 고용하여 음성 개발을 이끌었다. 1994년에는 음성 API(SAPI)를 개발했다.[1]

WinHEC 2002에서 마이크로소프트는 윈도우 비스타(코드명 "Longhorn")에 음성 인식 발전과 마이크 어레이 지원과 같은 기능을 포함할 것이라고 발표했다.[8] 빌 게이츠는 PDC 2003에서 "'Longhorn'에 음성 기능을 시스템에 구축할 것"이라고 밝혔다.[10][11] WinHEC 2004에서는 WSR을 모바일 PC의 생산성 향상 전략의 일부로 포함시켰고,[15][16] WinHEC 2005에서는 접근성, 새로운 모빌리티 시나리오, 추가 언어 지원 및 음성 사용자 환경 개선을 강조했다.

2006년 7월 27일, 윈도우 비스타 RTM 전 마이크로소프트 시연에서 WSR의 받아쓰기 오류("Dear aunt, let's set so double the killer delete select all")가 발생했다.[21][22] 이는 오디오 게인 오류 때문으로 밝혀졌고, 윈도우 비스타 출시 전에 수정되었다.[25] 2007년 초에는 WSR의 취약점이 보고되었으나,[26][27] 마이크로소프트는 여러 완화 요인으로 인해 공격이 어렵다고 밝혔다.[29]

WSR은 마이크로소프트 UI 자동화를 사용하도록 업데이트되었고, WASAPI 오디오 스택을 사용하여 성능이 향상되었으며, 에코 제거를 지원한다. 윈도우 7은 음성 훈련 데이터 제출 옵션을 도입했다.[30]

윈도우 8, 윈도우 8.1, 윈도우 RT에서는 메트로 사용자 인터페이스 제어에 WSR이 사용될 수 있다.[32][33] Windows 10 2018년 4월 업데이트(버전 1803)부터 설정 애플리케이션에 포함되었고,[34] 새로운 단축키(Win+Ctrl+S)가 도입되었다.[35] 윈도우 11 버전 22H2에서는 음성 액세스 앱이 추가되었고,[36][37] 2023년 12월, WSR은 음성 액세스로 대체될 수 있다고 발표되었다.[38]

2. 1. 초기 연구 개발 (1993년 ~ 2006년)

마이크로소프트는 WSR 이전에도 음성 인식과 음성 합성 연구에 수년간 참여해왔다. 1993년, 마이크로소프트는 카네기 멜론 대학교 출신의 쉬에동 황을 고용하여 음성 개발 노력을 이끌도록 했다. 회사의 연구는 1994년에 소개된 음성 API(SAPI) 개발로 이어졌다.[1] 음성 인식은 이전의 마이크로소프트 제품에서도 사용되었다. Office XP와 Office 2003은 인터넷 익스플로러마이크로소프트 오피스 응용 프로그램에서 음성 인식 기능을 제공했으며,[2] Windows 98, Windows Me, Windows NT 4.0 및 Windows 2000에서도 제한적인 음성 기능을 사용할 수 있게 했다.[3] Windows XP 태블릿 PC 에디션 2002에는 태블릿 PC 입력 패널과 함께 음성 인식 기능이 포함되었으며,[4][5] Microsoft Plus! for Windows XP는 윈도우 미디어 플레이어에 대한 음성 명령을 활성화했다.[6] 그러나 이 모든 기능은 음성 인식을 별도의 구성 요소로 설치해야 했으며, Windows Vista 이전에는 윈도우에 통합되거나 광범위한 음성 인식이 포함되지 않았다.[5] Office 2007 및 이후 버전은 음성 인식 서비스에 WSR을 사용한다.[7]

2. 2. 윈도우 비스타 (2006년)

윈도우 음성 인식은 정상 작동을 위해 윈도우 비스타에 포함된 마이크로소프트 SAPI 버전 5.3에 의지한다.[67] 또한, 이 응용 프로그램은 음성 프로파일 엔진마다 윈도우용 Microsoft Speech Recognizer 8.0을 이용한다.

윈도우 비스타(당시에는 "Longhorn"으로 알려짐) Aero Wizard의 프로토타입 음성 인식. 빌드 4093


WinHEC 2002에서 마이크로소프트는 윈도우 비스타(코드명 "Longhorn")가 음성 인식의 발전과 마이크 어레이 지원과 같은 기능을 포함할 것이라고 발표했다.[8] 이는 "자연스러운 (연속적인) 음성 인식과 (분리된) 명령 및 제어를 위한 일관된 품질의 오디오 인프라를 제공"하기 위한 노력의 일환이었다.[9] 빌 게이츠는 PDC 2003에서 마이크로소프트가 "인식과 합성을 모두 포함하여, 'Longhorn'에서 음성 기능을 시스템에 구축할 것"이라고 밝혔고,[10][11] 윈도우 비스타의 개발 중 사전 출시 빌드에는 훈련 기능이 포함된 음성 엔진이 포함되었다.[12] PDC 2003 개발자 발표에 따르면 윈도우 비스타는 마이크 피드백 및 제어, 사용자 구성 및 훈련 기능을 위한 사용자 인터페이스도 포함할 것이라고 한다.[13] 마이크로소프트는 사전 출시 소프트웨어 개발 키트에서 "음성 지원 메뉴 및 버튼과 같은 일반적인 음성 시나리오는 시스템 전체에서 사용할 수 있게 될 것"이라고 밝히면서 음성 인식이 통합될 범위를 명확히 했다.[14]

WinHEC 2004에서 마이크로소프트는 WSR을 모바일 PC의 생산성을 향상시키기 위한 전략의 일부로 포함시켰다.[15][16] 마이크로소프트는 이후 접근성, 새로운 모빌리티 시나리오, 추가 언어 지원 및 WinHEC 2005에서 음성 사용자 환경의 개선을 강조했다. 윈도우 XP에 포함된 음성 지원은 태블릿 PC 입력 패널과 통합되어 별도의 명령 및 받아쓰기 모드 간에 전환해야 했던 것과 달리, 윈도우 비스타는 데스크톱에서 음성 입력을 위한 전용 인터페이스를 도입하고 별도의 음성 모드를 통합했다.[17] 이전에는 사용자가 이 두 모드 간을 전환하지 않고는 받아쓰기 후 명령을 말하거나 그 반대로 할 수 없었다.[18] 윈도우 비스타 베타 1에는 통합된 음성 인식이 포함되었다.[19] 마이크로소프트는 회사 직원들이 소프트웨어 오류에 대해 WSR을 분석하고 피드백을 제공하도록 장려하기 위해 테스터에게 Xbox 360 프리미엄 모델을 얻을 수 있는 기회를 제공했다.[20]

2006년 7월 27일 마이크로소프트의 시연에서—윈도우 비스타의 RTM 전에—WSR과 관련된 주목할 만한 사건이 발생했는데, 여러 번의 받아쓰기 시도가 연속적인 출력 오류로 이어지면서 의도치 않게 "Dear aunt, let's set so double the killer delete select all"이 출력되었다.[21][22] 이 사건은 청중의 분석가와 언론인들 사이에서 상당한 조롱의 대상이 되었지만,[23][24] 애플리케이션 관리 및 탐색을 위한 또 다른 시연은 성공했다.[21] 마이크로소프트는 이러한 문제가 음성 인식기가 명령과 받아쓰기를 왜곡시키는 오디오 게인 오류 때문임을 밝혀냈고, 이 오류는 윈도우 비스타 출시 전에 수정되었다.[25]

2007년 초의 보고서에 따르면 WSR은 공격자가 대상의 스피커를 통해 특정 오디오 명령을 재생하여 악의적인 작업을 수행하는 데 취약하다는 것을 나타냈다.[26][27] 이는 윈도우 비스타의 일반 출시 이후 발견된 첫 번째 취약점이었다.[28] 마이크로소프트는 이러한 공격이 이론적으로 가능하지만, 여러 완화 요인과 전제 조건으로 인해 효과가 제한되거나 완전히 방지될 것이라고 밝혔다. 즉, 대상은 인식기가 활성화되어 있고 이러한 명령을 올바르게 해석하도록 구성되어야 하며, 마이크와 스피커가 모두 활성화되어 있고 충분한 볼륨 레벨이어야 하며, 공격은 컴퓨터가 사용자에게 알리지 않고 가시적인 작업을 수행하고 들을 수 있는 피드백을 생성해야 한다. User Account Control은 또한 권한 있는 작업의 발생을 금지할 것이다.[29]

2. 3. 윈도우 7 (2009년)

WSR은 마이크로소프트 UI 자동화를 사용하도록 업데이트되었으며, 엔진은 이제 WASAPI 오디오 스택을 사용하여 성능을 크게 향상시키고 에코 제거를 지원한다. 사용자의 용어를 맥락화하기 위해 이메일과 문서의 텍스트를 분석하고 수집할 수 있는 문서 수집기는 성능이 향상되었으며, 이제 인식기 시작 후가 아닌 백그라운드에서 주기적으로 실행된다. 절전 모드 또한 성능이 개선되었으며, 보안 문제를 해결하기 위해 사용자가 "듣기 중지"를 말한 후에는 인식기가 일시 중단되는 대신 기본적으로 꺼진다. 윈도우 7은 또한 향후 인식기 버전을 개선하기 위해 음성 훈련 데이터를 마이크로소프트에 제출하는 옵션을 도입했다.[30]

윈도우 7의 받아쓰기 스크래치패드는 윈도우 비스타의 "어디서나 받아쓰기 사용" 옵션을 대체한다.


새로운 받아쓰기 스크래치패드 인터페이스는 사용자가 텍스트 서비스 프레임워크와 호환되지 않는 애플리케이션에 텍스트를 받아쓰거나 입력하여 삽입할 수 있는 임시 문서 역할을 한다.[30] 윈도우 비스타는 이전에 이러한 애플리케이션을 위해 "어디서나 받아쓰기 사용" 옵션을 제공했다.[31]

2. 4. 윈도우 8.x 및 Windows RT (2012년)

WSR은 윈도우 8, 윈도우 8.1윈도우 RT에서 메트로 사용자 인터페이스를 제어하는 데 사용될 수 있으며, 다음과 같은 기능을 포함한다.[32][33]

  • "Windows C 누르기" 명령으로 참 바 열기
  • "Windows Z 누르기" 명령으로 메트로 스타일 앱에서 명령 지시 또는 표시
  • MSN 날씨에서 "섭씨로 변경"과 같이 앱에서 작업 수행 명령
  • "앱" 명령으로 시작 화면에 나열된 모든 설치된 앱 표시

2. 5. 윈도우 10 (2015년)

Windows 10 2018년 4월 업데이트(버전 1803)부터 설정 애플리케이션에 윈도우 음성 인식(WSR)이 포함되었다.[34] 이 변경 사항은 인사이더 프리뷰 빌드 17083에서 처음 나타났다.[34] 2018년 4월 업데이트에서는 윈도우 음성 인식을 활성화하기 위한 새로운 단축키(Win+Ctrl+S)도 도입되었다.[35]

2. 6. 윈도우 11 (2021년)

윈도우 11 버전 22H2에서는 기존 윈도우 음성 인식(WSR) 외에 음성 액세스라는 새로운 마이크로소프트 앱이 추가되었다.[36][37] 2023년 12월, 마이크로소프트는 윈도우 음성 인식이 음성 액세스로 대체되어 향후 윈도우 빌드 또는 릴리스에서 제거될 수 있다고 발표했다.[38]

3. 기능

윈도우 음성 인식은 사용자가 음성 명령으로 컴퓨터를 제어하고, 문자 받아쓰기를 할 수 있도록 돕는 프로그램으로, 다음과 같은 기능을 제공한다.


  • 인터페이스: WSR 인터페이스는 지침, 명령 정보, 인식기 상태를 표시하는 상태 영역과 볼륨 레벨 피드백을 위한 음성 미터로 구성된다.
  • 상태 영역: WSR의 현재 상태를 세 가지 모드(듣기, 대기, 끄기)로 표시한다.
  • 인식기 버튼: 작동 모드에 따라 색상이 변한다(파란색: 듣기, 파란색 회색: 대기, 회색: 끄기, 노란색: 컨텍스트 전환 또는 잘못된 해석).

음성 인식기가 다양한 모드에 따라 정보를 표시합니다. 인식기 버튼의 색상은 사용자 상호 작용에 따라 변경됩니다.


구문에 대한 제안을 표시하는 대체 패널.

3. 1. 기본 기능

윈도우 음성 인식은 사용자가 음성 명령으로 컴퓨터를 제어하고, 문자 받아쓰기를 할 수 있도록 돕는 프로그램이다. 윈도우 음성 인식은 영어, 스페인어, 독일어, 프랑스어, 일본어, 중국어(번체, 간체)를 지원하지만, 한국어는 지원하지 않는다.[66]

윈도우 음성 인식(WSR)을 통해 사용자는 음성으로 응용 프로그램과 윈도우 데스크톱 사용자 인터페이스를 제어할 수 있다.[40] 문서, 이메일 등에 텍스트를 받아쓰고, 운영 체제 인터페이스를 제어하고, 단축키를 실행하고, 마우스 커서를 움직일 수 있다.[39] 윈도우 비스타에 통합된 대부분의 응용 프로그램을 제어할 수 있으며,[40] 타사 응용 프로그램은 텍스트 서비스 프레임워크를 지원해야 한다.[1] 지원되는 언어는 미국 영어, 영국 영어, 프랑스어, 독일어, 일본어, 중국어, 스페인어이다.[41]

WSR을 처음 시작하면 마이크 설정 마법사와 튜토리얼이 제공되어 사용자의 음성 특성에 맞게 인식기를 조정하고 기본 명령을 배울 수 있다.[40] 튜토리얼을 완료하는 데 약 10분이 걸린다.[42] 인식기의 정확도는 정기적인 사용을 통해 향상되며, 문맥, 문법, 패턴 및 어휘에 적응한다.[41][45] 법률 또는 의료 분야 사용자를 위한 사용자 지정 언어 모델도 지원된다.[43] 윈도우 검색과 함께,[44] 인식기는 문서, 이메일 및 필기 태블릿 PC 입력을 수집하여 용어를 컨텍스트화하고 정확성을 향상시킬 수 있다. 이 정보는 마이크로소프트로 전송되지 않는다.[45]

WSR은 로컬에서 처리되는 음성 인식 플랫폼이며, 클라우드 컴퓨팅에 의존하지 않는다.[46] 사용자 정보를 저장하는 음성 프로필은 로컬에 보관된다.[45] 프로필 백업 및 전송은 Windows Easy Transfer를 통해 수행할 수 있다.[47]

다음은 일반적인 WSR 명령어 목록이다. ''이탤릭체'' 단어는 대체할 수 있는 단어이다(예: "scroll ''direction''"에서 "''direction''"은 "''down''"으로 대체 가능).[39]

  • '''받아쓰기 명령어:''' "새 줄", "새 단락", "탭", "문자 ''단어''", "숫자 ''숫자''", "''단어''로 이동", "''단어'' 뒤로 이동", "띄어쓰기 없음", "문장 시작으로 이동", "문장 끝으로 이동", "단락 시작으로 이동", "단락 끝으로 이동", "문서 시작으로 이동", "문서 끝으로 이동", "''필드 이름''으로 이동"(예: ''주소'', ''참조'', ''제목''). 쉼표와 같은 특수 문자는 특수 문자의 이름을 말하여 받아쓰기 한다.[39]
  • '''탐색 명령어:'''[39]
  • '''키보드 단축키:''' "''키보드 키'' 누르기", "'''' 더하기 '''' 누르기", "대문자 '''' 누르기."
  • "누르기" 명령 없이 누를 수 있는 키: , , , , , , ,
  • '''마우스 명령어:''' "클릭", "''그것'' 클릭", "더블 클릭", "''그것'' 더블 클릭", "표시", "''그것'' 표시", "오른쪽 클릭", "''그것'' 오른쪽 클릭", "마우스그리드".
  • '''창 관리 명령어:''' "창 닫기(또는 최대화, 최소화, 복원)", "''그것'' 닫기", "''열린 응용 프로그램 이름'' 닫기", "응용 프로그램 전환", "''열린 응용 프로그램 이름''으로 전환", "''방향''으로 스크롤", "''페이지 수''만큼 ''방향''으로 스크롤", "바탕 화면 표시", "숫자 표시".
  • '''음성 인식 명령어:''' "듣기 시작", "듣기 중지", "음성 옵션 표시", "음성 사전 열기", "음성 인식 이동", "음성 인식 최소화", "음성 인식 복원".[39] 영어에서는 "무슨 말을 할 수 있나요?"라고 말하여 적용 가능한 명령을 표시할 수 있다.[41] 사용자는 "''작업 이름''은 어떻게 하나요"(예: "프린터는 어떻게 설치하나요?")와 같이 Windows 작업에 대해 인식기에 질문하여 관련 도움말 문서를 열 수 있다.[52]


마우스그리드 명령이 Windows Vista 데스크톱에 숫자 그리드를 표시하고 있습니다.


''마우스 그리드''(MouseGrid)는 화면의 아홉 개 영역에 숫자를 표시하여 마우스 커서를 제어할 수 있게 한다. 초점을 맞출 영역의 숫자를 말하면 해당 영역이 좁혀져 원하는 인터페이스 요소에 도달한다. "클릭 ''영역 번호''" 명령으로 마우스 커서를 이동시킨 다음 클릭한다. "표시 ''영역 번호''" 명령으로 영역 내의 항목(예: 컴퓨터 아이콘)을 선택하고, ''클릭'' 명령으로 클릭할 수 있다. 여러 영역과 동시에 상호 작용할 수도 있다.[39]

"숫자 표시" 명령어를 통해 식별 가능한 명령을 제공하지 않는 응용 프로그램 및 인터페이스 요소를 제어할 수 있다. 이 명령을 활성화한 후, 표시된 숫자를 말하면 해당 항목이 선택되어 사용자가 해당 항목을 열거나 다른 작업을 수행할 수 있다.[39] "숫자 표시" 기능은 사용자가 쉽게 식별할 수 없는 항목과 상호 작용할 수 있도록 설계되었다.[53]

게임 탐색기(Games for Windows#Games Explorer)에서 숫자를 오버레이하는 "숫자 표시" 명령어.


WSR은 응용 프로그램과 윈도우에서 텍스트 받아쓰기를 가능하게 한다. 받아쓰기 오류가 발생하면 "Correct ''단어''" 또는 "Correct that"라고 말하여 수정할 수 있으며, 수정 제안이 표시되고 제안에 해당하는 숫자를 말하고 "OK"라고 말하여 제안을 선택할 수 있다. 원하는 항목이 제안 목록에 없으면 사용자가 말하여 나타나도록 할 수 있다. 또는 "Spell it" 또는 "I'll spell it myself"라고 말하여 원하는 단어를 철자별로 말할 수 있다. 사용자는 철자를 말할 때 개인적인 알파벳이나 NATO 음성 문자(예: "N as in November")를 사용할 수 있다.[43]

문장 내 여러 단어를 동시에 수정할 수 있다(예: 사용자가 "dictating"이라고 말했지만 인식기가 "the thing"으로 해석하는 경우 "correct the thing"이라고 말하여 두 단어를 한 번에 수정할 수 있다). 영어의 경우 기본적으로 100,000개 이상의 단어를 인식한다.[43]

개인 사전은 사용자가 특정 단어나 표현을 받아쓰기에서 포함하거나 제외할 수 있도록 해준다.[43] 사용자가 대문자로 시작하는 단어를 사전에 추가할 때, 항상 대문자로 표기할지 또는 단어가 발음되는 문맥에 따라 대문자 표기를 할지 지정할 수 있다. 또한 사용자는 인식 정확도를 높이기 위해 사전에 추가된 단어의 발음을 녹음할 수도 있다. 윈도우 필기 인식 기능을 위해 태블릿 PC에서 스타일러스 펜으로 작성된 단어도 저장된다. 사전에 저장된 정보는 사용자의 음성 프로필의 일부로 포함된다.[45] 사용자는 "음성 사전 표시" 명령을 말하여 음성 사전을 열 수 있다.

3. 2. 인터페이스

윈도우 음성 인식(WSR) 인터페이스는 사용자와의 상호작용을 위한 여러 요소로 구성된다.

  • 상태 영역: WSR의 현재 상태를 표시한다.

상태설명
듣기인식기가 활성화되어 사용자의 음성 입력을 기다리는 상태이다.
대기"듣기 시작" 명령을 제외한 다른 명령에는 반응하지 않는다.
끄기인식기가 어떠한 명령도 듣거나 응답하지 않는 상태이다. "듣기 중지" 명령으로 활성화할 수 있다.


  • 인식기 버튼: 작동 모드에 따라 색상이 변한다.

색상설명
파란색듣기 모드
파란색 회색대기 모드
회색끄기 모드
노란색사용자가 컨텍스트를 전환하거나 음성 명령이 잘못 해석된 경우


  • 음성 미터: 볼륨 레벨에 대한 시각적 피드백을 제공한다.
  • 정보 표시: 지침, 명령에 대한 정보(예: 명령이 인식기에 의해 감지되지 않은 경우)를 표시한다.

  • 대체 패널: 사용자가 말한 단어나 구문과 관련하여 여러 항목이 있을 경우, 관련된 항목들을 나열하는 인터페이스이다. 사용자는 원하는 항목의 번호를 말하고 "OK"라고 말하여 선택, 삽입할 수 있다.[50] 예를 들어, "Internet Explorer 시작"이라고 말하면 웹 브라우저와 추가 기능이 비활성화된 별도의 버전이 모두 나열될 수 있다.[51]

  • 받아쓰기 스크래치 패드: 윈도우 7에서 새롭게 추가된 기능으로 텍스트 서비스 프레임워크와 호환되지 않는 애플리케이션에서 받아쓰기를 할 때 사용된다. 윈도우 비스타에서는 "어디서나 받아쓰기" 옵션이 제공되었다.[31]


3. 3. 고급 기능

윈도우 음성 인식(WSR)은 Microsoft의 보조 응용 프로그램을 통해 추가적인 자연어 처리 명령을 활성화하여 사용자 지정 매크로를 지원한다.[54][55] 예를 들어, Microsoft에서 출시한 이메일 매크로를 사용하면 "''연락처''에게 ''제목''에 관해 이메일 보내기"라고 말했을 때 지정된 연락처와 제목이 자동으로 삽입된 새 메시지를 작성하기 위해 Microsoft Outlook이 열리는 자연어 명령을 사용할 수 있다.[56]

Microsoft는 음성 사전[57], Windows Media Player[58], Microsoft PowerPoint[59], 음성 합성[60], 여러 마이크 간 전환[61], 볼륨 수준과 같은 오디오 장치 구성[62], "오늘 날씨가 어때?"[63], "지금 몇 시야?"[60], "오늘 날짜가 뭐야?"[60]와 같은 일반적인 자연어 쿼리에 대한 샘플 매크로도 출시했다. 이러한 사용자 쿼리에 대한 응답은 시스템에 설치된 활성 Microsoft 텍스트 음성 변환 음성으로 사용자에게 다시 말해진다.

응용 프로그램 또는 항목샘플 매크로 구문 (이탤릭체는 대체 가능한 단어를 나타냄)
Microsoft Outlook이메일 보내기Makoto에게 이메일 보내기Makoto Yamagishi에게 이메일 보내기Makoto Yamagishi about에게 이메일 보내기'Makoto Yamagishi about This weeks meeting''에게 이메일 보내기Outlook 이메일 연락처 새로 고침
Microsoft PowerPoint다음 슬라이드이전 슬라이드다음이전5 슬라이드 앞으로 이동3 슬라이드 뒤로 이동슬라이드 8로 이동
Windows Media Player다음 트랙이전 곡베토벤 재생모차르트의 곡 재생산왕의 전당이 있는 CD 재생1930년에 쓰여진 곡 재생음악 일시 중지
Windows의 마이크마이크마이크 전환마이크 배열 마이크회선으로 전환마이크 배열로 전환회선 마이크로 전환마이크 배열 마이크로 전환
Windows의 볼륨 수준스피커 음소거스피커 음소거 해제오디오 끄기볼륨 높이기볼륨 2배 높이기50만큼 볼륨 낮추기볼륨 66으로 설정
WSR 음성 사전음성 사전 내보내기발음 추가[선택한 텍스트]를 음성 사전에 추가[선택한 텍스트]를 음성 사전에서 차단[선택한 텍스트] 제거[선택한 텍스트]는 다음과 같이 들립니다...[선택한 텍스트]는 어떻게 들릴까?
음성 합성[선택한 텍스트] 읽기다음 3 문단 읽기이전 문장 읽기읽기 중지지금 몇 시야?오늘 날짜는?레드먼드의 날씨 예보 알려줘



사용자와 개발자는 텍스트 전사 및 대체, 응용 프로그램 실행 (명령줄 인수 지원), 키보드 단축키, 기존 음성 명령 에뮬레이션 또는 이러한 항목의 조합을 기반으로 자체 매크로를 만들 수 있다. XML, JScript 및 VBScript가 지원된다.[50] 매크로는 특정 응용 프로그램으로 제한될 수 있으며,[64] 매크로에 대한 규칙은 프로그래밍 방식으로 정의할 수 있다.[56]

매크로를 로드하려면 활성 사용자의 ''문서'' 디렉터리 내의 ''음성 매크로'' 폴더에 저장해야 한다. 모든 매크로는 저장된 명령이 제3자에 의해 변경되거나 로드되지 않도록 사용자 인증서가 있는 경우 기본적으로 디지털 서명되며, 인증서를 사용할 수 없는 경우 관리자가 이를 만들 수 있다.[65] 구성 가능한 보안 수준은 서명되지 않은 매크로 로드를 금지하고, 생성 후 사용자에게 매크로 서명을 요청하며, 서명되지 않은 매크로를 로드할 수 있다.[64]

3. 4. 지원 언어

윈도우 음성 인식은 영어, 스페인어, 독일어, 프랑스어, 일본어, 중국어(번체, 간체)를 비롯한 여러 언어를 지원한다.[66] 미국 영어, 영국 영어, 프랑스어, 독일어, 일본어, 중국어 (표준어), 스페인어가 지원되는 언어이다.[41] 그러나 한국어는 아직 지원하고 있지 않다.

4. 기술

윈도우 음성 인식은 정상 작동을 위해 윈도우 비스타에 포함된 마이크로소프트 SAPI 버전 5.3에 의존한다.[67] 또한, 이 응용 프로그램은 음성 프로파일 엔진마다 윈도우용 Microsoft Speech Recognizer 8.0을 이용한다.

5. 한계 및 과제

윈도우 음성 인식은 윈도우 비스타에 도입된 Microsoft Speech Recognizer 8.0 버전을 사용한다. ''PC World''의 수석 편집자 마크 해치먼은 받아쓰기의 경우, 훈련 없이 93.6%의 정확도를 보인다고 밝혔는데, 이는 경쟁 소프트웨어만큼 정확하지 않다고 평가했다. 마이크로소프트에 따르면 훈련을 거친 경우 정확도는 99%이다.[42] 그는 마이크로소프트가 2006년 윈도우 비스타 개발 중 발생한 사건 때문에 이 기능을 공개적으로 논의하지 않아, 코타나가 도입되기 전에는 윈도우 내에서 문서를 받아쓰기 할 수 있다는 것을 아는 사용자가 거의 없었다고 말했다.[42]

참조

[1] 웹사이트 Exploring New Speech Recognition And Synthesis APIs In Windows Vista http://msdn2.microso[...] Microsoft 2015-06-26
[2] 웹사이트 How To Use Speech Recognition in Windows XP https://support.micr[...] Microsoft 2020-05-15
[3] 웹사이트 Description of the speech recognition and handwriting recognition methods in Word 2002 https://support.micr[...] Microsoft 2018-03-26
[4] 웹사이트 Windows XP Tablet PC Edition Review http://winsupersite.[...] Penton (company) 2020-05-15
[5] 웹사이트 Natural Input On Mobile PC Systems http://download.micr[...] Microsoft 2020-05-15
[6] 웹사이트 Plus! for Windows XP Review http://winsupersite.[...] Penton (company) 2020-05-15
[7] 웹사이트 What happened to speech recognition? https://support.offi[...] Microsoft 2020-05-15
[8] 웹사이트 WinHEC: The Pregame Show https://www.pcmag.co[...] Ziff Davis Media 2020-05-15
[9] 웹사이트 Audio Considerations for Voice-Enabled Applications http://download.micr[...] Microsoft 2018-03-30
[10] 웹사이트 Bill Gates' Web Site — Speech Transcript, Microsoft Professional Developers Conference 2003 http://www.microsoft[...] Microsoft 2020-05-15
[11] 웹사이트 Live from PDC 2003: Day 1, Monday http://windowsitpro.[...] Penton (company) 2020-05-15
[12] 웹사이트 Your Next OS: Windows 2006? http://www.techhive.[...] International Data Group 2015-06-25
[13] 웹사이트 Keyboard, Speech, and Pen Input in Your Controls http://download.micr[...] Microsoft 2018-03-30
[14] 웹사이트 Interacting with the Computer using Speech Input and Speech Output http://longhorn.msdn[...] Microsoft 2015-06-28
[15] 웹사이트 Windows For Mobile PCs And Tablet PCs — CY05 And Beyond http://download.micr[...] Microsoft 2020-05-15
[16] 웹사이트 Windows For Mobile PCs and Tablet PCs — CY04 http://download.micr[...] Microsoft 2020-05-15
[17] 웹사이트 Natural Input on Mobile PC Systems http://download.micr[...] Microsoft 2020-05-15
[18] 웹사이트 Commanding and Dictation — One mode or two in Windows Vista? http://blogs.msdn.co[...] Microsoft 2015-06-30
[19] 웹사이트 Windows Vista Beta 1 Review (Part 3) http://winsupersite.[...] Penton (company) 2020-05-15
[20] 웹사이트 Microsoft Speech Recognition poster http://www.brian.lev[...] 2020-05-15
[21] 웹사이트 Updated – When good demos go (very, very) bad http://blogs.reuters[...] Thomson Reuters 2018-03-29
[22] 웹사이트 Software glitch foils Microsoft demo https://www.nbcnews.[...] NBC News 2020-05-15
[23] 웹사이트 Vista voice-recognition feature needs work http://www.infoworld[...] International Data Group 2015-06-26
[24] 웹사이트 Vista's Voice Recognition Stammers http://www.techhive.[...] International Data Group 2020-05-15
[25] 웹사이트 FAM: Vista SR Demo failure — And now you know the rest of the story ... http://blogs.msdn.co[...] Microsoft 2020-05-15
[26] 웹사이트 Vista has speech recognition hole http://news.bbc.co.u[...] British Broadcasting Corporation 2020-05-15
[27] 웹사이트 Remote 'exploit' of Vista Speech reveals fatal flaw https://www.engadget[...] AOL 2015-06-28
[28] 웹사이트 Honeymoon's Over: First Windows Vista Flaw http://www.pcworld.c[...] International Data Group 2015-06-28
[29] 웹사이트 Issue regarding Windows Vista Speech Recognition https://blogs.techne[...] Microsoft 2018-03-31
[30] 웹사이트 What's new in Windows Speech Recognition? https://blogs.msdn.c[...] Microsoft 2020-05-15
[31] 웹사이트 Where does dictation work in Windows Speech Recognition? https://blogs.msdn.m[...] Microsoft 2018-03-28
[32] 웹사이트 How to use Speech Recognition http://windows.micro[...] Microsoft 2018-12-24
[33] 웹사이트 How to use Speech Recognition in Windows https://support.micr[...] Microsoft 2018-12-24
[34] 웹사이트 Announcing Windows 10 Insider Preview Build 17083 for PC https://blogs.window[...] Microsoft 2020-05-15
[35] 웹사이트 Windows keyboard shortcuts for accessibility https://support.micr[...] Microsoft 2019-01-08
[36] 웹사이트 Set up voice access - Microsoft Support https://support.micr[...] 2022-12-10
[37] 웹사이트 New Windows 11 build tests Voice Access, Spotlight backgrounds https://www.pcworld.[...] 2022-12-10
[38] 웹사이트 Deprecated features in the Windows client - What's new in Windows https://learn.micros[...] 2023-12-07
[39] 웹사이트 Windows Speech Recognition commands http://windows.micro[...] Microsoft 2020-05-15
[40] 웹사이트 Windows Vista Speech Recognition Step-by-Step Guide https://msdn.microso[...] Microsoft 2015-06-30
[41] 웹사이트 Windows Speech Recognition https://www.microsof[...] Microsoft 2020-05-15
[42] 웹사이트 The Windows weakness no one mentions: Speech recognition http://www.pcworld.c[...] International Data Group 2018-03-28
[43] 웹사이트 Customized speech vocabularies in Windows Vista https://blogs.msdn.m[...] Microsoft 2018-03-29
[44] 웹사이트 Jim Allchin Talks Windows Vista http://www.itprotoda[...] Penton 2020-05-15
[45] 웹사이트 Windows Vista Privacy Statement http://download.micr[...] Microsoft 2020-05-15
[46] 웹사이트 Microsoft Privacy Statement https://privacy.micr[...] Microsoft 2020-05-12
[47] 웹사이트 Transferring Windows Speech Recognition profiles from one machine to another http://blogs.msdn.co[...] Microsoft 2015-06-28
[48] 웹사이트 BETA: 'Windows Speech Recognition Macros' Technology Preview http://kurtsh.com/20[...] 2016-03-17
[49] 웹사이트 Control Your PC with Your Voice http://lifehacker.co[...] Gawker Media 2016-03-17
[50] 웹사이트 Speech Macros, Typing Mode and Spelling Mode in Windows Speech Recognition http://blogs.msdn.co[...] Microsoft 2015-08-25
[51] 웹사이트 Windows Speech Recognition — ExactMatchOverPartialMatch http://blogs.msdn.co[...] Microsoft 2015-08-24
[52] 웹사이트 Windows Speech Recognition: General commands https://blogs.msdn.m[...] Microsoft 2017-05-01
[53] 특허 Graphic user interface schemes for supporting speech recognition input systems
[54] 웹사이트 Windows Speech Recognition Macros http://www.microsoft[...] Microsoft 2015-06-29
[55] 웹사이트 WSR Macros extend Windows Vista's speech recognition feature https://arstechnica.[...] Condé Nast 2015-06-29
[56] 웹사이트 Macro of the Day: Send Email to [OutlookContact] http://blogs.msdn.co[...] Microsoft 2015-06-26
[57] 웹사이트 Speech Macro of the Day: Speech Dictionary http://blogs.msdn.co[...] Microsoft 2015-09-03
[58] 웹사이트 Macro of the Day: Windows Media Player http://blogs.msdn.co[...] Microsoft 2015-06-26
[59] 웹사이트 Macro of the day: Next Slide http://blogs.msdn.co[...] Microsoft 2015-09-03
[60] 웹사이트 Macro of the Day: Read that http://blogs.msdn.co[...] Microsoft 2015-06-26
[61] 웹사이트 Macro of the Day: Microphone Control http://blogs.msdn.co[...] Microsoft 2015-06-30
[62] 웹사이트 Macro of the Day: Mute the speakers! http://blogs.msdn.co[...] Microsoft 2015-09-03
[63] 웹사이트 Macro of the Day: Tell me the weather forecast for Redmond http://blogs.msdn.co[...] Microsoft 2015-06-26
[64] 웹사이트 Making a Speech macro Application Specific http://blogs.msdn.co[...] Microsoft 2015-09-03
[65] 웹사이트 Windows Speech Recognition Macros Release Notes http://download.micr[...] Microsoft 2020-05-15
[66] 문서 Windows Speech Recognition in Windows Vista http://www.microsoft[...]
[67] 문서 Exploring Speech Recognition And Synthesis APIs In Windows Vista http://msdn2.microso[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com