화자 인식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

화자 인식은 음성 정보를 분석하여 화자를 식별하거나 인증하는 기술이다. 텍스트 종속형과 텍스트 독립형으로 나뉘며, 텍스트 종속형은 등록과 검증에 동일한 텍스트가 필요하고, 텍스트 독립형은 특정 텍스트 없이 화자를 식별하는 데 사용된다. 화자 인식은 화자 대조(인증)와 화자 식별 두 가지 방식으로 활용되며, ATM, 범죄 수사, 금융 서비스, 국경 통제 등 다양한 분야에서 응용된다. 훈련, 소음, 음성 변화 등 여러 요인이 성능에 영향을 미치며, 법적, 윤리적 문제 또한 제기된다.

화자 인식

개요

유형	음성을 사용하여 화자를 식별하는 기술
관련 분야	음성 인식 패턴 인식 기계 학습

기술적 특징

목표	음성 샘플을 기반으로 화자의 신원을 확인하거나 검증
사용 사례	보안 시스템 (예: 음성 잠금 해제) 접근 제어 개인 식별

도전 과제

음성 변동성	감정 상태 건강 상태 배경 소음
언어적 내용	구사하는 내용에 따라 달라지는 음성 특징

주요 접근 방식

특징 추출	멜-주파수 셉스트럼 계수(MFCC) 선형 예측 코딩 (LPC)
모델링	가우스 혼합 모델(GMM) 아이 벡터(i-vector) 심층 신경망(DNN)

성능 평가

주요 지표	동일 오류율 (EER) 디텍션 코스트 펑션 (DCF)

역사 및 발전

초기 연구	1960년대부터 시작
최근 발전	딥 러닝 기술의 도입으로 성능 향상

보안 문제

취약점	음성 위조 모방 공격(replay attack)
대응 방안	라이브니스 검출 (생체 감지) 적대적 훈련

📚 더 읽어볼만한 페이지

생체인식 - 지문
지문은 손가락, 발가락 등의 융선이 남긴 흔적으로 개인 식별에 사용되는 고유한 생체 정보이며, 유전적·환경적 요인의 영향을 받아 형성되고 아치형, 루프형, 와호형으로 분류되며, 범죄 수사 및 개인 인증 등에 활용되지만 인권 문제도 논의된다.
생체인식 - 홍채 인식
보안 - 금고
금고는 현금, 귀중품, 중요 문서 등을 도난, 화재, 외부 위협으로부터 안전하게 보관하기 위한 잠금장치가 있는 견고한 상자 또는 보관 시설로, 기원전 13세기 이집트에서 기원하여 다양한 재료와 잠금 방식으로 발전해왔으며, 내화 금고, 방도 금고, 대여 금고 등 다양한 종류와 UL, EN 등의 국제적인 표준에 따른 성능 등급이 존재한다.
보안 - 경비원
경비원은 시설 및 인력을 보호하고 출입을 통제하며 순찰, 위험 감지 및 보고 등의 업무를 수행하는 직업으로, 화재, 도난, 침입 등으로부터 보호하며 방문객 안내, 배달물 접수 등의 부가적인 서비스를 제공하기도 한다.
음성학 - 음성 인식
음성 인식은 음성 신호를 텍스트로 변환하는 기술로, 인공지능과 심층 학습의 발전으로 인식 정확도가 향상되어 다양한 분야에 활용되고 있지만 보안 문제가 남아있다.
음성학 - 음성 합성
음성 합성은 텍스트를 음성으로 변환하는 기술(TTS)로, 기계 장치에서 컴퓨터 기반 시스템으로 발전해왔으며 통계적 모델과 심층 학습 기반 기술 발전을 거쳐 다양한 분야에서 활용되지만 윤리적 문제와 기술적 과제도 안고 있다.

2. 화자 인식의 종류

화자 인식 기술은 크게 두 가지로 응용된다. 화자가 특정 신원을 주장하고, 그 목소리를 사용하여 이 주장을 확인하는 것을 '확인' 또는 '인증'이라고 하며, 화자 대조 또는 화자 인증이라고도 부른다. 반면에, 알려지지 않은 화자의 신원을 결정하는 작업은 화자 식별이라고 한다. 화자 확인은 한 화자의 목소리를 특정 템플릿과 일치시키는 1:1 매칭이고, 화자 식별은 목소리를 여러 템플릿과 비교하는 1:N 매칭이다.

화자 확인은 일반적으로 보안 시스템에 대한 접근을 제공하기 위한 "게이트키퍼"로 사용되며, 사용자의 지식을 바탕으로 작동하고 사용자의 협조를 필요로 한다. 예를 들어, ATM이 화자 인식을 생체 인증으로 사용하는 경우가 이에 해당한다.

2.1. 화자 대조/인증 (Speaker Verification/Authentication)

화자 대조/인증은 특정 인물이 본인이 주장하는 사람이 맞는지 확인하는 과정이다. 이는 목소리를 특정 템플릿과 비교하는 1:1 매칭 방식이며, 주로 보안 시스템 접근 등에 사용된다. 이 과정은 사용자의 협조를 필요로 한다. 예를 들어, ATM에서 본인 확인을 위해 목소리를 사용하는 경우가 이에 해당한다.

2.2. 화자 식별 (Speaker Identification)

화자 식별은 누구인지 알려지지 않은 목소리의 주인공을 찾는 과정이다. 이는 1:N 매칭 방식으로, 목소리를 여러 템플릿과 비교한다.

화자 식별은 범죄 수사 등에서 활용될 수 있다. 예를 들어, 음성 기록에서 범죄자의 목소리를 찾는 경우가 이에 해당한다. 법의학적 응용 분야에서는 먼저 화자 식별 프로세스를 수행하여 "최상의 일치" 목록을 만들고, 그 다음 일련의 확인 프로세스를 수행하여 결정적인 일치를 결정한다. 검찰과 변호는 이를 용의자가 실제로 범죄자인지 여부를 결정하는 증거로 사용한다.

화자 식별 시스템은 사용자의 인지 없이 은밀하게 구현될 수 있다. 예를 들어, 토론에서 화자를 식별하거나, 자동화된 시스템에 화자 변경을 알리는 등의 작업이 가능하다.

화자 식별은 다음 두 가지로 분류할 수 있다.

* 여러 사람의 대화 상황에서 각 개인이 어떤 발언을 했는지 식별한다. (사전 등록 불필요)
* 사전에 등록된 데이터를 기반으로, 입력된 목소리가 누구의 것인지 특정한다.

화자 식별은 복잡한 음성 처리 알고리즘에 기반한다.

3. 화자 인식 시스템의 유형

화자 인식 시스템은 등록 및 테스트 단계에서 사용되는 음성 내용에 따라 텍스트 종속형, 텍스트 제시형, 텍스트 독립형으로 분류된다. 각 시스템은 고유한 특징과 장단점을 가지며, 활용 분야 또한 다양하다.

3.1. 텍스트 종속형 (Text-Dependent)

텍스트 종속형 화자 인식은 등록 및 검증 과정에서 동일한 텍스트를 사용해야 하는 시스템이다. 텍스트 종속형 시스템은 다음과 같이 세 가지 방식으로 나눌 수 있다.

* 고정 텍스트 방식: 항상 동일한 문장을 사용하는 방식이다. 인식 정확도는 가장 높지만, 악의적인 사용자가 시스템을 속일 가능성도 높아진다. 모든 사용자가 매우 복잡한 문장을 기억해야 한다면 사용자 친화적이지 않으며, 언어도 고정된다는 단점이 있다.
* 암호 구절 방식: 등록 시 사용자가 임의의 문장을 사용하고, 검증 시에는 등록 시 사용했던 문장을 반복하는 방식이다. 화자 인증에 주로 사용되며, 악의적인 사용자가 침입하려면 암호 구절을 알아야 하므로 보안이 강화된다. 하지만, 사용자의 목소리를 몰래 녹음하여 시스템을 뚫을 수 있다는 위험이 있다.
* 질의응답 방식: 여러 개의 암호 구절을 준비하고, 검증 시 시스템이 무작위로 질문을 하고 사용자가 올바르게 응답하는 방식이다. 많은 시스템에서 사용되는 방식으로, 녹음 공격에 대한 방어력을 높인다. 하지만 질문의 종류가 많지 않아 여전히 녹음으로 보안을 뚫을 수 있다.

3.2. 텍스트 제시형 (Text-Prompted)

텍스트 제시형 시스템에서는 사용자에게 읽어야 할 텍스트를 제시한다. 원칙적으로 어떤 내용이라도 텍스트가 될 수 있지만, 인식 처리가 상당히 복잡해진다. 시스템은 어떤 텍스트를 말하는지 알지만, 동시에 무작위로 선택된 텍스트가 특정 화자에 의해 발음되었을 때 어떻게 인식되는지(어떤 성문이 관측되는지)도 파악해야 한다.

전형적인 예로 숫자 열을 읽게 하는 시스템이 있다. 등록 단계에서는 각 숫자가 같은 정도로 나타나도록 신중하게 선택된 숫자 열을 읽게 한다. 이를 통해 각 숫자에 대한 화자 고유 모델을 학습한다. 이 방식은 그러한 모델이 10개만 있으면 된다는 장점이 있다. 테스트 단계에서는 무작위 숫자 열을 제시하고, 동시에 내부적으로는 숫자마다의 모델을 연결한 화자 모델을 구축한다. 등록 시와 테스트 시에 화자가 말하는 언어가 다를 가능성은 낮기 때문에, 언어에 의존하지 않는 시스템을 쉽게 구축할 수 있다는 장점도 있다.

3.3. 텍스트 독립형 (Text-Independent)

텍스트 독립형 시스템은 특정 텍스트를 사용할 필요가 없는 시스템이다. 화자의 협조가 거의 또는 전혀 필요하지 않으므로, 주로 화자 식별에 사용된다. 이 경우 등록 및 테스트 시 텍스트가 다르다. 사실, 많은 법의학적 응용 분야의 경우처럼 등록이 사용자도 모르게 발생할 수 있다. 텍스트 독립 기술은 등록 및 검증 시 말한 내용을 비교하지 않으므로, 검증 응용 프로그램은 인증 시 사용자가 무엇을 말하는지 결정하기 위해 음성 인식을 사용하는 경향이 있다. 텍스트 독립형 시스템에서는 음향 및 음성 분석 기술이 모두 사용된다.

텍스트 독립 시스템은 화자 식별에 사용되는 경우가 많은데, 이는 화자가 말하는 내용을 거의 제한할 수 없기 때문이다. 이 경우, 등록 단계에서 등록되는 텍스트와 테스트되는 텍스트는 다르다. 사실, 등록은 사용자가 눈치채지 못하는 사이에 이루어질 가능성도 있으며, 어떤 음성 녹음이라도 충분하다.

텍스트 독립 시스템에서는 말해지는 텍스트의 내용에 관한 지식을 이용할 수 없으므로, 일반적인 화자의 목소리의 특성만 이용한다. 이 때문에, 인식 정확도는 텍스트 종속형보다 낮다. 반면, 언어는 무엇이든 상관없다.

4. 화자 인식 기술

화자 인식은 패턴 인식 문제이며, 음성 지문(voice print)을 처리하고 저장하기 위해 다양한 기술이 사용된다. 주요 기술로는 주파수 추정, 은닉 마르코프 모델, 가우시안 혼합 모델, 패턴 매칭 알고리즘, 신경망, 행렬 표현, 벡터 양자화, 의사 결정 트리 등이 있다. 음성 지문과 발화를 비교할 때는 코사인 유사도와 같이 단순하면서도 성능이 좋은 방법이 전통적으로 사용된다. 일부 시스템에서는 코호트 모델이나 월드 모델과 같은 "반화자(anti-speaker)" 기술을 사용하기도 한다. 화자의 특성을 나타내는 데에는 스펙트럼 특징이 주로 사용되며, 선형 예측 부호화(LPC)는 화자 인식 및 음성 인증에 사용되는 음성 부호화 방법 중 하나이다.

주변 소음 레벨은 초기 음성 샘플과 이후 음성 샘플 수집 모두에 영향을 줄 수 있다. 노이즈 감소 알고리즘을 사용하면 정확도를 높일 수 있지만, 잘못 적용하면 오히려 반대 효과가 나타날 수 있다. 음성의 행동 특성 변화나 등록 시와 인증 시에 사용되는 전화기가 다른 경우에도 성능 저하가 발생할 수 있다. 2단계 인증 제품과의 통합이 증가할 것으로 예상된다. 노화로 인한 음성 변화는 시간이 지남에 따라 시스템 성능에 영향을 줄 수 있으며, 일부 시스템은 성공적인 인증 후에 화자 모델을 조정하여 이러한 장기적인 변화를 반영하기도 하지만, 자동 조절 방식이 전반적인 보안에 미치는 영향에 대해서는 논란의 여지가 있다.

4.1. 음성 특징 추출

화자 인식에는 주파수 추정, 선형 예측 부호화(LPC) 등 스펙트럼 특징이 주로 사용된다. LPC는 화자 인식 및 음성 인증에 사용되는 음성 부호화 방법이다.

4.2. 모델링 및 패턴 매칭

화자 인식은 패턴 인식 문제이며, 음성 지문을 처리하고 저장하는 데 다양한 기술이 사용된다. 여기에는 주파수 추정, 은닉 마르코프 모델(HMM), 가우시안 혼합 모델(GMM), 패턴 매칭 알고리즘, 신경망, 행렬 표현, 벡터 양자화 및 의사 결정 트리가 포함된다. 코사인 유사도와 같은 기본적인 방법은 단순성과 성능 때문에 전통적으로 음성 지문과 발화를 비교하는 데 사용된다. 일부 시스템은 코호트 모델 및 월드 모델과 같은 "반화자" 기술도 활용한다.

주변 소음 레벨은 초기 음성 샘플과 이후 음성 샘플 수집 모두를 방해할 수 있다. 노이즈 감소 알고리즘을 사용하여 정확도를 높일 수 있지만, 잘못 적용하면 오히려 반대 효과가 나타날 수 있다. 음성의 행동 특성 변화와 등록 및 인증에 사용되는 전화기 차이(다른 전화기를 사용하여 등록하고 인증을 수행하는 경우)도 성능 저하의 원인이 될 수 있다. 또한, 노화로 인한 음성 변화는 시간이 지남에 따라 시스템 성능에 영향을 미칠 수 있다. 일부 시스템은 성공적인 인증 후 화자 모델을 조정하여 음성의 장기적인 변화를 포착하기도 한다.

5. 훈련 (Training)

월즈 오브 원더의 줄리 인형은 1987년에 상용화된 초기 훈련 기술을 구현한 사례 중 하나이다. 당시 화자 독립성은 획기적인 기술로 여겨졌으며, 시스템에는 훈련 기간이 필요했다. 이 인형 광고는 "마침내 당신을 이해하는 인형"이라는 문구를 사용했지만, "어린이가 자신의 목소리에 반응하도록 훈련할 수 있는" 제품으로 묘사되었다.

6. 성능에 영향을 미치는 요인

주변 소음 레벨은 초기 음성 샘플과 후속 음성 샘플의 수집을 모두 방해할 수 있다. 노이즈 감소 알고리즘을 사용하여 정확도를 향상시킬 수 있지만, 잘못 적용하면 반대 효과가 발생할 수 있다. 성능 저하는 음성의 행동 특성 변화와 한 전화기를 사용하여 등록하고 다른 전화기에서 인증을 수행하는 것으로 인해 발생할 수 있다. 노화로 인한 음성 변화는 시간이 지남에 따라 시스템 성능에 영향을 미칠 수 있다. 일부 시스템은 성공적인 인증 후에 화자 모델을 조정하여 음성의 장기적인 변화를 포착하지만, 자동 조절로 인한 전반적인 보안 영향에 대한 논쟁이 있다.

7. 법적, 윤리적 문제

유럽 연합의 일반 개인 정보 보호 규정 및 미국의 캘리포니아 소비자 개인 정보 보호법과 같은 법률 도입으로 직장에서 화자 인식 사용에 대한 논의가 많아졌다. 2019년 9월, 아일랜드의 음성 인식 개발 회사인 Soapbox Labs는 관련된 법적 문제에 대해 경고했다.

8. 응용 분야

화자 인식 기술은 다양한 분야에서 활용되고 있다. 크게 화자 대조와 화자 식별 두 가지로 분류할 수 있다.

* 화자 대조(Speaker verification) 또는 화자 인증(Speaker authentication): 어떤 인물이 본인이 주장하는 인물인지 대조/인증하는 것이다. ATM이 화자 인식을 생체 인증으로 사용하는 경우가 이에 해당한다. 보안이 필요한 접근에 이용되며, 이용자의 협력을 전제로 한다.
* 화자 식별(Speaker identification): 누구인지 모르는 목소리를 누구의 것인지 식별하는 것이다. 음성 기록에서 범죄자의 목소리를 찾는 경우가 이에 해당한다. 이용자에게 알리지 않고 수행되는 경우가 많으며, 사용자를 올바른 메일함으로 유도하거나, 토론 참여 화자를 식별하거나, 음성 인식 시스템에 화자가 바뀌었음을 알리는 등에 이용된다.

화자 식별은 다시 두 가지로 분류할 수 있다.

* 여러 사람의 대화 상황에서 각 개인이 어떤 발언을 했는지 식별 (사전 등록 불필요)
* 사전에 등록된 데이터를 기반으로 입력된 목소리가 누구의 것인지 특정

전자는 생체 인증과는 관련이 없다. 화자 식별은 복잡한 음성 처리 알고리즘에 기반하는 반면, 화자 대조는 다소 단순한 음성 지문 대조에 기반한다.

8.1. 금융 서비스

바클레이스 웰스는 2013년에 음성 생체 인식을 콜센터 고객 식별의 주요 수단으로 처음 도입한 금융 서비스 회사였다. 이 시스템은 일반적인 대화 30초 이내에 전화 고객의 신원을 확인하기 위해 수동 화자 인식을 사용했다. 이 기술은 애플의 시리 기술을 개발한 음성 인식 회사인 뉘앙스(2011년에 CSELT에서 음성 기술을 분사한 로쿠엔도를 인수)에서 개발했다. 고객의 93%가 속도, 사용 편의성, 보안에 대해 "10점 만점에 9점"을 줬다.

2016년 2월, 영국의 시중 은행인 HSBC와 인터넷 기반 소매 은행인 퍼스트 다이렉트는 1,500만 명의 고객에게 지문 또는 음성을 사용하여 온라인 및 전화 계정에 접근할 수 있는 생체 인식 뱅킹 소프트웨어를 제공할 것이라고 발표했다.

2023년, 바이스 뉴스와 가디언은 각각 대상의 5분 정도의 음성 샘플에서 생성된 AI 생성 음성을 사용하여 표준 금융 화자 인증 시스템을 무력화할 수 있음을 시연했다.

8.2. 국경 통제

1996년부터 1998년까지 스코비-코로나치 국경 검문소에서 신고할 내용이 없는 등록된 지역 주민들이 야간에 검문소가 폐쇄되었을 때 캐나다-미국 국경을 통과할 수 있도록 화자 인식 기술이 사용되었다. 이 시스템은 미국 이민국 및 귀화국을 위해 미시간주 워렌의 보이스 스트래티지스에서 개발했다.

8.3. 범죄 수사

화자 인식은 제임스 폴리, 스티븐 소트로프 등 처형 사건과 같은 범죄 수사에 사용될 수 있다.

8.4. 통신 서비스

1983년 CSELT(이탈리아)의 미켈레 카바자와 알베르토 치아라멜라가 통신 연구를 통해 최초의 국제 특허를 냈다. 이는 최종 고객을 위한 미래 통신 서비스와 네트워크 전반의 잡음 감소 기술 개선의 기반이 되었다.

8.5. 소프트웨어

* https://pypi.python.org/pypi/bob.bio.spear bob.bio.spear
* http://mistral.univ-avignon.fr/mediawiki/index.php/Main_Page ALIZE