설명가능 인공지능

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

설명가능 인공지능(XAI)은 인공지능(AI) 시스템의 작동 방식과 의사 결정 과정을 투명하게 설명하려는 기술 및 연구 분야를 의미한다. 1970년대부터 기호적 AI 시스템에서 추론 과정을 설명하는 시도가 있었으며, 2010년대 이후 딥 러닝 등 복잡한 AI 기술의 확산으로 XAI의 필요성이 더욱 강조되었다. XAI는 공정성, 설명 책임, 투명성을 핵심 원칙으로 하며, AI 시스템의 편향 제거, 오류 원인 규명, 내부 처리 정보 공개 등을 통해 AI에 대한 신뢰를 높이고자 한다. XAI 기술은 의료, 금융, 법률, 자율주행 등 다양한 분야에서 활용될 수 있으며, 정부와 기업의 관심이 높아지고 있다. 하지만 기술적 복잡성, 적대적 공격, 과도한 단순화, 이해와 신뢰의 불일치 등의 한계와 비판도 존재한다.

설명가능 인공지능

설명 가능한 인공지능

이미지 준비중입니다.

설명 가능한 인공지능

개요

유형	인공지능
분야	컴퓨터 과학
문제	인공지능 윤리
관련 용어	기계 학습 인공신경망 블랙박스 알고리즘 모델 해석 책임감 있는 인공지능 신뢰 투명성 공정성 설명 가능성 해석 가능성

배경

목표	인공지능 모델의 의사 결정 과정을 인간이 이해할 수 있도록 만드는 것
필요성	인공지능 시스템의 투명성과 신뢰를 높임 오류나 편향을 식별하고 수정 책임감 있는 인공지능 개발 및 사용 촉진

방법론

모델 자체의 해석력 향상	선형 모델 결정 트리 규칙 기반 시스템 QLattice
모델 결과 해석	특징 중요도 분석 LIME SHAP 규칙 추출 어텐션 메커니즘 시각화 개념 병목 모델

활용 분야

의료	진단 및 치료 과정 설명
금융	신용 평가 및 사기 탐지 설명
법률	판결 근거 설명
자율 주행	차량의 의사 결정 과정 설명

과제

설명의 정확성과 간결성 유지	설명이 너무 복잡하거나 부정확하면 오히려 혼란을 야기할 수 있음
해석 가능성과 성능 간의 균형 유지	해석 가능한 모델은 성능이 떨어질 수 있음
사용자에 맞는 설명 제공	사용자의 지식 수준과 요구에 따라 설명의 내용과 형식을 달리해야 함
설명의 객관성 확보	설명이 주관적이거나 편향되지 않도록 주의해야 함

연구 동향	모델 해석 방법론 개발 설명 평가 지표 개발 사용자 인터페이스 연구
관련 기술	기계 학습 데이터 시각화 자연어 처리

학술 자료

2. 배경

1970년대부터 마이신(MYCIN), 가이드온(GUIDON), 소피(SOPHIE), 프로토스(PROTOS)와 같은 기호적 인공지능 시스템은 진단, 교육, 기계 학습 등의 목적으로 추론 과정을 표현하고 설명할 수 있었다. 마이신은 혈류 감염 진단 연구 프로토타입으로 개발되어 특정 사례에서 진단에 기여한 규칙을 설명할 수 있었다. 소피는 전자 장치 문제 해결 뒤에 숨겨진 질적 추론을 설명할 수 있었고, 가이드온은 의료 진단 전략을 설명하기 위해 튜토리얼 규칙을 추가했다. 프로토스는 설명 기반 학습에 의존하여 자신의 행동을 설명하고 새로운 지식을 습득했다.

1980년대부터 1990년대 초반까지 진실 유지 시스템(TMS)은 인과 추론, 규칙 기반 시스템, 논리 기반 추론 시스템의 기능을 확장했다. TMS는 대체 추론 경로, 결론에 대한 정당성, 모순으로 이어지는 추론 경로를 추적하여 설명을 제공했다. 예를 들어, 소크라테스가 독으로 죽었다는 결론을 내린 규칙 기반 문제 해결사는 "소크라테스는 필멸자이고 독을 마셨기 때문에 죽었고, 모든 필멸자는 독을 마시면 죽는다..."와 같은 설명을 구성할 수 있었다.

1990년대에는 불투명하게 훈련된 신경망에서 규칙을 추출하는 연구가 진행되었다. 전문가 시스템 연구자들은 신경망 기반 의사 결정 지원 시스템을 만들기 위해 동적 설명을 개발하려고 했다. 2010년대에는 AI를 사용한 판결 및 신용도 판단에서 인종적 편견 등에 대한 우려로 투명한 인공 지능에 대한 수요가 증가했다.

마빈 민스키 등은 AI가 감시의 한 형태로 기능할 수 있으며, 감시에 내재된 편견을 가질 수 있다는 문제를 제기했다.

딥 러닝과 같은 현대의 복잡한 AI 기술은 본질적으로 불투명하다. 이러한 문제를 해결하기 위해 레이어별 관련성 전파(LRP)를 포함한 새로운 설명 가능하고 해석 가능한 모델을 만드는 방법이 개발되었다.

의사 결정 트리, 베이즈 네트워크, 희소 선형 모델 등 더 투명한 글래스 박스 모델을 만드는 연구도 진행되었다. ACM 공정성, 책임성 및 투명성 회의(ACM FAccT)는 2018년에 설립되어 인공 지능을 포함한 시스템의 투명성과 설명 가능성을 연구한다.

개별 소프트웨어 뉴런이 가장 강하게 반응하는 입력을 시각화하거나, 뉴런을 이해 가능한 기능을 수행하는 회로로 집계하는 기술도 개발되었다. 또한, 행동에 대한 언어적 설명을 출력하거나 훈련 데이터를 참조하여 모델 동작을 설명하는 기술도 연구되었다.

자동 통증 인식에서 전자기 피부 반응의 역할을 이해하기 위해 XAI를 사용하는 것은 통증 연구에 활용된다.

AI 기반 시스템에 대한 신뢰와 투명성을 보장하기 위해 자동 의사 결정 프로세스에 대한 책임이 요구되고 있다. 2017년 국제 인공 지능 공동 회의에서 설명 가능한 인공 지능(XAI) 워크숍이 처음 개최되었고, 이후 다양한 워크숍과 국제 회의가 개최되었다.

유럽 연합은 일반 데이터 보호 규정(GDPR)에 설명 권리를 도입하여 알고리즘 문제에 대응하고 있다. 미국에서는 보험 회사가 요율 및 보장 결정에 대해 설명할 수 있어야 한다. 프랑스에서는 Loi pour une République numérique (디지털 공화국 법)이 대상자에게 자신에 대한 데이터를 처리하는 알고리즘 관련 정보를 요청하고 받을 권리를 부여한다.

2010년대 이후 딥 러닝 기술 발전으로, 자율주행차나 질병 진단과 같은 고위험 분야에서 AI 활용이 고려되었다. 하지만 기계 학습 기반 AI는 처리 결과 근거를 명확히 제시하기 어렵다는 '블랙박스' 문제가 있었고, 이는 AI의 신뢰성과 책임성에 대한 의문을 제기했다. 이러한 배경에서 AI 분야에서는 공정성, 설명 책임, 투명성과 같은 윤리성이 요구되었다. 2016년 미국은 인공지능 연구 개발 전략 계획을 발표했고, DARPA는 2017년 AI 윤리 및 거버넌스 연구 프로젝트에 착수했다. DARPA는 AI가 도출하는 답과 과정에 대해 설명 가능해야 하며, 2021년까지 XAI 연구를 비교 검증 단계까지 완료하는 것을 목표로 했다. 2019년 G20 정상회의에서는 "인간 중심의 AI 사회 원칙"이 승인되었으며, 여기에는 공정성, 설명 책임, 투명성의 원칙이 명시되어 있다.

3. XAI의 3가지 원칙

제14차 G20 정상회의에서 승인된 "인간 중심의 AI 사회 원칙"에는 공정성, 설명 책임, 투명성이 명시되어 있다.

; AI의 공정성 (Fairness)
기계 학습에서 AI는 학습의 전제로 예시된 데이터를 바탕으로 처리를 획득한다. 입력 데이터에 편향이 있는 경우, 그 출력 결과는 공정성을 결여한 것이 될 가능성이 있으므로, AI가 공정한 서비스를 제공할 수 있도록 입력 데이터에서 편향 제거가 요구된다. 예를 들어 급여 평가나 인재 배치 등, 인사 분야에서의 AI 적용을 검토하는 경우에 공정성이 특히 요구된다.

; AI의 설명 책임 (Accountability)
학습된 과거의 데이터를 입력으로 하여 미래의 추론 결과를 출력하는 경우, AI는 잘못된 답을 출력할 가능성이 있다. 이러한 사태에 대해, 입력 데이터, 출력 데이터, 및 처리 내용으로부터 오류의 원인과 그 책임을 명확히 할 수 있는 것이 요구된다. 이러한 기능은 AI 사용자가 악의를 가지고 문제를 일으킨 경우 등에, 그것을 명확히 함으로써, AI가 수행한 처리 자체의 결백을 증명하기 위해서도 필요하다.

; AI의 투명성 (Transparency)
문제 발생 시의 영향이 큰 장면에서의 AI 이용에서는, AI가 출력한 결과를 채용해도 좋을지를 인간이 판단할 필요가 생기므로, AI의 내부 처리 정보를 사용자가 이해할 수 있는 형태로 제시할 수 있는 것이 요구된다.

최근의 AI에서 요구되는 3가지 원칙에 공통적으로 요구되는 기능은 "AI가 학습을 통해 어떤 처리를 획득했는가" "어떤 근거를 바탕으로 출력을 결정했는가" 와 같은 논리를 설명할 수 있는 것이며, AI의 내부 처리가 복잡해질수록 어려운 요구 사항이다. XAI는 이러한 처리의 복잡성과 설명 가능성의 트레이드 오프를 해소하기 위해 제창되는 새로운 기술이다.

3.1. AI의 공정성 (Fairness)

기계 학습에서 AI는 학습의 전제로 예시된 데이터를 바탕으로 처리를 획득한다. 입력 데이터에 편향이 있는 경우, 그 출력 결과는 공정성을 결여한 것이 될 가능성이 있다. 예를 들어 급여 평가나 인재 배치 등, 인사 분야에서의 AI 적용을 검토하는 경우에 공정성이 특히 요구된다. AI가 공정한 서비스를 제공할 수 있도록 입력 데이터에서 편향 제거가 요구된다.

3.2. AI의 설명 책임 (Accountability)

제14차 G20 정상회의에서 승인된 "인간 중심의 AI 사회 원칙"에는 공정성, 설명 책임, 투명성이 명시되어 있다. AI가 잘못된 답을 출력할 가능성에 대비하여, 입력 데이터, 출력 데이터 및 처리 내용으로부터 오류의 원인과 책임을 명확히 할 수 있어야 한다. 이는 AI 사용자의 악의적인 행동으로 인한 문제 발생 시 AI 처리 자체의 결백을 증명하는 데에도 필요하다.

3.3. AI의 투명성 (Transparency)

AI 시스템의 의사 결정 과정을 사용자가 이해할 수 있도록 투명하게 공개해야 한다. 이는 AI 시스템의 신뢰도를 높이고, 사용자가 AI의 결정을 비판적으로 검토하고 수용할 수 있도록 돕는다. 특히, 의료, 금융, 법률 등과 같이 중요한 의사 결정에 AI가 활용될 경우, 투명성은 더욱 중요해진다.

분류 및 회귀 모델의 경우 널리 사용되는 설명가능성 관련 기술은 다음과 같다.
* 부분 의존성 도표는 예측된 결과에 대한 입력 특징의 한계 효과를 보여준다.
* SHAP (SHapley Additive exPlanations)는 각 입력 특징이 출력에 기여하는 바를 시각화 할 수 있게 한다. 모든 가능한 특징 조합에 걸쳐 특징의 평균 한계 기여도를 측정하는 Shapley 값을 계산하여 작동한다.
* 특징 중요도는 특징이 모델에 얼마나 중요한지를 추정한다. 일반적으로 해당 특징 값을 모든 샘플에 걸쳐 무작위로 섞었을 때의 성능 감소를 측정하는 순열 중요도를 사용하여 수행된다.
* LIME은 모델의 출력을 더 간단하고 해석 가능한 모델로 국부적으로 근사한다.
* 멀티태스크 학습은 대상 분류 외에도 많은 수의 출력을 제공한다. 이러한 다른 출력은 개발자가 네트워크가 무엇을 배웠는지 추론하는 데 도움이 될 수 있다.

이미지의 경우, 중요도 맵은 결과에 가장 큰 영향을 미친 이미지의 부분을 강조 표시한다.

전문가 또는 지식 기반 시스템은 전문가가 만든 소프트웨어 시스템이다. 이 시스템은 해당 도메인 지식에 대한 지식 기반 인코딩으로 구성된다. 이 시스템은 일반적으로 생산 규칙으로 모델링되며, 사용자는 이 지식 기반을 사용하여 시스템에 지식을 질문할 수 있다. 전문가 시스템에서 언어와 설명은 추론 또는 문제 해결 활동에 대한 설명과 함께 이해된다.

하지만, 이러한 기술은 언어 모델(예: 생성적 사전 훈련 변환기)에는 적합하지 않다. 이러한 모델은 언어를 생성하기 때문에 설명을 제공할 수 있지만 신뢰할 수 없을 수 있다. 다른 기술로는 어텐션 분석(모델이 입력의 다른 부분에 어떻게 집중하는지 검토), 프로빙 방법(모델의 표현에 어떤 정보가 캡처되는지 테스트), 인과 관계 추적(모델을 통한 정보 흐름 추적) 및 회로 발견(특정 동작을 담당하는 특정 하위 네트워크 식별) 등이 있다. 이 분야의 설명가능성 연구는 해석 가능성 및 정렬 연구와 상당 부분 겹칩니다.

학자들은 때때로 "기계적 해석 가능성"이라는 용어를 사용하여 복잡한 기계나 컴퓨터 프로그램을 분석하는 것과 유사하게 인공 신경망의 내부 의사 결정 메커니즘과 구성 요소를 이해하기 위해 역설계하는 과정을 지칭한다.

해석 가능성 연구는 종종 생성형 사전 훈련 변환기에 초점을 맞춘다. 이는 AI 안전 및 정렬과 특히 관련이 있는데, 아첨, 기만 또는 편향과 같은 원치 않는 행동의 징후를 식별하고 AI 모델을 더 잘 제어할 수 있기 때문이다.

가장 진보된 파운데이션 모델의 해석 가능성을 연구하는 것은 종종 생성형 사전 훈련 변환기에서 "특징"을 식별하는 자동화된 방법을 찾는 것을 포함한다. 신경망에서 특징은 개념에 해당하는 뉴런 활성화 패턴이다. "사전 학습"이라고 하는 계산 집약적인 기술을 사용하면 어느 정도 특징을 식별할 수 있다. 특징을 식별하고 편집하는 능력을 향상시키면 프론티어 모델의 안전성이 크게 향상될 것으로 예상된다.

합성곱 신경망의 경우 딥드림은 특정 뉴런을 강력하게 활성화하는 이미지를 생성하여 뉴런이 무엇을 식별하도록 훈련되었는지에 대한 시각적 힌트를 제공할 수 있다.

2019년에 개최된 제14차 G20 정상회의에서 "인간 중심의 AI 사회 원칙"이 승인되었으며, 이 중에서도 공정성, 설명 책임, 투명성에 대한 원칙이 명시되었다。이러한 요구에 부응하기 위해, AI에 의해 수행된 처리의 근거와 투명성을 요구하는 목소리가 높아지고 있다。

4. 설명 기법

XAI는 AI 시스템의 작동 방식과 의사 결정 과정을 설명하기 위해 다양한 기법을 사용한다.

일부 설명가능성 기법은 모델의 작동 방식을 이해하는 것을 포함하지 않으며, 다양한 AI 시스템에서 작동할 수 있다. 모델을 블랙 박스로 취급하고 입력에 대한 미세한 변화가 결과에 어떤 영향을 미치는지 분석하는 것으로 충분한 설명을 제공하는 경우가 있다.
설명가능성은 인공지능 모델이 관련 없는 또는 부당한 기준에 따라 결정을 내리지 않도록 하는 데 유용하다. 분류 및 회귀 모델의 경우, 몇 가지 널리 사용되는 기술이 있다.

* 부분 의존성 도표는 예측된 결과에 대한 입력 특징의 한계 효과를 보여준다.
* SHAP(SHapley Additive exPlanations)는 각 입력 특징이 출력에 기여하는 바를 시각화할 수 있게 한다. 이는 모든 가능한 특징 조합에 걸쳐 특징의 평균 한계 기여도를 측정하는 Shapley 값을 계산하여 작동한다.
* 특징 중요도는 특징이 모델에 얼마나 중요한지를 추정한다. 이는 일반적으로 해당 특징 값을 모든 샘플에 걸쳐 무작위로 섞었을 때의 성능 감소를 측정하는 순열 중요도를 사용하여 수행된다.
* LIME은 모델의 출력을 더 간단하고 해석 가능한 모델로 국부적으로 근사한다.
* 멀티태스크 학습은 대상 분류 외에도 많은 수의 출력을 제공한다. 이러한 다른 출력은 개발자가 네트워크가 무엇을 배웠는지 추론하는 데 도움이 될 수 있다.

이미지의 경우, 중요도 맵은 결과에 가장 큰 영향을 미친 이미지의 부분을 강조 표시한다.

전문가 또는 지식 기반 시스템은 전문가가 만든 소프트웨어 시스템이다. 이 시스템은 해당 도메인 지식에 대한 지식 기반 인코딩으로 구성된다. 이 시스템은 일반적으로 생산 규칙으로 모델링되며, 사용자는 이 지식 기반을 사용하여 시스템에 지식을 질문할 수 있다. 전문가 시스템에서 언어와 설명은 추론 또는 문제 해결 활동에 대한 설명과 함께 이해된다.

그러나 이러한 기술은 언어 모델 (예: 생성적 사전 훈련 변환기)에는 그다지 적합하지 않다. 이러한 모델은 언어를 생성하기 때문에 설명을 제공할 수 있지만 신뢰할 수 없을 수 있다. 다른 기술로는 어텐션 분석(모델이 입력의 다른 부분에 어떻게 집중하는지 검토), 프로빙 방법(모델의 표현에 어떤 정보가 캡처되는지 테스트), 인과 관계 추적(모델을 통한 정보 흐름 추적) 및 회로 발견(특정 동작을 담당하는 특정 하위 네트워크 식별) 등이 있다. 이 분야의 설명가능성 연구는 해석 가능성 및 정렬 연구와 상당 부분 겹친다.
학자들은 때때로 "기계적 해석 가능성"이라는 용어를 사용하여 복잡한 기계나 컴퓨터 프로그램을 분석하는 것과 유사하게 인공 신경망의 내부 의사 결정 메커니즘과 구성 요소를 이해하기 위해 역설계하는 과정을 지칭한다.

해석 가능성 연구는 종종 생성형 사전 훈련 변환기에 초점을 맞춘다. 이는 AI 안전 및 정렬과 특히 관련이 있는데, 아첨, 기만 또는 편향과 같은 원치 않는 행동의 징후를 식별하고 AI 모델을 더 잘 제어할 수 있기 때문이다.

가장 진보된 파운데이션 모델의 해석 가능성을 연구하는 것은 종종 생성형 사전 훈련 변환기에서 "특징"을 식별하는 자동화된 방법을 찾는 것을 포함한다. 신경망에서 특징은 개념에 해당하는 뉴런 활성화 패턴이다. "사전 학습"이라고 하는 계산 집약적인 기술을 사용하면 어느 정도 특징을 식별할 수 있다. 특징을 식별하고 편집하는 능력을 향상시키면 프론티어 모델의 안전성이 크게 향상될 것으로 예상된다.

합성곱 신경망의 경우 딥드림은 특정 뉴런을 강력하게 활성화하는 이미지를 생성하여 뉴런이 무엇을 식별하도록 훈련되었는지에 대한 시각적 힌트를 제공할 수 있다.

XAI에서는 설명 범위의 차이와 그 목적에 따라 AI의 설명을 두 가지로 분류하며, 개별 입력 데이터에 대한 출력이라는 개별적이고 구체적인 예측 결과에 대한 설명을 국소 설명, 지정된 AI 모델의 전반적인 동작(특징)에 대한 설명을 대국 설명으로 정의한다. 국소 설명으로는 특징량을 사용한 설명(예: 이미지 데이터를 사용하여 이미지 검색을 수행할 때 예측을 결정하는 이미지 영역을 시각화하는 등), 판단 규칙에 따른 설명, AI의 학습에 사용된 데이터를 사용한 설명 등이 있다. 2023년, AI 모델링 전문가가 다시 AI 모델의 투명성을 측정하는 방법을 발표했다.

=== 국소 설명 (Local Explanation) ===
XAI에서는 설명 범위와 그 목적에 따라 AI의 설명을 두 가지로 분류한다. 개별 입력 데이터에 대한 출력이라는 개별적이고 구체적인 예측 결과에 대한 설명을 국소 설명이라고 한다. 국소 설명으로는 특징량을 사용한 설명, 판단 규칙에 따른 설명, AI의 학습에 사용된 데이터를 사용한 설명 등이 있다. 2023년, AI 모델링 전문가가 다시 AI 모델의 투명성을 측정하는 방법을 발표했다.

LIME은 임의의 입력 데이터에 대한 AI 모델의 예측 결과에 대해, 예측에 사용된 데이터의 특징을 산출하는 국소 설명 기술이다. 2016년에 워싱턴 대학교의 마르코 툴리오 리베이로(Marco Tulio Ribeiro) 등에 의해 제창된 것으로, XAI를 실현하기 위한 대표적인 기술 중 하나이다. 테이블, 이미지, 텍스트에 대응하는 라이브러리가 제공되는 OSS이다.

SHAP (SHapley Additive exPlanations)는 게임 이론에 기반하여 개별 플레이어의 기여를 산출하는 메커니즘(샤플리 값)을 사용한 국소 설명 기술이다. 스콧 런드버그(Scott Lundberg)에 의해 2018년 GitHub에 공개된 OSS이며, 트리 기반 앙상블 모델, 딥 러닝 모델, 기타 일반적인 알고리즘에서 샤플리 값의 산출 기능을 제공한다.

=== 대국 설명 (Global Explanation) ===
XAI에서는 설명 범위와 그 목적에 따라 AI의 설명을 두 가지로 분류하는데, 개별 입력 데이터에 대한 출력이라는 개별적이고 구체적인 예측 결과에 대한 설명을 국소 설명, 지정된 AI 모델의 전반적인 동작(특징)에 대한 설명을 대국 설명으로 정의한다. 국소 설명으로는 특징량을 사용한 설명, 판단 규칙에 따른 설명, AI의 학습에 사용된 데이터를 사용한 설명 등이 있다. 2023년, AI 모델링 전문가가 다시 AI 모델의 투명성을 측정하는 방법을 발표했다.

Permutation Importance는 AI 모델별 특징의 중요도를 계산하는 전역 설명 기술이다. 아론 피셔(Aaron Fisher) 등이 2018년에 제안한 기술로, 요소를 무작위로 재배열하여 그 오차를 측정함으로써, 그 요소가 어느 정도 처리 결과에 기여하는지를 측정하는 Permutation이라는 기법을 사용한다.

부분 의존도 플롯(Partial Dependence Plot, PDP)은 입력 데이터의 변화가 AI 모델을 통해 출력 데이터에 어느 정도 영향을 미치는지 설명하기 위해 변화량을 그래프로 나타내어 제공하는 기술이다.

Tree Surrogate는 표 형식 데이터를 예측하는 유형의 AI 모델에 적용할 수 있는 기술로, AI 모델의 복잡한 입출력을 인간이 해석하기 쉬운 다른 대리 모델(결정 트리 대리 모델)로 맞춰 로직을 설명하는 기술이다.

CAM은 Class Activation Mapping의 약자로, 합성곱 신경망을 사용한 이미지 인식의 판단 이유를 설명하기 위한 기술이다. 네트워크 아키텍처의 제한을 극복한 Grand-CAM도 존재하며, Grand-CAM은 GAP를 사용하지 않는 분류 모델에도 적용할 수 있다.

=== 기타 기법 ===
Integrated Gradients는 데이터의 입력값과 출력값의 기울기를 사용하여 영향도를 산출하고 설명하는 기술이다. PyTorch의 Captum 라이브러리에는 Integrated Gradients가 구현되어 있으며, 인터페이스 등이 정비되어 있다.
순환 신경망과 같은 언어 모델이나 합성곱 신경망과 같은 이미지 모델에서 특징의 중요도를 산출하는 기술이다.

4.1. 국소 설명 (Local Explanation)

XAI에서는 설명 범위와 그 목적에 따라 AI의 설명을 두 가지로 분류한다. 개별 입력 데이터에 대한 출력이라는 개별적이고 구체적인 예측 결과에 대한 설명을 국소 설명이라고 한다. 국소 설명으로는 특징량을 사용한 설명, 판단 규칙에 따른 설명, AI의 학습에 사용된 데이터를 사용한 설명 등이 있다. 2023년, AI 모델링 전문가가 다시 AI 모델의 투명성을 측정하는 방법을 발표했다.

LIME은 임의의 입력 데이터에 대한 AI 모델의 예측 결과에 대해, 예측에 사용된 데이터의 특징을 산출하는 국소 설명 기술이다. 2016년에 워싱턴 대학교의 마르코 툴리오 리베이로(Marco Tulio Ribeiro) 등에 의해 제창된 것으로, XAI를 실현하기 위한 대표적인 기술 중 하나이다. 테이블, 이미지, 텍스트에 대응하는 라이브러리가 제공되는 OSS이다.

SHAP (SHapley Additive exPlanations)는 게임 이론에 기반하여 개별 플레이어의 기여를 산출하는 메커니즘(샤플리 값)을 사용한 국소 설명 기술이다. 스콧 런드버그(Scott Lundberg)에 의해 2018년 GitHub에 공개된 OSS이며, 트리 기반 앙상블 모델, 딥 러닝 모델, 기타 일반적인 알고리즘에서 샤플리 값의 산출 기능을 제공한다.

4.2. 대국 설명 (Global Explanation)

XAI에서는 설명 범위와 그 목적에 따라 AI의 설명을 두 가지로 분류하는데, 개별 입력 데이터에 대한 출력이라는 개별적이고 구체적인 예측 결과에 대한 설명을 국소 설명, 지정된 AI 모델의 전반적인 동작(특징)에 대한 설명을 대국 설명으로 정의한다. 국소 설명으로는 특징량을 사용한 설명, 판단 규칙에 따른 설명, AI의 학습에 사용된 데이터를 사용한 설명 등이 있다. 2023년, AI 모델링 전문가가 다시 AI 모델의 투명성을 측정하는 방법을 발표했다.

Permutation Importance는 AI 모델별 특징의 중요도를 계산하는 전역 설명 기술이다. 아론 피셔(Aaron Fisher) 등이 2018년에 제안한 기술로, 요소를 무작위로 재배열하여 그 오차를 측정함으로써, 그 요소가 어느 정도 처리 결과에 기여하는지를 측정하는 Permutation이라는 기법을 사용한다.

부분 의존도 플롯(Partial Dependence Plot, PDP)은 입력 데이터의 변화가 AI 모델을 통해 출력 데이터에 어느 정도 영향을 미치는지 설명하기 위해 변화량을 그래프로 나타내어 제공하는 기술이다.

Tree Surrogate는 표 형식 데이터를 예측하는 유형의 AI 모델에 적용할 수 있는 기술로, AI 모델의 복잡한 입출력을 인간이 해석하기 쉬운 다른 대리 모델(결정 트리 대리 모델)로 맞춰 로직을 설명하는 기술이다.

CAM은 Class Activation Mapping의 약자로, 합성곱 신경망을 사용한 이미지 인식의 판단 이유를 설명하기 위한 기술이다. 네트워크 아키텍처의 제한을 극복한 Grand-CAM도 존재하며, Grand-CAM은 GAP를 사용하지 않는 분류 모델에도 적용할 수 있다.

4.3. 기타 기법

Integrated Gradients는 데이터의 입력값과 출력값의 기울기를 사용하여 영향도를 산출하고 설명하는 기술이다. PyTorch의 Captum 라이브러리에는 Integrated Gradients가 구현되어 있으며, 인터페이스 등이 정비되어 있다.
순환 신경망과 같은 언어 모델이나 합성곱 신경망과 같은 이미지 모델에서 특징의 중요도를 산출하는 기술이다.

5. XAI 기술의 활용

미국 연방거래위원회(FTC)가 앞으로 설명이 불가능한 AI에 대한 조사를 할 가능성을 시사하며 경고한 것과 EU에서 2023년에 인공지능법이 성립될 가능성이 있다는 점 등을 배경으로 XAI는 실리콘밸리에서 급격히 주목받는 분야가 되었고, 스타트업 기업과 클라우드 기업 간의 개발 경쟁이 격화되고 있다.

일본에서는 NTT 데이터(NTTデータ)가 판정 이유가 요구되는 심사 업무에 적용하는 것을 검토하고 있다. 히타치 제작소(日立製作所)는 기업의 DX 지원 업무에 XAI 기술을 도입하여 AI의 예측 결과나 판정 결과에 대한 근거를 신속하게 제공할 수 있는 시스템 구축을 NTT 동일본(東日本電信電話)과 공동으로 추진하고 싶다는 보도 자료를 2021년 9월에 발표했다. 또한, 2021년 10월에는 TBS 텔레비전(TBSテレビ)이 선거 개표 속보 프로그램에서 XAI (후지쯔(富士通)의 Wide Learning)를 사용하여 당락 속보 예측의 근거를 제시하는 시도에 대해 발표했다.

XAI는 AI를 이용한 질병 진단, 치료 방법 결정 등에서 의사 결정 과정을 투명하게 보여줌으로써 의료 전문가의 신뢰를 얻고, 환자에게 더 나은 설명을 제공할 수 있도록 돕는다.

금융 분야에서 XAI는 신용 평가, 대출 심사, 보험료 산정 등에서 AI의 결정 근거를 명확하게 제시하여 차별이나 불공정성 문제를 예방하고, 고객에게 투명한 정보를 제공할 수 있도록 돕는다.

범죄 예측, 양형 판단 등에서 XAI는 AI의 판단 근거를 제시하여 편향이나 오류 가능성을 줄이고, 사법 시스템의 공정성과 신뢰성을 높이는 데 기여할 수 있다.

자율주행차 사고 발생 시, XAI는 사고 원인을 분석하고 책임을 규명하는 데 중요한 역할을 할 수 있다. 또한, 자율주행 시스템의 의사 결정 과정을 투명하게 공개함으로써 사용자의 신뢰를 높일 수 있다.

5.1. 의료

XAI는 AI를 이용한 질병 진단, 치료 방법 결정 등에서 의사 결정 과정을 투명하게 보여줌으로써 의료 전문가의 신뢰를 얻고, 환자에게 더 나은 설명을 제공할 수 있도록 돕는다.

5.2. 금융

미국 연방거래위원회(FTC)가 설명 불가능한 AI에 대한 조사 가능성을 시사하고, EU에서 2023년에 인공지능법이 성립될 가능성이 있다는 점 등을 배경으로 XAI는 실리콘밸리에서 급격히 주목받는 분야가 되었다.

일본에서는 NTT 데이터(NTTデータ)가 판정 이유가 요구되는 심사 업무에 XAI 적용을 검토하고 있다. 히타치 제작소(日立製作所)는 기업의 DX 지원 업무에 XAI 기술을 도입, AI 예측 및 판정 결과에 대한 근거를 신속하게 제공하는 시스템 구축을 NTT 동일본(東日本電信電話)과 공동으로 추진하고 있다. 또한, 2021년 10월에는 TBS 텔레비전(TBSテレビ)이 선거 개표 속보 프로그램에서 XAI (후지쯔(富士通)의 Wide Learning)를 사용하여 당락 속보 예측의 근거를 제시하는 시도를 발표했다.

금융 분야에서 XAI는 신용 평가, 대출 심사, 보험료 산정 등에서 AI의 결정 근거를 명확하게 제시하여 차별이나 불공정성 문제를 예방하고, 고객에게 투명한 정보를 제공할 수 있도록 돕는다.

5.3. 법률

미국 연방거래위원회(FTC)가 설명 불가능한 AI에 대한 조사 가능성을 시사하고, EU에서 2023년에 인공지능법이 성립될 가능성이 있다는 점은 실리콘밸리에서 XAI가 급격히 주목받는 배경이 되었다. 이는 스타트업 기업과 클라우드 기업 간의 개발 경쟁을 격화시켰다. 일본에서는 NTT 데이터(NTTデータ)가 판정 이유가 요구되는 심사 업무에 XAI 적용을 검토하고 있다. 히타치 제작소(日立製作所)는 기업의 DX 지원 업무에 XAI 기술을 도입하여 AI의 예측 및 판정 결과에 대한 근거를 신속하게 제공하는 시스템 구축을 NTT 동일본(東日本電信電話)과 공동으로 추진하고 있다고 2021년 9월에 발표했다. 2021년 10월, TBS 텔레비전(TBSテレビ)은 선거 개표 속보 프로그램에서 XAI (후지쯔(富士通)의 Wide Learning)를 사용하여 당락 속보 예측의 근거를 제시하는 시도를 발표했다. 범죄 예측, 양형 판단 등에서 XAI는 AI의 판단 근거를 제시하여 편향이나 오류 가능성을 줄이고, 사법 시스템의 공정성과 신뢰성을 높이는 데 기여할 수 있다.

5.4. 자율주행

EU에서 2023년에 인공지능법이 성립될 가능성이 있다는 점과 미국 연방거래위원회(FTC)가 설명 불가능한 AI에 대한 조사를 시사하며 경고한 점을 배경으로, XAI는 실리콘밸리에서 급격히 주목받는 분야가 되었고, 스타트업 기업과 클라우드 기업 간의 개발 경쟁이 격화되고 있다.

일본에서는 NTT 데이터(NTTデータ)가 판정 이유가 요구되는 심사 업무에 적용하는 것을 검토하고 있다. 히타치 제작소(日立製作所)는 기업의 DX 지원 업무에 XAI 기술을 도입하여 AI의 예측 결과나 판정 결과에 대한 근거를 신속하게 제공할 수 있는 시스템 구축을 NTT 동일본(東日本電信電話)과 공동으로 추진하고 있다는 보도 자료를 2021년 9월에 발표했다. 2021년 10월, TBS 텔레비전(TBSテレビ)은 선거 개표 속보 프로그램에서 XAI (후지쯔(富士通)의 Wide Learning)를 사용하여 당락 속보 예측의 근거를 제시하는 시도를 했다고 발표했다.

자율주행차 사고 발생 시, XAI는 사고 원인을 분석하고 책임을 규명하는 데 중요한 역할을 할 수 있다. 또한, 자율주행 시스템의 의사 결정 과정을 투명하게 공개함으로써 사용자의 신뢰를 높일 수 있다.

6. 사회 선택에서의 설명 가능성

사회 선택 이론은 잘 정립된 공리에 기반한 사회적 의사 결정 문제에 대한 해답을 찾는 것을 목표로 한다. 아리엘 D. 프로카치아(Ariel D. Procaccia)는 이러한 공리를 사용하여 해답에 대한 설득력 있는 설명을 구성할 수 있다고 설명한다. 이 원리는 사회 선택의 다양한 하위 분야에서 설명을 구성하는 데 사용되었다.

==== 투표 ====
Cailloux와 Endriss는 공리로 투표 규칙을 설명하는 방법을 제시하며, 보르다 투표 규칙을 예시로 사용한다. Peters, Procaccia, Psomas와 Zhou는 O(m²) 설명을 사용하여 보르다 규칙의 결과를 설명하는 알고리즘을 제시하고, 최악의 경우에 이것이 최적임을 증명했다.

==== 참여 예산제 ====
양, 하우스라덴, 페터스, 푸르나라스, 프릭커, 헬빙은 참여 예산제에서의 설명가능성에 대한 실증 연구를 발표했다. 그들은 탐욕 규칙과 동등 분배 방식을 비교했으며, 세 가지 유형의 설명을 제시했다. 즉, '메커니즘 설명'(투표 입력을 고려한 집계 규칙 작동 방식에 대한 일반적인 설명), '개별 설명'(얼마나 많은 유권자가 승인된 프로젝트를 최소 하나 이상, 승인된 프로젝트에 최소 10,000 스위스 프랑을 가지고 있는지 설명), '그룹 설명'(예산이 구역과 주제 간에 어떻게 분배되는지 설명)이다.

연구 결과에 따르면, MES의 경우 메커니즘 설명이 인지된 공정성과 신뢰성의 가장 큰 증가를 보였고, 그룹 설명이 두 번째로 높았다. 탐욕 규칙의 경우, 메커니즘 설명은 인지된 신뢰성을 증가시켰지만 공정성은 증가시키지 않았으며, 개별 설명은 인지된 공정성과 신뢰성을 모두 증가시켰다. 그룹 설명은 인지된 공정성과 신뢰성을 '감소'시켰다.

6.1. 투표

Cailloux와 Endriss는 공리로 투표 규칙을 설명하는 방법을 제시하며, 보르다 투표 규칙을 예시로 사용한다. Peters, Procaccia, Psomas와 Zhou는 O(m²) 설명을 사용하여 보르다 규칙의 결과를 설명하는 알고리즘을 제시하고, 최악의 경우에 이것이 최적임을 증명했다.

6.2. 참여 예산제

양, 하우스라덴, 페터스, 푸르나라스, 프릭커, 헬빙은 참여 예산제에서의 설명가능성에 대한 실증 연구를 발표했다. 그들은 탐욕 규칙과 동등 분배 방식을 비교했으며, 세 가지 유형의 설명을 제시했다. 즉, '메커니즘 설명'(투표 입력을 고려한 집계 규칙 작동 방식에 대한 일반적인 설명), '개별 설명'(얼마나 많은 유권자가 승인된 프로젝트를 최소 하나 이상, 승인된 프로젝트에 최소 10,000 스위스 프랑을 가지고 있는지 설명), '그룹 설명'(예산이 구역과 주제 간에 어떻게 분배되는지 설명)이다.

연구 결과에 따르면, MES의 경우 메커니즘 설명이 인지된 공정성과 신뢰성의 가장 큰 증가를 보였고, 그룹 설명이 두 번째로 높았다. 탐욕 규칙의 경우, 메커니즘 설명은 인지된 신뢰성을 증가시켰지만 공정성은 증가시키지 않았으며, 개별 설명은 인지된 공정성과 신뢰성을 모두 증가시켰다. 그룹 설명은 인지된 공정성과 신뢰성을 '감소'시켰다.

7. 한계 및 비판

설명가능 인공지능(XAI)은 AI의 투명성과 설명 가능성을 높이는 데 기여하지만, 몇 가지 한계와 비판도 존재한다.

AI 모델의 설명 가능성을 높이려는 지속적인 노력에도 불구하고, 몇 가지 내재적인 한계가 여전히 존재한다.
설명가능 인공지능에서 사용하는 많은 접근 방식은 일반적으로 설명을 제공하지만, 사용자의 다양한 배경 지식 수준을 고려하지 않는다. 이는 모든 사용자가 정확하게 이해하는 데 어려움을 야기한다. 숙련된 사용자는 설명이 깊이가 부족하고 지나치게 단순하다고 느낄 수 있으며, 초보 사용자는 설명이 복잡하여 이해하는 데 어려움을 겪을 수 있다. 이러한 한계는 다양한 지식 수준의 사용자를 만족시키는 XAI 기술의 능력을 약화시키며, 이는 사용자의 신뢰에 영향을 미칠 수 있다. 설명의 질은 서로 다른 전문 지식 수준, 다양한 상황 및 조건에 따라 사용자마다 다를 수 있다.

일부 학자들은 설명가능한 인공지능(XAI)이 AI의 효과에 비해 부차적인 목표로 간주되어야 하며, XAI의 독점적인 개발을 장려하는 것은 더 넓은 범위에서 AI의 기능을 제한할 수 있다고 제안한다. XAI에 대한 비판은 근거 기반 의학에서 개발된 기계론적 및 경험적 추론의 개념에 의존하여, AI 기술이 작동자가 기능을 이해할 수 없는 경우에도 임상적으로 검증될 수 있다고 제안한다.

일부 연구자들은 사후 설명(post-hoc explanation)이 아닌, 본질적으로 해석 가능한 기계 학습 모델의 사용을 옹호한다. 사후 설명은 첫 번째 모델을 설명하기 위해 두 번째 모델을 생성하는 방식이다. 이는 부분적으로 사후 모델이 의사 결정 경로의 복잡성을 증가시키고, 부분적으로는 사후 설명이 완전히 별개의 모델의 계산을 얼마나 충실하게 모방할 수 있는지 불분명하기 때문이다. 그러나, 또 다른 견해는 중요한 것은 설명이 주어진 작업을 수행하는 것이며, 사전 설명인지 사후 설명인지는 중요하지 않다는 것이다. 만약 사후 설명 방법이 의사가 암을 더 잘 진단하는 데 도움이 된다면, 그것이 정확한 설명인지, 잘못된 설명인지는 부차적인 문제이다.

XAI의 목표는 AI 모델의 매개변수 수가 증가함에 따라 덜 효과적이 될 손실 압축의 한 형태에 해당한다. 다른 요인들과 함께 이는 설명 가능성에 대한 이론적 한계로 이어진다.

7.1. 기술적 복잡성

인공지능 시스템을 설명 가능하게 만드는 근본적인 장벽은 기술적 복잡성이다. 최종 사용자는 인공지능 소프트웨어를 이해하는 데 필요한 코딩 지식이 부족한 경우가 많다. 현재 인공지능을 설명하는 데 사용되는 방법은 주로 디버깅 목적으로 머신 러닝 엔지니어를 대상으로 하는 기술적인 방법이며, 최종 사용자를 대상으로 하지 않아 "실제 설명 가능성과 투명성의 목표 사이의 격차"를 야기한다.

기술적 복잡성 문제를 해결하기 위한 방법으로는 최종 사용자가 기술적 설명을 더 쉽게 이해할 수 있도록 일반 대중의 코딩 교육을 장려하거나, 일반인이 이해할 수 있는 용어로 설명을 제공하는 것이 있다.

이러한 해결책을 적용할 때는 지나친 단순화를 피해야 한다. 설명이 인공지능 시스템의 프로세스를 얼마나 충실하게 반영하는지(정확성)와 최종 사용자가 그 프로세스를 얼마나 잘 이해하는지(설명 가능성) 사이의 균형을 유지하는 것이 중요하다. 머신 러닝의 복잡성으로 인해 숙련된 머신 러닝 엔지니어조차도 (모델의 구조와 작동 방식을) 완전히 이해하기 어려우며, 비전문가에게는 더욱 어렵기 때문에 이러한 균형을 맞추는 것이 쉽지 않다.

7.2. 적대적 공격

설명가능 인공지능(XAI)을 통해 AI 시스템의 취약점을 파악하고, 이를 악용하여 공격할 수 있다는 우려가 존재한다. 예를 들어, 특징 중요도 설명 방법은 모델의 출력을 결정하는 데 가장 중요한 특징이나 변수를 식별하고, 영향력 있는 샘플 방법은 특정 입력을 기준으로 출력을 결정하는 데 가장 영향력 있는 훈련 샘플을 식별한다. 경쟁 기업은 이러한 정보를 활용하여 자사 제품에서 원래 AI 시스템의 측면을 복제하여 경쟁 우위를 감소시킬 수 있다.

설명 가능한 AI 시스템은 또한 의도된 목적을 훼손하는 방식으로 "게임화"될 수 있다. 한 연구에서는 예측 치안 시스템의 예를 제시하는데, 이 경우 시스템의 결정을 받는 범죄자들이 시스템을 "게임화"할 수 있는 잠재적 대상이 된다. 이 연구에서 시스템 개발자들은 범죄 조직이 불법적으로 여권을 얻으려고 하는 문제를 논의했으며, 여권 신청 과정에서 어떤 요인이 경보를 유발할 수 있는지에 대한 아이디어를 얻게 되면, 그러한 조직이 "실험 대상"을 보내 이러한 트리거를 테스트하고, 결국 당국의 눈을 피해 여권을 "안정적으로 얻을" 수 있는 허점을 찾을 수 있다는 우려를 표명했다.

7.3. 과도한 단순화

설명가능 인공지능(XAI)에서 사용하는 많은 접근 방식은 설명을 제공하지만, 사용자의 다양한 배경 지식 수준을 고려하지 않아 문제가 발생한다. 숙련된 사용자는 설명이 지나치게 단순하다고 느낄 수 있으며, 초보 사용자는 설명이 복잡하여 이해하기 어려울 수 있다. 이러한 한계는 다양한 지식 수준의 사용자를 만족시키는 XAI 기술의 능력을 약화시키며, 사용자의 신뢰에 영향을 미칠 수 있다. 설명의 질은 서로 다른 전문 지식 수준, 다양한 상황 및 조건에 따라 사용자마다 다르게 느껴질수 있다.

7.4. 이해와 신뢰의 불일치

설명가능 인공지능(XAI)에서 사용하는 많은 접근 방식은 설명을 제공하지만, 사용자의 다양한 배경 지식 수준을 고려하지 않아 모든 사용자가 정확하게 이해하는 데 어려움을 야기한다. 숙련된 사용자는 설명이 깊이가 부족하다고 느낄 수 있으며, 초보 사용자는 복잡하다고 느낄 수 있다. 이는 다양한 지식 수준의 사용자를 만족시키는 XAI 기술의 능력을 약화시키며, 사용자의 신뢰에 영향을 미칠 수 있다.

인공지능 시스템의 최종 사용자에게 설명 가능성을 제공하는 목표는 시스템에 대한 신뢰를 높이는 것이다. 그러나 인공지능 시스템에 대한 이해도가 높더라도 최종 사용자가 반드시 시스템을 신뢰하는 것은 아니다. 한 연구에서, 참가자들에게 다양한 설명을 제시했지만, 신뢰도 수준에는 아무런 영향을 미치지 못했고, 회의적인 수준을 유지했다.

대학원 입학과 같이 최종 사용자에게 중대한 영향을 미치는 결정에서 이러한 결과는 특히 두드러졌다. 참가자들은 인간 의사 결정자에 비해 알고리즘이 지나치게 융통성이 없다고 판단했다. 인간은 예외적인 경우와 초기 결정에 대한 항소를 고려할 수 있기 때문이다. 이러한 설명 가능성이 최종 사용자가 의사 결정 알고리즘의 사용을 반드시 수용하게 하는 것은 아니다.

하지만, 인공지능 설명 가능성의 목적이 단순히 신뢰를 높이는 것이 아니라, 신뢰 수준을 적절하게 조정하는 것이라고 강조한다. 인공지능 시스템에 대한 과도하거나 부족한 사용자 신뢰는 인간-시스템 단위의 전반적인 성능에 해를 끼치기 때문이다. 신뢰가 과도하면 사용자는 시스템의 실수를 비판하지 않으며, 신뢰가 부족하면 시스템의 이점을 충분히 활용하지 못한다.

설명가능 인공지능

1. 개요

이미지 준비중입니다.

2. 배경

3. XAI의 3가지 원칙

3.1. AI의 공정성 (Fairness)

3.2. AI의 설명 책임 (Accountability)

3.3. AI의 투명성 (Transparency)

4. 설명 기법

4.1. 국소 설명 (Local Explanation)

4.2. 대국 설명 (Global Explanation)

4.3. 기타 기법

5. XAI 기술의 활용

5.1. 의료

5.2. 금융

5.3. 법률

5.4. 자율주행

6. 사회 선택에서의 설명 가능성

6.1. 투표

6.2. 참여 예산제

7. 한계 및 비판

7.1. 기술적 복잡성

7.2. 적대적 공격

7.3. 과도한 단순화

7.4. 이해와 신뢰의 불일치

8. 한국의 XAI 현황 및 전망