AI 안전

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. AI 안전의 동기
- 2.1. 현재의 위험
- 2.2. 미래의 위험
3. AI 안전 연구의 역사
4. AI 안전 연구 분야
5. 거버넌스
참조

1. 개요

AI 안전은 현재 및 미래의 AI 기술로 인해 발생할 수 있는 다양한 위험에 대한 연구 분야이다. AI 안전 연구는 AI 기술의 발전과 함께 제기되는 위험에 대한 우려에서 시작되었으며, 전문가들은 AI의 잠재적 위험을 심각하게 인식하고 있다. 연구 분야는 강건성, 모니터링, 정렬, 시스템 안전 및 사회기술적 요인, 거버넌스 등으로 나뉜다. AI 안전을 위한 거버넌스 연구는 AI 시스템의 사용과 개발을 안내하기 위한 규범, 표준 및 규정을 만드는 것과 관련이 있으며, 정부와 기업은 AI 안전을 위한 정책 및 규범을 마련하고 있다.

더 읽어볼만한 페이지

인공 일반 지능의 실존적 위험 - 인공지능 규제
인공지능 규제는 인공지능 기술 발전으로 인한 사회적, 윤리적 문제에 대응하기 위한 법적, 정책적 움직임이며, 국가별로 인식 차이를 보이며 완전 자율 무기 규제 등 다양한 쟁점을 포함한다.
인공 일반 지능의 실존적 위험 - AI 정렬
AI 정렬은 인공지능 시스템의 목표와 행동을 인간의 의도, 가치, 윤리적 기준에 일치시키기 위한 연구 분야로, AI 시스템의 예측 불가능한 행동을 방지하기 위해 중요하며, 다양한 과제와 접근법을 통해 해결책을 모색한다.
컴퓨터 과학에 관한 - 친절한 인공지능
친절한 인공지능은 사용자에게 친절하고 공감적인 방식으로 상호 작용하며 긍정적이고 효과적인 사용자 경험을 제공하는 것을 목표로 하는 인공지능 기술의 한 분야이다.
컴퓨터 과학에 관한 - AI 붐
AI 붐은 2010년대 중후반부터 딥 러닝, 생성형 AI 등 인공지능 기술의 급격한 발전과 알파고-이세돌 대국, 알파폴드, 챗GPT 등의 등장으로 사회 전반에 큰 영향을 미치며 나타난 현상으로, 기술 패권 경쟁, 경제·사회적 변화, 그리고 다양한 우려 사항을 야기하고 있다.
사이버네틱스 - 진화 알고리즘
진화 알고리즘은 생물학적 진화 과정을 모방하여 적합도에 따라 개체를 선택하고 교차 및 돌연변이 연산을 반복하며 최적의 해를 찾아가는 계산 기술이다.
사이버네틱스 - 유전 알고리즘
유전 알고리즘은 생물 진화 과정을 모방하여 최적해를 탐색하는 계산 최적화 기법으로, 해를 유전자로 표현하고 적합도 함수를 통해 평가하며 선택, 교차, 돌연변이 연산을 반복하여 최적해에 근접하는 해를 생성하며, 성능은 매개변수에 영향을 받고 초기 수렴 문제 해결을 위한 다양한 변형 기법과 관련 기법이 존재한다.

AI 안전
지도
기본 정보
분야	인공지능 연구 분야
목표	인공지능 시스템이 인간에게 해를 끼치지 않고 유익하도록 보장
역사
기원	인공지능 분야의 발전과 함께 등장
중요 사건	2010년대 이후 딥러닝 발전으로 중요성 증가 인공 일반 지능(AGI) 개발에 대한 우려와 함께 연구 활발
주요 연구 분야
정렬 문제	인공지능의 목표와 인간의 목표를 일치시키는 문제
강력한 인공지능 통제	인공지능이 인간의 통제를 벗어나지 않도록 하는 방법 연구
견고성	인공지능 시스템이 예상치 못한 입력이나 상황에서도 안정적으로 작동하도록 하는 연구
윤리적 고려	인공지능 기술 개발 및 배포 시 윤리적 문제 해결
위험 평가	인공지능 기술의 잠재적 위험을 분석하고 평가
안전 설계	인공지능 시스템을 안전하게 설계하는 방법 연구
주요 연구 단체
비영리 연구소	AI 안전 연구소 기계 지능 연구소 미래 삶 연구소 인류 안전 센터
대학	옥스퍼드 대학교 케임브리지 대학교 캘리포니아 대학교 버클리
관련 학문 분야
관련 학문	철학 윤리학 법학 사회학 정책학
주요 개념
인공지능 정렬	인공지능 시스템의 목표를 인간의 목표와 일치시키는 것
인공지능 통제 문제	강력한 인공지능이 인간의 통제에서 벗어날 수 있는 문제
인공지능 안전 공학	안전한 인공지능 시스템을 설계하고 구현하는 방법
인공지능 위험	인공지능 기술로 인해 발생할 수 있는 잠재적인 부정적 결과
추가 정보
중요성	인공지능 기술 발전으로 인해 중요성이 더욱 부각
미래 전망	인공지능 안전 연구는 앞으로 더욱 중요해질 것으로 예상

2. AI 안전의 동기

AI 안전 연구는 현재 및 미래에 발생할 수 있는 다양한 위험에 대한 우려에서 비롯되었다. AI 연구자들은 AI 기술로 인해 발생하는 위험의 심각성과 주요 원인에 대해 다양한 의견을 가지고 있지만, 설문조사에 따르면 전문가들은 높은 결과를 가져올 위험을 심각하게 받아들이고 있다.

AI 연구자를 대상으로 한 두 차례의 설문조사에서 응답자의 중앙값은 AI 전반에 대해 낙관적이었지만, 고급 AI의 "매우 나쁜(예: 인류 멸종)" 결과에 대해 5% 확률을 두었다.^[13] 2022년 자연어 처리(NLP) 커뮤니티를 대상으로 한 설문 조사에서 37%는 AI 결정이 "적어도 전면적인 핵전쟁만큼 나쁜" 재앙으로 이어질 수 있다는 것이 그럴듯하다는 데 동의하거나 약하게 동의했다.^[16]

앤드류 응은 2015년에 AGI를 "우리가 아직 지구에 발을 디디지도 않았는데 화성에 인구 과잉이 생기는 것을 걱정한다"고 비교했지만,^[11] 스튜어트 J. 러셀은 "인간의 독창성을 과소평가하는 것보다 기대하는 것이 더 낫다"고 주장하면서 주의를 촉구했다.^[12]

인공지능으로 인한 위험성은 컴퓨터 시대의 시작과 함께 심각하게 논의되기 시작했으며, 노버트 위너는 1949년에 다음과 같이 말했다.

> 더욱이, 경험에 의해 행동이 수정되고 학습하는 기계를 만드는 방향으로 나아간다면, 우리가 기계에 부여하는 독립성의 정도는 우리의 바람에 대한 반항의 가능성의 정도와 같다는 사실에 직면해야 합니다.

AI 안전 관련 주요 연혁
연도	내용
2008년~2009년	인공지능 발전 협회(AAAI)는 인공지능 연구 및 개발의 장기적인 사회적 영향을 탐구하고 해결하기 위한 연구를 의뢰했다.
2011년	로만 얌폴스키는 인공지능 철학 및 이론 학회에서 "인공지능 안전 공학"이라는 용어를 도입했다.^[19]
2014년	닉 보스트롬은 초지능: 길, 위험, 전략이라는 책을 출판했다.
2015년	수십 명의 인공지능 전문가들이 인공지능에 관한 공개 서한에 서명했다.^[26] 인간과 호환 가능한 인공지능 센터 설립.
2016년	백악관 과학기술정책국과 카네기멜론대학교는 인공지능의 안전과 제어에 관한 공개 워크숍^[28]을 발표. 인공지능 안전의 구체적인 문제점이 발표되었다.^[30]
2017년	유익한 인공지능에 관한 아실로마 회의 개최.
2018년	DeepMind 안전 팀은 명세, 강건성,^[32] 및 보증^[33]에서 인공지능 안전 문제를 개략적으로 설명했다.
2021년	ML 안전의 미해결 문제가 발표되었다.^[35]
2023년	리시 수낵은 영국이 "세계 인공지능 안전 규제의 지리적 중심지"가 되기를 원한다고 말했다.^[36] 인공지능 안전 정상회의 개최.^[37]
2024년	미국과 영국은 인공지능 안전 과학에 대한 새로운 파트너십을 구축했다.^[39]

2. 1. 현재의 위험

AI 연구자들은 AI 기술로 인해 발생하는 위험의 심각성과 주요 원인에 대해 서로 다른 의견을 가지고 있지만, 전문가들은 AI의 위험을 심각하게 받아들이고 있다. 학자들은 중요 시스템 오류,^[2] 편향,^[3] AI 기반 감시^[4]와 같은 현재의 위험뿐만 아니라, 기술적 실업, 디지털 조작,^[5] 무기화,^[6] AI 기반 사이버 공격,^[7] 생물 테러리즘^[8]과 같은 새롭게 등장하는 위험들에 대해서도 논의하고 있다.

머신러닝 모델은 악의적인 행위자가 인공지능 시스템에 악의적으로 심어 놓은 취약점인 '트로이 목마' 또는 '백도어'를 포함할 수 있다. 예를 들어, 트로이 목마가 심어진 얼굴 인식 시스템은 특정 장신구가 보일 때 접근 권한을 부여할 수 있다.^[35] 트로이 목마를 심으려면 공격자가 시스템의 훈련 데이터에 접근해야 한다. CLIP이나 GPT-3와 같은 일부 대규모 모델은 공개적으로 이용 가능한 인터넷 데이터로 훈련되기 때문에 이는 어렵지 않을 수 있다.^[83]

최근 몇 년 동안 대규모 언어 모델(LLM)의 발전은 AI 안전 분야에서 독특한 우려를 불러일으켰다. 연구자 Bender와 Gebru 등^[99]은 이러한 모델을 훈련하는 데 드는 환경적 및 재정적 비용을 강조하며, Transformer 모델과 같은 모델의 훈련 절차에 따른 에너지 소비와 탄소 발자국이 상당할 수 있다고 지적했다. 뿐만 아니라, 이러한 모델은 종종 방대한, 검증되지 않은 인터넷 기반 데이터셋에 의존하는데, 이는 지배적인 편향된 견해를 반영하여 소외된 집단을 더욱 소외시킬 수 있다. 이러한 모델은 사회적 편견을 증폭시키고, 잘못된 정보를 퍼뜨리고, 극단주의 선전이나 딥페이크 생성과 같은 악의적인 목적으로 사용될 위험을 안고 있다.^[100]^[101]

2. 2. 미래의 위험

AI 연구자들은 AI 기술이 야기하는 위험의 심각성과 주요 원인에 대해 서로 다른 의견을 가지고 있다.^[13]^[14]^[15] 그러나 설문조사에 따르면 전문가들은 큰 영향을 미칠 수 있는 위험을 진지하게 고려하고 있다. AI 연구자들을 대상으로 한 두 번의 설문조사에서 응답자들은 AI 전반에 대해 낙관적인 입장을 보였지만, 고급 AI가 "매우 나쁜 (예: 인류 멸종)" 결과를 초래할 가능성을 5%로 예측했다.^[13] 2022년 자연어 처리 연구자들을 대상으로 한 설문조사에서는 37%가 AI의 결정이 "전면적인 핵전쟁만큼이나 나쁜" 재앙을 일으킬 수 있다는 데 동의하거나 어느 정도 동의했다.^[16]

학자들은 중요 시스템 오류,^[2] 편향,^[3] AI 지원 감시^[4]와 같은 현재의 위험뿐만 아니라, 기술적 실업, 디지털 조작,^[5] 무기화,^[6] AI 기반 사이버 공격,^[7] 생물테러^[8]과 같은 새롭게 부상하는 위험에 대해서도 논의한다. 또한 미래의 범용 인공 지능(AGI) 에이전트에 대한 통제력 상실,^[9] AI가 영구적이고 안정적인 독재 정권을 가능하게 하는 것^[10]과 같은 예측하기 어려운 위험에 대해서도 논의한다.

일부에서는 AGI에 대한 우려를 비판한다. 예를 들어 앤드류 응은 2015년에 AGI를 "아직 지구에 발을 디디지도 않았는데 화성에 인구 과잉이 생기는 것을 걱정한다"고 비유했다.^[11] 반면 스튜어트 러셀은 "인간의 독창성을 과소평가하는 것보다 미리 대비하는 것이 낫다"고 주장하며 신중한 접근을 강조했다.^[12]

3. AI 안전 연구의 역사

AI의 위험성에 대한 논의는 컴퓨터 시대 초기부터 시작되었다. 노버트 위너는 기계가 학습 능력을 갖추게 되면 인간의 의지에 반항할 가능성이 있다고 경고했다.^[17]

2008년과 2009년, 인공지능 발전 협회(AAAI)는 AI 연구의 장기적인 사회적 영향을 탐구하는 연구를 의뢰했다. 이 연구는 공상과학 소설에서 제기된 극단적인 견해에는 회의적이었지만, 복잡한 계산 시스템의 행동을 이해하고 검증하는 추가 연구의 필요성에는 동의했다.^[18]

2011년, 로만 얌폴스키는 '인공지능 안전 공학'이라는 용어를 도입하고, 이전 AI 시스템의 실패 사례를 언급하며 AI의 발전과 함께 이러한 사건의 빈도와 심각성이 증가할 것이라고 주장했다.^[19]^[20]^[21]

2014년, 철학자 닉 보스트롬은 저서 ''초지능: 길, 위험, 전략''에서 AGI의 등장이 노동력 대체, 정치 및 군사 구조 조작, 심지어 인류 멸종까지 야기할 수 있다고 주장했다.^[22] 그의 주장은 엘론 머스크,^[23] 빌 게이츠,^[24] 스티븐 호킹^[25]과 같은 저명인사들의 우려를 불러일으켰다.

2015년에는 수많은 AI 전문가들이 AI의 사회적 영향에 대한 연구를 촉구하는 공개 서한에 서명했다.^[26] 이 서한에는 얀 르쿤, 셰인 레그, 요슈아 벤지오, 스튜어트 러셀 등 8,000명 이상이 서명했다.

같은 해, 스튜어트 러셀 교수가 이끄는 학자 그룹은 인간과 호환 가능한 인공지능 센터를 설립했고, 미래 생명 연구소는 AI의 안전, 윤리, 유익성을 목표로 하는 연구에 650만달러를 지원했다.^[27]

2016년, 백악관 과학기술정책국과 카네기멜론대학교는 AI의 안전과 제어에 관한 공개 워크숍을 개최했다.^[28]^[29] 같은 해, AI 안전의 구체적인 문제점을 다룬 연구가 발표되었다.^[30]

2017년, 유익한 인공지능에 관한 아실로마 회의에서 100명 이상의 사상가들이 유익한 AI를 위한 원칙을 제정했다.^[31]

2018년, 딥마인드는 AI 안전 문제를 개략적으로 설명하는 연구를 발표했다.^[32]^[33]

2023년, 영국은 AI 안전 정상회의를 개최하여 최첨단 AI 모델의 위험에 대해 논의하고, 국제 과학 보고서 작성 의도를 발표했다.^[36]^[37]^[38]

2024년, 미국과 영국은 AI 안전 과학 파트너십을 구축하고, AI 모델 테스트 공동 개발에 합의했다.^[39]

4. AI 안전 연구 분야

AI 안전 연구는 크게 강건성, 모니터링, 정렬의 세 가지 분야로 나뉜다.^[35]^[33]

강건성: AI 시스템이 적대적 예제와 같은 의도적인 공격에 취약하지 않도록 하는 것을 목표로 한다.
모니터링: AI 시스템의 신뢰도를 평가하고, 악의적인 사용을 탐지하며, 시스템의 투명성을 확보하는 것을 목표로 한다.
정렬: AI 시스템이 의도된 목표를 달성하도록 보장하는 것을 목표로 한다.

머신러닝 모델은 악의적인 행위자가 인공지능 시스템에 악의적으로 심어 놓은 취약점인 '트로이 목마' 또는 '백도어'를 포함할 수 있다. 예를 들어, 트로이 목마가 심어진 얼굴 인식 시스템은 특정 장신구가 보일 때 접근 권한을 부여할 수 있으며,^[35] 트로이 목마가 심어진 자율주행차는 특정 트리거가 보일 때까지 정상적으로 작동할 수 있다.^[82]

AI 위험은 일반적으로 '오용 또는 사고'로 분류되지만, 일부 학자들은 이러한 틀이 부족하다고 지적한다.^[85] 이들은 경쟁 압력, 피해 확산, 빠른 개발 속도, 높은 불확실성, 부적절한 안전 문화와 같은 '구조적' 또는 '체계적' 요인이 AI 위험을 발생시킨다고 주장한다.^[85]

이러한 구조적 관점에서, 일부 연구자들은 사회기술적 안전 요소를 개선하기 위해 기계 학습을 사용하는 것의 중요성을 강조한다. 예를 들어, 사이버 방어를 위한 ML 사용, 제도적 의사결정 개선 및 협력 촉진 등이 있다.^[35]

4. 1. 강건성 (Robustness)

AI 안전 연구 분야에는 강건성, 모니터링 및 정렬이 포함된다.^[35]^[33] AI 시스템은 적대적 예제와 같이 의도적인 공격에 취약할 수 있으며, 이러한 공격을 방어하고 시스템이 원래 의도된 목표를 달성하도록 보장하기 위한 연구가 진행 중이다.

4. 1. 1. 적대적 견고성 (Adversarial robustness)

AI 시스템은 종종 적대적 예제에 취약하다. 적대적 예제란 공격자가 모델의 오류를 유발하기 위해 의도적으로 설계한 기계 학습(ML) 모델의 입력을 의미한다.^[40] 예를 들어, 2013년 Szegedy 등은 이미지에 특정한 미세한 섭동을 추가하면 높은 확신도로 잘못 분류될 수 있다는 것을 발견했다.^[41] 이는 신경망에서 계속해서 문제가 되고 있지만, 최근 연구에서는 섭동이 일반적으로 눈에 띄는 정도로 커졌다.^[42]^[43]^[44]

주의 깊게 제작된 노이즈는 이미지에 추가되어 높은 확신도로 잘못 분류되도록 할 수 있다.

오른쪽의 모든 이미지는 섭동이 적용된 후 타조로 예측된다. (왼쪽)은 정확하게 예측된 샘플, (중앙)은 10배 확대된 섭동이 적용된 이미지, (오른쪽)은 적대적 예제이다.^[41]

적대적 견고성은 종종 보안과 관련이 있다.^[45] 연구자들은 음성 신호를 미세하게 수정하여 음성 텍스트 변환 시스템이 공격자가 선택한 메시지로 전사되도록 할 수 있음을 보여주었다.^[46] 네트워크 침입^[47] 및 맬웨어^[48] 탐지 시스템 또한 공격자가 탐지를 속이도록 공격을 설계할 수 있으므로 적대적으로 견고해야 한다.

목표(보상 모델)를 나타내는 모델도 적대적으로 견고해야 한다. 예를 들어, 보상 모델은 텍스트 응답이 얼마나 유용한지를 추정할 수 있으며, 언어 모델은 이 점수를 극대화하도록 훈련될 수 있다.^[49] 연구자들은 언어 모델을 충분히 오랫동안 훈련시키면 보상 모델의 취약성을 이용하여 더 나은 점수를 얻고 의도된 작업에서는 성능이 저하된다는 것을 보여주었다.^[50] 이 문제는 보상 모델의 적대적 견고성을 향상시켜 해결할 수 있다.^[51] 보다 일반적으로, 다른 AI 시스템을 평가하는 데 사용되는 모든 AI 시스템은 적대적으로 견고해야 한다. 이는 모니터링 도구도 포함될 수 있는데, 이는 더 높은 보상을 생성하도록 조작될 가능성이 있기 때문이다.^[52]

4. 2. 모니터링 (Monitoring)

AI 안전 연구는 강건성, 모니터링, 정렬 등을 포함한다.^[35]^[33] 모니터링은 AI 시스템의 신뢰도를 평가하고, 악의적인 사용을 탐지하며, 시스템의 투명성을 확보하기 위한 연구 분야이다.

AI 시스템은 적대적 예제에 취약한 경우가 많다.^[40] 예를 들어 2013년 연구에서는 이미지에 미세한 섭동을 추가하면 높은 확신도로 잘못 분류될 수 있음을 발견했다.^[41]

적대적 견고성은 보안과 관련이 깊다.^[45] 연구자들은 음성 신호를 미세하게 수정하여 음성 텍스트 변환 시스템이 공격자가 선택한 메시지로 전사되도록 할 수 있음을 보여주었다.^[46] 네트워크 침입^[47] 및 맬웨어^[48] 탐지 시스템 또한 공격자가 탐지를 속이도록 공격을 설계할 수 있으므로 적대적으로 견고해야 한다.

목표(보상 모델)를 나타내는 모델도 적대적으로 견고해야 한다. 예를 들어, 보상 모델은 텍스트 응답이 얼마나 유용한지를 추정할 수 있으며, 언어 모델은 이 점수를 극대화하도록 훈련될 수 있다.^[49] 연구자들은 언어 모델을 충분히 오랫동안 훈련시키면 보상 모델의 취약성을 이용하여 더 나은 점수를 얻고 의도된 작업에서는 성능이 저하된다는 것을 보여주었다.^[50] 이 문제는 보상 모델의 적대적 견고성을 향상시켜 해결할 수 있다.^[51]

AI 시스템을 평가하는 데 사용되는 모든 AI 시스템은 적대적으로 견고해야 하며, 여기에는 모니터링 도구도 포함될 수 있다.^[52]

AI 위험은 '오용 또는 사고'로 분류되기도 하지만, 일부 학자들은 이러한 틀이 부족하다고 지적하며, '구조적' 또는 '체계적' 요인에서 발생하는 위험을 강조한다.^[85] 구조적 관점에서 영감을 받은 일부 연구자들은 사회기술적 안전 요소를 개선하기 위해 기계 학습을 사용하는 것의 중요성을 강조한다.^[35]

4. 2. 1. 불확실성 추정 (Estimating uncertainty)

AI 시스템은 훈련받은 상황과 다른 상황에서 과신하는 경향이 있어, 예측의 신뢰도를 평가하는 연구가 중요하다.^[54]^[55] 머신러닝 모델은 일반적으로 확률을 출력하여 신뢰도를 나타내지만, 이러한 확률이 실제 정답 비율과 일치하도록 하는 보정 연구가 진행되고 있다.^[53]^[54]

이와 유사하게, 이상 탐지는 AI 시스템이 특이한 상황에 직면했을 때 이를 식별하는 것을 목표로 한다. 예를 들어, 자율 주행 차량의 센서가 오작동하거나 험한 지형을 만나는 경우, 운전자에게 제어권을 넘기거나 차를 세우도록 경고해야 한다.^[56] 이상 탐지는 이상 입력과 비이상 입력을 구분하는 분류기를 훈련시켜 구현할 수 있으며,^[57] 이 외에도 다양한 기술이 활용되고 있다.^[58]^[59]

4. 2. 2. 악의적 사용 탐지 (Detecting malicious use)

학계 및 정부 기관들은 AI 시스템이 악의적인 행위자에 의해 무기 제작,^[60] 여론 조작,^[61]^[62] 사이버 공격 자동화^[63] 등에 악용될 수 있다는 우려를 표명했다. 이러한 우려는 OpenAI와 같이 강력한 AI 도구를 온라인으로 제공하는 기업들에게 현실적인 문제이다.^[64] 오용을 방지하기 위해 OpenAI는 사용자의 활동을 기반으로 사용자를 플래그하거나 제한하는 탐지 시스템을 구축했다.^[65]

4. 2. 3. 투명성 (Transparency)

AI 시스템은 수많은 계산을 수행하기 때문에 어떤 결정을 내리는지 이해하기 어려워 블랙박스로 설명되기도 한다.^[66]^[67] 이는 오류를 예측하기 어렵게 만들며, 실제로 2018년에는 자율주행차가 보행자를 식별하지 못해 사고가 발생하기도 했다. AI 소프트웨어의 블랙박스 특성으로 인해 실패 원인은 여전히 불분명하다.^[68]

투명성은 이러한 문제를 해결하는 데 중요한 역할을 한다. 투명성의 이점은 다음과 같다:

설명 가능성: AI 시스템의 결정 과정을 이해하고 설명할 수 있으면, 특히 공정성을 위해 결정 이유를 설명해야 하는 경우(예: 구직 신청서 자동 필터링, 신용 점수 할당)에 유용하다.^[70]
실패 원인 파악: AI 시스템이 오류를 일으킨 원인을 밝혀낼 수 있다. 예를 들어, 2020년 COVID-19 팬데믹 초기에 연구원들은 투명성 도구를 사용하여 의료 이미지 분류기가 무관한 병원 라벨에 '주목'하고 있음을 발견했다.^[71]
오류 수정: 투명성 기법은 오류를 수정하는 데에도 사용될 수 있다. 예를 들어, 연구자들은 모델 매개변수를 '편집'하여 모델이 특정 질문에 대해 다르게 응답하도록 만들 수 있었다.^[72]

이러한 투명성 연구는 ML 모델을 덜 불투명하게 만드는 것을 목표로 하는 "내부 해석성 연구"와 관련이 있다. 예를 들어, 연구자들은 특정 이미지나 단어에 반응하는 뉴런을 식별하거나,^[77] 언어 모델이 문맥에서 학습하는 방식에 역할을 하는 패턴 매칭 메커니즘을 식별하기도 했다.^[80]

한편, 머신러닝 모델에는 악의적인 행위자가 심어 놓은 취약점인 '트로이 목마' 또는 '백도어'가 존재할 수 있다. 예를 들어, 트로이 목마가 심어진 얼굴 인식 시스템은 특정 장신구가 보일 때 접근 권한을 부여하거나,^[35] 트로이 목마가 심어진 자율주행차는 특정 트리거가 보일 때까지 정상적으로 작동하다가 오작동을 일으킬 수 있다.^[82] 연구자들은 트로이 목마가 더 나은 모니터링 도구를 테스트하고 개발하기 위한 환경을 제공한다고 주장한다.^[52]

4. 3. 정렬 (Alignment)

AI 시스템은 종종 적대적 예제에 취약하다. 예를 들어, 이미지에 특정한 미세한 섭동을 추가하면 높은 확신도로 잘못 분류될 수 있다.^[41] 이는 신경망에서 계속해서 문제가 되고 있다.

오른쪽의 모든 이미지는 섭동이 적용된 후 타조로 예측된다. (왼쪽)은 정확하게 예측된 샘플, (중앙)은 10배 확대된 섭동이 적용된 이미지, (오른쪽)은 적대적 예제이다.^[41]

목표(보상 모델)를 나타내는 모델도 적대적으로 견고해야 한다. 예를 들어, 보상 모델은 텍스트 응답이 얼마나 유용한지를 추정할 수 있으며, 언어 모델은 이 점수를 극대화하도록 훈련될 수 있다.^[49] 연구자들은 언어 모델을 충분히 오랫동안 훈련시키면 보상 모델의 취약성을 이용하여 더 나은 점수를 얻고 의도된 작업에서는 성능이 저하된다는 것을 보여주었다.^[50] 이 문제는 보상 모델의 적대적 견고성을 향상시켜 해결할 수 있다.^[51]

4. 4. 시스템 안전 및 사회기술적 요인 (Systemic safety and sociotechnical factors)

AI 위험은 단순히 기술적인 문제에 국한되지 않고, 사회적, 구조적 요인들과도 깊이 연관되어 있다. 경쟁 압력, 피해 확산, 빠른 개발 속도, 높은 불확실성, 그리고 부적절한 안전 문화 등은 AI 위험을 증폭시키는 주요 요인들이다.^[85] 이러한 요인들은 안전 공학(safety engineering) 분야에서 중요하게 다루어지는 '조직 안전 문화'와 같은 구조적 문제와도 관련이 있으며, STAMP 위험 분석 프레임워크에서 핵심적인 역할을 한다.^[86]

이러한 구조적 관점에서, 일부 연구자들은 사회기술적 안전 요소를 개선하기 위해 기계 학습을 활용하는 것이 중요하다고 강조한다. 예를 들어, 사이버 공격과 방어 모두에 AI가 사용될수 있다는 우려에 대응하여 사이버 방어에 ML을 활용하거나, 제도적 의사결정을 개선하고, 국가, 기업, 연구기관 간의 협력을 촉진하는 것 등이 이에 해당한다.^[35]

4. 4. 1. 사이버 방어 (Cyber defense)

AI는 사이버 공격과 방어 모두에 사용될 수 있다는 우려가 제기되고 있다.^[87] AI가 사이버 공격자와 방어자 간의 불균형을 심화시켜, 공격적인 사이버 공격을 유발할 수 있다는 것이다.^[87] 이러한 위험을 줄이기 위해 사이버 방어에 더 많은 노력을 기울여야 한다는 주장이 제기된다.^[87]

강력한 AI 모델이 도난당하거나 악용되는 것을 막기 위해 소프트웨어 보안 또한 필수적이다.^[6] 최근 연구에 따르면 AI는 기술적, 관리적 사이버 보안 작업을 자동화하고 효율성을 높여 사이버 보안을 크게 향상시킬 수 있다.^[88]

4. 4. 2. 제도적 의사결정 개선 (Improving institutional decision-making)

AI는 예측^[91] 및 자문 시스템^[92] 개발을 통해 의사결정 과정을 지원하고, 정치적 난관을 해결하는 데 기여할 수 있다.^[35] 이는 AI 발전이 경제 및 군사 분야에서 전례 없는 정치적 난관을 초래할 수 있기 때문이다.^[89] 일부 학자들은 인공지능 경쟁을 냉전 시대에 비유하며, 소수 의사결정자들의 신중한 판단이 안정과 재앙의 차이를 만들었다고 주장한다.^[90]

4. 4. 3. 협력 촉진 (Facilitating cooperation)

AI 안전을 확보하려면 국가, 기업, 연구기관 간의 협력이 필수적이며, '최악의 경쟁' 시나리오를 피하기 위한 노력이 필요하다.^[95] 이러한 시나리오에 대한 우려는 인간 간의 협력을, 그리고 잠재적으로 AI 시스템 간의 협력을 촉진하기 위한 정치적,^[96] 기술적^[97] 노력을 불러일으켰다.
최악의 경쟁 시나리오'최악의 경쟁'은 국가나 기업이 더 강력한 AI 시스템을 개발하기 위해 경쟁하면서 안전을 소홀히 하여, 관련된 모든 사람에게 피해를 주는 치명적인 사고로 이어질 수 있는 상황을 말한다.^[95]
AI 시스템 간 협력의 중요성대부분의 AI 연구는 고립된 기능(종종 '싱글 플레이어' 게임)을 수행하는 개별 에이전트를 설계하는 데 초점을 맞추고 있다.^[98] 학자들은 AI 시스템이 더욱 자율적으로 됨에 따라, AI 시스템들이 상호 작용하는 방식을 연구하고 형성하는 것이 필수적이 될 수 있다고 제안했다.^[98] 즉, 미래 AI 안전 연구에서는 AI 시스템 간의 협력을 연구하고 촉진하는 것이 중요한 방향이 될 수 있다.

4. 4. 4. 대규모 언어 모델(LLM)의 과제

연구자 벤더와 게브루 등^[99]은 대규모 언어 모델(LLM)을 훈련하는 데 드는 환경적 및 재정적 비용을 강조하며, 트랜스포머 모델과 같은 모델의 훈련 절차에 따른 에너지 소비와 탄소 발자국이 상당할 수 있다고 지적했다. 뿐만 아니라, 이러한 모델은 종종 방대하고 검증되지 않은 인터넷 기반 데이터셋에 의존하는데, 이는 지배적인 편향된 견해를 반영하여 소외된 집단을 더욱 소외시킬 수 있다. 방대한 규모의 훈련 데이터는 다양성을 보장하지 않으며, 종종 특권층의 세계관을 반영하여 기존의 편견과 고정관념을 영속화하는 모델로 이어진다. 이러한 상황은 이러한 모델이 일관성 있고 유창한 텍스트를 생성하는 경향 때문에 더욱 악화되는데, 이는 사용자들이 실제로 존재하지 않는 의미와 의도를 부여하도록 오도할 수 있으며, '확률적 앵무새'로 설명된다. 따라서 이러한 모델은 사회적 편견을 증폭시키고, 잘못된 정보를 퍼뜨리고, 극단주의 선전이나 딥페이크 생성과 같은 악의적인 목적으로 사용될 위험을 안고 있다. 이러한 문제를 해결하기 위해 연구자들은 데이터셋 생성 및 시스템 개발에서 보다 신중한 계획을 옹호하며, 공정한 기술 생태계에 긍정적으로 기여하는 연구 프로젝트의 필요성을 강조한다.^[100]^[101]

5. 거버넌스

AI 거버넌스는 인공지능 시스템의 사용과 개발을 안내하기 위한 규범, 표준 및 규정을 만드는 것을 의미한다.^[90]

인공지능 안전 거버넌스는 전기와 증기 기관에 비유될 정도로 사회의 많은 부분을 변화시킬 수 있는 인공지능의 잠재적 영향에 대한 기초적인 조사부터, 대량 실업,^[104] 무기화,^[105] 허위 정보,^[106] 감시,^[107] 권력 집중^[108], 급속히 진화하는 인공지능 산업을 모니터링하기 어려운 점,^[109] 인공지능 모델의 가용성,^[110] 그리고 '최저가 경쟁' 역학^[95]^[111]등의 특정 위험을 예측하고, 근본적인 위험 요인을 탐구하는 연구를 포함한다.

딥마인드의 장기 거버넌스 및 전략 책임자인 앨런 데이포는 경쟁의 위험과 협력의 잠재적 필요성을 강조했다.^[96]

인공지능의 안전을 위한 노력에는 인공지능 출력을 윤리적 지침과 일치시키고 오용 및 데이터 유출과 같은 위험을 줄이도록 설계된 프레임워크가 포함된다. 엔비디아(Nvidia)의 가드레일,^[115] 라마 가드,^[116] 프리앰블의 사용자 정의 가드레일^[117]과 같은 도구는 프롬프트 인젝션과 같은 취약성을 완화하고 출력이 미리 정의된 원칙을 준수하도록 한다.^[118]

5. 1. 연구

최근 몇 년 동안 대규모 언어 모델(LLM)의 발전은 AI 안전 분야에서 독특한 우려를 불러일으켰다. 연구자 벤더와 게브루 등^[99]은 이러한 모델을 훈련하는 데 드는 환경적 및 재정적 비용을 강조하며, 트랜스포머 모델과 같은 모델의 훈련 절차에 따른 에너지 소비와 탄소 발자국이 상당할 수 있다고 지적했다. 뿐만 아니라, 이러한 모델은 종종 방대하고 검증되지 않은 인터넷 기반 데이터셋에 의존하는데, 이는 지배적인 편향된 견해를 반영하여 소외된 집단을 더욱 소외시킬 수 있다. 방대한 규모의 훈련 데이터는 다양성을 보장하지 않으며, 종종 특권층의 세계관을 반영하여 기존의 편견과 고정관념을 영속화하는 모델로 이어진다. 이러한 상황은 이러한 모델이 일관성 있고 유창한 텍스트를 생성하는 경향 때문에 더욱 악화되는데, 이는 사용자들이 실제로 존재하지 않는 의미와 의도를 부여하도록 오도할 수 있으며, 이는 '확률적 앵무새'로 설명된다. 따라서 이러한 모델은 사회적 편견을 증폭시키고, 잘못된 정보를 퍼뜨리고, 극단주의 선전이나 딥페이크 생성과 같은 악의적인 목적으로 사용될 위험을 안고 있다. 이러한 문제를 해결하기 위해 연구자들은 데이터셋 생성 및 시스템 개발에서 보다 신중한 계획을 옹호하며, 공정한 기술 생태계에 긍정적으로 기여하는 연구 프로젝트의 필요성을 강조한다.^[100]^[101]

인공지능 안전 거버넌스 연구는 인공지능의 잠재적 영향에 대한 기초적인 조사부터 특정 응용 분야까지 다양한 범위를 아우른다. 기초적인 측면에서 연구자들은 인공지능이 광범위한 적용성으로 인해 사회의 많은 측면을 변화시킬 수 있다고 주장하며, 이를 전기와 증기 기관에 비유했다.^[103] 일부 연구는 이러한 영향으로 인해 발생할 수 있는 특정 위험, 예를 들어 대량 실업,^[104] 무기화,^[105] 허위 정보,^[106] 감시,^[107] 권력 집중^[108] 등의 위험을 예측하는 데 중점을 두었다. 다른 연구는 급속히 진화하는 인공지능 산업을 모니터링하기 어려운 점,^[109] 인공지능 모델의 가용성,^[110] 그리고 '최저가 경쟁' 역학^[95]^[111]과 같은 근본적인 위험 요인을 탐구한다. 딥마인드의 장기 거버넌스 및 전략 책임자인 앨런 데이포는 경쟁의 위험과 협력의 잠재적 필요성을 강조했다.^[96] 한 연구 흐름은 인공지능 책임성을 평가하고, 인공지능 기반 시스템의 감사를 안내하고 촉진하기 위한 접근 방식, 프레임워크 및 방법을 개발하는 데 중점을 둔다.^[112]^[113]^[114]

인공지능 안전을 강화하기 위한 노력에는 인공지능 출력을 윤리적 지침과 일치시키고 오용 및 데이터 유출과 같은 위험을 줄이도록 설계된 프레임워크가 포함된다. 엔비디아(Nvidia)의 가드레일(Guardrails),^[115] 라마 가드,^[116] 그리고 프리앰블의 사용자 정의 가드레일^[117]과 같은 도구는 프롬프트 인젝션과 같은 취약성을 완화하고 출력이 미리 정의된 원칙을 준수하도록 한다. 이러한 프레임워크는 종종 인공지능 시스템에 통합되어 안전성과 신뢰성을 향상시킨다.^[118]

5. 2. 철학적 관점

AI 안전 분야는 철학적 고려 사항, 특히 윤리 영역과 깊이 연관되어 있다. 인공지능 윤리와 일치시키기 위해 의무론적 윤리는 AI 시스템을 인간의 가치와 일치시키는 틀로 제안되었다. 의무론적 원칙을 통합함으로써 AI 시스템은 해를 끼치는 행위를 피하도록 유도되어 작동이 윤리적 경계 내에 머물도록 할 수 있다.^[119]

5. 3. 지역적 해결책과 전 지구적 해결책

AI 안전 문제를 해결하기 위해서는 지역적 해결책과 전 지구적 해결책이 모두 필요하다. 지역적 해결책은 개별 AI 시스템이 안전하고 유익하도록 보장하는 데 초점을 맞추는 반면, 전 지구적 해결책은 다양한 국가 및 지역에 걸쳐 모든 AI 시스템에 대한 안전 조치를 구현하려고 한다. 일부 연구자들은^[120] 지역적 안전 조치를 전 지구적 수준으로 확장해야 한다고 주장하며, 이러한 전 지구적 해결책에 대한 분류를 제안한다. 이러한 접근 방식은 AI 안전의 국제 거버넌스에서 협력의 중요성을 강조하며, 어떤 단일 기관도 AI 기술과 관련된 위험을 효과적으로 관리할 수 없다는 점을 강조한다. 이는 전 세계적으로 고급 AI 시스템이 제기하는 복잡한 문제를 해결하기 위한 국제 정책 결정 및 규제 프레임워크의 지속적인 노력과 일치한다.^[121]^[122]

5. 4. 정부의 조치

인공지능(AI)의 위험성은 컴퓨터 시대 초기부터 논의되어 왔다. 1949년 노버트 위너는 기계가 학습 능력을 갖추면 인간의 의지에 반항할 가능성이 있다고 경고했다.^[17] 2011년, 로만 얌폴스키는 '인공지능 안전 공학'이라는 용어를 도입하며, AI 시스템의 능력 향상에 따라 사건 발생 빈도와 심각성이 증가할 것이라고 주장했다.^[21]

2015년에는 여러 AI 전문가들이 인공지능에 관한 공개 서한에 서명하여 사회적 영향 연구를 촉구했다.^[26] 얀 르쿤, 요슈아 벤지오 등 8,000명 이상이 이 서한에 서명했다. 2016년, 백악관 과학기술정책국과 카네기멜론대학교는 AI의 안전과 제어에 관한 공개 워크숍을 개최했다.^[28] 이는 AI의 장단점을 조사하기 위한 네 번의 백악관 워크숍 중 하나였다.^[29]

2021년 9월, 중국은 AI 사용에 대한 윤리 지침을 발표하여 AI 결정이 인간의 통제하에 있어야 한다고 강조했다. 같은 달, 영국은 10년 국가 AI 전략을 발표하며, 장기적인 AI 위험을 평가하기 위한 조치를 설명했다.^[129]

특히 미국에서는 DARPA가 AI 시스템의 트로이 목마 공격을 식별하고 보호하기 위한 TrojAI 프로젝트를 시작했다.^[132] 또한, 설명 가능한 인공지능 연구와 적대적 공격에 대한 방어력 향상에 힘쓰고 있다.^[133]^[134] 국립과학재단은 신뢰할 수 있는 기계 학습 센터를 지원하고 경험적 AI 안전 연구에 자금을 지원하고 있다.^[135]

2023년, 리시 수낵 영국 총리는 영국이 "세계 인공지능 안전 규제의 지리적 중심지"가 되기를 원한다고 밝혔다.^[36]

5. 4. 1. 국제 협력

2023년 11월, 영국에서 인공지능 안전 정상회의가 개최되어 최첨단 인공지능 모델의 오용 및 제어 상실 위험에 대한 국제적 논의가 이루어졌다.^[37] 이 회의에서는 고급 인공지능의 안전에 관한 국제 과학 보고서^[38] 작성 계획이 발표되었다.

2024년, 미국과 영국은 인공지능 안전 과학 분야에서 협력하기로 합의했다. 양국은 2024년 4월 1일에 고급 인공지능 모델 테스트를 공동 개발하기 위한 양해각서에 서명했다.^[39] 이는 2023년 11월 블레치리 파크에서 열린 인공지능 안전 정상회의의 후속 조치이다.

같은 해, 유엔 총회는 인공지능 시스템의 설계, 개발, 배포 및 사용 과정에서 인권을 존중하고 보호하며 증진해야 한다는 내용을 담은 결의안을 채택했다.^[136] 이는 "안전하고, 확실하며, 신뢰할 수 있는" AI 시스템을 촉진하기 위한 첫 번째 세계 결의안이다.

2024년 5월, 영국 과학혁신기술부(DSIT)는 AI 안전 연구소(AI Safety Institute)가 주도하는 시스템 AI 안전 신속 지원 프로그램(Systemic AI Safety Fast Grants Programme)에 850만파운드를 지원한다고 발표했다. AI 서울 서밋에서 이 계획을 발표하면서, 영국은 AI를 안전하게 만들기 위한 유망한 제안에 추가 자금을 지원할 것이라고 밝혔다. 또한 영국은 다른 10개국 및 EU와 협력하여 AI 안전 연구소의 국제 네트워크를 구축하고 정보와 자원을 공유하기로 합의했다. 영국 AI 안전 연구소는 샌프란시스코에 사무실을 개설할 예정이다.^[137]

이처럼 주요 국가들은 AI 안전 연구 및 정책 개발에 적극적으로 참여하고 있으며, 국제적인 협력 체계를 구축하고 있다.

5. 5. 기업의 자율 규제

AI 연구소와 기업들은 일반적으로 공식적인 법률 규제 외에도 자체적인 안전 관행과 규범을 준수하고 있다.^[138] 이러한 규범을 형성하는 것은 거버넌스 연구자들의 목표 중 하나이다. 안전 권고의 예로는 다음이 있다.

권고 사항	내용
제3자 감사 수행^[139]	외부 전문가를 통해 AI 시스템의 안전성을 검증
결함 발견에 대한 현상금 제공^[139]	AI 시스템의 취약점을 발견한 사람에게 보상
AI 사고 공유^[139]	AI 시스템 관련 사고 사례를 공유하여 문제 해결 및 예방 (AI 사고 데이터베이스^[140] 활용)
연구 또는 모델 공개 지침 준수^[110]	AI 연구 결과나 모델 공개 시 안전 관련 지침을 따름
정보 및 사이버 보안 개선^[141]	AI 연구소의 정보 보안 및 사이버 공격 방어 능력 강화

기업들은 또한 여러 약속을 했다. 코히어(Cohere), 오픈AI(OpenAI), AI21은 오용을 완화하는 데 중점을 둔 "언어 모델 배포를 위한 모범 사례"를 제안하고 합의했다.^[142] 오픈AI(OpenAI)는 자체 헌장에서 "가치에 부합하고 안전을 중시하는 프로젝트가 우리보다 먼저 AGI(범용 인공지능)를 구축하는 데 근접한다면, 우리는 경쟁을 중단하고 해당 프로젝트를 지원하기로 약속합니다"라고 명시하여 경쟁 심화 방지를 위한 노력을 보였다.^[143] 또한, 딥마인드(DeepMind)의 데미스 하사비스(Demis Hassabis) CEO, 페이스북 AI의 얀 르쿤(Yann LeCun) 감독과 같은 업계 리더들은 아실로마 원칙^[31] 및 자율 무기 공개 서한^[144]과 같은 공개 서한에 서명했다.

참조

_[1] 잡지 U.K.'s AI Safety Summit Ends With Limited, but Meaningful, Progress https://time.com/633[...] 2024-06-02
_[2] PhD Machine Learning in High-Stakes Settings: Risks and Opportunities Carnegie Mellon University 2020-05-13
_[3] 학술지 A Survey on Bias and Fairness in Machine Learning https://dl.acm.org/d[...] 2022-11-28
_[4] 보고서 The Global Expansion of AI Surveillance Carnegie Endowment for International Peace 2019
_[5] 학술지 Risks from AI persuasion https://www.lesswron[...] 2021
_[6] 학술지 The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation https://www.reposito[...] Apollo - University of Cambridge Repository 2022-11-28
_[7] 웹사이트 How NATO is preparing for a new era of AI cyber attacks https://www.euronews[...] 2024-03-23
_[8] 웹사이트 AI's bioterrorism potential should not be ruled out https://www.ft.com/c[...] 2024-03-23
_[9] 학술지 Is Power-Seeking AI an Existential Risk? 2022-06-16
_[10] 웹사이트 The grim fate that could be 'worse than extinction' https://www.bbc.com/[...] 2024-03-23
_[11] 웹사이트 AGI Expert Peter Voss Says AI Alignment Problem is Bogus https://www.nextbigf[...] 2023-07-23
_[12] 웹사이트 Yes, We Are Worried About the Existential Risk of Artificial Intelligence https://www.technolo[...] 2016
_[13] 학술지 Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts https://jair.org/ind[...] 2022-11-28
_[14] 학술지 Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers 2021-05-05
_[15] 웹사이트 2022 Expert Survey on Progress in AI https://aiimpacts.or[...] 2022-11-23
_[16] 학술지 What Do NLP Researchers Believe? Results of the NLP Community Metasurvey 2022-08-26
_[17] 뉴스 In 1949, He Imagined an Age of Robots https://www.nytimes.[...] 2013-05-20
_[18] 웹사이트 AAAI Presidential Panel on Long-Term AI Futures https://www.aaai.org[...] 2022-11-23
_[19] 학술지 Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures 2016-10-25
_[20] 웹사이트 PT-AI 2011 – Philosophy and Theory of Artificial Intelligence (PT-AI 2011) https://conference.r[...] 2022-11-23
_[21] 서적 Artificial Intelligence Safety Engineering: Why Machine Ethics is a Wrong Approach http://link.springer[...] Springer Berlin Heidelberg 2022-11-23
_[22] 학술지 The risks associated with Artificial General Intelligence: A systematic review 2023-07-04
_[23] 웹사이트 Elon Musk: Artificial Intelligence Is 'Potentially More Dangerous Than Nukes' https://www.business[...] 2024-02-22
_[24] 비디오 미디어 Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29, 2015 https://www.youtube.[...] 2022-11-23
_[25] 뉴스 Stephen Hawking warns artificial intelligence could end mankind https://www.bbc.com/[...] 2014-12-02
_[26] 웹사이트 Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter https://futureoflife[...] 2022-11-23
_[27] 웹사이트 AI Research Grants Program https://futureoflife[...] 2022-11-23
_[28] 웹사이트 SafArtInt 2016 https://www.cmu.edu/[...] 2022-11-23
_[29] 웹사이트 UW to host first of four White House public workshops on artificial intelligence https://www.washingt[...] 2016
_[30] 학술지 Concrete Problems in AI Safety 2016-07-25
_[31] 웹사이트 AI Principles https://futureoflife[...] 2022-11-23
_[32] 보고서 International Scientific Report on the Safety of Advanced AI https://hal.science/[...] Department for Science, Innovation and Technology 2024-05
_[33] 웹사이트 Building safe artificial intelligence: specification, robustness, and assurance https://deepmindsafe[...] 2018-09-27
_[34] 웹사이트 SafeML ICLR 2019 Workshop https://sites.google[...] 2022-11-23
_[35] 학술지 Unsolved Problems in ML Safety 2022-06-16
_[36] 웹사이트 British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley https://www.cnbc.com[...] 2023-06-25
_[37] 뉴스 UK's AI safety summit set to highlight risk of losing human control over 'frontier' models https://www.euractiv[...] 2024-03-02
_[38] 웹사이트 International Scientific Report on the Safety of Advanced AI https://assets.publi[...] 2024-05-17
_[39] 뉴스 US, Britain announce partnership on AI safety, testing https://www.reuters.[...] 2024-04-01
_[40] 웹사이트 Attacking Machine Learning with Adversarial Examples https://openai.com/b[...] 2017-02-24
_[41] 논문 Intriguing properties of neural networks 2014-02-19
_[42] 논문 Adversarial examples in the physical world 2017-02-10
_[43] 논문 Towards Deep Learning Models Resistant to Adversarial Attacks 2019-09-04
_[44] 논문 Adversarial Logit Pairing 2018-03-16
_[45] 논문 Motivating the Rules of the Game for Adversarial Example Research 2018-07-19
_[46] 논문 Audio Adversarial Examples: Targeted Attacks on Speech-to-Text 2018-03-29
_[47] 논문 Adversarial Examples in Constrained Domains 2022-09-09
_[48] 논문 Exploring Adversarial Examples in Malware Detection 2019-04-13
_[49] 논문 Training language models to follow instructions with human feedback 2022-03-04
_[50] 논문 Scaling Laws for Reward Model Overoptimization 2022-10-19
_[51] 논문 RoMA: Robust Model Adaptation for Offline Model-based Optimization 2021-10-27
_[52] 논문 X-Risk Analysis for AI Research 2022-09-20
_[53] 논문 Deep learning in cancer diagnosis, prognosis and treatment selection 2021
_[54] 논문 On calibration of modern neural networks PMLR 2017-08-06
_[55] 논문 Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift 2019-12-17
_[56] 서적 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) 2021
_[57] 논문 Deep Anomaly Detection with Outlier Exposure 2019-01-28
_[58] 논문 ViM: Out-Of-Distribution with Virtual-logit Matching 2022-03-21
_[59] 논문 A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks 2018-10-03
_[60] 논문 Dual use of artificial-intelligence-powered drug discovery 2022
_[61] 웹사이트 Truth, Lies, and Automation: How Language Models Could Change Disinformation https://cset.georget[...] 2021
_[62] 웹사이트 Propaganda-as-a-service may be on the horizon if large language models are abused https://venturebeat.[...] 2021-12-14
_[63] 웹사이트 Automating Cyber Attacks: Hype and Reality https://cset.georget[...] 2020
_[64] 웹사이트 Lessons Learned on Language Model Safety and Misuse https://openai.com/b[...] 2022-03-03
_[65] 웹사이트 New-and-Improved Content Moderation Tooling https://openai.com/b[...] 2022-08-10
_[66] 논문 Breaking into the black box of artificial intelligence https://www.nature.c[...] 2022-03-29
_[67] 웹사이트 Key Concepts in AI Safety: Interpretability in Machine Learning https://cset.georget[...] 2021
_[68] 웹사이트 Uber pulls self-driving cars after first fatal crash of autonomous vehicle https://money.cnn.co[...] 2018-03-19
_[69] 논문 Coming to Terms with the Black Box Problem: How to Justify AI Systems in Health Care https://onlinelibrar[...] 2021-07
_[70] 논문 Accountability of AI Under the Law: The Role of Explanation 2019-12-20
_[71] 논문 Interpretable Explanations of Black Boxes by Meaningful Perturbation 2017
_[72] 논문 Locating and editing factual associations in GPT 2022
_[73] 논문 Rewriting a Deep Generative Model 2020-07-30
_[74] 논문 Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks 2022-09-05
_[75] 논문 Network Dissection: Quantifying Interpretability of Deep Visual Representations 2017-04-19
_[76] 논문 Acquisition of chess knowledge in AlphaZero 2022-11-22
_[77] 논문 Multimodal neurons in artificial neural networks 2021
_[78] 논문 Zoom in: An introduction to circuits 2020
_[79] 논문 Curve circuits https://distill.pub/[...] 2022-12-05
_[80] 논문 In-context learning and induction heads 2022
_[81] 웹사이트 Interpretability vs Neuroscience [rough note] https://colah.github[...] 2022-11-24
_[82] 논문 BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain 2019-03-11
_[83] 논문 Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning 2017-12-14
_[84] 논문 Poisoning and Backdooring Contrastive Learning 2022-03-28
_[85] 웹사이트 Thinking About Risks From AI: Accidents, Misuse and Structure https://www.lawfarem[...] 2023-08-19
_[86] 논문 Systems theoretic accident model and process (STAMP): A literature review https://linkinghub.e[...] 2023-03-15
_[87] 논문 AI and the Future of Cyber Competition https://cset.georget[...] 2022-11-28
_[88] 논문 The role of artificial intelligence (AI) in improving technical and managerial cybersecurity tasks' efficiency https://doi.org/10.1[...] 2024-01-01
_[89] 논문 AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement https://cset.georget[...] 2022-11-24
_[90] 영상자료 AI Strategy, Policy, and Governance (Allan Dafoe) https://www.youtube.[...] 2022-11-23
_[91] 논문 Forecasting Future World Events with Neural Networks 2022-10-09
_[92] 논문 Augmenting Decision Making via Interactive What-If Analysis 2022-02-08
_[93] 논문 Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited T.M.C. Asser Press 2021
_[94] 웹사이트 Is Climate Change a Prisoner's Dilemma or a Stag Hunt? https://www.theatlan[...] 2022-11-24
_[95] 보고서 Racing to the Precipice: a Model of Artificial Intelligence Development Future of Humanity Institute, Oxford University
_[96] 보고서 AI Governance: A Research Agenda Centre for the Governance of AI, Future of Humanity Institute, University of Oxford
_[97] 논문 Open Problems in Cooperative AI 2020-12-15
_[98] 논문 Cooperative AI: machines must learn to find common ground https://www.nature.c[...] 2022-11-22
_[99] 논문 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 2021
_[100] 논문 Energy and Policy Considerations for Deep Learning in NLP 2019
_[101] 논문 Green AI 2020
_[102] 뉴스 Global Leaders Warn A.I. Could Cause 'Catastrophic' Harm https://www.nytimes.[...] 2024-04-20
_[103] 논문 Artificial intelligence as a general-purpose technology: an historical perspective https://academic.oup[...] 2022-11-24
_[104] 논문 Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review 2020-12-01
_[105] 논문 Artificial intelligence & future warfare: implications for international security https://www.tandfonl[...] 2022-11-24
_[106] 논문 Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered https://brill.com/vi[...] 2022-11-28
_[107] 학회발표 The Global Expansion of AI Surveillance Carnegie Endowment for International Peace 2019
_[108] 서적 The economics of artificial intelligence: an agenda https://www.worldcat[...] 2022-11-28
_[109] 논문 Why and How Governments Should Monitor AI Development 2021-08-31
_[110] 웹사이트 Sharing Powerful AI Models https://www.governan[...] 2022
_[111] 논문 The Role of Cooperation in Responsible AI Development 2019-07-10
_[112] 논문 System Cards for AI-Based Decision-Making for Public Policy 2022-08-31
_[113] 서적 Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency Association for Computing Machinery 2021-03-01
_[114] 서적 Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency Association for Computing Machinery 2020-01-27
_[115] 웹사이트 NeMo Guardrails https://github.com/N[...] 2024-12-08
_[116] 웹사이트 Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations https://ai.meta.com/[...] 2024-12-08
_[117] 논문 AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development
_[118] 논문 Building Guardrails for Large Language Models
_[119] 논문 Deontology and safe artificial intelligence https://doi.org/10.1[...] 2024-12-06
_[120] 논문 Global Solutions vs. Local Solutions for the AI Safety Problem
_[121] 뉴스 Is It Time to Regulate AI? 2022-04-08
_[122] 뉴스 Global Governance of Artificial Intelligence: Opportunities and Challenges 2022-05-15
_[123] 뉴스 Is It Time to Regulate AI? https://www.wsj.com/[...] 2022-11-24
_[124] 논문 How should we regulate artificial intelligence? 2018-09-13
_[125] 웹사이트 How Should AI Be Regulated? https://www.industry[...] 2019-03-07
_[126] 간행물 Final Report 2021
_[127] 웹사이트 AI Risk Management Framework https://www.nist.gov[...] 2021-07-12
_[128] 웹사이트 Britain publishes 10-year National Artificial Intelligence Strategy https://www.theregis[...] 2021
_[129] 웹사이트 Guidance: National AI Strategy https://www.gov.uk/g[...] 2022-11-24
_[130] 웹사이트 We're talking about AI a lot right now – and it's not a moment too soon http://theconversati[...] 2023-10-31
_[131] 웹사이트 Iconic Bletchley Park to host UK AI Safety Summit in early November https://www.gov.uk/g[...] 2023-10-31
_[132] 웹사이트 IARPA – TrojAI https://www.iarpa.go[...] 2022-11-24
_[133] 웹사이트 Explainable Artificial Intelligence https://www.darpa.mi[...] 2022-11-24
_[134] 웹사이트 Guaranteeing AI Robustness Against Deception https://www.darpa.mi[...] 2022-11-24
_[135] 웹사이트 Safe Learning-Enabled Systems https://beta.nsf.gov[...] 2023-02-27
_[136] 뉴스 General Assembly adopts landmark resolution on artificial intelligence https://news.un.org/[...] 2024-04-21
_[137] 뉴스 DSIT announces funding for research on AI safety https://www.ukauthor[...] 2024-06-11
_[138] 논문 Defining organizational AI governance 2022
_[139] 논문 Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims 2020-04-20
_[140] 웹사이트 Welcome to the Artificial Intelligence Incident Database https://incidentdata[...] 2022-11-24
_[141] 웹사이트 Nova DasSarma on why information security may be critical to the safe development of AI systems https://80000hours.o[...] 2022-11-24
_[142] 웹사이트 Best Practices for Deploying Language Models https://openai.com/b[...] 2022-11-24
_[143] 웹사이트 OpenAI Charter https://openai.com/c[...] 2022-11-24
_[144] 웹사이트 Autonomous Weapons Open Letter: AI & Robotics Researchers https://web.archive.[...] 2022-11-24