확률적 앵무새

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

확률적 앵무새는 벤더, 팀닛 게브루 등이 제안한 용어로, 대규모 언어 모델(LLM)이 훈련 데이터를 기반으로 단어를 확률적으로 연결하여 마치 앵무새처럼 의미를 이해하지 못한 채 흉내만 낸다는 비판을 담고 있다. 이 개념은 LLM의 환경적, 경제적 비용, 편향성, 허위 정보 생성 가능성 등과 관련한 위험성을 지적하며, LLM이 실제로 언어를 이해하는지에 대한 논쟁을 촉발했다. 이 용어는 2023년 미국 방언 학회에서 올해의 AI 관련 단어로 선정되었으며, LLM의 한계를 지적하는 데 널리 사용된다.

확률적 앵무새

지도 정보

기본 정보

유형	개념

배경

분야	자연어 처리
제안	에밀리 M. 벤더, 팀닛 게브루, 안젤리나 맥밀런-메이저, 슈마가렛 슈미첼

주요 내용

설명	거대 언어 모델의 잠재적 위험성
문제점	데이터세트의 투명성 부족, 환경적 비용, 무분별한 사용으로 인한 위험, 작업자 착취
해결책	언어 기술 개발에 대한 책임감 있는 접근 방식 강조

📚 더 읽어볼만한 페이지

앵무새 - 코카투
코카투는 앵무목 관앵무과에 속하는 조류의 총칭으로, 볏과 독특한 울음소리, 흰색, 검은색, 회색 깃털이 특징이며, 오스트레일리아, 인도네시아, 필리핀 및 일부 태평양 제도에 서식하며 일부 종은 멸종 위기에 처해 있다.
언어철학 개념 - 실재
실재는 철학, 과학, 사회문화, 기술 등 다양한 관점에서 탐구되는 개념으로, 존재론, 양자역학, 개인의 경험, 동양 철학 등을 통해 현실을 이해하려는 시도가 이루어진다.
언어철학 개념 - 가족 유사성
가족 유사성은 구성원 전체가 공유하는 특징 없이도 서로 겹치고 교차하는 유사성으로 범주화될 수 있는 관계를 뜻하며, 언어, 게임, 숫자 등 다양한 영역에서 나타나고 폭넓게 응용된다.
구글에 대한 비판 - 팀닛 게브루
팀닛 게브루는 인공지능 윤리 문제를 연구하는 에티오피아계 미국인 컴퓨터 과학자이며, 알고리즘 편향성 및 대규모 언어 모델의 위험성을 연구하고 기술 분야의 다양성 증진과 사회 정의 실현을 위해 노력한다.
구글에 대한 비판 - 구글과 관련된 개인정보 문제
구글은 다양한 서비스를 통해 방대한 양의 사용자 데이터를 수집하여 맞춤형 광고 및 서비스 개선에 활용하지만, 이로 인해 데이터 유출 가능성, 정부 기관과의 연계 의혹, 개인 정보 보호 우려 등 법적, 사회적 문제들이 발생하고 있습니다.

1. 개요
2. 용어의 기원 및 정의
- 2.1. 어원
- 2.2. 개념
3. 논란과 쟁점
4. 구글과의 갈등
5. 사회적 영향 및 활용

2. 용어의 기원 및 정의

이 용어는 2021년 에밀리 M. 벤더, 팀닛 게브루, 안젤리나 맥밀런-메이저, 마가렛 미첼(가명 "슈마가렛 슈미첼" 사용)이 발표한 논문 "확률적 앵무새의 위험성: 언어 모델은 너무 커질 수 있는가? 🦜"에서 처음 사용되었다. 저자들은 거대 언어 모델(LLM)이 환경적, 재정적 비용을 발생시키고, 설명할 수 없는 미지의 위험한 편향성을 가질 수 있으며, 허위 정보 생성에 사용될 가능성이 있다고 지적했다. 또한, LLM은 학습 대상에 포함된 개념을 이해할 수 없다고 주장했다.

"확률적 앵무새"는 현재 AI 회의론자들이 기계가 출력의 의미를 이해하지 못한다는 것을 지칭하기 위해 사용되는 신조어이며, 때로는 "AI에 대한 모욕"으로 해석된다. 이 용어는 OpenAI의 CEO인 샘 알트먼이 "i am a stochastic parrot and so r u (나도 너희도 확률적 앵무새잖아)"라고 트윗하면서 더욱 널리 퍼졌다. "확률적 앵무새"는 "ChatGPT"나 "LLM"과 같은 단어를 제치고, 2023년 미국 방언 학회에 의해 AI 관련 올해의 단어로 선정되었다.

일부 연구자들은 LLM이 방대한 양의 훈련 데이터를 통해 인간과 유사한 그럴듯한 텍스트를 생성하는 패턴 처리 시스템이라고 설명하기 위해 이 용어를 사용한다. 그러나 LLM이 언어를 실제로 이해한다고 주장하는 연구자도 존재한다.

2.1. 어원

"확률적(stochastic)"이라는 단어는 고대 그리스어 "stokhastikos^{고대 그리스어}"('추측에 근거한')에서 유래되었으며, 이는 확률론에서 "무작위적으로 결정된"을 의미하는 용어이다. "앵무새(parrot)"라는 단어는 앵무새가 의미를 이해하지 못한 채 사람의 말을 흉내내는 능력에서 비롯되었다.

이 용어는 벤더, 팀닛 게브루, 안젤리나 맥밀란-메이저, 그리고 마가렛 미첼(가명 "슈마가렛 슈미첼" 사용)이 작성한 논문 "확률적 앵무새의 위험성: 언어 모델은 너무 커질 수 있는가? 🦜"에서 처음 사용되었다.

"확률적"에 해당하는 영어 표현 "stochastic"은 "추측에 기반한" 또는 "무작위로 결정된"이라는 의미를 가진 고대 그리스어 "stokhastikos"에서 유래했다. "앵무새"는 대규모 언어 모델(LLM)이 의미를 이해하지 못하고 단순히 단어를 반복하고 있다는 점을 나타낸다.

2.2. 개념

벤더 등은 거대 언어 모델(LLM)이 의미를 고려하지 않고 단어와 문장을 확률적으로 연결한다고 주장하며, LLM을 "확률적 앵무새"라고 명명했다. 이 용어는 벤더, 팀닛 게브루, 안젤리나 맥밀란-메이저, 그리고 마가렛 미첼(가명 "슈마가렛 슈미첼" 사용)의 논문 "확률적 앵무새의 위험성: 언어 모델은 너무 커질 수 있는가? 🦜"에서 처음 사용되었다.

기계 학습 전문가인 린드홀름, 발스트룀, 린드스텐, 쇤에 따르면, 이 비유는 다음 두 가지 중요한 한계를 강조한다.

* LLM은 훈련받은 데이터에 의존하며, 단순히 데이터 세트의 내용을 확률적으로 반복할 뿐이다.
* 출력은 훈련 데이터를 기반으로 생성되기 때문에 LLM은 자신이 잘못된 것이나 부적절한 것을 말하고 있는지 이해하지 못한다.

린드홀름 등은 품질이 낮은 데이터 세트나 기타 제한으로 인해 기계 학습 기반 시스템이 위험할 정도로 잘못된 결과를 초래할 수 있다고 지적한다.

"확률적 앵무새"라는 번역어에서 "확률적"에 해당하는 영어 표기 "stochastic"은 "추측에 기반한" 또는 "무작위로 결정된"이라는 의미를 가진 고대 그리스어 "stokhastikos"에서 유래되었다. "앵무새"는 LLM이 의미를 이해하지 못하고 단순히 단어를 반복하고 있다는 점을 가리킨다.

3. 논란과 쟁점

챗GPT와 같은 일부 대규모 언어 모델(LLM)은 사용자와 매우 인간적인 대화가 가능해지면서, LLM이 실제로 언어를 이해하는지, 아니면 단순히 "앵무새처럼 따라 하는지"에 대한 논쟁이 심화되고 있다.

2021년 7월, 앨런 튜링 연구소는 벤더 등의 논문에 관한 기조 강연과 패널 토론을 개최했다. "확률적 앵무새"라는 용어는 법학, 문법, 내러티브 및 인문학 분야의 출판물에서 사용되고 있으며, 저자들은 GPT-4와 같은 대규모 언어 모델을 기반으로 하는 챗봇의 위험성에 대한 우려를 제기하고 있다.

확률적 앵무새는 현재 AI 회의론자들이 기계가 출력의 의미를 이해하지 못한다는 것을 지칭하기 위해 사용되는 신조어이며, 때로는 "AI에 대한 모욕"으로 해석된다. 이 용어는 OpenAI의 CEO인 샘 알트먼이 "i am a stochastic parrot and so r u (나도 너희도 확률적 앵무새잖아)"라고 트윗하면서 더욱 널리 퍼졌다. "확률적 앵무새"는 "ChatGPT"나 "LLM"과 같은 단어를 제치고, 2023년 미국 방언 학회에 의해 AI 관련 올해의 단어로 선정되었다.

일부 연구자들은 LLM을 방대한 양의 훈련 데이터를 통해 인간과 유사한 그럴듯한 텍스트를 생성하는 패턴 처리 시스템이라고 설명한다. 그러나 LLM이 언어를 실제로 이해한다고 주장하는 연구자도 존재한다.

3.1. 주관적 경험

인간의 마음에서 단어와 언어는 경험한 것과 일치한다. 대규모 언어 모델(LLM)의 경우 단어는 학습 데이터에 입력된 다른 단어 및 사용 패턴과 일치할 수 있다. 따라서 확률적 앵무새 개념을 지지하는 사람들은 LLM이 실제로 언어를 이해할 수 없다고 결론짓는다.

사람의 마음속에서 언어는 자신이 경험한 것에 대응하지만, LLM의 언어는 단순히 학습 데이터에 포함된 단어와 패턴에 대응할 뿐일 수 있다. 확률적 앵무새 개념을 지지하는 사람들은 LLM이 실제로는 언어를 이해할 수 없다고 결론짓는다.

3.2. 환각과 오류

LLM(대규모 언어 모델)은 '환각' 현상을 통해 사실이 아닌 정보를 생성하는 경향이 있다. 이는 LLM이 현실 세계에 대한 이해가 부족함을 보여준다.

LLM은 복잡하거나 모호한 문법을 해석하는 데 어려움을 겪는다. 예를 들어, 다음과 같은 프롬프트가 주어졌을 때:

> 테이블에서 떨어진 젖은 신문이 내가 좋아하는 신문이다. 하지만 최근, 내가 좋아하는 신문이 편집자를 해고해서 더 이상 읽고 싶지 않을지도 모른다. 두 번째 문장에서 "내가 좋아하는 신문"을 "테이블에서 떨어진 젖은 신문"으로 바꿀 수 있습니까?

LLM은 이에 대해 긍정적으로 답변하는데, 이는 "신문"의 의미가 이 두 가지 맥락에서 다르다는 것을 이해하지 못하기 때문이다. 즉, 처음에는 물건이고 두 번째는 기관이다. 이러한 실패는 LLM이 언어의 의미를 이해하는 데 어려움을 겪고 있음을 시사한다.

3.3. 벤치마크와 실험

LLM(대규모 언어 모델)이 "확률적 앵무새"라는 가설에 반하는 주장은 추론, 상식, 언어 이해에 대한 벤치마크 결과이다. 2023년에는 일부 LLM이 SuperGLUE(Super General Language Understanding Evaluation)와 같은 많은 언어 이해 테스트에서 좋은 결과를 보여주었다. 2022년 설문조사에 따르면, 이러한 테스트와 많은 LLM 응답의 매끄러움은 AI 전문가의 최대 51%가 충분한 데이터로 언어를 진정으로 이해할 수 있다고 믿도록 돕는다.

ChatGPT-3를 실험한 한 과학자는 해당 모델이 확률적 앵무새가 아니라 심각한 추론적 한계를 가지고 있다고 주장했다. 그는 모델이 프롬프트의 정보를 기반으로 미래의 사건을 예측하려고 할 때 일관되고 유익하다는 것을 발견했다. ChatGPT-3는 텍스트 프롬프트에서 부차적인 정보(서브텍스트)를 파악하는 데에도 자주 능숙했다. 그러나 이 모델은 논리 및 추론 작업, 특히 이러한 프롬프트가 공간 인식을 포함하는 경우 자주 실패했다. 모델의 다양한 응답 품질은 LLM이 특정 범주의 작업에서 "이해"의 형태를 가질 수 있는 반면 다른 작업에서는 확률적 앵무새 역할을 할 수 있음을 나타낸다.

3.4. 해석 가능성

기계적 해석 가능성 연구는 대규모 언어 모델(LLM)의 내부 작동 방식을 역공학하여 이해 능력 여부를 조사한다.

한 예시로, 적법한 오델로의 수를 예측하도록 훈련된 작은 트랜스포머인 오델로-GPT가 있다. 이 모델은 오델로 보드의 내부 표현을 가지고 있으며, 이 표현을 수정하면 예측된 적법한 오델로 수가 올바른 방식으로 변경된다는 사실이 밝혀졌다. 이는 LLM이 단순히 피상적인 통계를 수행하는 것이 아니라 "세계 모델"을 가지고 있다는 생각을 뒷받침한다.

또 다른 예로, 작은 트랜스포머가 카렐로 작성된 컴퓨터 프로그램에 대해 훈련되었다. 오델로-GPT와 유사하게, 이 모델은 카렐 프로그램의 의미론에 대한 내부 표현을 개발했다. 이 표현을 수정하면 출력에 적절한 변경이 발생한다. 또한, 이 모델은 평균적으로 훈련 세트의 프로그램보다 짧은 올바른 프로그램을 생성한다.

3.5. 추론의 지름길

사람의 언어 이해력을 테스트하기 위해 만들어진 시험으로 대규모 언어 모델(LLM)을 테스트할 때, 텍스트 데이터 내의 허위 상관관계로 인해 때때로 잘못된 긍정적 결과를 초래한다. 모델은 지름길 학습의 사례를 보여주었는데, 이는 시스템이 인간과 같은 이해를 사용하는 대신 데이터 내에서 관련 없는 상관관계를 만드는 경우이다.

2019년에 수행된 한 실험은 BERT LLM을 논증 추론 이해 과제를 사용하여 테스트했다. BERT는 두 개의 진술 중에서 선택하고 논증과 가장 일치하는 것을 찾아야 했다.

연구자들은 "아니다"와 같은 특정 단어가 모델이 정답을 선택하도록 유도하여 이러한 단어가 포함될 때는 거의 완벽한 점수를 얻었지만, 힌트 단어가 제거되었을 때는 무작위 선택의 결과를 초래한다는 것을 발견했다. 이 문제와 지능을 정의하는 데 알려진 어려움 때문에, 일부는 LLM에서 이해를 찾는 모든 벤치마크가 결함이 있으며, 모두 가짜 이해를 위한 지름길을 허용한다고 주장한다.

4. 구글과의 갈등

팀닛 게브루는 구글로부터 해당 논문을 철회하거나 논문에서 구글 직원들의 이름을 삭제하라는 요청을 받았다. 제프 딘에 따르면, 해당 논문은 "구글의 출판 기준을 충족하지 못했다"고 한다. 이에 게브루는 조건을 제시하며, 그렇지 않으면 "마지막 날을 잡고 일할 수 있다"고 말했다. 딘은 이러한 조건 중 하나가 구글이 논문 검토자 및 그들의 구체적인 피드백을 공개하는 것이었으며, 구글은 이를 거부했다고 밝혔다. 얼마 후 게브루는 구글이 "그녀의 사임을 수락한다"는 이메일을 받았다. 이 사건은 게브루에 대한 비판을 검열하려는 의도로 해석되어 구글 직원들의 항의를 촉발했다.

5. 사회적 영향 및 활용

2021년 7월, 앨런 튜링 연구소는 해당 논문에 대한 기조 강연과 패널 토론을 개최했다. 이 용어는 법률, 문법, 서사, 그리고 인문학 분야의 출판물에서 사용되었다. 저자들은 GPT-4와 같은 거대 언어 모델(LLM) 기반의 챗봇의 위험성에 대한 우려를 지속적으로 제기하고 있다.

확률적 앵무새는 현재 인공지능 회의론자들이 기계가 출력물의 의미를 이해하지 못한다는 것을 지칭하는 신조어로 사용되며, 때로는 "인공지능에 대한 비방"으로 해석되기도 한다. 오픈AI의 CEO인 샘 알트먼이 "나는 확률적 앵무새이고, 너도 그렇다."라는 트윗을 올리며 이 용어를 아이러니하게 사용하면서 그 사용이 더욱 확대되었다. 이후 이 용어는 미국 방언 학회에서 "ChatGPT" 및 "LLM"이라는 단어보다 더 높은 점수를 받아 2023년 올해의 AI 관련 단어로 선정되었다.