무한 언어 학습 시스템

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 개발 과정 및 목표
- 2.1. 학습 방식 및 성과
- 2.2. 한계 및 오류 수정
3. 평가 및 한계
참조

1. 개요

무한 언어 학습 시스템(NELL)은 카네기 멜론 대학교 연구진이 개발한 인공지능 시스템으로, 수백 개의 범주 간의 의미 관계를 파악하고 지속적으로 새로운 지식을 습득하는 것을 목표로 한다. 2010년부터 웹 페이지를 분석하여 기존 정보와 새로운 정보 간의 연결을 통해 학습하며, 인간의 개입 없이 자연어 질문에 답하는 것을 지향한다. NELL은 2010년까지 44만 개의 새로운 사실을 학습했으며, 2018년에는 1억 2천만 개의 지식 기반을 확보했다. 하지만, 잘못된 결론을 내리거나 정보 출처의 편향성에 영향을 받는 등의 한계를 가지고 있다.

더 읽어볼만한 페이지

기계 학습 및 데이터 마이닝 소프트웨어 - GNU 옥타브
GNU 옥타브는 MATLAB과 높은 호환성을 가지며 수치 해석 계산을 위해 사용되는 자유-오픈 소스 소프트웨어이다.
기계 학습 및 데이터 마이닝 소프트웨어 - SAS (소프트웨어)
SAS는 통계 분석, 데이터 마이닝, 예측 모델링 기능을 제공하는 소프트웨어 제품군으로, 농업 데이터 분석을 위해 개발되어 다양한 산업 분야에서 활용되고 있으며 인공지능 및 머신러닝 분야로 투자를 확대하고 있다.
자연어 처리 소프트웨어 - 구글 어시스턴트
구글 어시스턴트는 2016년 구글에서 개발한 인공지능 음성 비서 서비스로, 양방향 대화 지원, 다양한 기기 및 플랫폼 확장성, 인터넷 검색, 일정 관리, 홈 오토메이션 제어 등의 기능을 제공하지만 개인정보 보호 문제에 대한 비판도 존재한다.
자연어 처리 소프트웨어 - 마이크로소프트 번역기
마이크로소프트 번역기는 클라우드 기반 기계 번역 서비스로, 신경망 기계 번역을 기반으로 100개 이상의 언어 간 실시간 번역, 텍스트/음성 번역, 사용자 지정 번역 시스템 구축, 실시간 대화 번역 기능 및 다양한 마이크로소프트 제품과의 통합을 제공하며, 사용자 피드백 기반 협업 번역과 Microsoft Translator Hub를 통해 번역 품질 개선 및 소멸 위기 언어 보존에 기여한다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

무한 언어 학습 시스템
기본 정보
명칭	Never-Ending Language Learning
약칭	NELL
종류	기계 학습 시스템
개발	카네기 멜론 대학교
개발 시작	2010년
라이선스	연구 목적 공개 라이선스
기술 정보
접근 방식	지속적 학습과 지식 축적
학습 방법	웹에서 정보 추출 및 관계 학습
지식 표현	온톨로지
초기 지식	4천만 개의 사실
학습 속도	매일 새로운 사실 학습
주요 기능	지식 기반 확장 학습된 지식 자동 검증
활용 분야
자연어 처리	의미론 연구 정보 검색 지식 그래프 구축
관련 연구 및 프로젝트
관련 프로젝트	DARPA (미국 국방고등연구계획국) 구글 야후

2. 개발 과정 및 목표

NELL은 카네기 멜론 대학교 연구진에 의해 개발된 시스템으로, 웹에서 정보를 읽고 학습하여 지식 기반을 스스로 구축하는 것을 목표로 한다. 초기에는 도시, 회사, 스포츠 팀 등 미리 정의된 범주 간의 관계를 학습하도록 설정되었다.^[2] 궁극적인 목표는 IBM의 왓슨과 같이, 인간의 개입 없이 자연어로 주어진 질문에 답하는 것이다.^[3] 2010년부터 웹 페이지를 지속적으로 분석하며 학습을 진행했으며,^[2] 워싱턴 대학교의 오렌 에치오니는 이러한 자율적인 학습 능력을 긍정적으로 평가했다.^[1]

2. 1. 학습 방식 및 성과

NELL은 개발자가 미리 프로그래밍한 기본적인 데이터 범주(예: 도시, 회사, 감정, 스포츠 팀 등) 사이의 의미 관계를 식별하는 것에서 학습을 시작한다. 2010년 초부터 카네기 멜론 대학교 연구팀은 NELL을 24시간 가동하여 수억 개의 웹 페이지를 탐색하도록 했다. 이 과정에서 NELL은 이미 알고 있는 정보와 웹 검색을 통해 새로 찾은 정보 사이의 연관성을 찾아 새로운 연결을 만들어 나가는데, 이는 인간이 새로운 정보를 학습하는 방식을 모방한 것이다.^[2] 예를 들어, "파이크스 피크"라는 단어 쌍을 접하면, 두 단어가 모두 대문자로 시작하는 점과 두 번째 단어("피크")를 통해 이것이 산의 이름일 수 있다고 추론한다. 이후 해당 단어 쌍 주변의 다른 단어들과의 관계를 분석하여 추가적인 정보를 추론해 나간다.^[1]

NELL이나 IBM의 왓슨과 같은 의미 학습 시스템 개발의 궁극적인 목표는 인간의 도움 없이도 자연어로 제시된 사용자의 질문에 답할 수 있는 시스템을 만드는 것이다.^[3] 워싱턴 대학교의 오렌 에치오니 교수는 NELL이 "인간의 도움 없이 스스로 호기심을 발휘하는 것처럼 끊임없이 학습한다"는 점을 높이 평가했다.^[1]

2010년 10월까지 NELL은 지식 기반 내에서 활용 가능한 관계의 수를 두 배로 늘렸고, 약 87%의 정확도로 44만 개에 달하는 새로운 사실을 학습하는 성과를 보였다.^[4]^[1] 카네기 멜론 대학교 기계 학습학과의 학과장인 톰 M. 미첼 팀장은 NELL이 "더 많은 정보를 습득하면서 스스로 오류를 수정한다"고 설명했다. 하지만 때때로 잘못된 결론에 도달하기도 한다. 예를 들어, 인터넷 쿠키를 구운 식품의 일종으로 잘못 추론한 상태에서 "나는 인터넷 쿠키를 삭제했다"와 "나는 내 파일을 삭제했다"라는 문장을 접하자, 컴퓨터 파일 역시 구운 식품 범주에 속한다고 추론하는 오류를 범했다.^[5] 이러한 명백한 오류들은 연구팀 구성원들이 몇 주 간격으로 검토하여 수정하며, 시스템은 지속적으로 학습 과정을 이어간다.^[1]

2018년까지 NELL은 1억 2천만 개가 넘는, 다양한 신뢰도 가중치가 부여된 신념(예: ''servedWith(tea,biscuits)'')을 포함하는 방대한 지식 기반을 구축했다. 또한 시간이 지남에 따라 읽기 능력을 꾸준히 향상시키는 수천 개의 상호 연관된 기능들을 학습했다.^[6]

다만, 2023년 9월 기준으로 이 프로젝트에서 가장 최근에 수집된 데이터는 2019년 2월(트위터 피드 기준)^[7] 또는 2018년 9월(홈페이지 기준)으로 확인되어, 이후 추가적인 학습이나 업데이트가 활발히 이루어지지 않았을 가능성이 있다.^[8]

2. 2. 한계 및 오류 수정

NELL은 학습 과정에서 때때로 잘못된 결론에 도달하기도 한다. 예를 들어, 인터넷 쿠키를 구운 식품의 일종으로 잘못 추론하는 경우가 있었다.^[5] 이러한 초기 오류는 연쇄적인 잘못된 판단으로 이어지기도 했는데, "나는 인터넷 쿠키를 삭제했다"와 "나는 내 파일을 삭제했다"라는 문장을 분석하여 컴퓨터 파일 역시 구운 식품 범주에 속한다고 추론하는 결과를 낳았다.^[5] 카네기 멜론 대학교의 톰 M. 미첼 팀장은 NELL이 "더 많은 정보를 얻으면서 스스로 수정한다"고 설명했지만,^[1] 이러한 명백한 오류는 연구팀 구성원들이 주기적으로 직접 수정해주어야 했으며, 이후 시스템은 학습을 계속 진행했다.^[1]

2018년까지 NELL은 1억 2천만 개가 넘는 신념을 데이터베이스에 축적했지만,^[6] 그 신뢰성에 대한 지적도 제기되었다. 2019년 스튜어트 러셀은 저서 인간과 호환 가능성에서 NELL이 자신이 가진 신념 중 단 3%에 대해서만 높은 확신을 보이며, "네팔은 미국이라고도 알려진 국가"와 같은 명백히 잘못되거나 무의미한 정보를 걸러내기 위해 여전히 인간 전문가의 개입에 의존하고 있다고 비판했다.^[9]

또한, NELL의 학습 방식 자체에 대한 한계도 지적된다. 2023년 발표된 한 논문에서는 NELL이 객체의 언어적 설명에 지나치게 집중하는 경향이 있으며, 정보 습득을 웹 페이지에만 의존하기 때문에 분석 과정에서 해당 웹 페이지의 문법, 사용된 상징, 속어 등의 영향을 크게 받는다는 단점을 언급했다.^[10]

3. 평가 및 한계

NELL 및 IBM의 왓슨과 같은 의미 학습 시스템의 목표는 인간의 개입 없이 자연어로 사용자가 제기한 질문에 답할 수 있는 수단을 개발하는 것이다.^[3] 워싱턴 대학교의 오렌 에치오니는 NELL이 "인간의 도움 없이 스스로 호기심을 발휘하는 것처럼 끊임없이 학습한다"고 긍정적으로 평가했다.^[1]

2010년 10월까지 NELL은 지식 기반에서 사용할 수 있는 관계의 수를 두 배로 늘렸고, 87%의 정확도로 440,000개의 새로운 사실을 학습했다.^[4]^[1] 카네기 멜론 대학교 기계 학습학과 학과장 톰 M. 미첼은 NELL이 "더 많은 정보를 얻으면서 스스로 수정한다"고 설명했지만, 때로는 잘못된 결론에 도달하기도 한다.^[1] 예를 들어, 인터넷 쿠키가 구운 식품의 일종이라는 초기 추론과 "나는 인터넷 쿠키를 삭제했다", "나는 내 파일을 삭제했다"와 같은 문장들을 바탕으로, 컴퓨터 파일 역시 구운 식품 범주에 속한다고 잘못 추론하는 누적 오류를 보이기도 했다.^[5] 이러한 명백한 오류는 연구팀 구성원들이 주기적으로 수정하며, 시스템은 학습 과정을 계속 이어간다.^[1]

2018년까지 NELL은 "1억 2천만 개의 다양한 신뢰 가중치 신념(예: ''servedWith(tea,biscuits)'')을 가진 지식 기반을 획득했으며, 시간이 지남에 따라 읽기 능력을 지속적으로 향상시키는 수천 개의 상호 관련된 기능을 학습했다."^[6]

그러나 NELL의 학습 능력에는 한계가 지적된다. 스튜어트 러셀은 2019년 저서 인간과 호환 가능성에서 NELL이 학습한 내용 중 단 3%에 대해서만 확신을 가지며, "네팔은 미국이라고도 알려진 국가이다" 또는 "가치(value)는 일반적으로 밑동을 잘라 수확하는 농산물 작물이다"와 같이 명백히 잘못되거나 무의미한 정보를 정기적으로 제거하기 위해 인간 전문가에게 의존한다고 지적했다.^[9] 또한 2023년 발표된 논문에서는 NELL이 웹 페이지만을 유일한 정보 출처로 삼기 때문에 웹상의 문법, 속어, 기호 등에 크게 영향을 받으며, 객체에 대한 언어적 설명에 지나치게 집중하는 경향이 있다는 점을 한계로 언급했다.^[10]

2023년 9월 기준으로 NELL 프로젝트의 가장 최근 정보 수집 시점은 출처에 따라 2019년 2월^[7] 또는 2018년 9월^[8]로 나타나, 이후 활발한 업데이트가 이루어지지 않고 있을 가능성을 시사한다.

참조

_[1] 뉴스 Aiming to Learn as We Do, a Machine Teaches Itself https://www.nytimes.[...] 2010-10-04
_[2] 웹사이트 Project Overview http://rtw.ml.cmu.ed[...] 2010-10-05
_[3] 뉴스 Machine Learns Language Starting with the Facts http://www.hpcwire.c[...] HPCwire 2010-10-05
_[4] 웹사이트 NELL: Never-Ending Language Learning http://rtw.ml.cmu.ed[...] 2010-10-05
_[5] 웹사이트 Right Now A Computer Is Reading Online, Teaching Itself Language http://www.gizmodo.c[...] 2010-10-05
_[6] 논문 Never-ending learning 2018-04-24
_[7] 웹사이트 NELL (@cmunell) {{!}} Twitter https://twitter.com/[...] 2023-09-04
_[8] 웹사이트 Read the Web :: Carnegie Mellon University http://rtw.ml.cmu.ed[...] 2023-09-04
_[9] 서적 Human Compatible: AI and the Problem of Control Allen Lane 2019
_[10] 논문 Semantic noise in the Winograd Schema Challenge of pronoun disambiguation 2023-04-11
_[11] 뉴스 Smarter Than You Think - Aiming to Learn as We Do, A Machine Teaches Itself http://www.nytimes.c[...] 뉴욕타임스 2010-11-24

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com