맨위로가기

자연어 생성

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

자연어 생성(NLG)은 컴퓨터가 인간의 언어를 생성하는 기술로, 텍스트 요약, 챗봇, 이미지 캡셔닝 등 다양한 분야에 활용된다. NLG 시스템은 내용 결정, 문서 구조화, 병합, 어휘 선택, 지칭 표현 생성, 실현 단계를 거쳐 텍스트를 생성하며, 종단간 기계 학습 방식을 사용하기도 한다. NLG는 일기 예보 생성과 같은 자동 보고서 생성에 성공적으로 사용되었으며, 이미지 캡션, 챗봇, 창의적인 글쓰기, 계산 유머 등 다양한 응용 분야에서 발전하고 있다. NLG 시스템은 작업 기반 평가, 사람 평가, 자동 평가 지표를 통해 평가되며, 환각 현상, 편향성 문제, 딥페이크 악용 가능성, 책임 소재 불분명과 같은 한계와 윤리적 문제점을 가지고 있다.

더 읽어볼만한 페이지

자연어 생성
개요
분야인공지능, 자연어 처리
하위 분야전산언어학, 텍스트 생성
역사 및 발전
초기 접근 방식규칙 기반 시스템
통계적 자연어 생성코퍼스 기반 방법, 마르코프 연쇄
딥러닝 기반 자연어 생성순환 신경망 (RNN), 장단기 기억 (LSTM), 변환기 (Transformer)
핵심 기술 및 구성 요소
텍스트 계획콘텐츠 결정, 구조화
문장 계획어휘 선택, 문법 구조 결정
텍스트 실현표면 형태 생성, 철자 및 문법 규칙 적용
주요 방법론
규칙 기반 접근 방식명시적 규칙 사용
통계적 접근 방식확률 모델 기반 생성
신경망 기반 접근 방식딥러닝 모델 활용
활용 분야
자동 요약텍스트 내용 요약
기계 번역한 언어에서 다른 언어로 번역
챗봇대화형 에이전트
콘텐츠 생성기사, 스토리 등 창작
데이터 설명데이터 분석 결과 설명
평가 방법
BLEU기계 번역 평가 지표
ROUGE요약 평가 지표
인간 평가사람이 직접 평가
관련 기술
자연어 이해 (NLU)텍스트 의미 분석
기계 학습모델 학습
텍스트 마이닝텍스트 데이터에서 정보 추출

2. 자연어 생성 단계

텍스트 생성 과정은 복사 및 붙여넣기, 일부 접착 텍스트와 연결된 기성 텍스트 목록을 유지하는 것만큼 간단할 수 있다. 별자리 기계나 개인화된 비즈니스 서신 생성과 같은 간단한 영역에서는 만족스러운 결과를 얻을 수 있다. 그러나 정교한 NLG 시스템은 자연스럽고 반복되지 않는 텍스트를 생성하기 위해 정보 계획 및 병합 단계를 포함해야 한다. 데일과 라이터(Dale and Reiter)가 제안한 일반적인 자연어 생성 단계는 다음과 같다.[6]


  • '''내용 결정''': 텍스트에 어떤 정보를 언급할지 결정한다.
  • '''문서 구조화''': 전달할 정보의 전체적인 구성을 결정한다.
  • '''병합''': 가독성과 자연스러움을 개선하기 위해 유사한 문장을 병합한다.
  • '''어휘 선택''': 개념에 단어를 적용한다.
  • '''지칭 표현 생성''': 객체와 지역을 식별하는 지칭 표현을 만든다.
  • '''실현''': 구문, 형태론, 정자법 규칙에 따라 정확해야 하는 실제 텍스트를 생성한다.


NLG에 대한 대안적인 접근 방식은 위와 같이 별도의 단계를 거치지 않고 "종단간(end-to-end)" 기계 학습을 사용하여 시스템을 구축하는 것이다.[8] 입력 데이터와 해당 (사람이 작성한) 출력 텍스트의 대규모 데이터 세트에 대해 기계 학습 알고리즘 (종종 LSTM)을 훈련하여 NLG 시스템을 구축한다. 종단간 접근 방식은 이미지 캡션에서 가장 성공적인 성과를 거두었다.[9]

2. 1. 내용 결정

텍스트에 어떤 정보를 언급할지 결정하는 단계이다. 예를 들어, 스코틀랜드 꽃가루 예보 시스템에서 생성된 텍스트와 실제 기상학자가 작성한 예보를 비교했을 때, 남동쪽의 꽃가루 수치가 7이라는 것을 명시적으로 언급할지 여부를 결정하는 것이 내용 결정에 해당한다.[6]

2. 2. 문서 구조화

전달할 정보의 전체적인 구성을 결정하는 단계를 말한다. 예를 들어, 스코틀랜드 꽃가루 예보 시스템에서 낮은 꽃가루 수치가 있는 지역 대신 높은 꽃가루 수치가 있는 지역을 먼저 설명할지 결정하는 것이 문서 구조화 단계에 해당한다.[6]

2. 3. 문장 통합

병합은 가독성과 자연스러움을 개선하기 위해 비슷한 문장들을 통합하는 것을 의미한다. 예를 들어, 다음 두 문장을 통합할 수 있다.[6]

  • ''금요일의 잔디 꽃가루 수치는 어제 보통에서 높은 수준으로 증가했습니다.''
  • ''잔디 꽃가루 수치는 전국 대부분 지역에서 약 6~7 정도일 것입니다.''


위의 두 문장은 다음과 같은 단일 문장으로 통합할 수 있다.

  • ''금요일의 잔디 꽃가루 수치는 어제 보통에서 높은 수준으로 증가했으며 전국 대부분 지역에서 약 6~7의 값을 보였습니다.''


또 다른 예시로, "다음 열차는 칼레도니아 익스프레스입니다"와 "다음 열차는 오전 10시에 애버딘을 출발합니다"라는 문장을 "오전 10시 출발의 다음 열차는 칼레도니아 익스프레스입니다"로 통합할 수 있다.

2. 4. 어휘 선택

개념에 단어를 적용하는 단계이다. 예를 들어, 꽃가루 수치가 4일 때 ''중간'' 또는 ''보통''을 사용할지 결정한다.[6]

2. 5. 지칭 표현 생성

객체와 지역을 식별하는 지칭 표현을 만드는 단계이다. 예를 들어, 스코틀랜드의 특정 지역을 지칭하기 위해 ''북부 섬과 스코틀랜드 본토의 극동 지역''을 사용할지 결정한다. 이 작업에는 대명사 및 기타 유형의 지칭에 대한 결정도 포함된다.[6]

2. 6. 실현 (언어학)

병합 과정을 거쳐 생성된 텍스트는 구문, 형태론, 정자법 규칙에 따라 정확해야 한다. 예를 들어, ''~일 것이다''의 미래 시제에 ''~일 것이다''를 사용한다.[6] 텍스트 생성 과정에는, 예를 들어 정해진 문구 목록에서 선택된 단어를 접속용 텍스트로 연결하는 것과 같은 단순한 처리도 있다. 이것은 예를 들어, 점술 기계나 개인화된 비즈니스 레터와 같은 영역에서는 충분한 문장을 생성한다. 그러나 세련된 자연어 생성 시스템에서는, 정해진 문구의 반복으로 보이지 않는 자연스러운 문장을 생성하기 위해, 정보의 통합과 계획의 단계를 필요로 한다.[8]

자연어 생성의 전형적인 단계는 다음과 같다.

  • 통사적/형태소적 처리: 구문 분석의 역을 수행한다. 지금까지의 단계에서 모은 모든 정보를 사용하여, 통사론 규칙과 형태론 규칙을 적용하여, 실제 문장을 나타내는 문자열을 생성한다.
  • 정서법 처리: 대문자 소문자나 구두점의 사용, 포맷 등을 수행한다.

2. 7. 정서법 처리 (일본어 문서)

통사적 처리/형태소적 처리 단계에서 생성된 문자열에 대해, 대문자 소문자나 구두점의 사용, 포맷 등을 수행한다.[1]

3. 자연어 생성 응용

자연어 생성(NLG)은 다양한 분야에 응용되고 있다. 텍스트 생성 과정은 복사 및 붙여넣기, 일부 접착 텍스트와 연결된 기성 텍스트 목록을 유지하는 것만큼 간단할 수 있다. 그러나 정교한 NLG 시스템은 자연스러워 보이고 반복되지 않는 텍스트를 생성하기 위해 정보 계획 및 병합 단계를 포함해야 한다. Dale과 Reiter가 제안한 일반적인 자연어 생성 단계는 다음과 같다.


  • '''내용 결정''': 텍스트에 어떤 정보를 언급할지 결정한다.
  • '''문서 구조화''': 전달할 정보의 전체적인 구성.
  • '''병합''': 가독성과 자연스러움을 개선하기 위해 유사한 문장을 병합한다.
  • '''어휘 선택''': 개념에 단어를 적용한다.
  • '''지칭 표현 생성''': 객체와 지역을 식별하는 지칭 표현을 만든다.
  • '''실현''': 구문, 형태론, 정자법 규칙에 따라 정확해야 하는 실제 텍스트를 생성한다.


위와 같은 별도의 단계를 거치지 않고 "종단간" 기계 학습을 사용하여 시스템을 구축하는 대안적인 NLG 접근 방식도 있다.[8] 입력 데이터와 해당 (사람이 작성한) 출력 텍스트의 대규모 데이터 세트에 대해 기계 학습 알고리즘 (종종 LSTM)을 훈련하여 NLG 시스템을 구축한다. 종단간 접근 방식은 이미지 캡션에서 가장 성공적인 성과를 거두었다.[9]

NLG는 자동 보고서 생성, 이미지 캡셔닝, 챗봇, 창의적인 글쓰기 및 계산 유머 등 다양한 분야에 활용된다.

3. 1. 자동 보고서 생성

자연어 생성의 가장 큰 응용 사례는 수치 등의 언어적이지 않은 데이터를 텍스트화된 개요로 변환하는 시스템이며, 자연어 생성과 데이터 분석을 통합한 것이다. 예를 들어, 수치 예보 데이터로부터 자동으로 일기 예보 문장을 생성하는 시스템 등이 있다.[13]

최초의 상업용 데이터-텍스트 시스템은 기상 데이터를 기반으로 일기 예보를 생성했다. 배포된 최초의 시스템은 FoG[14]였으며, 1990년대 초에 캐나다 환경부에서 프랑스어와 영어로 일기 예보를 생성하는 데 사용했다. FoG의 성공은 연구 및 상업 분야에서 다른 작업을 촉발했다. 최근 응용 분야에는 영국 기상청(Met Office)의 텍스트 기반 일기 예보가 포함된다.[15]

이후 데이터-텍스트 시스템은 다양한 환경에 적용되었다. 2014년 3월 17일 캘리포니아주 베벌리힐스 인근에서 발생한 소규모 지진 이후, 로스앤젤레스 타임스(The Los Angeles Times)는 지진 발생 3분 이내에 지진의 시간, 위치 및 강도에 대한 세부 정보를 보도했다. 이 보고서는 '로봇 저널리스트'가 자동으로 생성했으며, 로봇 저널리스트는 사전 설정된 템플릿을 통해 들어오는 데이터를 텍스트로 변환했다.[16][17]

현재 NLG를 사용하여 금융 및 비즈니스 데이터를 요약하는 데 상당한 상업적 관심이 있다. 실제로 가트너(Gartner)는 NLG가 현대 BI 및 분석 플랫폼의 90%에서 표준 기능이 될 것이라고 말했다.[18] NLG는 또한 자동 저널리즘, 챗봇, 전자 상거래 사이트의 제품 설명 생성, 의료 기록 요약[19][20]접근성 향상(예: 시각 장애인을 위해 그래프 및 데이터 세트 설명[21])에도 상업적으로 사용되고 있다.

''스코틀랜드 꽃가루 예보'' 시스템[6]은 템플릿 기반일 수 있는 간단한 NLG 시스템의 간단한 예이다. 이 시스템은 스코틀랜드의 여러 지역에서 예측된 꽃가루 수준을 나타내는 6개의 숫자를 입력으로 받는다. 이 숫자들을 바탕으로 시스템은 꽃가루 수준에 대한 짧은 텍스트 요약을 출력으로 생성한다.

NLG의 대화형 사용의 예로는 WYSIWYM 프레임워크가 있다. 이는 ''What you see is what you meant''(보는 것이 의미하는 바)의 약자이며, 사용자가 기본 형식 언어 문서(NLG 입력)의 지속적으로 렌더링된 보기(NLG 출력)를 보고 조작하여 형식 언어를 배우지 않고도 편집할 수 있도록 한다.

데이터-텍스트 생성의 현재 진전은 텍스트를 특정 대상에 맞게 조정할 수 있는 길을 열어준다. 예를 들어, 신생아 치료를 받는 아기의 데이터는 텍스트의 의도된 수신자(의사, 간호사, 환자)에 따라 다른 수준의 기술적 세부 정보 및 설명 언어를 사용하여 임상 환경에서 다르게 텍스트로 변환될 수 있다. 동일한 아이디어를 스포츠 환경에 적용하여 특정 팀의 팬을 위해 다른 보고서를 생성할 수 있다.[22]

또한, 특이한 예로는, 농담을 자동으로 생성하는 시스템도 있다.

3. 2. 이미지 캡셔닝

지난 수년 동안 시각과 언어 사이의 인터페이스를 조사하려는 광범위한 노력의 일환으로 이미지에 대한 캡션을 자동으로 생성하는 데 대한 관심이 높아졌다. 데이터-텍스트 생성의 경우 이미지 캡션(또는 자동 이미지 설명) 알고리즘에는 이미지 촬영, 시각적 콘텐츠 분석, 이미지의 가장 눈에 띄는 측면을 말로 표현하는 텍스트 설명(일반적으로 문장) 생성이 포함된다.

이미지 캡션 시스템에는 두 가지 하위 작업이 포함된다. 이미지 분석에서는 이러한 출력을 언어 구조에 매핑하기 전에 이미지의 특징과 속성을 감지하고 레이블을 지정한다. 최근 연구에서는 AlexNet, VGG 또는 Caffe와 같은 사전 훈련된 합성곱 신경망의 기능을 통해 딥 러닝 접근 방식을 활용한다. 여기서 캡션 생성기는 사전 훈련된 네트워크의 활성화 계층을 입력 기능으로 사용한다. 두 번째 작업인 텍스트 생성은 다양한 기술을 사용하여 수행된다. 예를 들어 Midge 시스템에서 입력 이미지는 객체/물체 감지, 동작/자세 감지 및 공간 관계로 구성된 트리플로 표현된다. 이는 이후 <명사, 동사, 전치사> 트리플에 매핑되고 트리 대체 문법을 사용하여 구현된다.[22]

이미지 캡션에서 흔히 사용되는 방법은 비전 모델(예: ResNet)을 사용하여 이미지를 벡터로 인코딩한 다음, 언어 모델(예: RNN)을 사용하여 벡터를 캡션으로 디코딩하는 것이다.[23][24]

발전에도 불구하고 이미지 캡처 연구에는 여전히 도전과 기회가 남아 있다. 최근 Flickr30K, MS COCO 및 기타 대규모 데이터 세트가 도입되었음에도 불구하고 신경망과 같은 보다 복잡한 모델의 훈련이 가능해졌지만, 이미지 캡션 연구에서는 더 크고 다양한 데이터 세트가 도움이 될 수 있다는 주장이 있었다. 이미지 설명의 적합성을 평가할 때 인간의 판단을 모방할 수 있는 자동 측정을 설계하는 것도 이 분야의 또 다른 요구 사항이다. 다른 공개 과제에는 시각적 질의 응답(VQA)[38]뿐만 아니라 이미지 설명을 위한 다국어 저장소 구축 및 평가가 포함된다.[22]

3. 3. 챗봇

챗봇 또는 채팅 봇은 실제 사람 상담원과의 직접적인 접촉을 제공하는 대신 텍스트 또는 텍스트-음성을 통해 온라인 채팅 대화를 수행하는 데 사용되는 소프트웨어 애플리케이션이다. 자연어 처리 (NLP) 기술이 사람의 입력을 해독하는 데 적용되는 반면, NLG는 실시간 대화를 용이하게 하기 위해 챗봇 알고리즘의 출력 부분을 알려준다.

1988년에 롤로 카펜터가 만들고 1997년에 발표한 클레버봇을 포함한 초기 챗봇 시스템은 정보 검색 (IR) 기술을 사용하여 대화 데이터베이스에서 동일한 질문에 사람이 어떻게 응답했는지 식별하여 질문에 답변한다. 현대 챗봇 시스템은 자연어 출력을 생성하기 위해 시퀀스-투-시퀀스 학습 및 강화 학습과 같은 머신 러닝(ML) 모델에 주로 의존한다. 하이브리드 모델도 탐구되었다. 예를 들어, 알리바바 쇼핑 어시스턴트는 먼저 IR 방식을 사용하여 지식 베이스에서 최상의 후보를 검색한 다음, ML 기반 seq2seq 모델을 사용하여 후보 응답의 순위를 다시 매기고 답변을 생성한다.[26]

3. 4. 창의적인 글쓰기 및 계산 유머

NLG(자연어 생성)에 의한 창의적인 언어 생성은 이 분야의 기원부터 가설로 제기되어 왔다. 이 분야의 최근 선구자 중 한 명은 필립 파커(Phillip Parker)로, 제본에서 백내장에 이르기까지 다양한 주제에 대한 교과서, 십자말풀이, 시, 책을 자동으로 생성할 수 있는 다양한 알고리즘을 개발했다.[27] GPT-3와 같은 대규모 사전 훈련된 변환기 기반 언어 모델의 출현은 또한 획기적인 발전을 이루었으며, 이러한 모델은 창작 작업에 대한 인지 가능한 능력을 보여주었다.[28]

NLG 적용과 관련된 분야는 계산적 유머 생성이다. JAPE(Joke Analysis and Production Engine)는 어린이를 위한 말장난 수수께끼를 만들기 위해 수동으로 코딩된 템플릿 기반 접근 방식을 사용하는 최초의 대규모 자동 유머 생성 시스템 중 하나이다. HAHAcronym은 주어진 약어의 유머러스한 재해석을 생성할 뿐만 아니라, 몇 가지 키워드가 주어졌을 때 새로운 적합한 약어를 제안한다.[29]

발전에도 불구하고, 인간의 결과물에 필적하는 자동화된 창의적이고 유머러스한 콘텐츠를 생성하는 데에는 여전히 많은 과제가 남아 있다. 풍자적 헤드라인을 생성하는 실험에서, 최고의 BERT 기반 모델의 결과물은 9.4%의 경우에 웃기다고 인식되었고 (반면, 디 어니언의 실제 헤드라인은 38.4%였다), 풍자적 헤드라인에 미세 조정된 GPT-2 모델은 6.9%를 달성했다.[30] 유머 생성 시스템의 두 가지 주요 문제는 주석 처리된 데이터 세트의 부족과 공식적인 평가 방법의 부족[29]이며, 이는 다른 창의적인 콘텐츠 생성에도 적용될 수 있다는 점이 지적되었다. 어떤 사람들은 다른 응용 프로그램과 관련하여 NLG 내에서 언어 생성의 창의적인 측면에 대한 관심이 부족하다고 주장해 왔다. NLG 연구자들은 창의적인 언어 생성이 무엇으로 구성되는지에 대한 통찰력뿐만 아니라 데이터-텍스트 시스템에서도 NLG 출력을 개선할 수 있는 내러티브의 구조적 특징으로부터 혜택을 얻을 수 있다.[22]

4. 자연어 생성 평가

NLG 시스템의 성능 평가는 다른 과학 분야와 마찬가지로 시스템, 모듈, 알고리즘의 작동 방식을 테스트하는 것을 의미한다. NLG 시스템 평가에는 세 가지 기본 기술이 사용된다.


  • '''작업 기반 (외생) 평가''': 생성된 텍스트를 사람에게 제공하고 텍스트가 작업을 얼마나 잘 수행하는지(또는 의사 소통 목표를 달성하는지) 평가한다.
  • '''사람의 평가''': 생성된 텍스트를 사람에게 제공하고 텍스트의 품질과 유용성을 평가하도록 요청한다.
  • '''지표''': BLEU, METEOR, ROUGE, LEPOR와 같은 자동 지표를 사용하여 동일한 입력 데이터에서 사람이 작성한 텍스트와 생성된 텍스트를 비교한다.


NLG 시스템의 궁극적인 목표는 사람들을 돕는 데 얼마나 유용한지를 파악하는 것이며, 이는 작업 기반 평가를 통해 확인할 수 있다. 그러나 작업 기반 평가는 시간과 비용이 많이 소요되고 수행하기 어려울 수 있어 (특히 의사와 같이 전문 지식을 갖춘 피험자가 필요한 경우), 다른 NLP 분야와 마찬가지로 예외적인 경우에만 수행된다.

최근 연구는 사람의 평가와 지표가 작업 기반 평가와 얼마나 상관관계가 있는지(예측하는지) 평가하는 데 초점을 맞추고 있으며, 생성 과제[31] 공유 작업 이벤트를 통해 진행되고 있다. 초기 결과에 따르면 사람의 평가는 지표보다 작업 효과성을 더 잘 예측하는 경향이 있다. (예외도 있음) 반면, 지표는 작업 효과성을 잘 예측하지 못하는 경우가 많다. 이러한 결과는 잠정적이지만, 사람의 평가는 NLG에서 가장 인기 있는 평가 기술로 남아있다. 이는 지표가 널리 사용되는 기계 번역과는 대조적이다.

AI는 학습 데이터에 대한 ''충실도'' 또는 ''사실성''에 따라 평가될 수 있다. 학습 데이터를 반영하지만 현실을 반영하지 않는 응답은 충실하지만 사실적이지 않다. 자신감 있지만 충실하지 않은 응답은 ''환각''이라 불린다. 자연어 처리에서 환각은 "제공된 소스 콘텐츠에 무의미하거나 충실하지 않은 생성된 콘텐츠"로 정의된다.[32]

4. 1. 작업 기반 (외생) 평가

작업 기반(외생) 평가는 생성된 텍스트를 사람에게 제공하고, 텍스트가 작업을 얼마나 잘 수행하는지(또는 다른 방식으로 의사 소통 목표를 달성하는지) 평가하는 방법이다. 예를 들어, 의료 데이터를 요약하는 시스템은 이러한 요약을 의사에게 제공하고, 요약이 의사가 더 나은 결정을 내리는 데 도움이 되는지 평가하여 평가할 수 있다.[20]

하지만 작업 기반 평가는 시간이 오래 걸리고 비용이 많이 들며, 수행하기 어려울 수 있다(특히 의사와 같이 전문 지식을 갖춘 피험자가 필요한 경우). 따라서 다른 NLP 분야와 마찬가지로 작업 기반 평가는 예외적인 경우에만 수행된다.

4. 2. 사람의 평가

지난 수년 동안 이미지 캡션 생성과 같은 데이터-텍스트 생성 알고리즘은 이미지 촬영, 시각적 콘텐츠 분석, 그리고 이미지의 가장 두드러진 특징을 설명하는 텍스트(주로 문장) 생성을 포함한다. 이러한 발전에도 불구하고, 이미지 캡션 연구는 여전히 도전 과제에 직면해 있다.

자연어 생성(NLG) 시스템의 성능을 평가하는 세 가지 주요 기술은 다음과 같다:

  • '''작업 기반 (외생) 평가''': 생성된 텍스트가 작업을 얼마나 잘 수행하는지 사람이 평가한다. 예를 들어, 의료 데이터 요약 시스템은 의사에게 요약을 제공하여 의사 결정에 도움이 되는지 평가할 수 있다.[20]
  • '''사람의 평가''': 생성된 텍스트의 품질과 유용성을 사람이 평가한다.
  • '''지표''': BLEU, METEOR, ROUGE, LEPOR과 같은 자동 지표를 사용하여 사람이 작성한 텍스트와 생성된 텍스트를 비교한다.


궁극적인 목표는 NLG 시스템이 사람들을 돕는 데 얼마나 유용한지를 파악하는 것이며, 이는 작업 기반 평가를 통해 이루어진다. 그러나 작업 기반 평가는 시간과 비용이 많이 소요되므로, 사람의 평가와 지표가 작업 기반 평가와 얼마나 상관관계가 있는지 평가하는 연구가 진행되고 있다. 초기 결과에 따르면 사람의 평가는 지표보다 작업 효과성을 더 잘 예측한다.[31] 이러한 결과는 잠정적이지만, 사람의 평가는 NLG에서 가장 인기 있는 평가 기술로 남아있다. 이는 지표가 널리 사용되는 기계 번역과는 대조적이다.

AI는 학습 데이터에 대한 '''충실도''' 또는 '''사실성'''에 따라 평가될 수 있다. 학습 데이터를 반영하지만 현실을 반영하지 않는 응답은 충실하지만 사실적이지 않다. 자신감 있지만 충실하지 않은 응답은 '''환각'''이라고 한다. 자연어 처리에서 환각은 종종 "제공된 소스 콘텐츠에 무의미하거나 충실하지 않은 생성된 콘텐츠"로 정의된다.[32]

4. 3. 자동 평가 지표

지난 수년 동안 이미지 캡션 생성에 대한 관심이 높아졌다. 이미지 캡션(자동 이미지 설명) 알고리즘은 이미지 촬영, 시각적 콘텐츠 분석, 그리고 이미지의 가장 눈에 띄는 측면을 표현하는 텍스트 설명을 생성한다.

자연어 생성 시스템을 평가하는 세 가지 기본 기술은 다음과 같다:

  • '''작업 기반 (외생) 평가''': 생성된 텍스트가 작업을 얼마나 잘 수행하는지 평가한다.
  • '''사람의 평가''': 사람이 생성된 텍스트의 품질과 유용성을 평가한다.
  • '''지표''': BLEU, METEOR, ROUGE, LEPOR와 같은 자동 지표를 사용하여 사람이 작성한 텍스트와 생성된 텍스트를 비교한다.


최근 연구자들은 사람의 평가와 지표가 작업 기반 평가와 얼마나 잘 상관관계가 있는지 평가하고 있다.[31] 초기 결과에 따르면 사람의 평가가 지표보다 훨씬 더 낫다. 즉, 사람의 평가는 일반적으로 적어도 어느 정도는 작업 효과성을 예측하지만, 지표에서 생성된 평가는 작업 효과성을 잘 예측하지 못하는 경우가 많다.

AI는 학습 데이터에 대한 ''충실도'' 또는 ''사실성''에 따라 평가될 수 있다. 자신감 있지만 충실하지 않은 응답은 ''환각''이라고 불린다.[32]

5. 한계점 및 윤리적 문제

자연어 생성 모델은 환각 현상과 편향성 문제와 같은 한계점을 가지고 있다.
환각(Hallucination) 현상: AI는 학습 데이터에 대한 '충실도' 또는 '사실성'에 따라 평가될 수 있다. 학습 데이터를 반영하지만 현실을 반영하지 않는 응답은 충실하지만 사실적이지 않다. 자신감 있지만 충실하지 않은 응답은 환각이라 한다. 자연어 처리에서 환각은 종종 "제공된 소스 콘텐츠에 무의미하거나 충실하지 않은 생성된 콘텐츠"로 정의된다.[32]

자연어 생성(NLG) 시스템의 성능을 평가하는 방법은 크게 세 가지가 있다.


  • '''작업 기반 (외생) 평가''': 생성된 텍스트가 특정 작업을 얼마나 잘 수행하는지 평가한다. 예를 들어, 의료 데이터를 요약하는 시스템의 경우, 의사에게 요약본을 제공하고 의사 결정에 도움이 되는지 평가할 수 있다.[20]
  • '''사람의 평가''': 생성된 텍스트를 사람에게 제공하고 텍스트의 품질과 유용성을 평가하도록 요청한다.
  • '''지표''': BLEU, METEOR, ROUGE 및 LEPOR와 같은 자동 지표를 사용하여 사람이 작성한 텍스트와 생성된 텍스트를 비교한다.


NLG 시스템의 궁극적인 목표는 사람들을 돕는 데 얼마나 유용한지 평가하는 것이며, 이는 작업 기반 평가를 통해 확인할 수 있다. 그러나 작업 기반 평가는 시간과 비용이 많이 들고 수행하기 어려워 자주 사용되지는 않는다.

최근 연구자들은 사람의 평가와 지표가 작업 기반 평가와 얼마나 잘 상관관계가 있는지 연구하고 있다. 초기 결과에 따르면 사람의 평가는 지표보다 작업 효과성을 더 잘 예측하는 경향이 있다. 하지만 이러한 결과는 잠정적이며, 사람의 평가는 NLG에서 가장 인기 있는 평가 기술로 남아있다. 이는 지표가 널리 사용되는 기계 번역과는 대조적이다.

5. 1. 환각 (Hallucination) 현상

AI는 학습 데이터에 대한 ''충실도'' 또는 ''사실성''에 따라 평가될 수 있다. 학습 데이터를 반영하지만 현실을 반영하지 않는 응답은 충실하지만 사실적이지 않다. 자신감 있지만 충실하지 않은 응답은 ''환각''이다. 자연어 처리에서 환각은 종종 "제공된 소스 콘텐츠에 무의미하거나 충실하지 않은 생성된 콘텐츠"로 정의된다.[32]

5. 2. 편향성 (Bias) 문제

자연어 생성(NLG) 시스템의 성능을 평가하는 방법에는 크게 세 가지가 있다.

  • '''작업 기반 (외생) 평가''': 생성된 텍스트가 특정 작업을 얼마나 잘 수행하는지 평가한다. 예를 들어, 의료 데이터를 요약하는 시스템의 경우, 의사에게 요약본을 제공하고 의사 결정에 도움이 되는지 평가할 수 있다.[20]
  • '''사람의 평가''': 생성된 텍스트를 사람에게 제공하고 텍스트의 품질과 유용성을 평가하도록 요청한다.
  • '''지표''': BLEU, METEOR, ROUGE 및 LEPOR와 같은 자동 지표를 사용하여 사람이 작성한 텍스트와 생성된 텍스트를 비교한다.


NLG 시스템의 궁극적인 목표는 사람들을 돕는 데 얼마나 유용한지 평가하는 것이며, 이는 작업 기반 평가를 통해 확인할 수 있다. 그러나 작업 기반 평가는 시간과 비용이 많이 들고 수행하기 어려워 자주 사용되지는 않는다.

최근 연구자들은 사람의 평가와 지표가 작업 기반 평가와 얼마나 잘 상관관계가 있는지 연구하고 있다. 초기 결과에 따르면 사람의 평가는 지표보다 작업 효과성을 더 잘 예측하는 경향이 있다. 하지만 이러한 결과는 잠정적이며, 사람의 평가는 NLG에서 가장 인기 있는 평가 기술로 남아있다. 이는 지표가 널리 사용되는 기계 번역과는 대조적이다.

AI는 학습 데이터에 대한 '''충실도''' 또는 '''사실성'''에 따라 평가될 수 있다. 학습 데이터를 반영하지만 현실을 반영하지 않는 응답은 충실하지만 사실적이지 않다. 자신감 있지만 충실하지 않은 응답은 '''환각'''이라고 한다. 자연어 처리에서 환각은 종종 "제공된 소스 콘텐츠에 무의미하거나 충실하지 않은 생성된 콘텐츠"로 정의된다.[32]

참조

[1] 저널 Building applied natural language generation systems https://www.cambridg[...] 1997-03
[2] 저널 Survey of the state of the art in natural language generation: Core tasks, applications and evaluation.
[3] 컨퍼런스 Every picture tells a story: Generating sentences from images https://link.springe[...] Springer 2010-09-05
[4] AV media History of NLG https://www.youtube.[...] 2021-03-21
[5] 저널 Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature
[6] 문서 Generating Spatio-Temporal Descriptions in Pollen Forecasts. http://www.aclweb.or[...]
[7] 서적 Building natural language generation systems Cambridge University Press
[8] 웹사이트 E2E NLG Challenge http://www.macs.hw.a[...]
[9] 웹사이트 DataLabCup: Image Caption https://www.kaggle.c[...]
[10] 저널 A Comparison of Graphical and Textual Presentations of Time Series Data to Support Medical Decision Making in the Neonatal Intensive Care Unit
[11] 저널 Data-to-Text Generation Improves Decision-Making Under Uncertainty https://napier-surfa[...]
[12] 웹사이트 Text or Graphics? https://ehudreiter.c[...] 2016-12-26
[13] 저널 Choosing Words in Computer-Generated Weather Forecasts
[14] 저널 Using Natural-Language Processing to Produce Weather Forecasts
[15] 문서 Generating A Case Study: NLG meeting Weather Industry Demand for Quality and Quantity of Textual Weather Forecasts. http://www.aclweb.or[...]
[16] 웹사이트 Earthquake aftershock: 2.7 quake strikes near Westwood https://www.latimes.[...] 2014-03-17
[17] 웹사이트 L.A. Times Journalist Explains How a Bot Wrote His Earthquake Story for Him https://www.theatlan[...] 2014-03-17
[18] 웹사이트 Neural Networks and Modern BI Platforms Will Evolve Data and Analytics https://www.gartner.[...]
[19] 컨퍼런스 Building a Large-Scale Commercial NLG System for an EMR http://www.aclweb.or[...]
[20] 저널 Automatic Generation of Textual Summaries from Neonatal Intensive Care Data https://hal.archives[...]
[21] 웹사이트 Welcome to the iGraph-Lite page http://www.inf.udec.[...]
[22] arXiv Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation 2018-01-29
[23] 저널 Show and Tell: A Neural Image Caption Generator https://www.cv-found[...] 2015
[24] 저널 Deep Visual-Semantic Alignments for Generating Image Descriptions https://www.cv-found[...] 2015
[25] 컨퍼런스 Recent, Rapid Advancement in Visual Question Answering Architecture: a Review
[26] arXiv Recent advances in conversational NLP: Towards the standardization of Chatbot building 2019-03-21
[27] 웹사이트 How To Author Over 1 Million Books https://www.huffpost[...] 2013-02-11
[28] 웹사이트 Exploring GPT-3: A New Breakthrough in Language Generation https://www.kdnugget[...]
[29] 저널 Computers Learning Humor Is No Joke https://hdsr.mitpres[...] 2021-04-30
[30] 저널 Context-Driven Satirical News Generation https://aclanthology[...] Association for Computational Linguistics 2020-07
[31] 문서 Generation Challenges https://sites.google[...]
[32] 저널 Survey of Hallucination in Natural Language Generation 2022-11-17
[33] 저널 Building applied natural language generation systems https://www.cambridg[...] 1997-03
[34] 저널 Survey of the state of the art in natural language generation: Core tasks, applications and evaluation.
[35] 컨퍼런스 Every picture tells a story: Generating sentences from images https://link.springe[...] Springer 2010-09-05
[36] 영상 History of NLG https://www.youtube.[...] 2021-03-21
[37] 저널 Recent Advances in Natural Language Generation: A Survey and Classification of the Empirical Literature
[38] 콘퍼런스 Recent, Rapid Advancement in Visual Question Answering Architecture: a Review



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com