자동 요약

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 자동 요약의 종류
3. 추출 요약의 방법
4. 추출 요약의 문제점
- 4.1. 지시 관계 처리
5. 생성 요약의 방법
- 5.1. 추상화 기반 요약 (Abstractive-based summarization)
6. 자동 요약의 접근 방식
- 6.1. 추출 기반 요약 (Extraction-based summarization)
- 6.2. 보조 요약 (Aided summarization)
7. 자동 요약의 응용 및 시스템
8. 자동 요약 평가
9. 자동 요약의 역사
10. 한국어 자동 요약 시스템
참조

1. 개요

자동 요약은 컴퓨터 프로그램이 텍스트 문서의 내용을 요약하는 기술이다. 자동 요약에는 원본 텍스트에서 문장이나 구절을 추출하는 추출 요약과, 새로운 문장을 생성하는 생성 요약 방식이 있다. 자동 요약은 지시적 요약과 보고적 요약, 단일 문서 요약과 복수 문서 요약, 추출 요약과 생성 요약 등으로 분류된다. 자동 요약 시스템은 문서 요약, 다중 문서 요약, 뉴스 기사 요약, 이미지 컬렉션 요약, 비디오 요약 등 다양한 분야에 응용되며, 텍스트랭크, 페이지랭크, 서브모듈 함수 등의 기술이 사용된다. 자동 요약의 평가는 ROUGE와 같은 지표를 사용하여 이루어진다.

더 읽어볼만한 페이지

데이터 마이닝 - 클러스터 분석
클러스터 분석은 유사한 특성을 가진 데이터 객체들을 그룹으로 묶는 기계 학습 기법으로, 다양한 알고리즘과 모델을 기반으로 하며 여러 분야에서 활용되고 클러스터링 결과는 다양한 방식으로 평가된다.
데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다.
전산언어학 - 알고리즘
알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
전산언어학 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.
자연어 처리 - 정보 추출
정보 추출은 비정형 또는 반구조화된 텍스트에서 구조화된 정보를 자동으로 추출하는 기술로, 자연어 처리 기술을 활용하여 개체명 인식, 관계 추출 등의 작업을 수행하며 웹의 방대한 데이터에서 유용한 정보를 얻는 데 사용된다.
자연어 처리 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.

자동 요약
개요
추상화된 텍스트 덩어리를 보여주는 이미지
유형	자연 언어 처리
하위 분야	정보 검색, 텍스트 마이닝, 자연어 이해, 기계 번역 및 자연어 생성
상세 정보
설명	자동 요약은 컴퓨터 프로그램을 사용하여 긴 텍스트를 더 짧은 요약본으로 압축하는 과정이다.
접근 방식
추출적 요약	원본 텍스트에서 중요한 구절이나 문장을 선택하여 요약본을 생성
추상적 요약	원본 텍스트의 의미를 이해하고 새로운 문장을 생성하여 요약본을 생성

2. 자동 요약의 종류

자동 요약에는 크게 추출과 추상화 두 가지 접근 방식이 있다. 자동 요약은 요약의 목적이나 요약 대상 문서의 수, 요약 방법에 따라 몇 가지 종류로 분류할 수 있다.

'''지시적 요약'''은 요약의 원본이 된 문서를 읽어야 할지 여부에 대한 정보를 제공한다.^[43] 예를 들어, 신문 기사의 제목은 기사 전체의 간결한 요약으로, 독자에게 원본 기사 전체를 읽을지 여부를 판단할 자료를 제공한다는 점에서 지시적 요약이다.^[44] 반면, '''보고적 요약'''은 요약 자체가 원본 문서를 대체할 수 있는 요약이다.^[43] 예를 들어, 뉴스 프로그램의 자막은 청각 장애가 있는 시청자에게 아나운서의 음성을 대체하는 역할을 하므로 보고적 요약이라고 할 수 있다.^[44]

'''단일 문서 요약'''은 단일 문서를 요약 대상으로 하는 것이다. 예를 들어, 하나의 신문 기사를 요약하는 작업은 단일 문서 요약이다. '''복수 문서 요약'''은 여러 문서를 요약 대상으로 하여, 그것들로부터 단일 요약을 생성하는 것이다. 전형적으로는, 구글 뉴스와 같은 뉴스 애그리게이터에 의해 수집된 동일 사건에 관한 기사 집합을 입력으로 하여, 그것들의 간결한 요약을 생성하는 것이다.^[19]^[20] 다중 문서 요약은 간결하면서도 포괄적인 정보 보고서를 생성한다. 서로 다른 의견이 함께 제시되고 개략적으로 설명되면서 각 주제는 단일 문서 내에서 여러 관점에서 설명된다. 간략한 요약의 목표는 정보 검색을 단순화하고 가장 관련성이 높은 원본 문서를 가리킴으로써 시간을 단축하는 것이지만, 포괄적인 다중 문서 요약은 자체적으로 필요한 정보를 포함해야 하므로 정제가 필요한 경우에만 원본 파일에 액세스할 필요성을 제한한다. 자동 요약은 편집상의 손길이나 주관적인 인간의 개입 없이 여러 소스에서 알고리즘 방식으로 추출된 정보를 제시하여 완전히 편향되지 않도록 한다.

추출 요약은 요약 대상 문서에 포함된 단어, 구, 문장과 같은 단위를 적절하게 추출하여, 이를 조합하여 요약을 생성한다.^[45] 텍스트 문서의 경우, 추출은 요약(사용 가능한 경우), 제목과 부제, 그림, 섹션의 첫 번째 및 마지막 단락, 선택적으로 단락의 첫 번째 및 마지막 문장을 읽은 다음 전체 문서를 자세히 읽기로 선택하는 스키밍 과정과 유사하다.^[10] 임상적 관련성 측면에서 텍스트의 주요 시퀀스를 포함하는 추출의 다른 예로는 환자/문제, 개입 및 결과가 있다.^[20]

생성 요약은 문서를 한 번 어떤 중간 표현(또는 의미 표현)으로 변환하고, 이 중간 표현을 바탕으로 자연어 생성 기술을 사용하여 요약을 생성한다.^[45] 따라서 생성 요약으로 생성된 요약에는 원래 문서에 포함되지 않은 표현이 포함될 수도 있다. 생성 요약은 주로 텍스트에 적용되어 왔으며,^[11] 추상적 방법은 원본 콘텐츠의 내부 의미 표현(종종 언어 모델이라고 함)을 구축한 다음, 이 표현을 사용하여 사람이 표현할 수 있는 것에 더 가까운 요약을 생성한다. 추상화는 소스 문서의 섹션을 문구 변환하여 추출된 콘텐츠를 변환하여 추출보다 텍스트를 더 강력하게 압축할 수 있다. 그러나 이러한 변환은 추출보다 계산적으로 훨씬 더 어렵고, 자연어 처리와 종종 원본 문서가 특수 지식 분야와 관련된 경우 원본 텍스트 도메인에 대한 깊은 이해를 모두 포함한다. "문구 변환"은 이미지와 비디오에 적용하기가 훨씬 더 어려우며, 이것이 대부분의 요약 시스템이 추출적인 이유이다. 생성 요약에는 문서를 중간 표현으로 정확하게 변환하는 것 (즉, 정밀도가 높은 자연어 이해를 실현하는 것), 거기에서 요약을 생성하기 위한 자연어 생성기가 필요하다는 문제가 존재하기 때문에 주로 연구의 초점은 추출 요약에 맞춰져 있다.

2. 1. 지시적 요약과 보도적 요약

'''지시적 요약'''은 요약의 원본이 된 문서를 읽어야 할지 여부에 대한 정보를 제공한다.^[43] 예를 들어, 신문 기사의 제목은 기사 전체의 간결한 요약으로, 독자에게 원본 기사 전체를 읽을지 여부를 판단할 자료를 제공한다는 점에서 지시적 요약이다.^[44] 반면, '''보고적 요약'''은 요약 자체가 원본 문서를 대체할 수 있는 요약이다.^[43] 예를 들어, 뉴스 프로그램의 자막은 청각 장애가 있는 시청자에게 아나운서의 음성을 대체하는 역할을 하므로 보고적 요약이라고 할 수 있다.^[44]

2. 2. 단일 문서 요약과 복수 문서 요약

'''단일 문서 요약'''은 단일 문서를 요약 대상으로 하는 것이다. 예를 들어, 하나의 신문 기사를 요약하는 작업은 단일 문서 요약이다. '''복수 문서 요약'''은 여러 문서를 요약 대상으로 하여, 그것들로부터 단일 요약을 생성하는 것이다. 전형적으로는, 구글 뉴스와 같은 뉴스 애그리게이터에 의해 수집된 동일 사건에 관한 기사 집합을 입력으로 하여, 그것들의 간결한 요약을 생성하는 것이다.^[19]^[20]

다중 문서 요약은 간결하면서도 포괄적인 정보 보고서를 생성한다. 서로 다른 의견이 함께 제시되고 개략적으로 설명되면서 각 주제는 단일 문서 내에서 여러 관점에서 설명된다. 간략한 요약의 목표는 정보 검색을 단순화하고 가장 관련성이 높은 원본 문서를 가리킴으로써 시간을 단축하는 것이지만, 포괄적인 다중 문서 요약은 자체적으로 필요한 정보를 포함해야 하므로 정제가 필요한 경우에만 원본 파일에 액세스할 필요성을 제한한다. 자동 요약은 편집상의 손길이나 주관적인 인간의 개입 없이 여러 소스에서 알고리즘 방식으로 추출된 정보를 제시하여 완전히 편향되지 않도록 한다.

2. 3. 추출 요약과 생성 요약

추출 요약은 요약 대상 문서에 포함된 단어, 구, 문장과 같은 단위를 적절하게 추출하여, 이를 조합하여 요약을 생성한다.^[45] 텍스트 문서의 경우, 추출은 요약(사용 가능한 경우), 제목과 부제, 그림, 섹션의 첫 번째 및 마지막 단락, 선택적으로 단락의 첫 번째 및 마지막 문장을 읽은 다음 전체 문서를 자세히 읽기로 선택하는 스키밍 과정과 유사하다.^[10] 임상적 관련성 측면에서 텍스트의 주요 시퀀스를 포함하는 추출의 다른 예로는 환자/문제, 개입 및 결과가 있다.^[20]

생성 요약은 문서를 한 번 어떤 중간 표현(또는 의미 표현)으로 변환하고, 이 중간 표현을 바탕으로 자연어 생성 기술을 사용하여 요약을 생성한다.^[45] 따라서 생성 요약으로 생성된 요약에는 원래 문서에 포함되지 않은 표현이 포함될 수도 있다. 생성 요약은 주로 텍스트에 적용되어 왔으며,^[11] 추상적 방법은 원본 콘텐츠의 내부 의미 표현(종종 언어 모델이라고 함)을 구축한 다음, 이 표현을 사용하여 사람이 표현할 수 있는 것에 더 가까운 요약을 생성한다. 추상화는 소스 문서의 섹션을 문구 변환하여 추출된 콘텐츠를 변환하여 추출보다 텍스트를 더 강력하게 압축할 수 있다. 그러나 이러한 변환은 추출보다 계산적으로 훨씬 더 어렵고, 자연어 처리와 종종 원본 문서가 특수 지식 분야와 관련된 경우 원본 텍스트 도메인에 대한 깊은 이해를 모두 포함한다. "문구 변환"은 이미지와 비디오에 적용하기가 훨씬 더 어려우며, 이것이 대부분의 요약 시스템이 추출적인 이유이다. 생성 요약에는 문서를 중간 표현으로 정확하게 변환하는 것 (즉, 정밀도가 높은 자연어 이해를 실현하는 것), 거기에서 요약을 생성하기 위한 자연어 생성기가 필요하다는 문제가 존재하기 때문에 주로 연구의 초점은 추출 요약에 맞춰져 있다.

3. 추출 요약의 방법

현재 자동 요약의 중심이 되는 접근 방식은 추출적 요약이다. 추출적 요약은 다음 절차에 따라 수행된다^[46].

# 문장 분할

# 문장 단축

# 중요 문장 추출

# 문장 순서 정하기

3. 1. 문장 분할

자동 요약에서 문장 분할은 다른 많은 자연어 처리 응용 프로그램과 마찬가지로 기본적인 처리 과정이다.^[47] 특히 추출적 요약의 경우에는 문장을 단위로 처리하는 경우가 많아 문장 분할의 정확도가 중요하다.^[47] 기본적으로는 구두점 등을 기계적으로 감지하여 문장 경계를 추정하지만, 통계적인 기법에 의한 문장 경계 추정도 이루어지고 있다.^[47]

3. 2. 문장 단축

문장 분할을 통해 얻은 문장의 짧은 아종을 생성한다.

3. 3. 중요 문장 추출

문장 분할을 통해 문서에서 분할된 문장과 문장 단축을 통해 생성된 해당 아종을 입력하여, 특정 목적 함수에 따라 주어진 요약 길이를 충족하는 문장 조합을 탐색한다.

3. 4. 문장 순서 정하기

중요 문장 추출을 통해 선택된 문장 집합을 최종 요약으로 출력하기 위해서는 문장 집합에 순서를 부여해야 한다. 단일 문서 요약의 경우, 추출된 문장의 입력 문서 내 위치에 따라 순서를 부여하면 된다. 반면, 복수 문서 요약의 경우, 서로 다른 문서에서 문장이 선택된 경우, 그러한 순서를 부여할 수 없다. 따라서 문장 집합에 적절한 순서를 부여하는 방법이 필요하다.

4. 추출 요약의 문제점

4. 1. 지시 관계 처리

자동 요약에서 단순히 문장을 추출하여 조합하여 요약을 작성하는 경우, 지칭 관계가 문제가 될 수 있다. 예를 들어, "에이브러햄 링컨은 1809년 2월 12일 토머스 링컨과 낸시 헹크스 부부의 아들로 태어났다."라는 문장과 "그의 생일은 찰스 다윈과 같은 날이다."라는 두 문장이 있을 때, 두 번째 문장이 요약에 선택되고 첫 번째 문장이 선택되지 않으면 두 번째 문장의 "그"가 가리키는 대상이 불분명해진다. 이러한 경우 두 번째 문장의 "그"를 "에이브러햄 링컨"으로 대체하는 처리가 필요하다.

5. 생성 요약의 방법

5. 1. 추상화 기반 요약 (Abstractive-based summarization)

추상적 요약 방법은 원본 텍스트에 존재하지 않는 새로운 텍스트를 생성한다.^[11] 이는 주로 텍스트에 적용되어 왔다. 추상적 방법은 원본 콘텐츠의 내부 의미 표현(종종 언어 모델이라고 함)을 구축한 다음, 이 표현을 사용하여 사람이 표현할 수 있는 것에 더 가까운 요약을 생성한다. 추상화는 소스 문서의 섹션을 문구 변환하여 추출된 콘텐츠를 변환하여 추출보다 텍스트를 더 강력하게 압축할 수 있다. 그러나 이러한 변환은 추출보다 계산적으로 훨씬 더 어렵고, 자연어 처리와 종종 원본 문서가 특수 지식 분야와 관련된 경우 원본 텍스트 도메인에 대한 깊은 이해를 모두 포함한다. "문구 변환"은 이미지와 비디오에 적용하기가 훨씬 더 어려우며, 이것이 대부분의 요약 시스템이 추출적인 이유이다.

6. 자동 요약의 접근 방식

자동 요약에는 크게 두 가지 접근 방식이 있다. 추출과 추상화이다.
추출 기반 요약추출 기반 요약은 원본 데이터에서 핵심 내용을 추출하는 방식으로, 추출된 내용은 수정되지 않는다.^[10] 텍스트 문서의 경우, 핵심 구문, 요약문, 제목, 부제, 핵심 문장 등이 추출 대상이 될 수 있다. 이는 텍스트를 훑어보는 과정과 유사하며, 요약문, 제목, 부제, 그림, 섹션 및 단락의 처음과 마지막 문장 등을 읽는 것과 비슷하다.^[10] 임상적으로는 환자/문제, 개입, 결과와 같은 텍스트의 주요 시퀀스를 포함하는 추출이 그 예시이다.^[20]

자동 요약에서 추출 기반 요약은 중심적인 접근 방식이며, 다음과 같은 절차를 따른다.^[46]

# 문장 분할

# 문장 단축

# 중요 문장 추출

# 문장 순서 정하기
보조 요약더 높은 요약 품질을 목표로 하는 접근 방식은 소프트웨어와 인간의 노력을 결합하는 데 의존한다. 기계 보조 인간 요약에서는 추출 기법을 사용하여 포함할 후보 구절을 강조 표시하고, 이에 인간이 텍스트를 추가하거나 제거한다. 인간 보조 기계 요약에서는 사람이 소프트웨어 출력을 사후 처리하며, 이는 구글 번역과 같은 자동 번역의 출력을 편집하는 방식과 유사하다.

6. 1. 추출 기반 요약 (Extraction-based summarization)

추출 기반 요약은 원본 데이터에서 핵심 내용을 추출하는 방식으로, 추출된 내용은 수정되지 않는다.^[10] 텍스트 문서의 경우, 핵심 구문, 요약문, 제목, 부제, 핵심 문장 등이 추출 대상이 될 수 있다. 이는 텍스트를 훑어보는 과정과 유사하며, 요약문, 제목, 부제, 그림, 섹션 및 단락의 처음과 마지막 문장 등을 읽는 것과 비슷하다.^[10] 임상적으로는 환자/문제, 개입, 결과와 같은 텍스트의 주요 시퀀스를 포함하는 추출이 그 예시이다.^[20]

자동 요약에서 추출 기반 요약은 중심적인 접근 방식이며, 다음과 같은 절차를 따른다.^[46]

# 문장 분할

# 문장 단축

# 중요 문장 추출

# 문장 순서 정하기

6. 2. 보조 요약 (Aided summarization)

더 높은 요약 품질을 목표로 하는 접근 방식은 소프트웨어와 인간의 노력을 결합하는 데 의존한다. 기계 보조 인간 요약에서는 추출 기법을 사용하여 포함할 후보 구절을 강조 표시하고, 이에 인간이 텍스트를 추가하거나 제거한다. 인간 보조 기계 요약에서는 사람이 소프트웨어 출력을 사후 처리하며, 이는 구글 번역과 같은 자동 번역의 출력을 편집하는 방식과 유사하다.

7. 자동 요약의 응용 및 시스템

자동 요약 시스템은 사용자의 필요에 따라 질의 관련 텍스트 요약과 일반적인 기계 생성 요약을 모두 생성할 수 있다.^[12]

자동 요약은 주어진 문서에서 자동으로 초록을 생성하는 문서 요약, 여러 소스 문서를 사용하는 다중 문서 요약, 뉴스 기사 요약, 이미지 컬렉션 요약, 비디오 요약 등 다양한 분야에 응용된다.^[12]

일반 요약은 문서, 이미지 집합, 비디오, 뉴스 기사 등 컬렉션의 일반적인 요약이나 초록을 얻는 데 중점을 두는 반면, 질의 관련 요약(또는 질의 기반 요약)은 질의와 관련된 객체를 요약한다.

뉴스 기사 요약은 주어진 주제에 대한 뉴스 기사를 자동 수집하여 최신 뉴스를 요약으로 간결하게 표현하는 시스템이다. 이미지 컬렉션 요약은 더 큰 이미지 세트에서 대표적인 이미지 세트를 선택하는 것이며, 이미지 컬렉션 탐색 시스템에서 결과의 가장 대표적인 이미지를 표시하는 데 유용하다.^[12] 비디오 요약은 긴 비디오의 예고편을 자동으로 생성하는 것으로, 소비자 또는 개인 비디오, 감시 비디오 등에 적용될 수 있다.^[12]

요약 알고리즘은 전체 정보 집합을 커버하는 객체의 하위 집합(코어 세트)을 찾는 방식으로 작동하며, 요약의 다양성, 적용 범위, 정보, 대표성, 질의 기반 요약 기술은 요약과 질의의 관련성을 추가로 모델링한다. 텍스트랭크(TextRank) 및 페이지랭크(PageRank), 서브모듈 집합 함수, 결정론적 점 과정, 최대 주변 관련성(MMR) 등이 요약 문제에 사용되는 기술 및 알고리즘이다.^[12]

7. 1. 일반 요약과 질의 관련 요약

7. 2. 다양한 응용 분야

자동 요약은 다양한 분야에 응용되고 있다.

2011년에 만들어진 레딧(Reddit)의 인터넷 봇 "autotldr"는 레딧 게시물의 댓글 섹션에서 뉴스 기사를 요약한다.^[31] 레딧 커뮤니티에서 수십만 번의 추천을 받으며 매우 유용하다는 평가를 받았다.^[32] 이 이름은 "너무 길어서 읽지 않음"을 뜻하는 TL;DR − 인터넷 속어를 참조한다.^[33]^[34]

적대적 문체 분석은 요약에서 손실되는 세부 사항이 크지 않고 요약이 입력과 문체적으로 충분히 다른 경우 요약을 사용할 수 있다.

상품 평판 요약 API (goo 랩) ([https://labs.goo.ne.jp/api/2015/1150/ goo 랩])는 2018년 12월 3일에 API 제공이 종료되었다.

7. 3. 핵심 구절 추출 (Keyphrase extraction)

자동 요약의 한 종류인 핵심 구절 추출(Keyphrase extraction)은 저널 기사와 같은 텍스트에서 주요 주제를 포착하는 키워드 또는 키 구절의 목록을 생성하는 작업이다.^[13] 연구 논문의 경우, 많은 저자들이 수동으로 할당된 키워드를 제공하지만, 대부분의 텍스트에는 미리 존재하는 키구문이 없다. 예를 들어, 뉴스 기사에는 키구문이 거의 첨부되지 않지만, 여러 응용 프로그램에 대해 이를 자동으로 수행할 수 있다면 유용할 것이다.

뉴스 기사의 예시 텍스트를 보면 다음과 같다.

: "미 육군 공병대는 2006년 허리케인 시즌 시작까지 뉴올리언스를 보호하겠다는 부시 대통령의 약속을 지키기 위해 서둘러, 자체 전문가의 경고에도 불구하고 폭풍 시에 장비가 고장 날 것이라는 경고를 무시하고 작년에 결함이 있는 홍수 방지 펌프를 설치했다. 이 내용은 AP 통신이 입수한 문서에 따른 것이다."

이 텍스트에서 키구문 추출기는 "미 육군 공병대", "부시 대통령", "뉴올리언스", "결함 있는 홍수 방지 펌프"를 키구문으로 선택할 수 있다. 이러한 키구문들은 텍스트에서 직접 추출된다. 반대로, 추상적 키구문 시스템은 내용을 내부적으로 처리하여 텍스트에 나타나지 않지만, "정치적 과실" 또는 "홍수에 대한 부적절한 방어"와 같이 사람이 생성할 수 있는 키구문과 더 유사한 키구문을 생성한다. 추상화는 깊은 자연어 이해를 필요로 하며, 이는 컴퓨터 시스템에 어려움을 준다.

키구문은 많은 응용 분야를 가지고 있다. 키구문은 짧은 요약을 제공하여 문서 검색을 가능하게 하고, 정보 검색을 개선하며 (문서에 키구문이 할당된 경우, 사용자는 전체 텍스트 검색보다 더 신뢰할 수 있는 검색 결과를 얻기 위해 키구문으로 검색할 수 있다), 대규모 텍스트 말뭉치에 대한 색인 항목을 생성하는 데 사용될 수 있다.

다양한 문헌과 핵심 용어, 단어 또는 구문의 정의에 따라 키워드 추출은 매우 관련성이 높은 주제이다.

7. 3. 1. 지도 학습 기반 접근법 (Supervised learning approaches)

턴니의 연구를 시작으로,^[14] 많은 연구자들이 지도 학습 문제로 핵심 구절 추출에 접근해 왔다.

문서가 주어지면, 텍스트에서 발견된 각 단어, 두 단어 묶음, 세 단어 묶음에 대한 예시를 구성한다(다른 텍스트 단위도 가능하다). 그런 다음 각 예시를 설명하는 다양한 특징을 계산한다(예: 구문이 대문자로 시작하는가?). 일련의 훈련 문서에 사용할 수 있는 알려진 핵심 구절이 있다고 가정하고, 알려진 핵심 구절을 사용하여 예시에 긍정 또는 부정 레이블을 할당할 수 있다. 그런 다음 특징의 함수로 긍정 및 부정 예시를 구별할 수 있는 분류기를 학습한다. 일부 분류기는 테스트 예시에 대해 이진 분류를 수행하는 반면, 다른 분류기는 핵심 구절일 확률을 할당한다. 예를 들어, 첫 글자가 대문자인 구절이 핵심 구절일 가능성이 높다는 규칙을 배울 수 있다.

학습자를 훈련시킨 후, 테스트 문서에 대한 핵심 구절을 선택할 수 있다. 테스트 문서에 동일한 예시 생성 전략을 적용한 다음 각 예시를 학습자를 통해 실행하고, 학습된 모델에서 반환된 이진 분류 결정 또는 확률을 살펴봄으로써 핵심 구절을 결정한다. 확률이 주어지면, 임계값을 사용하여 핵심 구절을 선택한다.

핵심 구절 추출기는 일반적으로 정밀도와 재현율을 사용하여 평가된다. 정밀도는 제안된 핵심 구절 중 실제로 정확한 구절이 얼마나 되는지 측정한다. 재현율은 시스템이 제안한 실제 핵심 구절이 얼마나 되는지 측정한다. 두 가지 측정값은 F-점수(''F'' = 2''PR''/(''P'' + ''R''))로 결합될 수 있다. 제안된 핵심 구절과 알려진 핵심 구절 간의 일치는 어간 추출 또는 기타 텍스트 정규화를 적용한 후에 확인할 수 있다.

지도 핵심 구절 추출 시스템을 설계하려면 몇 가지 선택 사항을 결정해야 한다(일부는 비지도 학습에도 적용된다). 첫 번째 선택은 예시 생성 방법이다. 턴니와 다른 사람들은 구두점 없이 모든 가능한 단어, 두 단어 묶음 및 세 단어 묶음을 사용했으며, 불용어를 제거했다. 훌스는 특정 품사 태그 패턴과 일치하는 토큰 시퀀스를 예시로 선택하여 약간의 개선을 얻을 수 있음을 보여주었다. 이상적으로는 예시를 생성하는 메커니즘이 모든 알려진 레이블이 지정된 핵심 구절을 후보로 생성하지만, 종종 그렇지 않다. 예를 들어, 단어, 두 단어 묶음 및 세 단어 묶음만 사용하면 네 단어를 포함하는 알려진 핵심 구절을 추출할 수 없다. 따라서 재현율이 저하될 수 있다. 그러나 너무 많은 예시를 생성하면 정밀도가 낮아질 수도 있다.

또한 학습 알고리즘이 핵심 구절과 비 핵심 구절을 구별할 수 있도록 예시를 설명하고 충분한 정보를 제공하는 특징을 만들어야 한다. 일반적으로 특징에는 다양한 용어 빈도수(구문이 현재 텍스트 또는 더 큰 코퍼스에 나타나는 횟수), 예시의 길이, 첫 번째 발생의 상대적 위치, 다양한 부울 구문 특징(예: 모든 대문자 포함) 등이 포함된다. 턴니 논문에서는 약 12개의 이러한 특징을 사용했다. 훌스는 턴니의 획기적인 논문에서 파생된 KEA(핵심 구절 추출 알고리즘) 작업에서 가장 성공적인 것으로 밝혀진 축소된 특징 집합을 사용한다.

결국, 시스템은 테스트 문서에 대한 핵심 구절 목록을 반환해야 하므로, 숫자 제한을 설정해야 한다. 앙상블 방법(예: 여러 분류기의 투표 사용)은 사용자 제공 핵심 구절 수를 제공하기 위해 임계값을 적용할 수 있는 숫자 점수를 생성하는 데 사용되었다. 이는 C4.5 의사 결정 트리를 사용하여 턴니가 사용한 기술이다. 훌스는 단일 이진 분류기를 사용하여 학습 알고리즘이 적절한 숫자를 암묵적으로 결정하도록 했다.

예시와 특징이 생성되면, 핵심 구절을 예측하는 방법을 배워야 한다. 의사 결정 트리, 나이브 베이즈, 규칙 유도 등 거의 모든 지도 학습 알고리즘을 사용할 수 있다. 턴니의 GenEx 알고리즘의 경우, 유전자 알고리즘을 사용하여 도메인별 핵심 구절 추출 알고리즘에 대한 매개변수를 학습한다. 추출기는 핵심 구절을 식별하기 위해 일련의 휴리스틱을 따른다. 유전자 알고리즘은 알려진 핵심 구절이 있는 훈련 문서의 성능과 관련하여 이러한 휴리스틱의 매개변수를 최적화한다.

7. 3. 2. 비지도 학습 기반 접근법 (Unsupervised approach): TextRank

TextRank는 지도 학습 방식과 달리 훈련 데이터가 필요 없는 비지도 핵심 구절 추출 알고리즘이다.^[15] PageRank가 중요한 웹 페이지를 선택하는 방식처럼 텍스트 자체의 구조를 활용하여 텍스트에서 "중심"으로 보이는 핵심 구절을 결정한다. 이는 소셜 네트워크의 "명성" 또는 "추천" 개념에 기반하며, 이전 훈련 데이터에 의존하지 않고 텍스트의 임의의 부분에서 실행될 수 있어 새로운 도메인과 언어로 쉽게 이식할 수 있다.

TextRank는 NLP를 위한 범용 그래프 기반 순위 알고리즘으로, 핵심 구절 추출을 위해 특별히 설계된 그래프에서 PageRank를 실행한다. 텍스트 단위를 정점으로, 의미론적 또는 어휘 유사성 측정값을 간선으로 사용하여 그래프를 구축한다. PageRank와 달리 간선은 무방향이며, 유사성의 정도를 반영하여 가중치를 부여할 수 있다. 그래프가 구성되면, 정점에 대한 순위는 고유값 1에 해당하는 고유 벡터를 찾는 것으로 얻는다 (그래프에 대한 랜덤 워크의 정상 분포).

TextRank는 개별 유니그램의 순위를 매긴 후, 순위가 높은 인접 유니그램을 병합하여 여러 단어로 구성된 구문을 형성한다. 이때 품사(형용사와 명사)를 기준으로 유니그램을 필터링하여 언어학적 지식을 활용한다.

TextRank에서는 단어 공기를 기반으로 간선을 생성한다. 크기 N(일반적으로 2~10)의 창 내에 유니그램이 함께 나타나면 두 정점은 간선으로 연결된다. 이는 "텍스트 응집성" 개념과 서로 근처에 나타나는 단어가 의미 있게 관련되어 있다는 아이디어에 기반한다.

TextRank는 그래프의 총 정점 수의 사용자 지정 분수인 T를 설정하여 임계값을 정한다. 상위 T개의 정점/유니그램이 정상 확률을 기준으로 선택되고, 인접한 유니그램은 후처리 단계를 통해 병합된다.

공기 그래프는 자주, 그리고 다양한 맥락에서 나타나는 용어에 대해 조밀하게 연결된 영역을 포함한다. 이 그래프에 대한 랜덤 워크는 클러스터의 중심에 있는 용어에 큰 확률을 할당하는 정상 분포를 갖게 되는데, 이는 PageRank에 의해 순위가 높은 조밀하게 연결된 웹 페이지와 유사하다.

7. 4. 문서 요약 (Document summarization)

핵심 구절 추출과 마찬가지로 문서 요약은 텍스트의 본질을 파악하는 것을 목표로 한다. 유일한 차이점은 이제 단어와 구절 대신 더 큰 텍스트 단위, 즉 전체 문장을 다룬다는 것이다.

7. 4. 1. 지도 학습 기반 접근법 (Supervised learning approaches)

지도 텍스트 요약은 지도 키워드 추출과 매우 유사하다. 기본적으로 문서 모음과 이에 대해 사람이 생성한 요약이 있다면, 요약에 포함하기에 적합한 문장의 특징을 학습할 수 있다. 특징에는 문서 내 위치(예: 처음 몇 문장이 중요할 수 있음), 문장의 단어 수 등이 포함될 수 있다. 지도 추출 요약의 주요 어려움은 알려진 요약이 수동으로 문장을 추출하여 생성되어야 하므로, 원본 훈련 문서의 문장에 "요약에 있음" 또는 "요약에 없음" 레이블을 지정할 수 있다는 것이다. 이것이 일반적으로 사람들이 요약을 만드는 방식이 아니므로 저널 초록이나 기존 요약을 사용하는 것만으로는 일반적으로 충분하지 않다. 이러한 요약의 문장은 원본 텍스트의 문장과 반드시 일치하지 않으므로 훈련을 위해 예제에 레이블을 할당하기 어려울 수 있다. 그러나 이러한 자연 요약은 ROUGE-1 평가가 unigram만 고려하기 때문에 평가 목적으로 사용할 수 있다.

7. 4. 2. 최대 엔트로피 기반 요약 (Maximum entropy-based summarization)

TNO(응용 과학 연구를 위한 네덜란드 기구)는 DUC 2001 및 2002 평가 워크숍 동안 뉴스 도메인에서 다중 문서 요약을 위한 문장 추출 시스템을 개발했다. 이 시스템은 중요도를 모델링하기 위해 나이브 베이즈 분류기와 통계적 언어 모델을 사용하는 하이브리드 시스템을 기반으로 했다. 이 시스템은 좋은 결과를 보였지만, 연구자들은 ME가 특징 의존성에 강한 것으로 알려져 있어 회의 요약 작업에 최대 엔트로피(ME) 분류기의 효과를 탐구하고 싶어했다. 최대 엔트로피는 방송 뉴스 도메인에서도 요약에 성공적으로 적용되었다.

7. 4. 3. 적응형 요약 (Adaptive summarization)

적응형 문서/텍스트 요약은 유망한 접근 방식이다.^[16] 이는 먼저 텍스트 장르를 인식한 다음 이 장르에 최적화된 요약 알고리즘을 적용하는 것을 포함한다. 이러한 소프트웨어가 개발되었다.^[17]

7. 4. 4. TextRank와 LexRank

무감독 요약 방식은 무감독 핵심 구문 추출과 매우 유사하며, 값비싼 훈련 데이터 문제를 해결한다. 일부 무감독 요약 접근 방식은 문서 내 모든 문장의 평균 단어 벡터인 "센트로이드" 문장을 찾는 데 기반한다. 그런 다음 이 센트로이드 문장과의 유사성을 기준으로 문장의 순위를 매길 수 있다.

문장 중요성을 추정하는 더욱 원칙적인 방법은 무작위 보행과 고유 벡터 중심성을 사용하는 것이다. LexRank^[18]는 TextRank와 본질적으로 동일한 알고리즘이며, 두 알고리즘 모두 문서 요약에 이 방식을 사용한다. 두 방법은 동시에 서로 다른 그룹에 의해 개발되었으며, LexRank는 요약에 초점을 맞췄지만, 핵심 구문 추출이나 기타 NLP 순위 매기기 작업에도 쉽게 사용할 수 있다.

LexRank와 TextRank 모두에서, 문서 내 각 문장에 대한 정점을 생성하여 그래프를 구성한다.

문장 간의 간선은 어떤 형태의 의미적 유사성 또는 내용 중복에 기반한다. LexRank는 TF-IDF 벡터의 코사인 유사도를 사용하는 반면, TextRank는 두 문장이 공유하는 단어 수를 기반으로 하는 매우 유사한 척도를 사용한다(정규화는 문장의 길이로 수행). LexRank 논문에서는 코사인 값에 임계값을 적용한 후 가중치가 없는 간선을 사용하는 것을 탐구했지만, 유사성 점수와 동일한 가중치를 가진 간선을 사용하는 것도 실험했다. TextRank는 연속적인 유사도 점수를 가중치로 사용한다.

두 알고리즘 모두에서, 생성된 그래프에 페이지랭크를 적용하여 문장의 순위를 매긴다. 상위 순위 문장을 결합하여 요약이 형성되며, 임계값 또는 길이 컷오프를 사용하여 요약의 크기를 제한한다.

TextRank는 여기에 설명된 대로 정확하게 요약에 적용되었지만, LexRank는 LexRank 점수(정상 확률)를 문장 위치 및 길이와 같은 다른 기능과 결합하는 더 큰 요약 시스템(MEAD)의 일부로 사용되었으며, 사용자가 지정하거나 자동 조정된 가중치를 사용하여 선형 결합이 사용되었다. 이 경우, 일부 훈련 문서가 필요할 수 있지만, TextRank 결과는 추가 기능이 절대적으로 필요한 것은 아님을 보여준다.

TextRank와 달리 LexRank는 다중 문서 요약에 적용되었다.

7. 4. 5. 다중 문서 요약 (Multi-document summarization)

'''다중 문서 요약'''은 동일한 주제에 관해 작성된 여러 텍스트에서 정보를 추출하는 것을 목표로 하는 자동 절차이다. 결과 요약 보고서를 통해 전문 정보 소비자 등 개별 사용자는 대규모 문서 클러스터에 포함된 정보에 빠르게 익숙해질 수 있다. 이러한 방식으로 다중 문서 요약 시스템은 뉴스 애그리게이터가 정보 과부하에 대처하는 다음 단계를 보완한다. 다중 문서 요약은 질문에 대한 응답으로 수행될 수도 있다.^[19]^[20]

다중 문서 요약은 간결하면서도 포괄적인 정보 보고서를 생성한다. 서로 다른 의견이 함께 제시되고 개략적으로 설명되면서 각 주제는 단일 문서 내에서 여러 관점에서 설명된다. 간략한 요약의 목표는 정보 검색을 단순화하고 가장 관련성이 높은 원본 문서를 가리킴으로써 시간을 단축하는 것이지만, 포괄적인 다중 문서 요약은 자체적으로 필요한 정보를 포함해야 하므로 정제가 필요한 경우에만 원본 파일에 액세스할 필요성을 제한한다. 자동 요약은 편집상의 손길이나 주관적인 인간의 개입 없이 여러 소스에서 알고리즘 방식으로 추출된 정보를 제시하여 완전히 편향되지 않도록 한다.

7. 5. 서브모듈 함수 (Submodular functions)

서브모듈러 집합 함수의 아이디어는 다양한 요약 문제에 대한 강력한 모델링 도구로 부상했다. 서브모듈러 함수는 ''커버리지'', ''정보'', ''표현'', ''다양성''의 개념을 자연스럽게 모델링한다. 몇 가지 중요한 조합 최적화 문제가 서브모듈러 최적화의 특수한 경우로 나타나는데, 예를 들어 집합 커버 문제는 집합 커버 함수가 서브모듈러이므로 이에 해당한다.^[25] 집합 커버 함수는 주어진 개념 집합을 ''커버''하는 객체의 부분 집합을 찾으려고 시도하며, 문서 요약에서 요약본이 문서의 모든 중요하고 관련된 개념을 커버하기를 원하는 경우가 그 예시이다. 시설 입지 문제 또한 서브모듈러 함수의 특수한 경우이며, 커버리지와 다양성을 자연스럽게 모델링한다. 결정론적 점 과정을 사용하여 다양성을 모델링하거나 최대-마진-관련성 절차도 서브모듈러 최적화의 예로 볼 수 있다. 커버리지, 다양성 및 정보를 장려하는 이러한 모델은 모두 서브모듈러이며, 효율적으로 결합될 수 있고 결과 함수는 여전히 서브모듈러이다. 따라서 다양성을 모델링하는 서브모듈러 함수와 커버리지를 모델링하는 함수를 결합하고, 인간의 감독을 사용하여 문제에 대한 서브모듈러 함수의 올바른 모델을 학습할 수 있다.

서브모듈러 함수는 최적화를 위한 효율적인 알고리즘을 허용한다. 간단한 탐욕 알고리즘은 상수 계수 보장을 허용하며, 구현이 간단하고 대규모 데이터 세트로 확장될 수 있어 요약 문제에 매우 중요하다.^[25]

Lin과 Bilmes, 2012의 연구는 서브모듈러 함수가 문서 요약을 위해 DUC-04, DUC-05, DUC-06 및 DUC-07 시스템에서 최고의 결과를 달성한다는 것을 보여준다.^[26] Lin과 Bilmes, 2011의 연구는 자동 요약을 위한 많은 기존 시스템이 서브모듈러 함수의 인스턴스임을 보여주며, 이는 서브모듈러 함수를 요약 문제에 적합한 모델로 확립하는 획기적인 결과였다.^[27]

서브모듈러 함수는 이미지 컬렉션 요약(Tschiatschek 외, 2014), 다중 문서 주제 계층 구조 요약(Bairi 외, 2015), 기계 학습 데이터 세트 요약 등 다른 요약 작업에도 사용되었다.^[28]^[29]^[30]

8. 자동 요약 평가

자동 요약의 유용성을 평가하는 가장 일반적인 방법은 자동 요약본을 사람이 만든 모범 요약본과 비교하는 것이다.

평가는 내재적 또는 외재적일 수 있으며, 텍스트 간 또는 텍스트 내 평가일 수 있다.

==== 내재적 평가와 외재적 평가 ====

내적 평가는 요약을 직접 평가하는 반면, 외적 평가는 요약 시스템이 다른 작업의 완료에 어떤 영향을 미치는지 평가한다. 내적 평가는 주로 요약의 일관성과 정보 전달 능력을 평가한다. 반면, 외적 평가는 관련성 평가, 독해력 등과 같은 작업에 대한 요약의 영향을 테스트했다.

==== 텍스트 간 평가와 텍스트 내 평가 ====

내부 텍스트 평가는 특정 요약 시스템의 출력을 평가하는 반면, 외부 텍스트 평가는 여러 요약 시스템의 출력에 대한 대비 분석에 중점을 둔다.

사람의 판단은 "좋은" 요약본이라고 간주하는 것에 따라 크게 달라지므로 자동 평가 프로세스를 만드는 것은 특히 어렵다. 수동 평가는 사용할 수 있지만 요약본뿐만 아니라 원본 문서도 사람이 읽어야 하므로 시간과 노력이 많이 든다. 다른 문제는 응집성 및 적용 범위에 관한 것이다.

요약본을 평가하는 가장 일반적인 방법은 ROUGE(요약 평가를 위한 리콜 중심 학습)이다. 이는 NIST의 문서 이해 컨퍼런스에서 요약 및 번역 시스템에 매우 일반적이다. ROUGE는 참조라고 하는 사람이 생성한 요약본의 내용을 요약본이 얼마나 잘 다루는지를 측정한 리콜 기반 척도이다. 자동 생성된 요약본과 이전에 작성된 사람 요약본 간의 n-gram 중첩을 계산한다. 요약본에 모든 중요한 주제를 포함하도록 장려하기 위해 리콜 기반으로 한다. 리콜은 유니그램, 바이그램, 트리그램 또는 4-그램 매칭과 관련하여 계산할 수 있다. 예를 들어 ROUGE-1은 참조 요약본의 모든 유니그램 중 참조 요약본과 자동 요약본 모두에 나타나는 유니그램의 비율이다. 참조 요약본이 여러 개 있는 경우 해당 점수는 평균된다. 높은 수준의 중첩은 두 요약본 간에 공유된 개념이 많다는 것을 나타낸다.

ROUGE는 결과가 응집력이 있는지, 즉 문장이 적절하게 연결되는지 여부를 결정할 수 없다. 고차 n-gram ROUGE 척도는 어느 정도 도움이 된다.

또 다른 해결되지 않은 문제는 지칭 해소이다.

8. 1. 내재적 평가와 외재적 평가

내적 평가는 요약을 직접 평가하는 반면, 외적 평가는 요약 시스템이 다른 작업의 완료에 어떤 영향을 미치는지 평가한다. 내적 평가는 주로 요약의 일관성과 정보 전달 능력을 평가한다. 반면, 외적 평가는 관련성 평가, 독해력 등과 같은 작업에 대한 요약의 영향을 테스트했다.

8. 2. 텍스트 간 평가와 텍스트 내 평가

내부 텍스트 평가는 특정 요약 시스템의 출력을 평가하는 반면, 외부 텍스트 평가는 여러 요약 시스템의 출력에 대한 대비 분석에 중점을 둔다.

사람의 판단은 "좋은" 요약본이라고 간주하는 것에 따라 크게 달라지므로 자동 평가 프로세스를 만드는 것은 특히 어렵다. 수동 평가는 사용할 수 있지만 요약본뿐만 아니라 원본 문서도 사람이 읽어야 하므로 시간과 노력이 많이 든다. 다른 문제는 응집성 및 적용 범위에 관한 것이다.

요약본을 평가하는 가장 일반적인 방법은 ROUGE(요약 평가를 위한 리콜 중심 학습)이다. 이는 NIST의 문서 이해 컨퍼런스에서 요약 및 번역 시스템에 매우 일반적이다. ROUGE는 참조라고 하는 사람이 생성한 요약본의 내용을 요약본이 얼마나 잘 다루는지를 측정한 리콜 기반 척도이다. 자동 생성된 요약본과 이전에 작성된 사람 요약본 간의 n-gram 중첩을 계산한다. 요약본에 모든 중요한 주제를 포함하도록 장려하기 위해 리콜 기반으로 한다. 리콜은 유니그램, 바이그램, 트리그램 또는 4-그램 매칭과 관련하여 계산할 수 있다. 예를 들어 ROUGE-1은 참조 요약본의 모든 유니그램 중 참조 요약본과 자동 요약본 모두에 나타나는 유니그램의 비율이다. 참조 요약본이 여러 개 있는 경우 해당 점수는 평균된다. 높은 수준의 중첩은 두 요약본 간에 공유된 개념이 많다는 것을 나타낸다.

ROUGE는 결과가 응집력이 있는지, 즉 문장이 적절하게 연결되는지 여부를 결정할 수 없다. 고차 n-gram ROUGE 척도는 어느 정도 도움이 된다.

또 다른 해결되지 않은 문제는 지칭 해소이다.

8. 3. 정량적 평가: ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

9. 자동 요약의 역사

이 분야의 최초 출판물은 1957년 한스 피터 루흔이 통계적 기법을 사용한 것을 시작으로 거슬러 올라간다.^[39] 이 연구는 2015년에 크게 증가했다. 2016년까지 단어 빈도-역 문서 빈도(TF-IDF)가 사용되었다. 패턴 기반 요약은 2016년까지 발견된 다중 문서 요약에 가장 강력한 옵션이었다. 그 다음 해에 잠재 의미 분석(LSA)과 비음수 행렬 분해(NMF)를 결합한 기술이 이를 능가했다. 다른 접근 방식을 대체하지 않고 종종 함께 사용되었지만, 2019년까지 기계 학습 방법이 단일 문서의 추출 요약을 지배했으며, 이는 성숙 단계에 근접한 것으로 간주되었다. 2020년까지 이 분야는 여전히 매우 활발했으며 연구는 추상적 요약과 실시간 요약으로 이동하고 있다.^[40]

10. 한국어 자동 요약 시스템

참조

_[1] 서적 Automatic Text Summarization https://www.wiley.co[...] Wiley 2014-10-01
_[2] 간행물 Content-Based Visual Summarization for Image Collection 2021-04-01
_[3] 뉴스 WIPO PUBLISHES PATENT OF KT FOR "IMAGE SUMMARIZATION SYSTEM AND METHOD" (SOUTH KOREAN INVENTORS) https://www.proquest[...] 2021-01-22
_[4] 간행물 ImageHive: Interactive Content-Aware Image Summarization 2012-02
_[5] 서적 Handbook on Soft Computing for Video Surveillance https://books.google[...] CRC Press 2012-01-25
_[6] 서적 2012 IEEE Conference on Computer Vision and Pattern Recognition https://ieeexplore.i[...] IEEE 2022-12-04
_[7] 간행물 Multimodal stereoscopic movie summarization conforming to narrative characteristics https://research-inf[...] IEEE 2022-12-04
_[8] 간행물 A salient dictionary learning framework for activity video summarization via key-frame extraction https://www.scienced[...] Elsevier 2022-12-04
_[9] 웹사이트 Auto-generated Summaries in Google Docs http://ai.googleblog[...] 2022-03-23
_[10] 문서 How to skim text https://www.dummies.[...] 2019-12
_[11] 서적 Text data management and analysis : a practical introduction to information retrieval and text mining https://www.worldcat[...] 2016
_[12] 문서 A Multi-class Kernel Alignment Method for Image Collection Summarization Springer-Verlag, Berlin, Heidelberg
_[13] 서적 Advances in Computational Intelligence Systems
_[14] 간행물 Learning Algorithms for Keyphrase Extraction
_[15] 웹사이트 Archived copy http://acl.ldc.upenn[...] Department of Computer Science University of North Texas 2012-07-20
_[16] 간행물 Automatic genre recognition and adaptive text summarization
_[17] 문서 UNIS (Universal Summarizer) http://yatsko.zohosi[...]
_[18] 문서 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization https://www.cs.cmu.e[...]
_[19] 문서 Versatile question answering systems: seeing in synthesis https://www.academia[...]
_[20] 간행물 Clinical Context-Aware Biomedical Text Summarization Using Deep Neural Network: Model Development and Validation https://www.jmir.org[...]
_[21] 문서 The use of MMR, diversity-based reranking for reordering documents and producing summaries. https://www.cs.cmu.e[...] ACM
_[22] 문서 Improving Diversity in Ranking using Absorbing Random Walks http://www.aclweb.or[...] HLT-NAACL
_[23] 문서 Learning mixtures of submodular shells with application to document summarization https://arxiv.org/ab[...]
_[24] 문서 Determinantal point processes for machine learning http://www.nowpublis[...] 2012-12
_[25] 문서 An analysis of approximations for maximizing submodular set functions—I.
_[26] 문서 Learning mixtures of submodular shells with application to document summarization https://arxiv.org/ab[...] UAI
_[27] 문서 A Class of Submodular Functions for Document Summarization http://www.aclweb.or[...] The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT)
_[28] 문서 Learning Mixtures of Submodular Functions for Image Collection Summarization http://papers.nips.c[...] In Advances of Neural Information Processing Systems (NIPS), Montreal, Canada 2014-12
_[29] 문서 Summarizing Multi-Document Topic Hierarchies using Submodular Mixtures To Appear In the Annual Meeting of the Association for Computational Linguistics (ACL), Beijing, China 2015-07
_[30] 웹사이트 Submodularity in Data Subset Selection and Active Learning http://www.jmlr.org/[...] To Appear In Proc. International Conference on Machine Learning (ICML), Lille, France 2015-06
_[31] 웹사이트 overview for autotldr https://www.reddit.c[...] 2017-02-09
_[32] 서적 Mastering Data Mining with Python – Find patterns hidden in your data https://books.google[...] Packt Publishing Ltd 2016-08-29
_[33] 웹사이트 What Is 'TLDR'? https://www.lifewire[...] 2017-02-09
_[34] 웹사이트 What Does TL;DR Mean? AMA? TIL? Glossary Of Reddit Terms And Abbreviations http://www.ibtimes.c[...] 2012-03-29
_[35] 문서 Mani, I. Summarization evaluation: an overview http://research.nii.[...]
_[36] 논문 A method for evaluating modern systems of automatic text summarization
_[37] 간행물 Learning Mixtures of Submodular Functions for Image Collection Summarization http://papers.nips.c[...] In Advances of Neural Information Processing Systems (NIPS), Montreal, Canada 2014-12
_[38] 서적 Artificial Intelligence in Medicine 2013
_[39] 논문 A Statistical Approach to Mechanized Encoding and Searching of Literary Information https://research.ibm[...] 1957
_[40] 논문 Review of automatic text summarization techniques & methods 2020-05-20
_[41] 웹사이트 Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer http://ai.googleblog[...] 2020-02-24
_[42] 간행물 Pegasus: Pre-training with extracted gap-sentences for abstractive summarization In International Conference on Machine Learning (pp. 11328-11339). PMLR. 2020-11
_[43] 서적 自動要約共立出版 2003
_[44] 서적 テキスト自動要約オーム社 2005
_[45] 서적 自動要約共立出版 2003
_[46] 서적 Speech and Language Processing (2nd Edition) Pearson Prentice Hall 2008
_[47] 간행물 Sentence boundary detection and the problem with the U.S. In Proceeding NAACL-Short '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers, pp. 241-244 2009

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com