핵중심구구조문법
1. 개요
핵심 중심 구 구조 문법(HPSG)은 유형 계층과 속성-값 행렬(AVM)로 표현되는 내부 기능 구조를 결합하여 문자열을 생성하는 문법 이론이다. AVM은 언어학적 자질을 나타내며, 문법 규칙은 기호가 서로에게 부과하는 제약을 통해 표현된다. HPSG는 다양한 언어의 문법을 구현하기 위한 파서 개발을 지원하며, DELPH-IN 프로젝트를 통해 영어, 독일어, 일본어 등 여러 언어에 대한 대규모 문법이 오픈 소스로 제공된다.
| 종류 | 구 구조 문법 |
|---|---|
| 개발자 | 칼 폴락 |
| 영향을 준 이론 | 변형 생성 문법 범주 문법 렉시컬 기능 문법 |
| 영향을 받은 이론 | 구성 요소 문법 최소주의 프로그램 |
| 핵심 개념 | 자질 구조 유형 계층 어휘주의 |
|---|---|
| 구문 분석 | 제약 기반 구문 분석 |
| 형식 | 통합 기반 형식 |
| 목표 | 언어학적 보편성 설명 다양한 언어 현상 설명 |
|---|---|
| 접근 방식 | 엄격한 형식주의 계산 언어학적 적용 용이 |
| 핵심 원리 | 주도 규칙 |
| 자연어 처리 | 구문 분석기 개발 의미 분석기 개발 |
|---|---|
| 전산 언어학 | 언어 모델링 기계 번역 |
| 형식적 엄밀성 | 명확하고 일관된 언어 기술 자동화된 추론 및 검증 가능 |
|---|---|
| 어휘 중심 | 어휘 항목의 중요성 강조 다양한 언어 현상에 대한 유연한 설명 |
| 통합성 | 구문, 의미, 화용 정보의 통합적 처리 |
| 복잡성 | 복잡한 자질 구조 및 유형 계층 학습 및 적용의 어려움 |
|---|---|
| 계산 비용 | 제약 기반 구문 분석의 높은 계산 비용 대규모 언어 처리에 대한 제약 |
| 연구 분야 | 구문론 의미론 전산 언어학 |
|---|---|
| 연구 동향 | 확률적 HPSG 심층 학습 기반 HPSG |
| 주요 서적 | http://langsci-press.org/catalog/book/259 |
|---|
-
통사론 -
관계절
관계절은 주절 내 명사를 수식하는 절로, 제한적/계속적 관계절, 종속/자유 관계절 등으로 나뉘며 언어별 구성 방식에 따라 여러 유형으로 분류된다. -
통사론 -
구 (언어학)
구는 언어학에서 핵과 수식 요소로 구성되어 명사구, 동사구 등으로 나뉘며, 문장 구조 분석에 사용되는 문법 단위이다. -
문법 -
접속사
접속사는 문장, 절, 구, 단어와 같은 언어 요소들을 연결하여 논리적 관계를 나타내는 품사로, 등위 접속사, 종속 접속사, 상관 접속사 등으로 나뉘며, 언어에 따라 다양한 형태로 나타난다. -
문법 -
품사
품사는 형태, 기능, 의미에 따라 단어를 분류하는 언어학적 범주로, 언어별 특징과 문법화 과정에 따라 분류 체계와 구성원이 달라지며, 품사 간 경계가 모호한 경우도 있어 여러 언어에서 다양한 논의가 이루어지고 있다.
2. HPSG의 기본 원리
HPSG는 유형 계층 내 위치와 속성-값 행렬(AVM)로 표현되는 내부 기능 구조로 정의된 기호를 결합하여 문자열을 생성한다. 기능은 유형 또는 유형 목록을 값으로 가지며, 이러한 값은 자체 기능 구조를 가질 수 있다. 문법 규칙은 기호가 서로에게 부과하는 제약을 통해 크게 표현된다. 기호의 기능 구조는 음운론적, 구문론적, 의미론적 속성을 설명한다. HPSG의 실제 문법은 기능 구조로만 구성되지만, 언어학자들은 AVM이 다루기 어려울 때 기호의 통합을 나타내기 위해 트리 구조를 사용하기도 한다.
center
2.1. 속성-값 행렬 (AVM)
HPSG에서 언어 정보는 속성-값 행렬(AVM)을 통해 표현된다. AVM은 기능과 값의 쌍으로 구성되며, 언어학적 자질을 나타낸다. 기능은 유형 또는 유형 목록을 값으로 가지며, 이러한 값은 자체 기능 구조를 가질 수 있다. 문법 규칙은 기호가 서로에게 부과하는 제약을 통해 크게 표현된다. 기호의 기능 구조는 음운론적, 구문론적, 의미론적 속성을 설명한다. 일반적인 표기법에서 AVM은 대문자로 표시된 기능과 이탤릭체 소문자로 표시된 유형으로 작성된다. AVM의 번호가 매겨진 색인은 토큰 동일 값을 나타낸다.
"walks" (이 경우 "주말을 위한 멋진 산책"과 같이 명사가 아닌 동사)에 대한 단순화된 AVM은 다음과 같다.
"Walks"는 유형이 word이고, head가 verb인 기호이다. 자동사로서 "walks"는 보어가 없지만 3인칭 단수 명사인 주어를 필요로 한다. 주어의 의미 값(CONTENT)은 동사의 유일한 인수(걷는 개체)와 동일하게 색인된다. "she"에 대한 다음 AVM은 이러한 요구 사항을 충족할 수 있는 SYNSEM 값을 가진 기호를 나타낸다.
phrase 유형의 기호는 하나 이상의 자식과 통합하고 정보를 위로 전파한다. 다음 AVM은 두 개의 자식(head 자식(동사)과 동사의 SUBJ 제약을 충족하는 비 head 자식)이 필요한 head-subj-phrase에 대한 즉시 지배 규칙을 인코딩한다.
최종 결과는 동사 head, 빈 하위 범주화 기능, 두 자식의 순서를 지정하는 음운론적 값을 가진 기호이다.
3. HPSG 문법의 예시
"walks"(이 경우 "주말을 위한 멋진 산책"과 같이 명사가 아닌 동사)에 대한 단순화된 AVM에서 동사의 범주 정보(CAT)는 이를 설명하는 기능(HEAD)과 인수를 설명하는 기능(VALENCE)으로 나뉜다.
"Walks"는 유형이 word이고, head가 verb인 기호이다. 자동사로서 "walks"는 보어가 없지만 3인칭 단수 명사인 주어를 필요로 한다. 주어의 의미 값(CONTENT)은 동사의 유일한 인수(걷는 개체)와 동일하게 색인된다. "she"에 대한 다음 AVM은 이러한 요구 사항을 충족할 수 있는 SYNSEM 값을 가진 기호를 나타낸다.
phrase 유형의 기호는 하나 이상의 자식과 통합하고 정보를 위로 전파한다. 다음 AVM은 두 개의 자식(head 자식(동사)과 동사의 SUBJ 제약을 충족하는 비 head 자식)이 필요한 head-subj-phrase에 대한 즉시 지배 규칙을 인코딩한다.
최종 결과는 동사 head, 빈 하위 범주화 기능, 두 자식의 순서를 지정하는 음운론적 값을 가진 기호이다.
HPSG의 실제 문법은 전적으로 기능 구조로 구성되어 있지만, 언어학자들은 동등한 AVM이 다루기 어려울 때 기호의 통합을 나타내기 위해 트리를 자주 사용한다.
4. HPSG 구현 및 파서
HPSG 형식에 기반한 다양한 파싱 파서가 작성되었으며 현재 최적화가 연구되고 있다. 자유 베를린 대학교 문법 그룹의 CoreGram 프로젝트는 TRALE 시스템으로 구현된 오픈 소스 문법을 제공한다. 현재 독일어, 덴마크어, 중국어, 몰타어, 및 페르시아어 문법이 공통된 핵심을 공유하며 공개적으로 이용 가능하다.
4.1. DELPH-IN
HPSG 이니셔티브를 이용한 심층 언어 처리(DELPH-IN)는 다양한 언어의 대규모 HPSG 문법 개발을 지원한다. 영어, 독일어, 일본어에 대한 광범위한 문법이 오픈 소스 라이선스로 제공된다. 이러한 문법은 LKB, PET, Ace, 및 agree와 같은 다양한 오픈 소스 HPSG 파서와 함께 사용할 수 있다. 이들 모두는 “최소 재귀 의미론(Minimal Recursion Semantics, MRS)” 형식으로 의미 표현을 생성한다. HPSG 형식의 선언적 특성은 이러한 계산 문법이 일반적으로 파싱과 생성(의미 입력으로부터 표면 문자열 생성) 모두에 사용될 수 있음을 의미한다. DELPH-IN에서 배포하는 트리뱅크는 문법 개발 및 테스트뿐만 아니라, 파싱(또는 생성 시 실현) 시 그럴듯한 해석을 결정하기 위한 순위 모델을 훈련하는 데 사용된다.