맨위로가기

사전 편찬

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

사전 편찬은 기원전 4천년기 수메르 설형 문자 기록에서 시작되어 다양한 언어에서 단어 목록 형태로 발전했다. 인쇄술의 발명과 컴퓨터의 등장은 사전 편찬에 혁신을 가져왔으며, 21세기 인공 지능의 발전은 새로운 영향을 미치고 있다. 사전 편찬은 실천 사전학과 이론 사전학으로 나뉘며, 표제어 선정, 표제어 정보 제시, 말뭉치 및 사전 편찬 도구 활용, 그리고 한국어 사전 편찬의 과제 등 다양한 측면을 고려하여 이루어진다. 사전 편찬의 목표는 사전 정보 비용을 낮추는 것이며, 사용자의 목적에 맞는 사전 제작을 위해 다양한 요소들을 고려해야 한다.

더 읽어볼만한 페이지

  • 사전 편찬 - 어휘
    어휘는 특정 언어에서 개인이 사용하는 단어들의 집합을 지칭하며, 언어학적으로는 고유어, 한자어, 외래어 등 다양한 유형으로 분류되고, 어휘 습득은 언어 능력 및 인지 발달에 중요한 영향을 미친다.
  • 사전 편찬 - 이름
    이름은 사물이나 개념을 식별하고 구별하기 위해 사용되는 단어 또는 단어들의 조합으로, 개인, 장소, 조직 등 다양한 대상에 붙여져 고유한 의미와 규칙을 지니며, 사람의 이름은 개인의 정체성을 나타내는 중요한 요소이다.
  • 표시 이름과 문서 제목이 같은 위키공용분류 - 라우토카
    라우토카는 피지 비치레부섬 서부에 위치한 피지에서 두 번째로 큰 도시이자 서부 지방의 행정 중심지로, 사탕수수 산업이 발달하여 "설탕 도시"로 알려져 있으며, 인도에서 온 계약 노동자들의 거주와 미 해군 기지 건설의 역사를 가지고 있고, 피지 산업 생산의 상당 부분을 담당하는 주요 기관들이 위치해 있다.
  • 표시 이름과 문서 제목이 같은 위키공용분류 - 코코넛
    코코넛은 코코넛 야자나무의 열매로 식용 및 유지로 사용되며, 조리되지 않은 과육은 100g당 354kcal의 열량을 내는 다양한 영양 성분으로 구성되어 있고, 코코넛 파우더의 식이섬유는 대부분 불용성 식이섬유인 셀룰로오스이며, 태국 일부 지역에서는 코코넛 수확에 훈련된 원숭이를 이용하는 동물 학대 문제가 있다.
  • 한국어 위키백과의 링크가 위키데이터와 같은 위키공용분류 - 라우토카
    라우토카는 피지 비치레부섬 서부에 위치한 피지에서 두 번째로 큰 도시이자 서부 지방의 행정 중심지로, 사탕수수 산업이 발달하여 "설탕 도시"로 알려져 있으며, 인도에서 온 계약 노동자들의 거주와 미 해군 기지 건설의 역사를 가지고 있고, 피지 산업 생산의 상당 부분을 담당하는 주요 기관들이 위치해 있다.
  • 한국어 위키백과의 링크가 위키데이터와 같은 위키공용분류 - 코코넛
    코코넛은 코코넛 야자나무의 열매로 식용 및 유지로 사용되며, 조리되지 않은 과육은 100g당 354kcal의 열량을 내는 다양한 영양 성분으로 구성되어 있고, 코코넛 파우더의 식이섬유는 대부분 불용성 식이섬유인 셀룰로오스이며, 태국 일부 지역에서는 코코넛 수확에 훈련된 원숭이를 이용하는 동물 학대 문제가 있다.
사전 편찬

2. 사전 편찬의 역사

사전 편찬은 인류 문명의 발전과 함께 오랜 역사를 지니고 있으며, 시대와 기술 발전에 따라 다양한 변화를 겪어왔다.

20세기에는 컴퓨터가 발명되면서 사전 편찬 방식에 큰 변화가 일어났다. 대규모 데이터베이스를 활용하여 어휘 정보를 빠르게 찾을 수 있게 되었고, 코퍼스 연구를 통해 단어의 다양한 의미를 구별할 수 있게 되었다. 또한, 사전 편찬자들은 알파벳순과 같은 전통적인 사전 편찬 순서에 얽매이지 않고 비선형적으로 작업할 수 있게 되었다.[13]

21세기 초, 인공 지능의 발전은 사전 편찬 분야에 새로운 영향을 미치고 있다. 일각에서는 "사전 편찬술의 종말"을 예견하기도 하지만,[14] 다른 한편에서는 인간 언어의 본질을 연구하는 분야에서 인간 사전 편찬자의 역할이 여전히 중요하다고 주장한다.[15]

2. 1. 고대

사전 편찬술의 흔적은 기원전 4천년기 후반으로 거슬러 올라갈 수 있으며, 최초로 알려진 사례는 수메르 설형 문자 텍스트로 우루크 도시에서 발굴되었다. 고대 사전 편찬술은 일반적으로 언어의 어휘를 기록하는 단어 목록으로 구성되었다. 다른 초기 단어 목록은 이집트어, 아카드어, 산스크리트어, 에블라어에서 발견되었으며, 단일 언어 및 이중 언어 단어 목록의 형태를 취한다. 이들은 주제와 품사별 등 다양한 방식으로 구성되었다.[10][11][12]

최초의 광범위한 주석, 즉 정의가 함께 제공되는 단어 목록은 기원전 300년경부터 나타나기 시작했으며, 이 분야는 더욱 꾸준히 발전하기 시작했다. 그리스, 로마, 중국, 인도, 사산 제국, 중동을 포함한 고대 문학 문화에서 더 긴 주석이 등장하기 시작했다. 636년, 세비야의 이시도르는 최초의 공식 어원 백과사전을 출판했다.[10][11][12]

2. 2. 중세 및 근대

사전 편찬술의 흔적은 기원전 4천년기 후반으로 거슬러 올라갈 수 있으며, 최초로 알려진 사례는 우루크 도시에서 발굴된 수메르 설형 문자 텍스트이다. 고대 사전 편찬술은 일반적으로 언어의 어휘를 기록하는 단어 목록으로 구성되었다. 다른 초기 단어 목록은 이집트어, 아카드어, 산스크리트어, 에블라어에서 발견되었으며, 단일 언어 및 이중 언어 단어 목록의 형태를 취했다. 이들은 주제와 품사별 등 다양한 방식으로 구성되었다. 최초로 정의가 함께 제공되는 광범위한 주석 단어 목록은 기원전 300년경부터 나타나기 시작했으며, 이 분야는 더욱 꾸준히 발전하기 시작했다. 그리스, 로마, 중국, 인도, 사산 제국, 중동을 포함한 고대 문학 문화에서 더 긴 주석이 등장하기 시작했다.[10][11][12]

636년, 세비야의 이시도르는 최초의 공식 어원 백과사전을 출판했다. dictionariumla이라는 단어는 14세기 후반에 이 유형의 텍스트에 처음 적용되었다.[10][11][12]

15세기에 구텐베르크의 인쇄기가 발명되고 보급되면서 사전 편찬술이 번성했다. 사전은 점점 더 널리 보급되었으며, 그 목적은 어휘 지식을 저장하는 방식에서 어휘 정보를 보급하는 방식으로 바뀌었다. 새뮤얼 존슨, 블라디미르 달, 그림 형제, 노아 웹스터, 제임스 머레이, 피터 마크 로제, 조셉 에머슨 우스터 등과 같은 저명한 사전 편찬자들에 의해 18세기와 19세기에 걸쳐 현대 사전 편찬술이 형성되기 시작했다.[10][11][12]

2. 3. 한국어 사전 편찬의 역사

한국어 사전 편찬 역사는 최초로 말뭉치를 사용한 한국어 사전인 《연세한국어사전》(1998) 출간 이전과 이후로 크게 나눌 수 있다. 《연세한국어사전》 이전에는 중사전/대사전 구분 없이 기존 사전의 표제어를 대부분 이어받으면서 사전 편찬자의 직관에 따라 새로운 표제어를 추가하는 방식으로 만들어졌다. 말뭉치를 어느 정도 활용한 《표준국어대사전》(1999) 역시 표제어 선정 과정에서는 기존 관습에서 크게 벗어나지 못했으며, 그 이전에 나왔던 사전들은 더욱 그러했다.

사전 편찬 시 가장 쉽게 참고할 수 있는 대상은 어휘 목록이다. 학계에서는 여러 가지 목적으로 어휘 목록을 만들어왔다. 예를 들어 초등학생 대상 교재를 만들기 위해서는 초등학생이 알아야 하는 기초 어휘를 선정해야 한다. 교육용 기초 한자나 일본어 능력시험 1급용 어휘 목록 등이 이러한 예시이며, 사전 편찬 시 활용할 수 있다. 하지만 이러한 어휘 목록들은 수백에서 수천 단위이므로, 십만 이상 어휘를 다루는 사전의 목록을 만드는 데는 한계가 있으며, 선정의 자의성 문제도 여전히 남는다.

표제어 선정의 기본은 말뭉치에서 어휘 빈도를 조사하는 것이다. 실제 사용례에서 얼마나 사용되었는가를 검토하면 기존 사전에 실리지 못했던 많은 단어를 찾아낼 수 있다. 말뭉치를 시대적으로 구축하면 단어의 생성, 성장, 사멸 과정을 추적할 수 있고, 신조어와 유령어(사전에는 있지만 실제로는 거의 쓰이지 않는 단어)를 파악할 수 있다.

말뭉치를 이용한 표제어 선정은 다음 세 단계를 거친다.

# 목적에 맞는 말뭉치 구성

# 말뭉치로부터 어휘 빈도 자료 추출

# 편찬자가 개입하여 표제어 선정

말뭉치에서 만들어진 단어 목록을 목적에 따라 검토하여 표제어를 선정해야 한다. 사전의 규모, 독자층(연령, 모국어 화자/학습자 여부 등)을 고려해야 한다. 전문용어사전을 편찬한다면 해당 분야 문헌들로 말뭉치를 구축해야 하며, 목록 검토도 해당 분야 전문가가 해야 한다.

의미 주석이 달려있는 말뭉치가 있다면 어휘 빈도를 추출하는 것은 어렵지 않다. 어휘별로 숫자를 세어 정렬하면 된다. 한국어 어휘 빈도 조사 중 비교적 광범위하게 조사되었으면서도 가장 쉽게 찾을 수 있는 것은 국립국어원의 결과물이다.[27]

대한민국에서 말뭉치를 이용해 출간한 최초의 사전인 《연세한국어사전》은 4300만 어절의 연세 한국어 말뭉치를 이용해 제작되었으며, 이 중 빈도 14 이상의 항목을 표제어로 삼았다. 그러나 기존 어휘 목록이나 사전들과 비교하여 표제어 목록을 보완했는데, 예를 들어 빈도 8의 '청바지'가 그러하다.[28]

구축한 말뭉치를 통해 빈도 조사가 완료되면, 편찬자는 어떤 기준으로 표제어를 선정할 것인지 결정해야 한다. 고빈도어를 선정하는 것이 기본 원칙이지만, 실제로 그 고빈도어가 표제어로 적절한지는 검증을 거쳐야 한다.

먼저 빈도 결과를 살펴보고 형태 분석 과정에서 오분석된 것은 없는지 점검해야 한다. 기계적으로 작업한 결과물에는 예측 못한 오류가 있을 수 있기 때문이다. 형태 분석에 오류가 발견되면 해당 케이스만 재처리하거나 형태 분석기의 사전을 수정하는 등 보정이 필요하다. 문제가 적은 범위에서만 발생했다면 괜찮지만, 로직상의 문제라면 말뭉치 전반에 걸쳐 대규모로 발생했을 가능성도 있으므로 면밀한 조사가 필요하다.

이 문제 해결 과정에서 자동으로 해결한 것과 수동으로 해결한 것을 구분하여 따로 정리해두면 이후 작업자가 같은 작업을 할 때 도움을 받을 수 있다. 수동 처리 결과를 잘 보관하지 않으면 매번 동일한 작업을 해야 할 수도 있다.

정렬된 고빈도어 중 기존 사전이나 어휘 목록에 없었던 것들은 왜 고빈도어가 되었는지 확인해야 한다. 일시적인 요인에 의해 고빈도어가 되었다면 다른 어휘들보다 우선순위를 낮추는 것이 더 나을 수도 있다. 이러한 확인 작업은 편찬자의 언어 직관에 의지할 수밖에 없다. 기존 사전에 있던 어휘들 중 저빈도어는 더욱 비판적으로 접근해야 한다. 많은 경우 이미 죽은 단어가 되었을 가능성이 높다. 필수적인 표제어 위주로 사전을 구성하는 데 집중해야 한다.

표제어 선정 시 사전의 균형 감각 역시 고려해야 한다. 균형 감각은 대표성을 의미한다. 말뭉치가 언어의 표본 역할을 한다면 사전은 언어의 대표 역할을 한다. 따라서 사전은 언어 전반을 대변할 수 있어야 하므로 균형이 필요하다. 예를 들어 품사별 비중, 전문용어 영역 할당, 방언 비중 등이 고려 대상이다. 좀 더 미시적인 균형 감각도 있는데, '빨간색'이 빈도가 높다고 해서 '검은색'을 싣지 않는 것은 문제가 될 수 있으므로 기본적인 12색이나 8색 정도는 빈도가 낮아도 실을 수 있다. 그러나 이러한 균형 감각을 모두 발휘하면 결국 모든 단어가 다 들어가야 하므로 적당한 선에서 절제하는 것 역시 필요하다.

요약하자면, 사전 편찬 목적과 해당 어휘의 사용 빈도수를 우선적으로 고려하여 표제어를 선정하되, 해당 목록이 적절하게 선별되었는지 사전 편찬자가 검증해야 한다. 검증 방법으로는 기존 사전 표제어와의 비교, 각종 어휘 목록과의 비교, 다른 어휘들과의 균형성 검토 등이 있다.

발음 정보는 사전에서 제시하기가 쉽지 않다. 국제음성기호(IPA)를 사용하는 방법이 가장 표준적이며, 한국어 사전에서는 한글로 표기하는 방법도 활용된다. 그러나 IPA는 사전 사용자가 잘 모른다는 단점이 있고, 한글 표기는 발음의 미세한 변화를 표현하기 어렵다는 단점이 있다.

발음 정보 제공에 있어 예전에 비해 달라진 것은 두 가지이다. 첫째, CD롬 사전과 인터넷 사전이 발달함에 따라 IPA와 함께 모국어 화자의 발음을 함께 제공하는 경우가 많아지고 있다. 영어의 경우 점차 남성, 여성, 미국식, 영국식 발음 등을 다양하게 제공하는 추세이다. 둘째, 활용형이나 굴절형에서의 발음 변화 등을 자세히 적어주게 되었다. 한국어는 교착어이므로 용언이 원형 그대로 쓰이는 일이 적기 때문에 구체적으로 활용되는 형태에서의 발음을 적어주는 것이 중요하다. 국내 출간된 사전 중 활용형의 발음까지 가장 잘 적어준 것은 《외국인을 위한 한국어 학습사전》이다.

표준 발음을 어디까지 명기할 것인가에 대해서는 여러 이견이 있다. 외국인이 '신라'를 [실라]라고 발음하지 않아도 의사소통에 지장이 없으므로, [신라]로 발음하다 보면 자연스럽게 [실라]가 되기 때문에 굳이 [실라]로 발음하게끔 한국어 교육을 하기보다는 변별 가능한 최소한의 발음만 잘 가르쳐 한국어 학습자들의 부담을 줄여야 한다는 주장도 있다. 하지만 사전은 규범성을 가지고 있기 때문에 최대한 표준적인 발음을 상세히 적어주는 것은 중요한 일이다.

3. 사전 편찬의 유형

사전을 편찬할 때 가장 중요한 것은 어떤 사용자를 대상으로, 어느 정도 크기의 사전을 만들 것인지, 어떤 기술 태도를 취할 것인지 등의 목적을 정하는 것이다. 이러한 목적에 따라 사전을 분류할 수 있다.

사전을 분류하는 기준은 어휘 범위, 기술 범위, 기술 관점, 검색 방식, 어휘 수, 사용자의 언어 이해 수준, 기술 언어 수와 기점 언어, 사전이 다루는 시대, 편집자의 기술 태도 등 다양하다. 이에 따라 균형사전(범용사전), 방언사전, 속담사전, 전문용어사전, 부사사전, 연어사전, 시소러스, 갈래사전, 어원사전 등 다양한 사전이 존재한다.[24]

사전 이용자가 다양한 목적으로 사전을 찾기 때문에 다양한 사전이 나오게 되었으며, 사전을 편찬할 때는 어떤 이용자에게 어떤 내용을 전달할 것인가 하는 기준을 명확히 세우는 것이 중요하다. 예를 들어, 학습자에게 실질적으로 도움을 주는 사전을 만들기 위해서는 학습자 오류 말뭉치를 구축해야 한다. 어원사전을 만들기 위해서는 범용 말뭉치가 아닌 역사 말뭉치가 필요하다.[24]

한정된 예산과 지면으로 사전을 만들기 위해서는 모든 것을 담기보다는 처음에 세운 기준에 맞춰 목적의식을 가져야 한다. 사전 만들기는 많은 인력과 시간이 필요한 프로젝트이므로 적절한 범위에서 마무리하는 것이 중요하다. OED 등 역사적 사례를 보면 계획대로 되지 않는 경우가 많지만, 계획이 없으면 더욱 무모한 시도가 될 수 있다. 공익적 프로젝트가 아니라면 사전이 읽히기 위해서는 경제성을 확보해야 하며, 이를 위해서도 명확한 목표 설정이 중요하다.

사전 편찬의 자료는 주요 자료와 보조 자료로 나눌 수 있다.[24]


  • 주요 자료: 말뭉치(문어, 구어), 모국어 화자의 직관(제보), 사전편찬자의 언어직관
  • 보조 자료: 이전에 편찬된 사전들


말뭉치는 언어를 표본 추출한 결과물이다. 모든 언어를 다룰 수 없기 때문에 다루고자 하는 언어 영역의 범위에 따라 대표성을 가질 수 있는 표본을 추출하여 검토 대상으로 삼는다. 따라서 말뭉치를 잘 다루기 위해서는 전산학과 통계학적 지식이 필요하다.[25]

사전 편찬이 말뭉치 언어학에 기반을 두고 있더라도, 언어의 예외와 미묘함 때문에 편찬자의 직관은 매우 중요하다. 말뭉치를 통해 걸러진 자료를 판단하는 것은 편찬자의 몫이다. 이전 사전은 오류가 반복될 수 있어 주요 자료가 될 수 없지만, 표제어 목록 비교, 말뭉치 신뢰성 검토, 표제어 중요도 선정 등에 유용하게 활용될 수 있다.

사전 편찬에서 컴퓨터 활용은 필수적이며, 특히 여러 사람의 공동 작업을 위해 네트워크 환경 구축이 중요하다. 위키위키 시스템은 공동 작업에 유용하여 위키백과위키낱말사전 등 공동 사전 프로젝트에 활용되고 있다.

사전 편찬에 필요한 도구는 다음과 같다.[26]

  • 빈도와 용례 추출기: 형태소 분석, 정렬, 예문의 시기/분야 표시, 출전 표시 등의 기능
  • 편집기: 검색, 집필, 집필자 관리, 초고와 교정된 원고 관리, 기존 사전 참조 등의 기능


일반적으로 사전 편찬은 일반 언어 사용에 대한 설명을 제공하는 일반 사전(LGP 사전)과 특정 분야의 언어적, 사실적 요소를 다루는 전문 사전(특정 목적 언어 사전)으로 나눌 수 있다. 법률 사전 편찬 등이 전문 사전의 예시이다. 전문 사전은 다분야, 단일 분야, 하위 분야 사전으로 나뉜다.

현재 사전 편찬은 응용 언어학의 하위 분과가 아닌 독립적인 학문 분야로 인정받고 있다.

3. 1. 실천 사전학

실질적인 사전 편찬 작업은 여러 활동을 포함하며, 잘 만들어진 사전의 편찬은 다음의 모든 측면에 대한 신중한 고려를 필요로 한다.[4]

  • 예상 사용자를 분석하고(예: 언어적 및 비언어적 능력) 요구 사항을 파악한다.
  • 사전의 의사 소통 및 인지 기능을 정의한다.
  • 사전 구성 요소를 선택하고 구성한다.
  • 사전에 데이터를 제시하기 위한 적절한 구조를 선택한다(예: 프레임 구조, 분포 구조, 거시 구조, 미시 구조 및 상호 참조 구조).
  • 항목으로 체계화할 단어 및 접사를 선택한다.
  • 결합어, , 예시를 선택한다.
  • 각 단어 또는 단어 부분에 대한 표제어 형태를 선택한다.
  • 단어를 정의한다.
  • 정의를 구성한다.
  • 단어 발음을 지정한다.
  • 적절한 경우 화용론 및 방언에 대한 정의 및 발음을 레이블링한다.
  • 이중 및 다중 언어 사전에서 동등 항목을 선택한다.
  • 이중 및 다중 언어 사전에서 결합어, 구 및 예시를 번역한다.
  • 사용자가 인쇄 및 전자 사전에서 데이터에 접근할 수 있는 최상의 방법을 설계한다.


사전 편찬의 중요한 목표 중 하나는 사전 사용자가 겪는 사전 정보 비용을 가능한 한 낮게 유지하는 것이다. 닐슨(2008)은 사전 편찬자가 사전을 만들 때 고려해야 할 관련 측면을 제시했으며, 이는 모두 사용자의 인상과 특정 사전의 실제 사용에 영향을 미친다.

3. 2. 이론 사전학

이론 사전학은 사전 편찬과 동일한 측면을 다루지만, 데이터 접근성 및 사전 정보 비용 측면에서 향후 사전의 품질을 향상시킬 수 있는 원칙을 개발하는 것을 목표로 한다. 이러한 학문적 사전 연구의 여러 관점 또는 분과가 구분되어 왔다.

  • 사전 비평: 하나 이상의 사전의 품질을 평가하는 것(예: 리뷰를 통해(Nielsen 1999 참조)).
  • 사전 역사: 특정 사전 유형 또는 특정 국가 또는 언어의 사전 편찬 전통을 추적하는 것.
  • 사전 유형론: 사전백과사전, 단일 언어 사전 대 이중 언어 사전, 일반 사전 대 기술 또는 교육 사전 등 다양한 참고 문헌 장르를 분류하는 것.
  • 사전 구조: 사전에 정보가 제시되는 다양한 방식의 서식 지정을 연구하는 것.
  • 사전 사용: 사전 사용자의 참고 행위 및 기술을 관찰하는 것.
  • 사전 IT: 컴퓨터 보조 도구를 사전 편찬 과정에 적용하는 것.


이론 사전학은 어떤 언어의 어휘 목록(사전)에서 의미론(언어학), 통사론, 그리고 패러다임상의 관계를 분석하여 기술하는 학문 분야이다. '''메타 사전학'''이라고도 한다. 이는 사전 속 데이터, 특정 종류의 상황에 있는 이용자에 의한 정보 요구, 그리고 이용자가 종이사전 또는 전자 사전에 포함된 정보에 어떻게 가장 잘 도달할 수 있는가, 라는 세 가지를 연결하는 구성 요소나 구조에 대한 이론을 발전시키고 있다.

고려해야 할 중요한 사항 중 하나는 '이중 언어 사전 편찬'의 지위, 즉 모든 측면에서의 이중 언어 사전의 편찬 및 사용이다(예: Nielsen 1994 참조).[22] 이러한 유형의 사전은 비교적 오랜 역사를 가지고 있음에도 불구하고, 특히 관련 언어 중 하나가 주 언어가 아닌 경우 단일 언어 사전보다 여러 측면에서 덜 발전했다고 종종 언급된다.[22] 모든 참고 문헌 장르가 언어 간 버전으로 제공되는 것은 아니다. 예를 들어, LSP, 학습자, 백과사전 유형이 있지만, 때때로 이러한 과제는 Hornby의 ''(옥스퍼드) 고급 학습자 사전 영어-중국어''와 같은 '반 이중 언어' 또는 '이중 언어화된' 사전과 같은 새로운 하위 유형을 생성하며, 이는 기존 단일 언어 사전을 번역하여 개발되었다(Marello 1998 참조).[23]

4. 사전 편찬의 실제

사전을 편찬할 때 가장 중요한 것은 어떤 사용자를 대상으로, 어느 정도 크기의 사전을 만들 것인지, 어떤 기술 태도를 취할 것인지 등 목적을 명확히 하는 것이다. 이러한 목적에 따라 사전을 분류할 수 있다.

사전은 어휘 범위, 기술 범위, 기술 관점, 분류/검색 방식, 어휘 수, 사용자 언어 이해 수준, 기술 언어 수와 기점 언어, 사전이 다루는 시대, 편집자 기술 태도 등 다양한 기준으로 분류할 수 있다. 균형사전(범용사전), 방언사전, 속담사전, 전문용어사전, 부사사전, 연어사전, 시소러스, 갈래사전, 어원사전 등이 그 예이다.

사전 이용자가 다양한 목적으로 사전을 찾기 때문에 다양한 사전이 나오게 된 것이며, 따라서 사전을 편찬할 때에는 어떤 이용자에게 어떤 내용을 전달할 것인가 하는 기준을 명확히 세우는 것이 중요하다. 이용자 성향에 따라 최초의 가정부터 달라질 수 있기 때문이다. 예를 들어, 학습자에게 실질적으로 도움 되는 사전을 만들려면 학습자 오류 말뭉치를 구축해야 한다. 어원사전을 만들기 위해서는 역사 말뭉치가 필요하다.

한정된 예산과 지면을 사용해 사전을 만들기 위해서는 처음에 세운 기준에 맞춰 목적의식을 가져야 한다. 사전은 많은 인력이 수년간 지속적으로 만들어야 하는 프로젝트이므로 적당한 범위에서 마무리 짓는 것이 중요하다. OED를 비롯한 여러 역사적 사례를 보면 사전 만들기는 계획대로 되지 않음을 알 수 있다.

사전 편찬 자료는 주요 자료와 보조 자료로 나눌 수 있다.[24]


  • 주요 자료: 말뭉치(문어, 구어), 모국어 화자의 직관(제보), 사전편찬자의 언어직관
  • 보조 자료: 이전에 편찬된 사전들


실질적인 사전 편찬 작업은 다음을 포함한다.

  • 예상 사용자 프로파일링 및 요구 사항 파악
  • 사전의 의사 소통 및 인지 기능 정의
  • 사전 구성 요소 선택 및 구성
  • 사전에 데이터를 제시하기 위한 적절한 구조 선택
  • 결합어, 구 및 예시 선택
  • 단어 발음 지정
  • 화용론 및 방언에 대한 정의 및 발음 레이블링
  • 이중 및 다중 언어 사전에서 동등 항목 선택
  • 이중 및 다중 언어 사전에서 결합어, 구 및 예시 번역
  • 사용자가 인쇄 및 전자 사전에서 데이터에 액세스할 수 있는 최상의 방법 설계


사전 편찬의 중요한 목표 중 하나는 사전 사용자가 겪는 사전 정보 비용을 가능한 한 낮게 유지하는 것이다.

말뭉치는 언어를 표본 추출한 결과물이며, 사전 편찬 시 모든 언어를 다룰 수 없기 때문에, 다루고자 하는 언어 영역의 범위에 따라 대표성을 가질 수 있는 정도의 표본을 추출하여 검토 대상으로 삼는다. 따라서 말뭉치를 잘 다루기 위해서는 전산학과 통계학적 지식이 필요하다.[25]

사전 편찬이 말뭉치 언어학에 기반을 두고 있다 하더라도, 사전편찬자의 직관은 중요하다. 언어처럼 예외가 많고 미묘한 것에 대한 기술은 통계적인 방법만으로는 이루어질 수 없기 때문이다. 말뭉치를 통해 걸러진 자료를 판단하는 것은 편찬자의 몫이다.

이전에 편찬된 사전들은 주요 자료가 될 수는 없지만 보조 자료로는 의미가 있다. 표제어 목록을 비교하거나, 구축한 말뭉치의 신뢰성을 검토하거나, 표제어의 중요도를 선정할 때 유용하게 활용할 수 있다.

사전 편찬에서 컴퓨터의 활용은 필수적이며, 말뭉치를 잘 다루는 도구를 만드는 것이 매우 중요하다. 특히 사전 집필은 여러 사람들의 공동작업이기 때문에 네트워크가 잘 갖춰진 환경을 구축해야 한다. 위키위키 시스템은 이러한 공동작업의 특성을 잘 가지고 있어서 위키백과위키낱말사전 등의 공동 사전 프로젝트에 유용하게 활용되고 있다.

사전 편찬 도구는 다음과 같은 기능을 포함해야 한다.[26]

  • 빈도와 용례 추출기: 형태소 분석, 정렬, 예문의 시기/분야 표시, 출전 표시 등의 기능
  • 편집기: 검색, 집필, 집필자 관리, 초고와 교정된 원고의 관리, 기존 사전 참조 등의 기능


'이중 언어 사전 편찬'은 모든 측면에서의 이중 언어 사전의 편찬 및 사용을 의미한다(예: Nielsen 1994 참조). 이러한 유형의 사전은 비교적 오랜 역사를 가지고 있음에도 불구하고, 특히 관련 언어 중 하나가 주 언어가 아닌 경우 단일 언어 사전보다 여러 측면에서 덜 발전했다고 종종 언급된다.

4. 1. 표제어 선정

사전에는 기본적으로 품사를 가진 단어가 올라가지만, 접사, 어미, 어근, 축약형, 관용구, 연어 등 다양한 범주가 표제어와 부표제어로 나뉘어 실릴 수 있다. 예를 들어, 《표준국어대사전》에서는 '-하다', '-되다'가 부표제어지만 《연세한국어사전》에서는 표제어이다.

주로 부표제어로 표현되는 것들은 아래와 같다.

  • 관용 표현: 비행기를 태우다, 미역국을 먹다
  • 연어: 감을 잡다, 경을 치다
  • 패턴: ~뿐만 아니라 ~도
  • 속담: 가는 날이 장날이다
  • 상투적 표현: 안녕하세요
  • 고빈도의 자유 표현: 담배 가게, 수질 오염


가표제어는 비표준어나 이형태를 찾은 사람에게 정확한 정보를 제공하기 위해 설정된다. 전자사전에서는 주로 동의어 처리나 이동(redirect) 등의 방법으로 처리하지만, 이형태가 생겨난 이유를 상세히 설명해 줄 필요도 있다.

부표제어 배열은 책 사전에서 검색을 효과적으로 하기 위한 고민의 결과물이다. 가나다순 배열이 기본이지만, 종종 가나다순 배열에 어긋나는 경우가 있어, '교육'의 부표제어로 '사교육'을 어디에 넣을 것인가와 같은 문제가 발생한다. 단순 가나다 형태와 기본어를 중심으로 묶는 형태, 절충형 등이 있지만, 어느 하나가 우수하다고 할 수 없다. 전자 사전에서는 위치에 관계없이 검색이 가능하므로 이러한 고민이 없다.

항목으로 체계화할 단어 및 접사를 선택하고, 결합어, 구 및 예시를 선택하는 것, 각 단어 또는 단어 부분에 대한 표제어 형태를 선택하는 것 역시 사전 편찬 작업의 중요한 부분이다.[1]

4. 2. 표제어 정보 제시

학교 문법에서는 9품사 체계를 따르지만, 학계에서는 이에 대한 이견이 많다. 사전처럼 많은 단어를 싣는 경우 9품사 체계로는 처리할 수 없는 단어들이 많기 때문이다. 예를 들어 품사통용어, '이다', 어근, 어미, 준꼴 등이 있다.[29]

《콜린스 코빌드 영영사전》은 품사보다 의미에 중점을 두어 의미의 하위에 품사를 두고 있다. 특히 이 사전에서는 자동사, 타동사 표지를 없애고 문형 정보와 예문에 녹여넣었다.[29]

사전에서 품사를 표시하는 것은 단어의 성격을 보여주기 위한 것이지, 품사 체계에 단어를 끼워 맞추기 위한 것이 아니다. 따라서 기존 품사 체계에서 처리 가능한 요소는 그대로 이용하되, 맞지 않는 문법 범주가 있다면 일관성 있게 규정하면 된다.[29]

표준국어대사전》과 《연세한국어사전》은 9품사에 '어미'와 '접사'를 추가했다. 《연세한국어사전》은 '준꼴'과 '형성(소)'라는 두 범주를 더 가지고 있다. 《표준국어대사전》에서 어근으로 처리하는 것을 《연세한국어사전》에서는 '형성'으로 처리한다.[29]

4. 3. 말뭉치와 사전 편찬 도구

말뭉치는 언어를 표본 추출한 결과물이다. 사전 편찬 시 모든 언어를 다룰 수 없기 때문에, 다루고자 하는 언어 영역의 범위에 따라 대표성을 가질 수 있는 정도의 표본을 추출하여 검토 대상으로 삼는다. 따라서 말뭉치를 잘 다루기 위해서는 전산학과 통계학적 지식이 필요하다.[25]

사전 편찬이 말뭉치 언어학에 기반을 두고 있다 하더라도, 사전편찬자의 직관은 중요하다. 언어처럼 예외가 많고 미묘한 것에 대한 기술은 통계적인 방법만으로는 이루어질 수 없기 때문이다. 말뭉치를 통해 걸러진 자료를 판단하는 것은 편찬자의 몫이다.

이전에 편찬된 사전들은 주요 자료가 될 수는 없지만 보조 자료로는 의미가 있다. 표제어 목록을 비교하거나, 구축한 말뭉치의 신뢰성을 검토하거나, 표제어의 중요도를 선정할 때 유용하게 활용할 수 있다.

사전 편찬에서 컴퓨터의 활용은 필수적이며, 말뭉치를 잘 다루는 도구를 만드는 것이 매우 중요하다. 특히 사전 집필은 여러 사람들의 공동작업이기 때문에 네트워크가 잘 갖춰진 환경을 구축해야 한다. 위키위키 시스템은 이러한 공동작업의 특성을 잘 가지고 있어서 위키백과위키낱말사전 등의 공동 사전 프로젝트에 유용하게 활용되고 있다.

사전 편찬 도구는 다음과 같은 기능을 포함해야 한다.[26]

  • 빈도와 용례 추출기: 형태소 분석, 정렬, 예문의 시기/분야 표시, 출전 표시 등의 기능
  • 편집기: 검색, 집필, 집필자 관리, 초고와 교정된 원고의 관리, 기존 사전 참조 등의 기능

참조

[1] 서적 English lexicography in the Internet era http://dx.doi.org/10[...] Routledge 2017-10-02
[2] 웹사이트 Lexicographer job profile {{!}} Prospects.ac.uk https://www.prospect[...] 2018-10-29
[3] 서적 A Dictionary of the English Language https://archive.org/[...] J.F. and C. Rivington, et al 1785
[4] 서적 English lexicology and lexicography : theory and practice Al-Farabi Kazakh National University
[5] 웹사이트 λεξικογράφος https://www.perseus.[...]
[6] 웹사이트 λεξικός https://www.perseus.[...]
[7] 웹사이트 λέξις https://www.perseus.[...]
[8] 웹사이트 λέγω https://www.perseus.[...]
[9] 웹사이트 γράφω https://www.perseus.[...]
[10] 서적 The Oxford Handbook of Lexicography Oxford Academic 2015
[11] 서적 The History of Lexicography John Benjamins Publishing Co.
[12] 서적 The Oxford Handbook of the History of Linguistics Oxford Academic 2013-07-01
[13] 서적 The Oxford Handbook of the History of Linguistics Oxford Academic 2013-07-01
[14] 간행물 Generative AI and Lexicography: The Current State of the Art Using ChatGPT https://doi.org/10.1[...] 2023-12
[15] 간행물 Generative AI and Lexicography: The Current State of the Art Using ChatGPT https://doi.org/10.1[...] 2023-12
[16] 문서 Bergenholtz, Nielsen and Tarp, 2009
[17] 웹사이트 λεξικογράφος http://www.perseus.t[...]
[18] 웹사이트 λεξικός http://www.perseus.t[...]
[19] 웹사이트 λέξις http://www.perseus.t[...]
[20] 웹사이트 λέγω http://www.perseus.t[...]
[21] 웹사이트 γράφω http://www.perseus.t[...]
[22] 문서 Nielsen 1994
[23] 문서 Marello 1998
[24] 문서 Bo Sevensen(1993), Sinclair(1991)
[25] 문서 서상규, 한영균 : 국어정보학 입문(1999)
[26] 문서 '깜짝새'와 세종계획 결과물인 '글잡이'가 대표적이다.
[27] 문서 김한샘(2005), 현대 국어 사용 빈도 조사 2, 국립국어원
[28] 문서 유현경, 남길임 : 한국어 사전편찬학 개론(2007)
[29] 웹사이트 곰 - Daum 백과사전 http://enc.daum.net/[...]
[30] 웹사이트 곰 - Daum 국어사전 http://krdic.daum.ne[...]
[31] 문서 Zgusta, Ladislav(1971)
[32] 문서 McArthur, Tom(1992)
[33] 문서 이기황(2007)



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com