맨위로가기

UMLS

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

UMLS(Unified Medical Language System, 통합 의학 언어 시스템)는 방대한 생의학 정보에 대한 접근성을 향상시키기 위해 개발된 시스템이다. 서로 다른 용어와 분류 체계로 인한 정보 검색 및 처리의 어려움을 해결하는 데 중점을 두고 있으며, 연구자들은 UMLS를 활용하여 의학 문헌 및 데이터베이스에서 필요한 정보를 효율적으로 검색하고 임상 환경에서 전자의무기록(EMR) 시스템 간의 정보 교환을 원활하게 할 수 있다. UMLS는 메타시소러스, 시맨틱 네트워크, 스페셜리스트 렉시콘으로 구성되며, 국립 의학 도서관에서 제공하는 MetamorphoSys, lvg, MetaMap 등의 지원 도구를 통해 활용성을 높인다. UMLS는 오류가 발생할 수 있으며, 이를 해결하기 위한 노력이 진행되고 있다.

더 읽어볼만한 페이지

  • 의학적 분류 - 국제질병분류
    국제질병분류는 세계보건기구가 작성하는 국제적인 질병 분류 체계로, 질병 및 건강 관련 문제에 대한 분류 기준을 제공하며, 여러 차례 개정을 거쳐 최신판인 ICD-11은 2019년 세계보건총회에서 승인되어 새로운 질병 분류를 포함하고 있다.
  • 의학적 분류 - SNOMED CT
    SNOMED CT는 1965년 병리학 명명법에서 시작되어 헬스케어 절차를 특징짓고 기록하는 데 필요한 모든 것을 범주화하는 의료 용어 체계이며, 311,000개 이상의 개념을 포함하고 전자건강기록 시스템 등 다양한 분야에서 활용되며, SNOMED International에서 관리된다.
  • 공식 웹사이트에 알 수 없는 변수를 사용한 문서 - 브루클린 미술관
    브루클린 미술관은 1823년 브루클린 견습생 도서관으로 시작하여 현재 약 50만 점의 소장품을 보유한 뉴욕 브루클린 소재의 미술관으로, 다양한 분야의 예술 작품을 전시하며 특히 아프리카 미술과 여성주의 미술에 대한 기여가 크다.
  • 공식 웹사이트에 알 수 없는 변수를 사용한 문서 - 광주지방기상청
    광주지방기상청은 광주광역시와 전라남도 지역의 기상 예보, 특보, 관측, 기후 정보 제공 등의 업무를 수행하는 기상청 소속 기관으로, 1949년 광주측후소로 설치되어 1992년 광주지방기상청으로 개편되었으며, 기획운영과, 예보과, 관측과, 기후서비스과와 전주기상지청, 목포기상대를 두고 있다.
UMLS
기본 정보
명칭통합 의료 언어 시스템
원어 명칭Unified Medical Language System
약자UMLS
개발 기관미국 국립 의학 도서관 (NLM)
첫 출시1986년
유형지식 표현, 어휘, 온톨로지
라이선스비독점적 라이선스
웹사이트UMLS 공식 웹사이트
상세 정보
목적다양한 보건, 생물 의학 정보 자원 통합 및 연결
구성 요소메타시소러스 (Metathesaurus)
의미망 (Semantic Network)
전문 어휘 서비스 (SPECIALIST Lexicon)
적용 분야자연어 처리
정보 검색
데이터 통합
의료 정보학
특징다양한 어휘 및 코드 시스템 통합 (예: ICD, SNOMED CT, MeSH)
의미 관계 정의를 통한 정보 연결
지속적인 업데이트 및 유지보수
중요성의료 정보 시스템의 상호 운용성 향상
연구 및 임상 의사 결정 지원
지식 발견 및 데이터 마이닝 촉진
관련 프로젝트RxNorm
Human Phenotype Ontology
참고 문헌
참고 문헌Unified Medical Language System
Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient

2. 목적과 응용

연구자들이 활용할 수 있는 생의학 정보 자원의 양은 매우 방대하다. 때로는 의학 문헌 검색 시 너무 많은 문서가 나와 원하는 정보를 찾기 어려운 문제가 발생한다. UMLS의 목적은 생의학 언어를 이해하는 컴퓨터 시스템 개발을 촉진하여 이러한 문헌에 대한 접근성을 향상시키는 것이다.

이를 위해 UMLS는 다음과 같은 주요 과제를 해결하고자 한다.


  • 표현의 다양성: 같은 개념이라도 연구자나 기계가 읽을 수 있는 소스마다 다르게 표현되는 방식의 다양함.
  • 정보의 분산: 유용한 정보가 여러 종류의 데이터베이스와 시스템에 흩어져 있는 문제.


UMLS는 이러한 문제들을 극복하여 다양한 의학 데이터베이스 및 시스템 간의 정보 상호운용성을 높이고, 연구자들이나 임상의들이 필요한 정보를 보다 효율적으로 찾고 활용할 수 있도록 돕는다.

3. 라이선싱

UMLS를 사용하려는 사람은 "UMLS 사용 계약"에 서명하고, 매년 간단한 사용 보고서를 제출해야 한다. 연구 목적으로 사용하는 학술적 이용자는 UMLS를 무료로 이용할 수 있다. 하지만 상업적 목적으로 사용하거나 제품에 통합하여 사용하는 경우에는 통합된 일부 원본 어휘집에 대한 저작권 라이선스가 필요하다.

4. 지식 소스

연구자들이 이용할 수 있는 생명 의학 자원은 매우 방대하며, 의학 문헌 검색 시 검색되는 문서의 양이 너무 많아 어려움을 겪는 경우가 많다. UMLS는 생명 의학 언어를 이해하는 컴퓨터 시스템 개발을 지원하여 이러한 문헌에 대한 접근성을 높이는 것을 목표로 한다. 이를 위해 UMLS는 동일한 개념이 다양한 기계 판독 가능 소스나 사람들에 의해 다르게 표현되는 문제와 유용한 정보가 여러 데이터베이스 및 시스템에 분산되어 있는 문제를 해결하고자 한다.

UMLS는 크게 세 가지 주요 지식 소스로 구성된다: 메타시소러스(Metathesaurus), 시맨틱 네트워크(Semantic Network), 그리고 스페셜리스트 렉시콘(SPECIALIST Lexicon)이다.

4. 1. 메타시소러스(Metathesaurus)

메타시소러스(Metathesaurus)는 UMLS의 기본 형태를 구성하며, 백만 개 이상의 생의학 개념과 5백만 개 이상의 개념 이름을 포함한다. 이는 100개 이상의 통합된 통제 어휘집 및 분류 체계에서 유래한 것이다.[1] 통합된 주요 통제 어휘집의 예로는 SNOMED CT, ICD-10, MeSH, CPT, DSM-IV, LOINC, WHO 유해 약물 반응 용어, 영국 임상 용어, RxNorm, 유전자 온톨로지, OMIM 등이 있다. (전체 목록은 여기에서 확인할 수 있다).

메타시소러스는 개념을 중심으로 조직되어 있다. 각 개념은 그 의미를 정의하는 고유한 속성을 가지며, 다양한 소스 어휘집에 있는 해당 개념의 이름들과 연결된다.[1] 또한, 개념들 사이의 다양한 관계가 표현되는데, 예를 들어 하위 클래스를 나타내는 '~이다'나 하위 단위를 나타내는 '~의 일부이다(is part of)'와 같은 계층적 관계가 있다. 이 외에도 '~에 의해 유발된다(is caused by)' 또는 '문헌에서 종종 ~와 가깝게 나타난다(in the literature often occurs close to)' (후자는 Medline에서 유도됨)와 같은 연관 관계도 표현된다.[1]

메타시소러스의 범위는 포함된 소스 어휘집들의 범위에 따라 결정된다. 만약 서로 다른 어휘집에서 동일한 개념에 대해 다른 이름을 사용하거나, 반대로 다른 개념에 대해 동일한 이름을 사용하는 경우, 이러한 정보는 메타시소러스 내에 충실하게 반영된다.[1] 모든 소스 어휘집의 계층적 정보는 메타시소러스 내에서 그대로 유지되며, 메타시소러스의 개념들은 유전자 서열 데이터베이스와 같이 외부 데이터베이스 자원과 연결될 수도 있다.[1]

4. 2. 시맨틱 네트워크 (Semantic Network)

메타시소러스의 각 개념에는 하나 이상의 ''시맨틱 타입(semantic types)''(범주)이 할당되며, 이들은 ''시맨틱 관계(semantic relationships)''를 통해 서로 연결된다.[9][3] 시맨틱 네트워크는 이러한 시맨틱 타입들과 관계들의 목록으로, 총 127개의 시맨틱 타입과 54개의 관계를 포함하는 광범위한 분류 체계이다.

주요 시맨틱 타입은 다음과 같다.

주요 시맨틱 타입
타입설명
유기체 (organisms)생명체
해부학적 구조 (anatomical structures)몸의 구조
생물학적 기능 (biologic function)생명 활동 기능
화학물 (chemicals)화학 물질
이벤트 (events)사건 또는 발생
물체 (physical objects)물리적 객체
개념 또는 아이디어 (concepts or ideas)추상적 개념



시맨틱 타입 간의 연결은 네트워크의 구조를 정의하고, 개념들의 그룹핑과 중요한 관계를 보여준다. 시맨틱 타입 간의 가장 중요한 연결은 "isa" 관계로, 이는 타입들의 계층 구조를 형성한다.

또한, 네트워크는 5가지 주요 비계층적(연관) 관계를 가지며, 이는 나머지 53개의 관계 타입으로 구성된다. 주요 비계층 관계는 다음과 같다.[9][3]

주요 비계층(연관) 관계 (5가지)
관계의미
physically related to물리적으로 관련된
spatially related to공간적으로 관련된
temporally related to시간적으로 관련된
functionally related to기능적으로 관련된
conceptually related to개념적으로 관련된



시맨틱 타입에 대한 정보에는 식별자, 정의, 예시, 해당 시맨틱 타입(들)에 대한 계층 정보, 그리고 연관 관계가 포함된다. 시맨틱 네트워크 내의 연관 관계는 비교적 약한 연결을 나타낸다. 이는 주로 '일부-일부(some-some)' 관계를 표현하는데, 즉 첫 번째 타입의 일부 인스턴스가 두 번째 타입의 일부 인스턴스와 특정 관계를 맺을 수 있다는 가능성을 나타낸다. 다시 말해, 해당 관계를 나타내는 주장이 (모든 경우에 참은 아닐지라도) 의미론적으로 타당하다는 것을 보여준다.

연관 관계의 예시로는 "''may-cause''(유발할 수 있음)" 관계가 있다. 예를 들어, '흡연'과 '폐암'이라는 개념에 이 관계를 적용하면 "흡연 ''may-cause'' 폐암"과 같이 표현하여 흡연이 폐암의 원인이 될 수 있음을 나타낼 수 있다.

4. 3. 스페셜리스트 렉시콘(SPECIALIST Lexicon)

스페셜리스트 렉시콘(SPECIALIST Lexicon)은 일반적인 영어 어휘와 생의학 용어, MEDLINE 및 UMLS 메타시소러스에서 발견되는 용어들에 대한 정보를 포함하는 사전이다.[10][4] 각 항목(entry)은 구문론(의미를 생성하기 위해 단어들이 결합하는 방식), 형태론(단어의 형태와 구조), 그리고 철자법 정보를 담고 있다.

항목은 하나의 단어 또는 여러 단어로 이루어진 용어일 수 있으며, 각 레코드는 다음 네 가지 정보를 포함한다:

  • 기본형 (base form): 단어의 원형 (예: "running"의 기본형은 "run")
  • 품사 (part of speech): 스페셜리스트 렉시콘은 11개의 품사를 인식한다.
  • 고유 식별자 (unique identifier): 각 항목을 구별하는 고유한 ID
  • 철자 변이 (spelling variants): 가능한 모든 철자 변형


자바로 개발된 프로그램들은 이 렉시콘을 활용하여 생의학 텍스트에 나타나는 다양한 단어 변이를 처리한다. 단어와 해당 품사를 연결함으로써 웹 검색이나 전자의무기록 검색과 같은 정보 검색 작업에 도움을 줄 수 있다.[10][4]

예를 들어, "anesthetic"을 검색하면 다음과 같은 결과를 얻을 수 있다:[10][4]

```

{ base=anaesthetic

spelling_variant=anesthetic

entry=E0008769

cat=noun

variants=reg

}

{ base=anaesthetic

spelling_variant=anesthetic

entry=E0008770

cat=adj

variants=inv

position=attrib(3)

}

```

스페셜리스트 렉시콘은 두 가지 형식으로 제공된다. 첫 번째는 '단위 레코드(unit record)' 형식으로, 위 예시처럼 '슬롯(slot)'과 '필러(filler)'로 구성된다. '슬롯'은 정보의 종류(예: `base=`, `spelling_variant=`)를 나타내고, '필러'는 해당 슬롯에 해당하는 값이다. 두 번째는 '관계형 테이블' 형식인데, 이 형식은 아직 정규화되지 않아 파일 내에 중복된 데이터가 많이 포함되어 있다.[10][4]

5. 불일치와 다른 오류들

UMLS는 그 규모와 복잡성, 그리고 용어 통합에 대한 비교적 관대한 정책으로 인해 오류 발생이 불가피하다.[5] 주요 오류 유형으로는 모호성중복, 계층적 구조 순환(하나의 개념이 다른 개념의 조상이면서 동시에 자손이 되는 경우), 선조 누락(부모 개념과 자식 개념의 의미 유형(semantic type) 사이에 연관성이 없는 경우), 시맨틱 역전(의미 유형에 따른 부모-자식 관계가 실제 개념 관계와 일치하지 않는 경우) 등이 있다.[6]

이러한 오류는 UMLS 감사를 통해 발견하고 해결할 수 있지만, 수동 감사는 시간과 비용이 많이 소요된다는 단점이 있다. 이에 연구자들은 자동화된 도구를 활용하는 등 다양한 방식으로 문제 해결을 시도해왔다. 계층 구조 순환과 같은 구조적 불일치는 순서 기반의 비교적 간단한 방법으로 해결할 수 있는 경우가 있다. 하지만 용어나 개념 자체의 수준에서 발생하는 불일치(예: 특정 문맥에서 용어가 특별한 의미를 갖는 경우)는 이러한 방식이 적용되기 어려우며, 지식 표현과 같은 정보에 기반한 탐색 전략(informed search strategy)을 사용해야 한다.[7]

6. 지원 소프트웨어 도구들

국립 의학 도서관(NLM)은 UMLS 지식 소스 외에도 그 활용을 지원하기 위한 다음과 같은 소프트웨어 도구들을 제공한다.[14] 각 도구에 대한 자세한 설명은 해당 하위 섹션에서 확인할 수 있다.


  • MetamorphoSys
  • lvg
  • MetaMap
  • MetaMap Transfer (MMTx)
  • 지식 소스 서버

6. 1. MetamorphoSys

MetamorphoSys는 특정 응용 분야(애플리케이션)를 위해 메타시소러스를 사용자 정의하는 미국 국립 의학 도서관의 지원 도구이다. 예를 들어, 특정 소스 어휘집을 제외하는 방식으로 메타시소러스를 조정할 수 있다.

6. 2. lvg

lvg는 스페셜리스트 렉시콘(SPECIALIST Lexicon)을 이용하여 주어진 용어의 어휘 변이를 생성하고 자연어 텍스트의 파싱을 지원하는 프로그램이다.

6. 3. MetaMap

임의의 텍스트가 주어졌을 때 관련된 메타시소러스 개념들을 찾아서 결과로 돌려주는 온라인 도구이다.

6. 4. MetaMap Transfer (MMTx)

MetaMap의 자바 구현체였으나, 현재는 더 이상 지원되지 않는다.

6. 5. Knowledge Source Server

Knowledge Source Server는 미국 국립 의학 도서관에서 제공했던 지원 도구 중 하나였다. 이는 UMLS 어휘집들에 대한 웹 기반 접근을 가능하게 했으나, 2010년 가을에 서비스가 종료되었다.[14]

7. 제3자 소프트웨어


  • [http://umls-similarity.sourceforge.net UMLS-Similarity]: 시맨틱 유사도와 관련성을 측정하는 여러 방법을 구현한 오픈 소스 소프트웨어 패키지이다.
  • [http://atlas.ahc.umn.edu UMLS-Similarity 웹 인터페이스]: UMLS-Similarity에 대한 웹 인터페이스이다.

참조

[1] 간행물 Unified Medical Language System https://www.nlm.nih.[...]
[2] 논문 Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient 2010-07
[3] 서적 UMLS Reference Manual U.S. National Library of Medicine, National Institutes of Health
[4] 서적 The Specialist Lexicon http://lexsrv3.nlm.n[...] Lister Hill National Center for Biomedical Communications, National Library of Medicine 2000-06
[5] 논문 The Neighborhood Auditing Tool: a hybrid interface for auditing the UMLS 2009-06
[6] 논문 Comparing inconsistent relationship configurations indicating UMLS errors 2009-11
[7] 논문 A review of auditing methods applied to the content of controlled biomedical terminologies 2009-06
[8] 논문 Unified Medical Language System® (UMLS®) News: Revised License Agreement, New UMLS Terminology Services and Browser, Discontinued UMLSKS, and API Changes https://www.nlm.nih.[...] 2010-07
[9] 서적 UMLS Reference Manual U.S. National Library of Medicine, National Institutes of Health
[10] 서적 The Specialist Lexicon http://lexsrv3.nlm.n[...] Lister Hill National Center for Biomedical Communications, National Library of Medicine 2000-06
[11] 논문 The Neighborhood Auditing Tool: a hybrid interface for auditing the UMLS 2009-06
[12] 논문 Comparing inconsistent relationship configurations indicating UMLS errors 2009-11
[13] 논문 A review of auditing methods applied to the content of controlled biomedical terminologies 2009-06
[14] 웹인용 Unified Medical Language System® (UMLS®) News: Revised License Agreement, New UMLS Terminology Services and Browser, Discontinued UMLSKS, and API Changes https://www.nlm.nih.[...] U.S. National Library of Medicine 2010-07-29



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com