메타데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

메타데이터는 데이터에 대한 정보를 제공하는 데이터로, 자료의 검색, 식별, 관리, 보존 등을 위해 사용된다. 인류 역사에서 카드 목록 형태로 시작하여 컴퓨터 과학의 발달과 함께 기계 가독형으로 발전했으며, 디지털 시대에는 메타데이터 표준을 활용하여 디지털 데이터를 설명하는 방식으로 일반화되었다. 메타데이터는 정보 검색 시스템, 사진, 비디오, 통신, 지리 공간 데이터 등 다양한 분야에서 활용되며, 데이터의 구조, 유형, 스키마, 표준, 활용 방법 등이 존재한다. 메타데이터는 데이터와 함께 내부 또는 외부로 저장될 수 있으며, 데이터베이스 관리, 과학 연구, 박물관, 법률, 보건 의료, 데이터 웨어하우징, 인터넷, 방송, 지리, 생태, 디지털 음악, 클라우드 애플리케이션 등 다양한 분야에서 관리되고 활용된다.

메타데이터

📚 더 읽어볼만한 페이지

도서 분류법 - 해동문헌총록
《해동문헌총록》은 김휴가 1616년부터 1637년까지 20여 년에 걸쳐 편찬한 문헌 해제집으로, 고려사 등 역사서와 문헌 기록을 바탕으로 총 670여 종의 문헌을 수록하여 임진왜란 이후 문화유산 정비에 기여했다.
도서 분류법 - 뮤직브레인즈
뮤직브레인즈는 CDDB 상업화에 대응하여 로버트 케이에 의해 설립된 음악 메타데이터 데이터베이스 프로젝트로, 사용자들이 편집한 음악 데이터를 수집하여 제공하며, BBC, Amazon.com, Spotify 등에서 활용되고, 메타데이터 태깅 소프트웨어와 음향 지문 기술을 제공하며, 인터넷 아카이브와 협력하여 커버 아트 및 이벤트 아트 아카이브를 운영한다.
기록 관리 - 정보 아키텍처
정보 아키텍처는 정보 시스템 및 정보 기술 분야에서 공유 정보 환경의 구조적 설계를 의미하며, 웹사이트, 소프트웨어 등의 구성과 레이블링을 포함하여 검색 용이성과 사용성을 지원하고, 도서관정보학에 기원을 두고 있다.
기록 관리 - 파일 호스팅 서비스
파일 호스팅 서비스는 사용자가 파일을 온라인 서버에 저장하고 접근하도록 지원하며, 이동식 미디어 대체, 백업, 파일 전송, 공유 등의 용도로 사용된다.
비즈니스 인텔리전스 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
비즈니스 인텔리전스 - 데이터 웨어하우스
데이터 웨어하우스는 의사결정 지원을 위해 운영 시스템과 분리되어 운영되는 데이터 저장소로, 여러 시스템의 데이터를 통합하여 신뢰성 있는 단일 정보를 제공하며, 시간 가변성, 주제 중심성, 사용자 접근성, 읽기 전용 데이터베이스라는 특징을 가진다.

2. 역사

인류 역사에서 메타데이터는 다양한 형태로 등장했다. 초기 형태로는 도서관 등에서 사용된 카드 목록을 들 수 있다. 처음에는 목록 자체가 필요 없었으나, 점차 가나다순, 서명순, 저자명순 등 정보를 체계적으로 정리하고 검색하기 위한 메타데이터의 필요성이 생겨났다. 도서관에서는 1980년대까지 카드 카탈로그 형태로 메타데이터를 전통적으로 사용했으며, 이후 카탈로그 데이터를 디지털 데이터베이스로 전환했다. 도서관 정보학 분야에서는 메타데이터를 서지 정보라고 부르기도 한다.

컴퓨터 시스템과 관련된 "메타 데이터"라는 용어는 1967년 MIT 국제학 연구 센터의 전문가 데이비드 그리펠(David Griffel)과 스튜어트 맥킨토시(Stuart McIntosh)가 처음 언급한 것으로 알려져 있다. 이후 1968년 필립 배글리(Philip Bagley)는 그의 저서 "프로그래밍 언어 개념의 확장"에서 '메타데이터'라는 용어를 만들었다. 그는 이 용어를 "데이터의 컨테이너에 대한 데이터", 즉 구조적 메타데이터를 의미하는 것으로 사용했으며, 이는 도서관 카탈로그에서 흔히 볼 수 있는 데이터 콘텐츠 자체에 대한 정보(메타 콘텐츠)와는 구별되는 개념이었다.

컴퓨터 과학의 발전은 메타데이터 개념의 진화에 큰 영향을 미쳤다. 특히 데이비드 휠러(David Wheeler)가 컴퓨터 과학의 중요한 공헌으로 꼽은 '간접 수준(Level of Indirection)' 개념의 도입은 MARC와 같은 기계가 읽을 수 있는 형태의 메타데이터 개발로 이어졌다. 이후 월드 와이드 웹의 창시자인 팀 버너스리는 기계가 단순히 저장된 정보를 나열하는 것을 넘어, 그 의미를 이해하고 능동적으로 반응할 수 있는 '기계 실행 가능 메타데이터(Machine Actionable Metadata)', 즉 Linked Data 개념을 제시했다. 이는 방대한 정보 속에서 필요한 데이터를 효과적으로 연결하고 활용하려는 시도이다.

2000년대에 들어 데이터와 정보가 점차 디지털 방식으로 저장되면서, 디지털 데이터를 설명하기 위해 메타데이터 표준을 사용하는 것이 일반화되었다. 예를 들어, 디지털 카메라로 사진을 찍으면 촬영 시간, 노출, 해상도 등의 정보가 Exif 메타데이터로 JPEG 파일에 함께 저장된다. 웹 페이지 역시 페이지 내용, 사용된 언어, 관련 키워드 등을 포함하는 메타 태그 형태의 메타데이터를 가질 수 있다. 이러한 메타 태그는 1990년대 후반까지 웹 검색 엔진 순위를 결정하는 주요 요소였으나, 일부 웹사이트가 관련 없는 키워드를 과도하게 넣어 검색 순위를 조작하는 키워드 스터핑(keyword stuffing) 문제가 발생하면서 그 중요도가 감소했다. 동영상이나 이미지 공유 사이트에서 사용자가 콘텐츠를 올릴 때 붙이는 '태그' 역시 메타데이터의 한 형태이다.

한편, 통신 활동, 특히 인터넷 트래픽과 관련된 메타데이터는 여러 국가의 정부 기관에 의해 광범위하게 수집되고 있다. 이 데이터는 트래픽 분석에 사용되지만, 대량 감시에 활용될 수 있다는 우려도 제기된다. 2013년 미국의 언론 매체 슬레이트는 미국 정부가 '메타데이터'의 범위를 넓게 해석하여 이메일 제목과 같은 메시지 내용 일부까지 포함할 수 있다고 보도하기도 했다.

오늘날 메타데이터는 정보 관리, 정보 과학, 정보 기술, 사서직, GIS 등 다양한 분야에서 "데이터에 대한 데이터"라는 일반적인 정의 아래 널리 사용되고 있으며, 각 분야의 특성에 맞게 구체적인 의미와 활용 방식을 발전시켜 나가고 있다.

3. 정보 검색과 메타데이터

정보 검색 시스템에서 검색 대상이 되는 데이터를 요약한 정보를 메타데이터라고 한다. 이는 대량의 정보 속에서 원하는 정보를 효율적으로 찾아 이용하기 위해, 일정한 규칙에 따라 데이터에 부여되는 부가적인 데이터이다. 도서관 정보학 분야에서는 이러한 메타데이터를 서지 정보라고 부르기도 한다.

예를 들어, 문서의 경우 일반적으로 저자명, 표제, 발표 연월일과 같은 기본적인 정보 외에도 내용과 관련된 키워드 등을 메타데이터로 포함한다. 이렇게 기술된 관련 키워드를 색인어라고 부르기도 한다. 디지털 카메라로 사진을 찍어 JPEG 파일로 저장할 때, 카메라 자체 정보, 촬영 시간, 노출, 플래시 사용 여부, 해상도 등 사진에 대한 정보가 Exif 형식의 메타데이터로 자동 생성되는 것이 일반적이다. 이러한 메타데이터는 사진을 정리하거나 가공할 때 유용하게 활용된다. 또한, GPS 기능을 이용해 위치 정보까지 메타데이터에 포함시키면, 사진이 촬영된 장소를 쉽게 파악하고 이를 통해 특정 지역 정보를 검색하거나 같은 지역에서 찍은 다른 사진을 찾는 등 검색성을 향상시킬 수 있다. 동영상 공유 사이트나 사진 앨범 서비스 등에 파일을 올릴 때 사용자가 직접 입력하는 '[[태깅 (컴퓨터)|태그]]' 역시 메타데이터의 한 종류이다.

메타데이터는 주로 검색 효율성을 높이기 위해 작성된다. 검색 시마다 데이터 자체의 성질을 분석하여 검색 결과 포함 여부를 판단하는 것은 비효율적이므로, 미리 데이터를 검색하기 쉬운 형태로 가공하고 정리해두는 것이다. 예를 들어, 인터넷 검색 엔진은 특정 동영상 파일을 찾을 때 동영상 내용 자체보다는 동영상의 제목이나 태그 같은 메타데이터와 사용자가 입력한 검색어 간의 유사성을 비교하여 검색 결과를 보여준다. 과거 웹 페이지의 메타데이터에 포함된 키워드를 설명하는 메타 태그는 검색 순위 결정에 중요하게 사용되었으나, 일부 웹사이트가 관련 없는 키워드를 과도하게 넣어 검색 엔진을 속이는 키워드 스터핑(keyword stuffing) 문제가 발생하면서 1990년대 후반 이후 그 중요성은 낮아졌다.

3.1. 메타데이터 스키마

메타데이터 스키마를 통일하면, 여러 주체가 기술한 메타데이터의 상호 운용성을 실현할 수 있다. 상호 운용성이 높은 메타데이터는 기계가 판독하기 쉬워 활용도가 높기 때문에, 스키마 단체나 특정 업계 단체에서 다양한 메타데이터 스키마를 제정하고 있다.

메타데이터 스키마는 다음 요소로 구성된다.

👆

좌우로 밀어서 보기

요소	설명	예시
속성 집합 (속성 어휘)	정보 자원의 속성을 정의하는 어휘 집합	제목, 만든이, 출판사 등
속성값 형식 집합 (속성값 형식 어휘)	속성값의 기술 형식을 정의하는 어휘 집합	날짜 형식(YYYY-MM-DD), 이름 표기 규칙, 주제 분류표 등
구조적 제약 (추상 구문)	속성값 기술의 필수 여부, 반복 가능 여부 등 구조적 규칙	특정 속성은 반드시 값을 가져야 함, 특정 속성은 여러 번 반복될 수 있음 등
실현 형식 (구체 구문)	시스템 상에서 메타데이터를 표현하는 구체적인 형식	HTML, XML, RDF 등

메타데이터 스키마의 구문은 메타데이터의 필드 또는 요소를 구조화하는 규칙이다. 하나의 메타데이터 스키마는 여러 마크업이나 프로그래밍 언어로 표현될 수 있으며, 각각 다른 구문이 필요하다. 예를 들어, 더블린 코어는 일반 텍스트, HTML, XML, RDF 등으로 표현될 수 있다.

메타데이터 스키마는 구조에 따라 다음과 같이 나눌 수 있다.
* 계층적 스키마: 메타데이터 요소 간에 상위-하위 관계가 존재하며 중첩된다. IEEE LOM 스키마가 대표적이다.
* 선형적(1차원) 스키마: 각 요소가 다른 요소와 완전히 독립적이며 하나의 차원으로 분류된다. 더블린 코어 스키마가 이에 해당한다.
* 평면적(2차원) 스키마: 각 요소가 다른 요소와 독립적이면서 두 개의 직교 차원으로 분류된다.

MARC(기계가독목록) 형식을 대체하기 위한 노력의 일환으로, 1995년 3월 OCLC와 NCSA 주최로 미국 오하이오 주 더블린에서 열린 워크숍에서 더블린 코어 메타데이터 형식이 만들어졌다. 이 형식은 생성과 유지가 쉽고, 이해하기 쉬우며, 국제적으로 통용되고, 확장 가능한 구조를 갖도록 단순화하는 데 초점을 맞췄다. 더블린 코어는 제목, 만든이, 주제, 요약 정보 등 15개의 핵심 요소로 구성된다. 또한 '덤다운(Dumb down)' 원칙을 적용하여, 상세 기술을 위한 한정어 사용이 오히려 의미의 모호성을 유발하는 경우 해당 한정어를 수정하거나 제거하고 상위 개념을 유지함으로써 하위 개념까지 포괄하도록 단순화하여 안정적인 의미 전달을 추구한다.

4. 메타데이터 유형

메타데이터의 적용 분야는 매우 다양하고 광범위하지만, 메타데이터의 유형을 명확히 하기 위한 전문적이고 널리 받아들여지는 모델들이 존재한다.

브레더튼과 싱글리(1994)는 구조/제어 메타데이터와 가이드 메타데이터라는 두 가지 뚜렷한 분류를 제시했다. 구조 메타데이터는 테이블, 열, 키, 인덱스처럼 데이터베이스 객체의 구조를 설명하는 정보를 말한다. 반면, 가이드 메타데이터는 사람이 특정 항목을 찾는 데 도움을 주는 정보로, 보통 자연어로 된 키워드 집합으로 표현된다.

랄프 킴볼은 메타데이터를 기술 메타데이터(또는 내부 메타데이터), [[비즈니스 메타데이터]](또는 외부 메타데이터), 그리고 프로세스 메타데이터의 세 가지 범주로 나누었다.

미국 정보 표준 기구(NISO)는 메타데이터를 설명 메타데이터, 구조 메타데이터, 관리 메타데이터의 세 가지 유형으로 구분한다.
* 설명 메타데이터는 자원을 발견하고 식별하는 데 사용된다. 일반적으로 제목, 저자, 주제, 키워드, 출판사 등과 같이 객체를 검색하고 찾는 데 필요한 정보를 포함한다.
* 구조 메타데이터는 객체의 구성 요소들이 어떻게 조직되는지를 설명한다. 예를 들어, 책의 각 장을 형성하기 위해 페이지들이 배열되는 방식이 구조 메타데이터에 해당한다.
* 관리 메타데이터는 자원을 관리하는 데 도움이 되는 정보를 제공한다. 파일 형식이나 파일 생성 시기 및 방법과 같은 기술 정보가 이에 속한다. 관리 메타데이터는 다시 권리 관리 메타데이터와 보존 메타데이터로 나뉜다. 권리 관리 메타데이터는 지적 재산권을 설명하며, 보존 메타데이터는 자원을 보존하고 저장하기 위한 정보를 담고 있다.

통계 데이터 저장소는 데이터의 출처와 품질 정보뿐만 아니라 통계 데이터를 생성하는 데 사용된 통계적 과정까지 설명해야 하므로 메타데이터에 대한 고유한 요구 사항을 가진다. 이는 통계 데이터 생산 과정을 검증하고 개선하는 데 중요하게 활용된다.

최근에는 접근성 메타데이터라는 유형이 더욱 발전하고 있다. 접근성 메타데이터는 도서관 분야에서 새로운 개념은 아니지만, 유니버설 디자인의 발전과 함께 그 중요성이 커지고 있다. Cloud4All이나 GPII 같은 프로젝트들은 모든 사용자를 위한 보편적 접근성 솔루션을 제공하는 데 있어, 사용자의 다양한 요구와 선호도, 그리고 이를 충족하는 정보를 기술하기 위한 공통 용어 및 모델의 부재가 주요 문제점임을 지적했다. 이러한 유형의 정보가 바로 접근성 메타데이터이다. 웹 표준을 개발하는 Schema.org는 IMS Global Access for All 정보 모델 데이터 요소 사양을 기반으로 여러 접근성 관련 속성을 통합했다. 월드 와이드 웹 컨소시엄(W3C)의 위키 페이지 WebSchemas/Accessibility에는 다양한 접근성 속성과 그 값들이 나열되어 있다. 정보 이용자의 다양한 접근성 요구 사항을 설명하고 표준화하려는 노력은 점점 강화되고 있지만, 기존 메타데이터 스키마에 이러한 내용을 반영하는 것은 아직 충분히 이루어지지 않고 있다. 예를 들어, 더블린 코어(DC)의 "대상(Audience)" 필드나 MARC 21의 "읽기 수준(Reading Grade Level)" 필드는 난독증 사용자를 위한 자료를 식별하는 데 사용될 수 있고, DC의 "형식(Format)" 필드는 점자, 오디오, 큰 글자 형식으로 제공되는 자료를 식별하는 데 활용될 수 있지만, 여전히 더 많은 노력이 필요한 상황이다.

5. 메타데이터 구조

메타데이터를 구성하는 어휘는 일반적으로 메타데이터 표준 및 메타데이터 모델을 포함하는 잘 정의된 메타데이터 체계를 사용하여 표준화된 개념에 따라 구성된다. 통제 어휘, 분류법, 테소러스, 데이터 사전, 메타데이터 레지스트리와 같은 도구를 사용하여 메타데이터에 추가적인 표준화를 적용할 수 있다. 구조적 메타데이터의 공통성은 데이터 모델 개발 및 데이터베이스 설계에서도 중요하다. 예를 들어, 어떤 객체를 특정 분류 체계(가령 듀이 십진 분류 번호 514 - 위상수학)로 분류하는 것은 그 객체가 해당 주제에 속한다는 메타데이터 진술을 의미한다. 이때 사용되는 분류 번호와 같은 값은 통제된 어휘, 즉 참조(마스터) 데이터에서 가져온다. 이러한 메타데이터와 마스터 데이터 요소를 결합하여 메타데이터 내용을 구성하며(ISO 25964 표준 참조), 이는 검색 효율성을 높이는 데 기여한다.

메타데이터 구문은 메타데이터의 필드 또는 요소를 구조화하기 위해 만들어진 규칙을 말한다. 하나의 메타데이터 스키마는 여러 마크업 또는 프로그래밍 언어로 표현될 수 있으며, 각각 다른 구문이 필요하다. 예를 들어, 더블린 코어는 일반 텍스트, HTML, XML, 그리고 RDF 등 다양한 구문으로 표현될 수 있다.

메타데이터 스키마는 그 구조에 따라 여러 유형으로 나눌 수 있다.
* 계층적 스키마: 메타데이터 요소 간에 관계가 존재하고 요소들이 중첩되어 상위-하위 관계를 형성한다. IEEE LOM 스키마가 대표적인 예시다.
* 선형적 스키마: 각 요소가 다른 요소와 완전히 독립적이며 하나의 차원에 따라 분류된다. 더블린 코어 스키마가 이에 해당한다.
* 평면적 스키마: 각 요소가 다른 요소와 완전히 독립적이지만, 두 개의 직교하는 차원에 따라 분류된다.

메타데이터 스키마를 통일하면, 여러 주체가 기술한 메타데이터 간의 상호 운용성을 확보할 수 있다. 상호 운용성이 높은 메타데이터는 기계가 읽고 처리하기 쉬워 활용도가 높아지므로, 다양한 표준화 단체나 특정 산업 분야에서 메타데이터 스키마를 제정하고 있다.

메타데이터 스키마는 일반적으로 다음과 같은 요소들로 구성된다.

👆

좌우로 밀어서 보기

요소	설명
속성 집합 (속성 어휘)	메타데이터로 기술할 정보 자원의 속성(예: 제목, 저자, 출판사 등)과 그 집합을 정의한다.
속성값 형식 집합 (속성값 형식 어휘)	메타데이터로 기술할 속성값의 형식(예: 날짜 형식, 이름 형식, 주제 분류를 위한 통제 어휘 등) 또는 그 형식을 나타내는 어휘와 속성을 정의한다.
구조적 제약 (추상 구문)	속성값 기술의 생략 가능 여부, 반복 조건 등 메타데이터의 구조적 제약을 정의한다. 이는 특정 시스템 구현 방식에 의존하지 않는 구문 규칙이다.
실현 형식 (구체 구문)	시스템 상에서 메타데이터가 구체적으로 표현되는 형식을 정의한다.

데이터 또는 메타데이터가 구조화된 정도를 세분성(Granularity)이라고 한다. 세분성은 제공되는 정보의 상세 수준을 의미한다. 세분성이 높으면 더 깊이 있고 상세하며 구조화된 정보를 제공하여 기술적인 조작 가능성을 높인다. 반면, 세분성이 낮으면 메타데이터 생성 비용은 적게 들지만 상세한 정보를 제공하지 못한다. 세분성은 메타데이터의 생성 및 획득 비용뿐만 아니라 유지 관리 비용에도 큰 영향을 미치므로, 생성과 유지 관리 노력을 모두 고려해야 한다.

평면적인 묘사를 넘어서는 복잡한 메타데이터 구조를 다룰 때는, 선택한 측면에 따라 메타데이터를 표시하고 특별한 관점을 제공하기 위해 일종의 하이퍼매핑(Hypermapping)이 필요하다. 하이퍼매핑은 특히 지리 정보나 지질 정보 오버레이를 계층적으로 표현하는 데 자주 사용된다.

6. 메타데이터 표준

국제 표준은 메타데이터에 적용된다. 메타데이터 및 레지스트리 표준화에 대한 합의를 이루기 위해 특히 ANSI(미국 국립 표준 협회)와 ISO(국제 표준화 기구)를 중심으로 국가 및 국제 표준 커뮤니티에서 많은 작업이 진행되고 있다. 핵심 메타데이터 레지스트리 표준은 ISO/IEC 11179 메타데이터 레지스트리(MDR)이며, 표준 프레임워크는 ISO/IEC 11179-1:2004에 설명되어 있다. 파트 1의 새 버전은 2015년 또는 2016년 초 출판을 위한 최종 단계에 있으며, 이는 개념 시스템 등록을 지원하도록 MDR을 확장하는 파트 3의 현재 버전인 ISO/IEC 11179-3:2013에 맞춰 수정되었다. 이 표준은 인간과 컴퓨터가 모호하지 않게 사용할 수 있도록 데이터의 의미와 기술적 구조를 기록하기 위한 스키마를 지정한다. ISO/IEC 11179 표준은 메타데이터를 데이터에 대한 정보 객체, 즉 "데이터에 대한 데이터"로 지칭한다. ISO/IEC 11179 파트 3에서 정보 객체는 데이터 요소, 값 도메인 및 데이터 항목의 의미와 기술적 세부 사항을 설명하는 기타 재사용 가능한 의미 및 표현 정보 객체에 대한 데이터이다. 이 표준은 또한 메타데이터 레지스트리에 대한 세부 사항과 메타데이터 레지스트리 내에서 정보 객체를 등록 및 관리하기 위한 세부 사항을 규정한다. ISO/IEC 11179 파트 3에는 계산, 하나 이상의 데이터 요소 모음 또는 기타 파생 데이터 형식을 통해 다른 데이터 요소의 파생물인 복합 구조를 설명하기 위한 조항도 있다. 이 표준은 특정 응용 프로그램과 관계없이 메타데이터 콘텐츠를 설명하고 등록하여, 설명이 인간이나 컴퓨터에 의해 새로운 응용 프로그램, 데이터베이스를 개발하거나 등록된 메타데이터 콘텐츠에 따라 수집된 데이터를 분석하는 데 발견되고 재사용될 수 있도록 지원하는 것을 목표로 한다. (ISO/IEC 11179 참조).

지리 공간 커뮤니티는 특히 지도 및 이미지 라이브러리 및 카탈로그의 전통을 바탕으로 전문화된 지리 공간 메타데이터 표준을 가지고 있다. 일반적인 텍스트 처리 방식이 적용되지 않으므로 지리 공간 데이터에는 일반적으로 공식적인 메타데이터가 필수적이다.

더블린 코어 메타데이터 용어는 검색 목적으로 리소스를 설명하는 데 사용할 수 있는 일련의 어휘 용어이다. 더블린 코어 메타데이터 요소 세트로 알려진 원래의 15개 고전적인 메타데이터 용어는 다음 표준 문서에서 승인되었다.
* IETF RFC 5013
* ISO 표준 15836-2009
* NISO 표준 Z39.85.

W3C 데이터 카탈로그 어휘(DCAT)는 데이터 세트, 데이터 서비스, 카탈로그 및 카탈로그 레코드에 대한 클래스로 더블린 코어를 보완하는 RDF 어휘이다. DCAT는 또한 FOAF, PROV-O 및 OWL-Time의 요소를 사용한다. DCAT는 각 데이터 세트 또는 서비스를 설명하는 레코드를 포함하는 카탈로그의 일반적인 구조를 지원하는 RDF 모델을 제공한다.

표준은 아니지만, 마이크로포맷은 메타데이터를 전달하기 위해 기존 HTML/XHTML 태그를 재사용하는 웹 기반의 의미론적 마크업 방식이다. 마이크로포맷은 XHTML 및 HTML 표준을 따르지만 그 자체로는 표준이 아니다. 마이크로포맷의 옹호자인 탄텍 첼릭은 다른 접근 방식의 문제점에 대해 "여기에 여러분이 배워야 할 새로운 언어가 있으며, 이제 서버에 이러한 추가 파일을 출력해야 합니다. 번거롭습니다. (마이크로포맷)는 진입 장벽을 낮춥니다."라고 지적했다.

7. 메타데이터 활용

메타데이터는 다양한 목적을 가지고 있으며, 사용자들이 관련 정보를 쉽게 찾고(검색 가능성), 자원을 발견하며(발견 가능성), 전자 자원을 정리하고, 디지털 식별을 제공하며, 자원을 보관하고 보존하는 데 도움을 준다. 즉, 메타데이터는 "관련 기준에 따라 자원을 찾고, 자원을 식별하며, 유사한 자원을 함께 묶고, 서로 다른 자원을 구별하며, 위치 정보를 제공함으로써" 사용자들이 자원에 접근할 수 있도록 한다.

예를 들어, 디지털 카메라로 찍은 사진에는 카메라 정보, 촬영 시간, 노출, GPS 위치 정보 등이 메타데이터로 기록될 수 있다. 이 정보는 사진을 정리하거나 특정 장소에서 찍은 다른 사진을 찾는 데 유용하게 활용되어 검색성을 높인다. 웹 페이지의 메타데이터는 페이지의 주제, 사용된 언어, 관련 정보 위치 등을 알려주어 사용자의 정보 접근성을 높이고 검색 엔진이 페이지를 더 쉽게 찾도록 돕는다. CD에는 음악가, 작곡가 등의 정보가 메타데이터로 포함될 수 있다.

통신 활동, 특히 인터넷 트래픽에 대한 메타데이터(예: 이메일, 전화 통화, 웹 페이지 접속 기록, IP 주소 연결, 휴대 전화 위치 정보 등)는 여러 국가의 정부 기관에서 광범위하게 수집된다. 이러한 데이터는 트래픽 분석에 사용될 뿐만 아니라, 대량 감시 목적으로 활용될 수 있어 프라이버시 침해 논란이 있다. 미국 정부가 이메일 제목과 같은 메시지 내용 일부까지 메타데이터로 간주할 수 있다는 보도도 있었다.

가장 일반적인 유형의 컴퓨터 파일(문서, 이미지, 비디오, 오디오 파일 등) 역시 메타데이터를 포함할 수 있다. 파일 생성 시간, 작성자, 파일 크기, 해상도 등 다양한 정보가 기록된다. 파일 메타데이터는 파일을 찾는 데 유용하지만, 파일을 공유할 때 의도치 않게 개인 정보나 민감한 정보가 노출될 위험이 있다. 이러한 위험은 메타데이터 제거 도구를 사용하여 파일을 정리함으로써 줄일 수 있다.

메타데이터는 컴퓨터 시스템에 의해 자동으로 생성되거나(예: 파일 생성 시간, 카메라 설정값), 사용자가 직접 수동으로 입력할 수 있다(예: 키워드, 설명).

7.1. 도서관 및 정보 과학

메타데이터는 도서관 자료를 목록화하는 수단으로 디지털 및 아날로그 형식 모두에서 다양하게 활용되어 왔다. 이러한 데이터는 특정 책, DVD, 잡지 등 도서관 소장 자료를 분류하고, 집계하며, 식별하고 찾는 데 도움을 준다. 인류사에서 메타데이터 활용의 초기 형태 중 하나는 카드 목록이다. 처음에는 목록의 필요성이 크지 않았으나, 점차 가나다순, 서명순, 저자명순 등 정렬 기준을 제공하는 메타데이터가 중요해졌다.

1980년대까지 많은 도서관 목록은 파일 서랍 속 3x5인치 카드를 사용했다. 이 카드에는 책의 제목, 저자, 주제 정보와 함께 도서관 서가 내 자료의 물리적 위치를 나타내는 축약된 영숫자 문자열인 청구 기호가 기록되었다. 도서관 자료를 주제별로 분류하는 데 사용되는 듀이 십진 분류법 역시 메타데이터 활용의 초기 사례로 볼 수 있다. 즉, 초기의 종이 목록 카드 자체가 해당 자료의 핵심 정보(제목, 저자, 주제, 위치 번호 등)를 담은 메타데이터였던 것이다. 1980년대와 1990년대에 들어서면서 많은 도서관은 이러한 종이 카드 목록을 컴퓨터 데이터베이스로 대체하기 시작했으며, 이는 이용자들이 키워드를 통해 훨씬 쉽고 빠르게 자료를 검색할 수 있게 만들었다.

도서관은 도서관 목록에서 메타데이터를 사용하며, 이는 주로 통합 도서관 관리 시스템(ILMS)의 일부로 운영된다. 메타데이터는 책, 정기간행물, DVD, 웹 페이지, 디지털 이미지 등 다양한 자료를 목록 작성하는 과정에서 생성된다. 이 데이터는 MARC와 같은 메타데이터 표준을 사용하여 ILMS에 저장되며, 이용자가 원하는 자료의 물리적 또는 전자적 위치를 안내하고 해당 자료에 대한 설명을 제공하는 것을 목적으로 한다. MARC는 컴퓨터 과학에서 '간접 수준(Level of Indirection)'을 높인 대표적인 메타데이터 형식으로 평가받기도 한다.

MARC 형식을 대체하거나 보완하기 위한 노력으로, 1995년 3월 OCLC와 NCSA는 미국 오하이오 주 더블린에서 워크숍을 개최하여 더블린 코어라는 새로운 메타데이터 형식을 만들었다. 이 형식은 생성과 유지가 쉽고, 이해하기 쉬우며, 국제적으로 인정받고 확장 가능한 구조를 갖추는 것을 목표로 했다. 더블린 코어는 제목, 만든이, 주제, 요약 정보 등 15가지 핵심 요소로 구성되며, '덤다운(Dumb down)' 원칙에 따라 지나친 상세화로 인한 의미 모호성을 피하고 안정적인 의미 전달을 추구한다.

최근에는 디지털 도서관, e-프린트 저장소, 디지털 이미지 도서관 등 새로운 형태의 정보 환경이 등장하면서 더욱 전문화된 메타데이터 활용이 이루어지고 있다. 이러한 환경의 메타데이터는 도서관학 원칙에 기반하면서도, 사서가 아닌 일반 이용자의 메타데이터 직접 생성을 염두에 두는 경우가 많아 전통적인 목록 작성 방식과는 차이가 있을 수 있다. 자료의 특성에 맞춰 분류 필드, 위치 필드, 키워드, 저작권 고지 등 맞춤형 메타데이터 필드가 생성되며, 파일 크기나 형식과 같은 표준 파일 정보는 자동으로 포함되는 경우가 많다.

도서관 운영은 수십 년간 국제 표준화 노력의 핵심 주제였으며, 디지털 도서관 환경에서 사용되는 주요 메타데이터 표준으로는 더블린 코어, METS, MODS, DDI, DOI, URN, PREMIS 스키마, EML, OAI-PMH 등이 있다. 문헌정보학(또는 도서관 정보학) 분야에서는 메타데이터를 '[[서지 정보]]'라고 부르기도 한다. 예를 들어, 문서의 경우 저자명, 표제, 발표 연월일 외에 관련 키워드 등을 메타데이터로 포함하는 것이 일반적이며, 이러한 관련 키워드를 색인어라고 부르기도 한다. 동영상 공유 사이트나 사진 앨범 서비스 등에서 사용자가 파일 업로드 시 등록하는 '[[태깅 (컴퓨터)|태그]]' 역시 메타데이터의 일종으로 볼 수 있다.

메타데이터를 작성하는 주된 목적은 검색 효율성을 높이는 데 있다. 검색 시마다 방대한 원본 데이터 전체를 분석하는 것은 비효율적이므로, 미리 데이터의 주요 특징을 구조화된 메타데이터로 정리해두어 검색 시스템이 이를 신속하게 참조하도록 하는 것이다. 예를 들어, 인터넷 검색 엔진은 특정 동영상 파일을 검색할 때, 동영상 내용 자체보다는 동영상의 제목이나 태그 등 해당 동영상에 부수되는 메타데이터와 입력된 검색 키워드의 유사성을 비교하여 검색 결과를 출력한다.

7.2. 과학

과학 출판물에 대한 메타데이터는 주로 PubMed나 Web of Science와 같은 저널 발행인 및 인용 데이터베이스에서 생성된다. 원고에 포함되거나 보충 자료로 첨부된 데이터는 메타데이터 생성의 대상이 되는 경우가 드물지만, 출판 후 생의학 데이터베이스 등에 제출될 수 있다. 자동화된 프로세스의 도움을 받아 원본 작성자 및 데이터베이스 관리자가 메타데이터 생성을 책임진다. 모든 실험 데이터에 대한 포괄적인 메타데이터는 FAIR 데이터 지침 원칙의 기초가 되며, 이는 연구 데이터를 [[Findability|찾을 수 있고]], [[Accessibility|접근 가능하며]], [[Interoperability|상호 운용 가능하고]], [[Reusability|재사용 가능]]하도록 만드는 표준이다.

이렇게 생성된 메타데이터는 유용한 방식으로 활용되고 보완될 수 있다. 예를 들어, OpenAlex는 2억 개 이상의 과학 문서에 대한 무료 온라인 색인으로, 출처, 인용, 저자 정보, 과학 분야 및 연구 주제와 같은 메타데이터를 통합하여 제공한다. 이 API와 오픈 소스 웹사이트는 메타사이언스, 계량과학 연구 및 이 시맨틱 웹의 논문을 쿼리하는 새로운 도구 개발에 사용될 수 있다. 개발 중인 또 다른 프로젝트인 Scholia는 Wikidata의 데이터를 활용하여 과학 출판물의 메타데이터를 다양한 시각화 및 집계 기능에 사용하며, 예를 들어 SARS-CoV-2 바이러스의 특정 기능에 대한 문헌을 요약하는 간단한 사용자 인터페이스를 제공한다.

연구 노동에서 저자의 작업 기여에 대한 투명한 메타데이터가 제안되기도 했다. 예를 들어, 논문 제작에 기여한 역할, 기여 수준 및 책임 등을 명시하는 것이다.

또한 과학적 결과물에 대한 다양한 메타데이터를 생성하거나 보완할 수 있다. 예를 들어, scite.ai는 논문의 인용을 연구를 '지원', '언급' 또는 '대조'하는 것으로 추적하고 연결하려고 시도한다. 다른 예로는 대체 지표의 개발이 있다. 이는 평가 및 찾기 기능을 제공하는 것 외에도 Reddit, 위키백과의 인용, 뉴스 매체의 연구 보고서와 같은 소셜 미디어에서 과학 논문에 대한 많은 공개 토론을 집계한다. 그리고 원래 발견 사항이 확인되었는지 또는 재현될 수 있는지 여부를 표시하라는 요청도 있다.

생명 의학 및 분자 생물학 분야의 연구는 종종 게놈 또는 메타 게놈 시퀀싱, 단백질체학 데이터, 심지어 연구 과정에서 생성된 노트나 계획을 포함하여 방대한 양의 데이터를 생성한다. 각 데이터 유형은 자체적으로 다양한 메타데이터와 이러한 메타데이터를 생성하는 데 필요한 프로세스를 포함한다. ISA-Tab과 같은 일반적인 메타데이터 표준을 통해 연구자는 일관된 형식으로 실험 메타데이터를 생성하고 교환할 수 있다. 특정 실험적 접근 방식은 자체 메타데이터 표준 및 시스템을 갖는 경우가 많다. 질량 분석법에 대한 메타데이터 표준에는 mzML 및 SPLASH가 포함되는 반면, XML 기반 표준인 PDBML 및 SRA XML은 각각 거대 분자 구조 및 시퀀싱 데이터에 대한 표준으로 사용된다.

7.3. 박물관

박물관 맥락에서 메타데이터는 사서, 도서관 사서, 박물관 등록 담당자 및 큐레이터와 같은 전문적인 문화 기록 담당자가 예술 작품, 건축물, 문화 유물 및 이미지들을 색인화, 구조화, 설명, 식별 또는 지정하기 위해 생성하는 정보다. 설명적 메타데이터는 박물관 맥락에서 객체 식별 및 자원 복구를 위해 가장 일반적으로 사용된다.

메타데이터는 다음과 같은 목적으로 수집 기관 및 박물관 내에서 개발 및 적용된다.

* 자원 검색을 용이하게 하고 검색 쿼리를 실행한다.
* 박물관 소장품 및 문화 객체와 관련된 정보를 저장하고, 기록 및 관리 목적으로 사용되는 디지털 아카이브를 생성한다.
* 디지털 콘텐츠를 온라인으로 게시하여 대중에게 문화 객체에 대한 접근성을 제공한다.

많은 박물관과 문화유산 센터에서는 예술 작품과 문화재의 다양성을 고려할 때, 단일 모델이나 표준만으로는 문화 작품을 설명하고 목록화하기에 충분하지 않음을 인식하고 있다. 예를 들어, 조각된 원주민 유물은 예술 작품, 고고학적 유물 또는 원주민 유산으로 분류될 수 있다. 박물관 커뮤니티 내에서 기록 보관, 설명 및 목록화의 표준화 초기 단계는 작품 설명 범주 (CDWA), Spectrum, CIDOC 개념 참조 모델 (CRM), 문화재 목록화 (CCO) 및 CDWA Lite XML 스키마와 같은 표준 개발과 함께 1990년대 후반에 시작되었다. 이러한 표준은 기계 처리, 출판 및 구현을 위해 HTML 및 XML 마크업 언어를 사용한다. 원래 서적의 특성화를 위해 개발된 영미 목록 규칙 (AACR)도 문화재, 예술 작품 및 건축물에 적용되었다. CCO와 같은 표준은 박물관이 소장품, 획득, 대여 및 보존을 관리할 수 있는 데이터베이스인 박물관의 소장품 관리 시스템 (CMS)에 통합되어 있다. 이 분야의 학자들과 전문가들은 "빠르게 진화하는 표준 및 기술 환경"이 기술적인 훈련을 받지 않은 전문가를 포함한 문화 기록 담당자에게 과제를 제기한다고 지적한다. 대부분의 소장 기관과 박물관은 관계형 데이터베이스를 사용하여 문화 작품과 이미지들을 분류한다. 관계형 데이터베이스와 메타데이터는 문화재와 다면적인 예술 작품 간의 복잡한 관계, 객체와 장소, 사람 및 예술 운동 간의 관계를 문서화하고 설명하는 데 사용된다. 관계형 데이터베이스 구조는 또한 소장 기관과 박물관에서 보관자가 문화재와 이미지를 명확히 구분하는 데 유용하다. 명확하지 않은 구분은 혼란스럽고 부정확한 검색으로 이어질 수 있기 때문이다.

객체의 물질성, 기능, 목적, 크기(예: 높이, 너비, 무게와 같은 측정값), 보관 요구 사항(예: 온도 조절 환경) 및 박물관과 컬렉션의 초점은 문화 기록 담당자가 객체에 부여하는 데이터의 설명 깊이에 영향을 미친다. 또한, 확립된 기관의 목록 작성 관행, 목표, 문화 기록 담당자의 전문 지식 및 데이터베이스 구조 역시 문화 객체에 할당된 정보와 그 범주화 방식에 영향을 미친다. 박물관은 종종 기록 담당자가 예술 작품 및 문화 객체를 설명하는 방식을 규정하고 제한하는 표준화된 상업용 컬렉션 관리 소프트웨어를 사용하기도 한다. 수집 기관과 박물관은 소장품의 문화 객체와 예술 작품을 설명하기 위해 통제 어휘를 사용한다. 게티 어휘와 미국 의회 도서관 통제 어휘는 박물관 커뮤니티 내에서 널리 인정받으며 CCO 표준에서도 권장된다. 박물관은 소장품과 관련성이 높고 디지털 정보 시스템의 기능을 향상시키는 통제 어휘를 사용하는 것이 권장된다. 통제 어휘는 높은 수준의 일관성을 제공하여 자원 검색을 개선하므로 데이터베이스 내에서 유용하다. 통제 어휘를 포함한 메타데이터 구조는 생성된 시스템의 온톨로지를 반영한다. 종종 박물관에서 메타데이터를 통해 문화 객체가 설명되고 범주화되는 과정은 제작자 커뮤니티의 관점을 반영하지 못하는 경우가 있다.

메타데이터는 박물관 내 디지털 정보 시스템 및 아카이브 생성에 중요한 역할을 해왔으며, 박물관이 온라인에서 디지털 콘텐츠를 게시하는 것을 더 쉽게 만들었다. 이는 지리적 또는 경제적 장벽으로 인해 문화재에 접근하기 어려웠던 관람객들의 접근성을 높이는 데 기여했다. 2000년대에 들어서면서 더 많은 박물관이 아카이브 표준을 채택하고 복잡한 데이터베이스를 구축함에 따라 박물관, 아카이브 및 도서관 과학 커뮤니티에서 링크드 데이터에 대한 논의가 이루어졌다. 컬렉션 관리 시스템(CMS)과 디지털 자산 관리 도구는 로컬 또는 공유 시스템일 수 있다. 디지털 인문학 학자들은 박물관 데이터베이스와 컬렉션 간의 상호 운용성이 가져올 많은 이점을 언급하는 동시에, 이러한 상호 운용성을 달성하는 데 따르는 어려움도 인정한다.

7.4. 법률

소송에서 메타데이터와 관련된 문제는 미국에서 중요한 문제로 다루어져 왔다. 법원은 당사자의 메타데이터 증거개시를 포함하여 메타데이터와 관련된 다양한 문제들을 검토해 왔다. 미국 연방 민사소송규칙에는 전자적으로 저장된 정보의 증거 개시에 대한 구체적인 규칙이 있으며, 해당 규칙을 적용하는 후속 판례법은 연방 법원에서 소송을 제기할 때 메타데이터를 제출해야 하는 소송 당사자의 의무를 명확히 설명했다. 2009년 10월, 애리조나 주 대법원은 메타데이터 기록이 공공 기록이라고 판결했다. 문서 메타데이터는 소송에서 특정 당사자에게 불리한 민감한 정보를 포함할 수 있어 법적 환경에서 특히 중요하게 다뤄진다. 메타데이터 제거 도구를 사용하여 문서를 수정하면 의도치 않게 민감한 데이터를 전송하는 위험을 줄일 수 있다. 이 과정은 특히 법률 회사가 전자적 증거개시 과정에서 민감한 데이터 유출로 인해 피해를 입는 것을 방지하는 데 도움이 된다.

호주에서는 국가 안보 강화의 필요성으로 인해 새로운 메타데이터 보존법이 도입되었다. 이 새로운 법은 보안 및 경찰 기관이 테러 공격 및 심각한 범죄 발생을 더 쉽게 막을 수 있도록 하기 위해 개인의 메타데이터에 최대 2년까지 접근할 수 있도록 허용한다.

입법 메타데이터는 2010년 3월 22일과 23일 코넬 대학교 법학대학원의 법률 정보 연구소에서 개최된 워크숍과 같은 [https://public.resource.org/law.gov/ law.gov] 포럼에서 논의의 대상이 되어왔다. 이러한 포럼의 결과는 "입법 및 규정에 대한 제안된 메타데이터 관행"이라는 제목의 문서로 발표되었다.

7.5. 보건 의료

호주의 의학 연구는 의료 분야 응용을 위한 메타데이터 정의를 개척했다. 이 접근 방식은 세계 보건 기구(WHO)의 지원을 받았으며, 자체 표준을 정의하는 대신 의학 분야의 국제 표준을 준수하려는 첫 시도로 인정받았다. 그러나 이러한 표준을 뒷받침하는 연구에도 불구하고, 의료계는 아직 메타데이터 표준 준수의 필요성을 충분히 인식하지 못하고 있다.

생명 의학 및 분자 생물학 분야의 연구는 게놈 또는 메타 게놈 시퀀싱, 단백질체학 데이터, 연구 과정의 기록 등 방대한 양의 데이터를 생성한다. 각 데이터 유형은 고유한 메타데이터와 생성 과정을 포함한다. ISA-Tab과 같은 일반적인 메타데이터 표준은 연구자들이 일관된 형식으로 실험 메타데이터를 생성하고 교환하는 데 도움을 준다. 특정 실험 방식은 자체적인 메타데이터 표준 및 시스템을 갖는 경우가 많다. 예를 들어, 질량 분석법 관련 표준으로는 mzML과 SPLASH가 있으며, XML 기반 표준인 PDBML과 SRA XML은 각각 거대 분자 구조와 시퀀싱 데이터의 표준으로 사용된다.

7.6. 데이터 웨어하우징

데이터 웨어하우스(DW)는 조직의 전자적으로 저장된 데이터 저장소로, 데이터를 관리하고 저장하도록 설계되었다. 데이터 웨어하우스는 보고서 작성 및 정보 분석을 통해 경영진에게 전략적 지침을 제공하는 비즈니스 인텔리전스(BI) 시스템과는 구별된다. 메타데이터는 데이터 웨어하우스에 데이터를 저장하는 데 중요한 역할을 한다. 데이터 웨어하우스의 목적은 조직 내 다양한 운영 시스템에서 추출된 데이터를 표준화하고 구조화하여 일관성 있고 통합된, 정확하며 시기적절한 형태로 보관하는 것이다. 이렇게 정제된 데이터는 기업 전체의 관점을 제공하기 위해 데이터 웨어하우스 환경에 통합되며, 보고 및 분석 요구 사항을 충족하도록 구조화된다. 개체 관계 모델 다이어그램과 같은 데이터 모델링 방법을 사용하여 구조적 메타데이터의 공통성을 설계하는 것은 모든 데이터 웨어하우스 개발 과정에서 중요하며, 이는 데이터 웨어하우스 내 각 데이터 요소에 대한 메타데이터를 상세히 정의한다. 데이터 웨어하우스/비즈니스 인텔리전스 시스템에서 메타데이터와 이를 관리하고 검색하기 위한 도구는 필수적인 구성 요소이다. 랄프 킴볼은 메타데이터가 데이터 웨어하우스의 요소를 정의하고 서로 어떻게 상호작용하는지 규정하기 때문에, 이를 데이터 웨어하우스의 DNA에 비유했다.

킴볼 등은 메타데이터를 기술 메타데이터, 비즈니스 메타데이터, 프로세스 메타데이터의 세 가지 주요 범주로 분류한다. 기술 메타데이터는 주로 정의적이며, 비즈니스 메타데이터와 프로세스 메타데이터는 주로 기술적이다. 이 범주들은 때때로 중첩될 수 있다.

* 기술 메타데이터: 기술적인 관점에서 DW/BI 시스템의 객체와 프로세스를 정의한다. 여기에는 관계형 데이터베이스의 테이블, 필드, 데이터 유형, 인덱스, 파티션과 같은 데이터 구조를 정의하는 시스템 메타데이터와 데이터베이스, 차원, 측정값, 데이터 마이닝 모델 등이 포함된다. 또한 사용자가 데이터를 보고 활용하는 방식(보고서, 일정, 배포 목록, 사용자 보안 권한 등)과 데이터 모델을 정의한다.
* 비즈니스 메타데이터: 데이터 웨어하우스의 내용을 사용자가 이해하기 쉬운 용어로 설명한다. 어떤 데이터가 있는지, 그 데이터의 출처는 어디인지, 무엇을 의미하는지, 그리고 데이터 웨어하우스 내 다른 데이터와 어떤 관계를 맺고 있는지를 알려준다. 비즈니스 메타데이터는 DW/BI 시스템의 문서 역할도 수행할 수 있으며, 데이터 웨어하우스를 탐색하는 사용자가 주로 참조하는 정보이다.
* 프로세스 메타데이터: 데이터 웨어하우스에서 수행되는 다양한 작업의 결과를 설명하는 데 사용된다. 예를 들어, ETL 프로세스 중에는 작업 시작 시간, 종료 시간, 사용된 CPU 시간, 디스크 읽기/쓰기 횟수, 처리된 행 수 등 주요 데이터가 실행 시 기록된다. 이러한 정보는 ETL 또는 쿼리 프로세스에서 문제가 발생했을 때 해결하는 데 유용하다. 프로세스 메타데이터는 DW/BI 시스템을 구축하고 사용하는 과정에서의 사실적인 측정값을 나타낸다. 일부 조직에서는 이러한 데이터를 수집하여 비즈니스 목적으로 활용하기도 하는데, 이 경우 프로세스 메타데이터는 사실 및 차원 테이블에 대한 비즈니스 메타데이터가 될 수 있다. 프로세스 메타데이터를 수집하는 것은 제품 사용자를 식별하고, 어떤 제품을 사용하는지, 어떤 수준의 서비스를 받고 있는지 파악하는 데 관심 있는 비즈니스 담당자들에게 중요하다.

7.7. 인터넷

웹 페이지를 정의하는 데 사용되는 HTML 형식은 다양한 유형의 메타데이터를 포함할 수 있다. 기본적인 설명 텍스트, 날짜, 키워드뿐만 아니라 더블린 코어, e-GMS, AGLS 표준과 같은 더욱 발전된 메타데이터 스키마도 활용될 수 있다. 페이지와 파일은 지오태깅을 통해 좌표로 위치 정보를 기록하거나, 분류하거나, 태그될 수 있으며, 포크소노미와 같은 협업 방식으로 태그가 붙여지기도 한다.

미디어에 식별자가 설정되어 있거나 식별자를 생성할 수 있는 경우, 파일 태그 및 설명과 같은 정보는 인터넷에서 가져오거나 웹 스크래핑을 통해 수집될 수 있다. 예를 들어 영화에 대한 정보가 이에 해당한다. 다양한 온라인 데이터베이스는 여러 데이터에 대한 메타데이터를 집계하여 제공한다. 협업으로 구축된 위키데이터는 미디어뿐만 아니라 추상적인 개념, 다양한 객체 및 기타 엔티티에 대한 식별자를 가지고 있으며, 이를 통해 사람과 기계는 유용한 정보를 검색하고 다른 지식 베이스 및 데이터베이스에서 지식을 연결할 수 있다.

메타데이터는 페이지의 헤더나 별도의 파일에 포함될 수 있다. 마이크로포맷을 사용하면 일반 웹 사용자가 볼 수 없지만 컴퓨터, 웹 크롤러 및 검색 엔진이 쉽게 접근할 수 있는 방식으로 페이지 내 데이터에 메타데이터를 추가할 수 있다. 많은 검색 엔진은 메타데이터를 활용하며, SEO(검색 엔진 최적화) 과정에서 순위 향상을 위해 메타데이터를 사용하기도 한다. 그러나 검색 엔진은 순위 알고리즘에서 메타데이터를 사용하는 데 신중한 태도를 보인다. 자세한 내용은 메타 요소 문서를 참조할 수 있다. 이러한 신중함은 사람들이 자신의 메타데이터를 생성할 때 주의와 노력을 기울이지 않거나, 메타데이터가 제작자의 목적을 홍보하는 데 사용되는 경쟁 환경의 일부이기 때문이라는 시각도 있다. 연구에 따르면 검색 엔진은 메타데이터 구현에 반응하며, 구글은 자사 사이트에 검색 엔진이 이해하는 메타 태그를 게시하기도 했다. 엔터프라이즈 검색 스타트업 Swiftype은 웹마스터가 웹사이트별 검색 엔진을 위해 구현할 수 있는 관련성 신호로 메타데이터를 인식하며, 'Meta Tags 2'로 알려진 자체 확장을 출시하기도 했다.

7.8. 방송 산업

방송 산업에서, 메타데이터는 오디오 및 비디오 방송 매체에 연결되어 다음과 같은 역할을 한다.

* 매체 식별: 클립 또는 재생 목록 이름, 지속 시간, 타임코드 등.
* 콘텐츠 설명: 비디오 콘텐츠 품질에 대한 참고 사항, 등급, 설명 (예: 스포츠 이벤트 중에는 골, 퇴장과 같은 키워드가 일부 클립과 연결됨).
* 매체 분류: 메타데이터를 통해 제작자는 매체를 정렬하거나 비디오 콘텐츠를 쉽고 빠르게 찾을 수 있다 (예: TV 뉴스는 특정 주제에 대한 보관 콘텐츠를 긴급하게 필요로 할 수 있음). 예를 들어, BBC는 일반적인 용도의 국제 십진 분류법을 사용자 지정한 버전인 론클래스(Lonclass)라는 대규모 주제 분류 시스템을 가지고 있다.

이 메타데이터는 비디오 서버를 통해 비디오 매체에 연결될 수 있다. FIFA 월드컵 또는 올림픽과 같은 주요 방송 스포츠 이벤트는 이 메타데이터를 사용하여 TV 방송국에 키워드를 통해 비디오 콘텐츠를 배포한다. 일반적으로 호스트 방송사가 자체 "국제 방송 센터"와 비디오 서버를 통해 메타데이터를 구성하는 책임을 진다. 이 메타데이터는 이미지와 함께 기록되며, 메타데이터 작업자('로거')가 소프트웨어 (예: FIFA 월드컵 또는 올림픽 기간 동안 사용되는 Multicam(LSM) 또는 IPDirector)를 통해 "메타데이터 그리드"에서 사용할 수 있는 라이브 메타데이터를 연결하여 입력한다.

7.9. 지리

지리 정보 시스템(GIS) 파일, 지도, 이미지, 위치 기반 데이터와 같은 지리적 정보를 설명하는 메타데이터를 지리 공간 메타데이터라고 한다. 이 메타데이터는 지리 정보 시스템(GIS)에서 사용되는 데이터베이스 파일이나 GIS 내에서 생성된 데이터와 같은 지리 데이터의 특성과 속성을 기록하는 데 사용된다. 여기에는 데이터를 만든 사람, 수집된 시기, 처리 방식, 사용 가능한 형식과 같은 세부 정보가 포함되어 있어, 데이터를 효과적으로 활용하는 데 필요한 배경 정보를 제공한다.

예를 들어, GPS 기능이 내장된 디지털 카메라로 사진을 찍으면 위치 정보가 사진의 메타데이터에 포함될 수 있다. 이를 통해 사용자는 사진이 어디에서 촬영되었는지 쉽게 파악할 수 있으며, 특정 지역에서 촬영된 다른 사진을 검색하거나 관련 지역 정보를 찾는 데 활용하여 검색성을 높일 수 있다.

전자 저장소나 특정 형식(데이터 세트, 지도, 지리 공간 정보가 포함된 문서 등)에 담긴 지리적 객체를 설명하는 메타데이터는 1994년부터 사용되기 시작했다. 이러한 종류의 메타데이터에 대한 더 자세한 내용은 지리 공간 메타데이터 문서에서 찾아볼 수 있다.

7.10. 생태 및 환경

생태 및 환경 메타데이터는 특정 연구에서 "누가, 무엇을, 언제, 어디서, 왜, 어떻게" 데이터를 수집했는지 기록하기 위한 것이다. 이는 일반적으로 데이터를 수집한 조직이나 기관, 데이터의 유형, 수집 날짜, 수집 근거, 그리고 데이터 수집에 사용된 방법론 등을 포함한다. 메타데이터는 해당 과학 분야에서 널리 사용되는 형식을 따라야 하는데, 예를 들어 다윈 코어, 생태 메타데이터 언어, 또는 더블린 코어 등이 있다. 메타데이터 생성을 돕는 편집 도구로는 Metavist, 머큐리, Morpho 등이 있다. 또한, 메타데이터는 데이터의 출처(데이터가 어디에서 생성되었고 어떤 변환 과정을 거쳤는지)와 해당 데이터 결과물에 대한 크레딧(인용)을 어떻게 제공할지 명확히 설명해야 한다.

7.11. 디지털 음악

1982년에 처음 출시되었을 때, 콤팩트 디스크(Compact Disc, CD)에는 디스크의 트랙 수와 각 트랙의 길이 정보만 포함된 목차(Table Of Contents, TOC)만 있었다. 14년 후인 1996년, CD 레드 북 표준 개정을 통해 추가적인 메타데이터를 전송하는 CD-Text 기술이 도입되었으나, 널리 채택되지는 못했다. 이후 개인용 컴퓨터에서 CD의 TOC 정보를 바탕으로 CDDB나 Gracenote와 같은 외부 데이터베이스를 통해 메타데이터를 검색하는 방식이 일반화되었다.

2000년대에 들어서면서 디지털 오디오 파일과 같은 디지털 오디오 형식이 기존의 카세트 테이프나 CD 같은 음악 매체를 대체하기 시작했다. 디지털 오디오 파일은 파일 이름만으로는 담을 수 없는 더 많은 정보를 표시할 수 있게 되었다. 이러한 설명 정보는 일반적으로 오디오 태그 또는 오디오 메타데이터라고 불린다. 이 정보를 추가하거나 수정하는 데 특화된 컴퓨터 프로그램을 태그 편집기라고 한다. 메타데이터는 디지털 오디오 파일의 이름, 설명, 분류, 소유권 또는 저작권을 표시하는 데 사용될 수 있으며, 메타데이터가 있으면 일반적으로 검색 엔진을 통해 특정 오디오 파일을 훨씬 쉽게 찾을 수 있다. 다양한 디지털 오디오 형식이 개발됨에 따라, 이러한 정보를 저장할 수 있는 디지털 파일 내의 특정 위치를 표준화하려는 시도가 이루어졌다.

그 결과, MP3, 방송 WAV 및 AIFF 파일을 포함한 거의 모든 디지털 오디오 형식에는 메타데이터로 채울 수 있는 유사한 표준화된 위치가 마련되었다. 압축 및 비압축 디지털 음악에 대한 메타데이터는 종종 ID3 태그 형식으로 저장된다. TagLib과 같은 일반적인 태그 편집기는 MP3, Ogg Vorbis, FLAC, MPC, Speex, WavPack TrueAudio, WAV, AIFF, MP4, ASF 파일 형식을 지원한다.

7.12. 클라우드 애플리케이션

클라우드 컴퓨팅 애플리케이션의 등장으로, 콘텐츠에 메타데이터를 추가하는 애플리케이션을 포함하여 메타데이터는 인터넷을 통해 점점 더 널리 이용 가능해지고 있다.

8. 메타데이터 관리 및 운영

인류 역사에서 다양한 형태의 메타데이터가 등장했다. 초기의 예로는 도서관의 카드목록을 들 수 있는데, 처음에는 목록 자체가 필요 없었지만 점차 가나다순, 서명순, 저자명 순과 같은 정렬 기준, 즉 메타데이터가 필요해졌다. 이후 컴퓨터 과학의 발달과 함께 데이비드 휠러가 언급한 '간접 수준'(Level of Indirection)을 높이는 방향으로 발전했는데, 이는 MARC(Machine Readable Cataloging, 기계가독목록)와 같은 메타데이터 형식의 등장을 의미한다. 더 나아가 팀 버너스리는 기계가 단순히 저장하는 것을 넘어 스마트하게 이해하고 반응할 수 있는 '기계 처리 가능 메타데이터'(Machine Actionable Metadata) 개념을 제시했다. 이는 방대한 텍스트 정보 속 카탈로그 문제를 해결하기 위한 링크드 데이터(Linked Data) 기술로 이어졌으며, 웹 자체의 구조적 문제 해결과도 관련이 있다.

MARC 형식을 대체하고 더 효율적인 메타데이터 관리를 위해 1995년 3월, OCLC와 NCSA는 미국 오하이오주 더블린에서 워크숍을 개최하여 더블린 코어(Dublin Core)라는 새로운 메타데이터 형식을 만들었다. 더블린 코어는 생성과 유지가 쉽고 이해하기 쉬우며, 국제적으로 인정받는 형식을 갖추고 확장성을 가지도록 설계되었다. 더블린 코어는 제목, 만든이, 주제, 요약 정보 등 15가지 핵심 요소로 구성된다. 또한, 상세화를 위한 한정어 사용이 오히려 의미를 모호하게 만드는 것을 방지하기 위해 '덤다운(Dumb down)' 원칙을 따른다. 이는 필요한 경우 한정 요소를 변경하거나 제거하고 상위 개념을 유지하여 하위 개념까지 포괄하도록 단순화함으로써 안정적인 의미 전달을 추구하는 방식이다.

메타데이터 관리에는 국제 표준이 적용된다. 특히 ANSI(미국 국립 표준 협회)와 ISO(국제 표준화 기구)를 중심으로 메타데이터 및 레지스트리 표준화에 대한 합의를 이루기 위한 노력이 진행되고 있다. 핵심적인 메타데이터 레지스트리 표준은 ISO/IEC 11179 메타데이터 레지스트리(MDR)이며, 이 표준의 프레임워크는 ISO/IEC 11179-1:2004에 설명되어 있다. 이 표준은 사람과 컴퓨터 모두가 명확하게 사용할 수 있도록 데이터의 의미와 기술적 구조를 기록하기 위한 스키마를 정의한다. ISO/IEC 11179 표준은 메타데이터를 '데이터에 대한 데이터'로 정의하며, 특히 파트 3(ISO/IEC 11179-3:2013)에서는 데이터 요소, 값 도메인 등 재사용 가능한 의미 및 표현 정보 객체에 대한 데이터를 다룬다. 이 표준은 특정 응용 프로그램과 관계없이 메타데이터 콘텐츠를 설명하고 등록하여, 새로운 응용 프로그램 개발이나 데이터 분석 시 해당 메타데이터를 발견하고 재사용할 수 있도록 지원하는 것을 목표로 한다. (ISO/IEC 11179 참조)

지도나 이미지 라이브러리와 같은 지리 공간 데이터 분야에서는 특화된 지리 공간 메타데이터 표준이 사용된다. 일반적인 텍스트 처리 방식이 적용되기 어려운 지리 공간 데이터의 특성상, 공식적인 메타데이터 작성이 필수적이다.

더블린 코어 메타데이터 용어는 검색 목적으로 자원을 설명하는 데 사용되는 어휘 모음이다. 더블린 코어 메타데이터 요소 세트로 알려진 15개의 초기 메타데이터 용어는 다음 표준 문서들에서 승인되었다.
* IETF RFC 5013
* ISO 표준 15836-2009
* NISO 표준 Z39.85

W3C의 데이터 카탈로그 어휘(DCAT)는 데이터 세트, 데이터 서비스, 카탈로그 및 카탈로그 레코드에 대한 클래스를 정의하여 더블린 코어를 보완하는 RDF 어휘이다. DCAT는 FOAF, PROV-O, OWL-Time의 요소도 활용하며, 각 데이터 세트나 서비스를 설명하는 레코드를 포함하는 카탈로그의 일반적인 구조를 지원하는 RDF 모델을 제공한다.

표준은 아니지만, 마이크로포맷은 웹 페이지 내에서 기존 HTML/XHTML 태그를 재사용하여 메타데이터를 표현하는 시맨틱 마크업 방식이다. 마이크로포맷은 HTML 및 XHTML 표준을 따르지만, 그 자체는 별도의 표준으로 제정되지는 않았다. 마이크로포맷 지지자인 탄텍 첼릭은 다른 방식들의 복잡성을 지적하며 마이크로포맷의 장점을 "여기에 여러분이 배워야 할 새로운 언어가 있으며, 이제 서버에 이러한 추가 파일을 출력해야 합니다. 번거롭습니다. (마이크로포맷)는 진입 장벽을 낮춥니다."라고 설명했다.

8.1. 저장

메타데이터는 데이터와 동일한 파일이나 구조 안에 내부적으로 저장하거나('내장된 메타데이터'라고도 함), 설명하는 데이터와 별도의 파일이나 필드에 외부적으로 저장할 수 있다. 데이터 저장소는 일반적으로 데이터를 메타데이터와 분리하여 저장하지만, 내부 저장 방식을 지원하도록 설계할 수도 있다. 각 방식에는 장단점이 있다.

* 내부 저장: 메타데이터가 항상 설명하는 데이터의 일부로 함께 이동한다. 따라서 메타데이터는 항상 데이터와 함께 사용할 수 있고 로컬에서 조작하기 쉽다. 하지만 이 방식은 중복성을 유발하며(정규화를 방해함), 시스템의 모든 메타데이터를 한 곳에서 관리하기 어렵다. 반면, 데이터가 변경될 때마다 메타데이터를 쉽게 변경할 수 있어 일관성을 높이는 효과가 있다.
* 외부 저장: 예를 들어 데이터베이스에서 모든 콘텐츠에 대한 메타데이터를 함께 저장하여 더 효율적인 검색 및 관리가 가능하다. 메타데이터 구성을 정규화하여 중복성을 피할 수 있다. 정보를 전송할 때 메타데이터를 콘텐츠와 통합하거나(스트리밍 미디어 등), 전송된 콘텐츠에서 참조할 수 있다(웹 링크 등). 단점은 메타데이터와 데이터 콘텐츠가 분리되어 있다는 점이다. 특히 원본 메타데이터를 다른 곳에서 참조하는 독립 실행형 파일의 경우, 한쪽의 변경 사항이 다른 쪽에 반영되지 않아 불일치가 발생할 가능성이 커진다.

메타데이터는 사람이 읽을 수 있는 형식이나 바이너리 형식으로 저장할 수 있다. XML과 같이 사람이 읽을 수 있는 형식으로 저장하면 사용자가 특별한 도구 없이 이해하고 편집할 수 있어 유용하다. 그러나 텍스트 기반 형식은 저장 용량, 통신 시간, 처리 속도 면에서 최적화되지 않는 경우가 많다. 바이너리 메타데이터 형식은 이러한 측면에서 효율적이지만, 바이너리 정보를 사람이 읽을 수 있는 내용으로 변환하려면 별도의 소프트웨어가 필요하다.

8.2. 데이터베이스 관리

각 관계형 데이터베이스 시스템은 메타데이터를 저장하기 위한 자체적인 방법을 가지고 있다. 관계형 데이터베이스 메타데이터의 예시는 다음과 같다.

👆

좌우로 밀어서 보기

대상	포함 정보
데이터베이스 내 모든 테이블	테이블 이름, 크기, 각 테이블의 행 수
각 데이터베이스의 열	사용되는 테이블, 각 열에 저장된 데이터 유형

데이터베이스 용어에서 이러한 메타데이터 모음을 카탈로그라고 부른다. SQL 표준은 카탈로그에 접근하기 위한 통일된 방법으로 정보 스키마를 명시하고 있지만, 모든 데이터베이스가 이를 구현하고 있지는 않다. 데이터베이스별 메타데이터 접근 방법의 예시는 Oracle metadata에서 찾아볼 수 있다. JDBC나 SchemaCrawler와 같은 API를 사용하여 프로그래밍 방식으로 메타데이터에 접근하는 것도 가능하다.

9. 대중문화

오늘날 우리가 이해하는 메타데이터 개념에 대한 초기의 풍자적 고찰 중 하나로 미국의 과학 소설 작가 할 드레이퍼가 1961년에 발표한 단편 소설 "도서관에서 발견된 MS"를 들 수 있다. 이 소설은 모든 인류의 지식이 책상 서랍 크기의 물건 하나로 압축되는 상황을 가정한다. 그러나 정작 지식 자체보다 그것을 설명하는 메타데이터(예: 카탈로그의 카탈로그, 색인, 역사 등)가 너무 방대해져 인류에게 끔찍하면서도 우스꽝스러운 결과를 초래하는 내용을 담고 있다. 이 이야기는 메타데이터가 그것이 설명하는 실제 데이터보다 더 중요해지는 현대 사회의 모습을 예견하며, 이러한 상황에 내재된 위험성을 경고하는 것으로 평가받는다.