맨위로가기

기계가 읽을 수 있는 데이터

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

기계가 읽을 수 있는 데이터는 사람의 개입 없이 컴퓨터가 쉽게 처리할 수 있는 형식의 데이터를 의미한다. 미국에서는 오픈 데이터 법으로 기계 판독 가능한 데이터 공개를 의무화하고 있으며, 일본에서도 정부 통계 작성 시 기계 판독 가능한 데이터 표기 방법을 제정했다. 기계가 읽을 수 있는 데이터는 사람도 읽을 수 있는 마크업 언어 형식과 컴퓨터 처리를 목적으로 하는 데이터로 분류되며, 데이터의 구조화가 중요하며, 1개의 셀에 1개의 데이터만 기재하고, 값을 생략하지 않으며, 불필요한 기호나 주석을 포함하지 않는 방식으로 기계 판독성을 높일 수 있다.

더 읽어볼만한 페이지

  • 데이터 관리 - 데이터 센터
    데이터센터는 컴퓨터 시스템 및 관련 장비와 지원 인프라를 수용하는 시설로, 기술 발전에 따라 규모와 중요성이 확대되었으며, 에너지 효율과 보안을 고려하여 설계 및 운영되고, TIA-942 표준에 따른 티어 분류와 친환경 기술 도입이 이루어지고 있다.
  • 데이터 관리 - 정보 아키텍처
    정보 아키텍처는 정보 시스템 및 정보 기술 분야에서 공유 정보 환경의 구조적 설계를 의미하며, 웹사이트, 소프트웨어 등의 구성과 레이블링을 포함하여 검색 용이성과 사용성을 지원하고, 도서관정보학에 기원을 두고 있다.
기계가 읽을 수 있는 데이터
개요
유형데이터
설명기계가 자동으로 읽고 처리할 수 있는 형식으로 표현된 데이터
특징사람이 읽고 이해하기 쉬운 형태와 대조됨
컴퓨터 프로그램, 소프트웨어, 컴파일러 및 기타 기계 장치와 같은 다양한 유형의 기계가 소비할 수 있음
구문 분석 없이 컴퓨터가 효율적으로 처리할 수 있는 방식으로 구성됨
예시CSV 파일
XML 파일
JSON 파일
중요성
공개 데이터정부 기관, 연구 기관 및 기타 조직에서 데이터를 더 쉽게 공유하고 사용할 수 있도록 함
자동화데이터 처리 및 분석 작업을 자동화하여 시간과 노력을 절약
상호 운용성다양한 시스템과 애플리케이션 간의 데이터 교환을 용이하게 함
효율성컴퓨터가 데이터를 더 빠르고 정확하게 처리할 수 있도록 함
관련 용어
기계가 읽을 수 있는 매체기계가 읽을 수 있는 데이터를 저장하는 데 사용되는 물리적 매체

2. 정의 및 분류

기계가 읽을 수 있는 데이터(Machine-readable data)는 "의미를 전혀 잃지 않고 사람의 개입 없이 컴퓨터로 쉽게 처리 가능한 형식의 데이터"이다.[2] 온라인상에 존재하는 전자 문서가 사람이 쉽게 판독할 수 있다고 해도, 컴퓨터가 판독할 수 있는 것은 아니다. 예를 들어 종이 매체를 스캔한 PDF나 이미지에 기재되어 있는 표는 사람은 한눈에 내용을 이해할 수 있지만, 프로그래밍 언어를 사용하여 그 내용을 추출·가공하는 것은 어렵다.

일반적으로 기계 판독 가능 데이터로부터 사람이 읽기 쉬운 데이터를 생성하는 것은 쉽지만, 반대로 사람만 판독할 수 있는 데이터로부터 기계 판독 데이터를 생성하는 것은 어렵다. 기계가 읽을 수 있는 데이터는 크게 2가지로 나눌 수 있다.


  • 사람도 읽을 수 있는 데이터
  • 주로 컴퓨터의 처리를 목적으로 하는 데이터


미국에서는 2019년 1월에 서명된 오픈 데이터 법(OPEN Government Data Act)에서 기계가 읽을 수 있는 데이터를 정의하고, 연방 행정 기관에 데이터를 기본적으로 공개하도록 의무화하고 있다.[3] 일본에서는 총무성이 2020년에 정부 통계(e-Stat)의 통계표를 작성할 때의 통일 규칙으로 "통계표에서 기계 판독 가능한 데이터의 표기 방법"을 제정했다.[4]

2. 1. 사람이 읽을 수 있는 데이터

마크업 언어이면서 사람과 기계 모두 읽을 수 있는 데이터에는 RDFa, HTML 등이 있다. 주로 컴퓨터 처리를 목적으로 하는 데이터에는 CSV, RDF, XML, JSON 등이 있다.

하지만 이러한 형식이라도 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도 이는 기계가 읽을 수 있는 데이터가 되지 않는다.[1]

2. 2. 컴퓨터 처리를 위한 데이터

마크업 언어이면서 사람도 읽을 수 있는 데이터는 기계도 읽을 수 있다.

주로 컴퓨터 처리를 목적으로 하는 데이터는 다음과 같다.

단, 이러한 형식이라 하더라도 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도 이는 기계가 읽을 수 있는 데이터가 되지 않는다.

3. 기계 판독성을 높이기 위한 방법

일반적으로 기계 판독 가능 데이터로부터 사람도 읽기 쉬운 데이터를 생성하는 것은 쉽지만, 반대로 사람만 판독할 수 있는 데이터로부터 기계 판독 데이터를 생성하는 것은 어렵다. 기계가 읽을 수 있는 데이터는 크게 2가지로 나눌 수 있다.


  • 사람도 읽을 수 있는 데이터 - 마크업 언어이며, 기계에게도 읽을 수 있는 데이터
  • RDFa, HTML
  • 주로 컴퓨터의 처리를 목적으로 하는 데이터
  • CSV, RDF, XML, JSON


단, 이러한 형식이라 하더라도, 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어, 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도, 이는 기계가 읽을 수 있는 데이터가 되지 않는다. 기계 판독성을 높이기 위한 방법은 다음과 같다.

  • 1개의 셀에 1개의 데이터만 기재: 1개의 셀에 여러 연도 등의 데이터를 입력하는 것이 아니라, 단일 연도 등 항목별로 셀을 분리한다.[5]
  • 셀을 병합하지 않음: 프로그램에서 병합된 셀을 해독하려고 할 경우, 병합된 범위를 인식하는 복잡한 처리가 발생한다. 따라서, 병합하는 대신 동일한 값을 개별 셀에 기재하는 것이 바람직하다.[6]
  • 값을 생략하지 않음: 앞 행 등과 동일한 값이라 하더라도, 값을 생략하지 않는다.[6]
  • 여러 표를 1개의 데이터 세트에 기재하지 않음: 1개의 데이터 세트 (Excel의 1 시트 등)에 여러 표가 기재되어 있는 경우, 표가 어디에서 분할되어 있는지 등을 인식할 필요가 발생하므로, 기계 판독이 어려워진다. 따라서, 1개의 데이터 세트에는 1개의 표만 기재한다. 여러 표를 다룰 필요가 있는 경우, 데이터 세트를 표의 수에 따라 분할한다.[6]
  • 위치나 보기 좋게 하기 위한 기호나 주석 등을 데이터에 포함시키지 않음: "11,000"과 같이 수치 안에 쉼표를 포함하거나, 서식을 위해 "동 경"과 같이 공백 문자(스페이스)를 포함하는 경우, 기계는 그 기호에 의미가 있는지 여부를 판별할 수 없다. 따라서, 불필요한 기호는 삭제할 필요가 있다. 또한, "(주1)" 등의 주석도 마찬가지이다. 또한, 마이너스 값도 ▲ 등의 문자로 표현하지 않고, - 기호로 표현해야 한다.[5]
  • 객체를 사용하지 않음[5]
  • 지리 공간 정보의 경우, 좌표를 병기함: 지리 공간 정보에서 위치 정보에 관한 데이터를 다루는 경우 주소뿐만 아니라, 좌표(위도경도)도 부여한다.[6]

4. 관련 법규 및 정책 (대한민국)

주어진 원본 소스에는 대한민국 관련 법규 및 정책에 대한 내용이 없으므로, 해당 섹션에는 내용을 작성할 수 없습니다.

참조

[1] 웹사이트 Machine readable http://opendatahandb[...] 2019-07-22
[2] 웹사이트 HR4174 http://stratml.us/re[...] 2019-11-29
[3] 웹사이트 HR4174 http://stratml.us/re[...] 2019-11-29
[4] 웹사이트 総務省|報道資料|統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go[...] 総務省 2023-09-11
[5] 문서 統計表における機械判読可能なデータの表記方法 https://oku.edu.mie-[...]
[6] 간행물 数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項(案) https://www.kantei.g[...] 2019-12-06
[7] 웹인용 Machine readable http://opendatahandb[...] 2019-07-22
[8] 웹인용 A Primer on Machine Readability for Online Documents and Data https://www.data.gov[...] 2015-02-27
[9] 웹인용 기계가 읽을 수 있는 http://opendatahandb[...] 2018-04-10
[10] 웹사이트 OMB Circular A-11, Part 6 http://www.whitehous[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com