기계가 읽을 수 있는 데이터
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
기계가 읽을 수 있는 데이터는 사람의 개입 없이 컴퓨터가 쉽게 처리할 수 있는 형식의 데이터를 의미한다. 미국에서는 오픈 데이터 법으로 기계 판독 가능한 데이터 공개를 의무화하고 있으며, 일본에서도 정부 통계 작성 시 기계 판독 가능한 데이터 표기 방법을 제정했다. 기계가 읽을 수 있는 데이터는 사람도 읽을 수 있는 마크업 언어 형식과 컴퓨터 처리를 목적으로 하는 데이터로 분류되며, 데이터의 구조화가 중요하며, 1개의 셀에 1개의 데이터만 기재하고, 값을 생략하지 않으며, 불필요한 기호나 주석을 포함하지 않는 방식으로 기계 판독성을 높일 수 있다.
더 읽어볼만한 페이지
기계가 읽을 수 있는 데이터 | |
---|---|
개요 | |
유형 | 데이터 |
설명 | 기계가 자동으로 읽고 처리할 수 있는 형식으로 표현된 데이터 |
특징 | 사람이 읽고 이해하기 쉬운 형태와 대조됨 컴퓨터 프로그램, 소프트웨어, 컴파일러 및 기타 기계 장치와 같은 다양한 유형의 기계가 소비할 수 있음 구문 분석 없이 컴퓨터가 효율적으로 처리할 수 있는 방식으로 구성됨 |
예시 | CSV 파일 XML 파일 JSON 파일 |
중요성 | |
공개 데이터 | 정부 기관, 연구 기관 및 기타 조직에서 데이터를 더 쉽게 공유하고 사용할 수 있도록 함 |
자동화 | 데이터 처리 및 분석 작업을 자동화하여 시간과 노력을 절약 |
상호 운용성 | 다양한 시스템과 애플리케이션 간의 데이터 교환을 용이하게 함 |
효율성 | 컴퓨터가 데이터를 더 빠르고 정확하게 처리할 수 있도록 함 |
관련 용어 | |
기계가 읽을 수 있는 매체 | 기계가 읽을 수 있는 데이터를 저장하는 데 사용되는 물리적 매체 |
2. 정의 및 분류
기계가 읽을 수 있는 데이터(Machine-readable data)는 "의미를 전혀 잃지 않고 사람의 개입 없이 컴퓨터로 쉽게 처리 가능한 형식의 데이터"이다.[2] 온라인상에 존재하는 전자 문서가 사람이 쉽게 판독할 수 있다고 해도, 컴퓨터가 판독할 수 있는 것은 아니다. 예를 들어 종이 매체를 스캔한 PDF나 이미지에 기재되어 있는 표는 사람은 한눈에 내용을 이해할 수 있지만, 프로그래밍 언어를 사용하여 그 내용을 추출·가공하는 것은 어렵다.
일반적으로 기계 판독 가능 데이터로부터 사람이 읽기 쉬운 데이터를 생성하는 것은 쉽지만, 반대로 사람만 판독할 수 있는 데이터로부터 기계 판독 데이터를 생성하는 것은 어렵다. 기계가 읽을 수 있는 데이터는 크게 2가지로 나눌 수 있다.
- 사람도 읽을 수 있는 데이터
- 주로 컴퓨터의 처리를 목적으로 하는 데이터
미국에서는 2019년 1월에 서명된 오픈 데이터 법(OPEN Government Data Act)에서 기계가 읽을 수 있는 데이터를 정의하고, 연방 행정 기관에 데이터를 기본적으로 공개하도록 의무화하고 있다.[3] 일본에서는 총무성이 2020년에 정부 통계(e-Stat)의 통계표를 작성할 때의 통일 규칙으로 "통계표에서 기계 판독 가능한 데이터의 표기 방법"을 제정했다.[4]
2. 1. 사람이 읽을 수 있는 데이터
마크업 언어이면서 사람과 기계 모두 읽을 수 있는 데이터에는 RDFa, HTML 등이 있다. 주로 컴퓨터 처리를 목적으로 하는 데이터에는 CSV, RDF, XML, JSON 등이 있다.하지만 이러한 형식이라도 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도 이는 기계가 읽을 수 있는 데이터가 되지 않는다.[1]
2. 2. 컴퓨터 처리를 위한 데이터
마크업 언어이면서 사람도 읽을 수 있는 데이터는 기계도 읽을 수 있다.- RDFa
- HTML
주로 컴퓨터 처리를 목적으로 하는 데이터는 다음과 같다.
단, 이러한 형식이라 하더라도 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도 이는 기계가 읽을 수 있는 데이터가 되지 않는다.
3. 기계 판독성을 높이기 위한 방법
일반적으로 기계 판독 가능 데이터로부터 사람도 읽기 쉬운 데이터를 생성하는 것은 쉽지만, 반대로 사람만 판독할 수 있는 데이터로부터 기계 판독 데이터를 생성하는 것은 어렵다. 기계가 읽을 수 있는 데이터는 크게 2가지로 나눌 수 있다.
- 사람도 읽을 수 있는 데이터 - 마크업 언어이며, 기계에게도 읽을 수 있는 데이터
- RDFa, HTML 등
- 주로 컴퓨터의 처리를 목적으로 하는 데이터
- CSV, RDF, XML, JSON 등
단, 이러한 형식이라 하더라도, 내용이 제대로 구조화되어 있지 않으면 기계가 읽을 수 없다. 예를 들어, 구조에 문제가 있는 Excel 파일에서 CSV 파일을 내보내도, 이는 기계가 읽을 수 있는 데이터가 되지 않는다. 기계 판독성을 높이기 위한 방법은 다음과 같다.
- 1개의 셀에 1개의 데이터만 기재: 1개의 셀에 여러 연도 등의 데이터를 입력하는 것이 아니라, 단일 연도 등 항목별로 셀을 분리한다.[5]
- 셀을 병합하지 않음: 프로그램에서 병합된 셀을 해독하려고 할 경우, 병합된 범위를 인식하는 복잡한 처리가 발생한다. 따라서, 병합하는 대신 동일한 값을 개별 셀에 기재하는 것이 바람직하다.[6]
- 값을 생략하지 않음: 앞 행 등과 동일한 값이라 하더라도, 값을 생략하지 않는다.[6]
- 여러 표를 1개의 데이터 세트에 기재하지 않음: 1개의 데이터 세트 (Excel의 1 시트 등)에 여러 표가 기재되어 있는 경우, 표가 어디에서 분할되어 있는지 등을 인식할 필요가 발생하므로, 기계 판독이 어려워진다. 따라서, 1개의 데이터 세트에는 1개의 표만 기재한다. 여러 표를 다룰 필요가 있는 경우, 데이터 세트를 표의 수에 따라 분할한다.[6]
- 위치나 보기 좋게 하기 위한 기호나 주석 등을 데이터에 포함시키지 않음: "11,000"과 같이 수치 안에 쉼표를 포함하거나, 서식을 위해 "동 경"과 같이 공백 문자(스페이스)를 포함하는 경우, 기계는 그 기호에 의미가 있는지 여부를 판별할 수 없다. 따라서, 불필요한 기호는 삭제할 필요가 있다. 또한, "(주1)" 등의 주석도 마찬가지이다. 또한, 마이너스 값도 ▲ 등의 문자로 표현하지 않고, - 기호로 표현해야 한다.[5]
- 객체를 사용하지 않음[5]
- 지리 공간 정보의 경우, 좌표를 병기함: 지리 공간 정보에서 위치 정보에 관한 데이터를 다루는 경우 주소뿐만 아니라, 좌표(위도・경도)도 부여한다.[6]
4. 관련 법규 및 정책 (대한민국)
주어진 원본 소스에는 대한민국 관련 법규 및 정책에 대한 내용이 없으므로, 해당 섹션에는 내용을 작성할 수 없습니다.
참조
[1]
웹사이트
Machine readable
http://opendatahandb[...]
2019-07-22
[2]
웹사이트
HR4174
http://stratml.us/re[...]
2019-11-29
[3]
웹사이트
HR4174
http://stratml.us/re[...]
2019-11-29
[4]
웹사이트
総務省|報道資料|統計表における機械判読可能なデータの表記方法の統一ルールの策定
https://www.soumu.go[...]
総務省
2023-09-11
[5]
문서
統計表における機械判読可能なデータの表記方法
https://oku.edu.mie-[...]
[6]
간행물
数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項(案)
https://www.kantei.g[...]
2019-12-06
[7]
웹인용
Machine readable
http://opendatahandb[...]
2019-07-22
[8]
웹인용
A Primer on Machine Readability for Online Documents and Data
https://www.data.gov[...]
2015-02-27
[9]
웹인용
기계가 읽을 수 있는
http://opendatahandb[...]
2018-04-10
[10]
웹사이트
OMB Circular A-11, Part 6
http://www.whitehous[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com