오픈리파인
1. 개요
오픈리파인은 데이터를 정리하고 변환하며, 웹사이트에서 데이터를 추출하고 위키데이터와 연동하는 데 사용되는 오픈 소스 도구이다. 엉망인 데이터 정리, 데이터 변환, 웹사이트 데이터 파싱, 웹 서비스 데이터 가져오기, 위키데이터 정렬 등 다양한 기능을 제공한다. TSV, CSV, XML, JSON 등 다양한 파일 형식을 지원하며, 데이터를 HTML, 엑셀, 구글 스프레드시트, 템플릿, .tar.gz 형식으로 내보낼 수 있다. 메타웹에서 개발한 Freebase Gridworks로 시작하여 구글 리파인을 거쳐 현재 오픈리파인으로 운영되고 있다.
이미지 준비중입니다.
| 명칭 | OpenRefine |
|---|---|
| 개발 | 프리베이스 (최초) 구글 (이후) 현재 오픈 소스 커뮤니티 |
| 최초 릴리스 | 2010년 11월 10일 |
| 최신 버전 | 미확인 |
| 최신 버전 출시일 | 미확인 |
| 프로그래밍 언어 | 자바 |
| 플랫폼 | 마이크로소프트 윈도우 리눅스 macOS |
| 지원 상태 | 활발 |
| 종류 | 데이터 관리 데이터 시각화 |
| 라이선스 | BSD 허가서 |
| 공식 웹사이트 | OpenRefine 프로젝트 홈 |
| 지원 언어 | 영어 이탈리아어 중국어 일본어 프랑스어 |
| 주요 기능 | 데이터 정리 데이터 변환 |
|---|---|
| 셀 편집 | 변환을 통한 편집 지원 |
| 스프레드시트 소프트웨어와 비교 | 스프레드시트 소프트웨어와 비교 가능 |
| 표현식 | 표현식 지원 |
-
데이터 관리 소프트웨어 -
오브젝트 스토리지
오브젝트 스토리지는 객체 단위로 데이터를 관리하며 유연한 메타데이터, 높은 확장성, 고유 식별자를 통한 접근, RESTful API 기반 관리 등의 특징을 가진 스토리지 아키텍처이다. -
데이터 관리 소프트웨어 -
데이터 유출 방지
데이터 유출 방지(DLP)는 기업 및 조직의 중요 정보가 무단 유출되는 것을 막기 위한 기술 및 전략으로, 머신 러닝 등 다양한 보안 조치를 활용해 데이터 유출을 예방하고, 포티넷, 맥아피, 지니언스 등의 업체가 관련 솔루션을 제공한다. -
공식 웹사이트에 알 수 없는 변수를 사용한 문서 -
브루클린 미술관
브루클린 미술관은 1823년 브루클린 견습생 도서관으로 시작하여 현재 약 50만 점의 소장품을 보유한 뉴욕 브루클린 소재의 미술관으로, 다양한 분야의 예술 작품을 전시하며 특히 아프리카 미술과 여성주의 미술에 대한 기여가 크다. -
공식 웹사이트에 알 수 없는 변수를 사용한 문서 -
광주지방기상청
광주지방기상청은 광주광역시와 전라남도 지역의 기상 예보, 특보, 관측, 기후 정보 제공 등의 업무를 수행하는 기상청 소속 기관으로, 1949년 광주측후소로 설치되어 1992년 광주지방기상청으로 개편되었으며, 기획운영과, 예보과, 관측과, 기후서비스과와 전주기상지청, 목포기상대를 두고 있다. -
자유 소프트웨어 -
김프
김프(GIMP)는 GNU 프로젝트에서 개발된 크로스 플랫폼 기반의 무료 오픈소스 래스터 그래픽 편집기로, 다양한 운영체제를 지원하며 풍부한 기능을 제공하지만 사용자 인터페이스에 대한 비판과 일부 기능의 부족함에 대한 평가도 존재한다. -
자유 소프트웨어 -
PHP
PHP는 라스무스 러도프가 개발한 범용 스크립팅 언어로, 웹 개발에 널리 사용되며 LAMP 아키텍처의 핵심 요소이다.
2. 활용
오픈리파인은 데이터를 정제하고 변환하며, 웹사이트에서 데이터를 파싱하거나 웹 서비스에서 데이터를 가져오는 기능을 제공한다. 또한 위키데이터와 연동하여 데이터를 정렬할 수 있다.
2.1. 데이터 정제
오픈리파인은 반구조화된 텍스트 파일과 같이 엉망인 데이터를 정리하고 구조화할 수 있다. 패싯, 클러스터링, 변환 기능을 사용하여 데이터를 정제한다.
* 데이터 변환: 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다.
* 웹사이트에서 데이터 파싱: 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다.
* 웹 서비스에서 데이터 가져오기: JSON 형식으로 반환되는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다. 예를 들어, 주소를 지리 좌표계로 지오코딩하는 데 사용할 수 있다.
* [[위키데이터]]에 정렬: 셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정' 기능을 포함한다. (이전 프리베이스)
2.2. 데이터 변환
오픈리파인은 데이터 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다. 예를 들어, 반구조화된 데이터가 있는 텍스트 파일을 사용할 경우, 변환, 패싯 및 클러스터링을 사용하여 데이터를 깔끔하게 구조화할 수 있다.
웹사이트에서 데이터를 파싱할 때, 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다. JSON 형식 등으로 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다. 예를 들어, 지리적 좌표로 주소를 지오코딩하는 데 사용할 수 있다.
위키데이터에 정렬(이전 프리베이스)하는 기능도 제공한다. 이는 셀의 문자열 값을 위키데이터 엔티티에 매핑하는 '조정'을 포함한다.
2.3. 데이터 파싱 및 보강
오픈리파인은 웹사이트에서 데이터를 파싱하여 가져올 수 있다. URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있어 웹 페이지를 처리할 수 있다. JSON을 반환하는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다. 예를 들어 주소를 지리 좌표계로 지오코딩하는 등 외부 데이터를 활용하여 데이터를 보강할 수 있다.
2.4. 위키데이터 연동
셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정'이 포함된다. 이는 '조회(명칭 통일)' 기능과 관련하여, 셀 내 문자열 값을 위키데이터 엔티티에 매핑할 수 있다.
3.1. 가져오기 지원 포맷
* TSV, CSV
* 사용자 지정 구분자 또는 고정폭 컬럼이 있는 텍스트 파일
* XML
* RDF 트리플 (RDF/XML, Notation3)
* JSON
* 구글 드라이브, 구글 스프레드시트
* 압축 파일 (.zip, .tar.gz, .tgz, .tar.bz2, .gz, .bz2)
* URL에서 파일 다운로드