맨위로가기

오픈리파인

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

오픈리파인은 데이터를 정리하고 변환하며, 웹사이트에서 데이터를 추출하고 위키데이터와 연동하는 데 사용되는 오픈 소스 도구이다. 엉망인 데이터 정리, 데이터 변환, 웹사이트 데이터 파싱, 웹 서비스 데이터 가져오기, 위키데이터 정렬 등 다양한 기능을 제공한다. TSV, CSV, XML, JSON 등 다양한 파일 형식을 지원하며, 데이터를 HTML, 엑셀, 구글 스프레드시트, 템플릿, .tar.gz 형식으로 내보낼 수 있다. 메타웹에서 개발한 Freebase Gridworks로 시작하여 구글 리파인을 거쳐 현재 오픈리파인으로 운영되고 있다.

더 읽어볼만한 페이지

  • 데이터 관리 소프트웨어 - 오브젝트 스토리지
    오브젝트 스토리지는 객체 단위로 데이터를 관리하며 유연한 메타데이터, 높은 확장성, 고유 식별자를 통한 접근, RESTful API 기반 관리 등의 특징을 가진 스토리지 아키텍처이다.
  • 데이터 관리 소프트웨어 - 데이터 유출 방지
    데이터 유출 방지(DLP)는 기업 및 조직의 중요 정보가 무단 유출되는 것을 막기 위한 기술 및 전략으로, 머신 러닝 등 다양한 보안 조치를 활용해 데이터 유출을 예방하고, 포티넷, 맥아피, 지니언스 등의 업체가 관련 솔루션을 제공한다.
  • 구글의 소프트웨어 - 구글 어시스턴트
    구글 어시스턴트는 2016년 구글에서 개발한 인공지능 음성 비서 서비스로, 양방향 대화 지원, 다양한 기기 및 플랫폼 확장성, 인터넷 검색, 일정 관리, 홈 오토메이션 제어 등의 기능을 제공하지만 개인정보 보호 문제에 대한 비판도 존재한다.
  • 구글의 소프트웨어 - 제미니 (챗봇)
    구글이 개발한 대화형 인공지능 챗봇 제미니는 챗GPT에 대응하기 위해 개발되었으며, LaMDA에서 PaLM 2를 거쳐 자체 개발한 제미니 모델로 업그레이드되었고, 현재 구글 서비스와 통합되어 정보를 제공하지만 편향성 논란도 있다.
  • 자유 소프트웨어 - 김프
    김프(GIMP)는 GNU 프로젝트에서 개발된 크로스 플랫폼 기반의 무료 오픈소스 래스터 그래픽 편집기로, 다양한 운영체제를 지원하며 풍부한 기능을 제공하지만 사용자 인터페이스에 대한 비판과 일부 기능의 부족함에 대한 평가도 존재한다.
  • 자유 소프트웨어 - PHP
    PHP는 라스무스 러도프가 개발한 범용 스크립팅 언어로, 웹 개발에 널리 사용되며 LAMP 아키텍처의 핵심 요소이다.
오픈리파인 - [IT 관련 정보]에 관한 문서
기본 정보
OpenRefine favicon (2018-present)
OpenRefine favicon (2018-present)
명칭OpenRefine
개발프리베이스 (최초)
구글 (이후)
현재 오픈 소스 커뮤니티
최초 릴리스2010년 11월 10일
최신 버전미확인
최신 버전 출시일미확인
프로그래밍 언어자바
플랫폼마이크로소프트 윈도우
리눅스
macOS
지원 상태활발
종류데이터 관리
데이터 시각화
라이선스BSD 허가서
공식 웹사이트OpenRefine 프로젝트 홈
지원 언어영어
이탈리아어
중국어
일본어
프랑스어
기능
주요 기능데이터 정리
데이터 변환
셀 편집변환을 통한 편집 지원
스프레드시트 소프트웨어와 비교스프레드시트 소프트웨어와 비교 가능
표현식표현식 지원

2. 활용

오픈리파인은 데이터를 정제하고 변환하며, 웹사이트에서 데이터를 파싱하거나 웹 서비스에서 데이터를 가져오는 기능을 제공한다. 또한 위키데이터와 연동하여 데이터를 정렬할 수 있다.[7]

2. 1. 데이터 정제

오픈리파인은 반구조화된 텍스트 파일과 같이 엉망인 데이터를 정리하고 구조화할 수 있다.[7] 패싯, 클러스터링, 변환 기능을 사용하여 데이터를 정제한다.[7]

  • 데이터 변환: 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다.
  • 웹사이트에서 데이터 파싱: 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다.[8]
  • 웹 서비스에서 데이터 가져오기: JSON 형식으로 반환되는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9] 예를 들어, 주소를 지리 좌표계지오코딩하는 데 사용할 수 있다.[10]
  • 위키데이터에 정렬: 셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정' 기능을 포함한다. (이전 프리베이스[11])[12]

2. 2. 데이터 변환

오픈리파인은 데이터 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다.[7] 예를 들어, 반구조화된 데이터가 있는 텍스트 파일을 사용할 경우, 변환, 패싯 및 클러스터링을 사용하여 데이터를 깔끔하게 구조화할 수 있다.[7]

웹사이트에서 데이터를 파싱할 때, 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다.[8] JSON 형식 등으로 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9] 예를 들어, 지리적 좌표로 주소를 지오코딩하는 데 사용할 수 있다.[10]

위키데이터에 정렬(이전 프리베이스[11])하는 기능도 제공한다. 이는 셀의 문자열 값을 위키데이터 엔티티에 매핑하는 '조정'을 포함한다.[12]

2. 3. 데이터 파싱 및 보강

오픈리파인은 웹사이트에서 데이터를 파싱하여 가져올 수 있다. URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있어 웹 페이지를 처리할 수 있다.[8][30] JSON을 반환하는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9][31] 예를 들어 주소를 지리 좌표계지오코딩하는 등 외부 데이터를 활용하여 데이터를 보강할 수 있다.[10][32]

2. 4. 위키데이터 연동

셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정'이 포함된다.[12] 이는 '조회(명칭 통일)' 기능과 관련하여, 셀 내 문자열 값을 위키데이터 엔티티에 매핑할 수 있다.[34]

3. 지원 포맷

오픈리파인은 데이터를 가져오고 내보내는 다양한 포맷을 지원한다.[51][53]

가져오기내보내기
|



오픈리파인 네이티브 포맷 프로젝트는 .tar.gz 아카이브로 내보낼 수 있다.

3. 1. 가져오기 지원 포맷

3. 2. 내보내기 지원 포맷

오픈리파인은 다음과 같은 다양한 형식으로 데이터를 내보낼 수 있다.[53][15][37]

형식설명
TSV탭으로 구분된 텍스트 파일이다.
CSV쉼표로 구분된 텍스트 파일이다.
마이크로소프트 엑셀엑셀 파일이다.
HTML 테이블HTML 테이블이다.
구글 드라이브구글 드라이브에 직접 내보낼 수 있다.
구글 스프레드시트구글 스프레드시트에 직접 내보낼 수 있다.
템플릿 내보내기사용자가 지정한 템플릿에 따라 데이터를 내보낼 수 있다. 예를 들어 미디어위키 테이블 형식으로 내보낼 수 있다.
.tar.gz 아카이브오픈리파인 프로젝트를 기본 형식으로 압축하여 내보낼 수 있다.


4. 개발

메타웹에서 '''Freebase Gridworks'''를 개발하여 시작되었으며, 2010년 1월부터 오픈 소스로 제공되었다.[16] 2010년 7월 16일, 구글은 Freebase의 제작사인 메타웹을 인수했으며,[17] 2010년 11월 10일, Freebase Gridwords의 이름을 '''구글 리파인'''으로 변경하고 버전 2.0을 출시했다.[18] 2012년 10월 2일, 원 개발자인 데이비드 휴잉은 구글이 곧 구글 리파인에 대한 적극적인 지원을 중단할 것이라고 발표했다.[19][20][21] 이후, 코드베이스는 오픈리파인이라는 이름의 오픈 소스 프로젝트로 전환되었다.[22]

참조

[1] 웹사이트 OpenRefine/OpenRefine - GitHub https://github.com/O[...] 2017-06-25
[2] 웹사이트 openrefine.github.com http://openrefine.or[...]
[3] 웹사이트 Editing by transforming: Cell Editing wiki page from Refine documentation https://code.google.[...] 2012-04-18
[4] 웹사이트 Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation https://code.google.[...] 2012-04-18
[5] Github General Refine expression language OpenRefine/OpenRefine Wiki GitHub https://github.com/O[...] 2013-08-16
[6] 웹사이트 Expressions: Refine documentation https://code.google.[...] 2012-04-18
[7] Youtube Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data https://www.youtube.[...] 2011-07-19
[8] 웹사이트 Stripping HTML: Refine documentation wiki page https://code.google.[...] 2012-04-18
[9] 웹사이트 FetchingURLsFromWebServices wiki page: Refine documentation https://code.google.[...] 2012-04-18
[10] Youtube Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation https://www.youtube.[...] 2011-07-19
[11] 웹사이트 Schema Alignment: Refine documentation wiki page https://code.google.[...] 2012-04-18
[12] 웹사이트 OpenRefine documentation: Reconciliation https://github.com/O[...] 2017-03-12
[13] 웹사이트 Importers: Refine documentation wiki page https://code.google.[...] 2012-04-18
[14] 웹사이트 Changelog for 2.5 https://code.google.[...] 2012-04-18
[15] 웹사이트 Exporting: Refine documentation wiki page https://code.google.[...] 2012-04-18
[16] 웹사이트 Google Code Archive - Long-term storage for Google Code Project Hosting. https://code.google.[...]
[17] 뉴스 Google Official Blog: Deeper understanding with Metaweb http://googleblog.bl[...] 2012-04-18
[18] 뉴스 Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers http://google-openso[...] 2012-04-18
[19] 웹사이트 Google Groups https://groups.googl[...]
[20] 웹사이트 From Freebase Gridworks to Google Refine and now OpenRefine http://kb.refinepro.[...]
[21] 웹사이트 OpenRefine http://openrefine.or[...] 2013-08-16
[22] 문서 google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting https://code.google.[...] 2013-08-16
[23] 웹사이트 OpenRefine/OpenRefine - GitHub https://github.com/O[...] 2017-06-25
[24] 웹사이트 OpenRefine Project Home http://openrefine.or[...] 2018-10-05
[25] 웹사이트 Editing by transforming: Cell Editing wiki page from Refine documentation https://code.google.[...] 2012-04-18
[26] 웹사이트 Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation https://code.google.[...] 2012-04-18
[27] Github General Refine expression language OpenRefine/OpenRefine Wiki GitHub https://github.com/O[...] 2013-08-16
[28] 웹사이트 Expressions: Refine documentation https://code.google.[...] 2012-04-18
[29] 웹사이트 Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data https://www.youtube.[...] 2012-04-18
[30] 웹사이트 Stripping HTML: Refine documentation wiki page https://code.google.[...] 2012-04-18
[31] 웹사이트 FetchingURLsFromWebServices wiki page: Refine documentation https://code.google.[...] 2012-04-18
[32] 웹사이트 Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation https://www.youtube.[...] 2012-04-18
[33] 웹사이트 Schema Alignment: Refine documentation wiki page https://code.google.[...] 2012-04-18
[34] 웹사이트 OpenRefine documentation: Reconciliation https://github.com/O[...] 2017-03-12
[35] 웹사이트 Importers: Refine documentation wiki page https://code.google.[...] 2012-04-18
[36] 웹사이트 Changelog for 2.5 https://code.google.[...] 2012-04-18
[37] 웹사이트 Exporting: Refine documentation wiki page https://code.google.[...] 2012-04-18
[38] 문서 https://code.google.[...]
[39] 뉴스 Google Official Blog: Deeper understanding with Metaweb https://googleblog.b[...] 2012-04-18
[40] 뉴스 Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers http://google-openso[...] 2012-04-18
[41] 뉴스 "[announcement] the future of the Refine projects" https://groups.googl[...]
[42] 뉴스 From Freebase Gridworks to Google Refine and now OpenRefine http://googlerefine.[...]
[43] 웹사이트 OpenRefine http://openrefine.or[...] 2013-08-16
[44] 웹사이트 google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting https://code.google.[...] 2013-08-16
[45] 웹인용 OpenRefine/OpenRefine - GitHub https://github.com/O[...] 2017-06-25
[46] 웹인용 openrefine.github.com http://openrefine.or[...]
[47] 웹인용 Editing by transforming: Cell Editing wiki page from Refine documentation https://code.google.[...] 2012-04-18
[48] 웹인용 Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation https://code.google.[...] 2012-04-18
[49] 웹사이트 General Refine expression language OpenRefine/OpenRefine Wiki GitHub https://github.com/O[...] Github.com 2013-08-16
[50] 웹인용 Expressions: Refine documentation https://code.google.[...] 2012-04-18
[51] 웹인용 Importers: Refine documentation wiki page https://code.google.[...] 2012-04-18
[52] 웹인용 Changelog for 2.5 https://code.google.[...] 2012-04-18
[53] 웹인용 Exporting: Refine documentation wiki page https://code.google.[...] 2012-04-18



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com