오픈리파인
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
오픈리파인은 데이터를 정리하고 변환하며, 웹사이트에서 데이터를 추출하고 위키데이터와 연동하는 데 사용되는 오픈 소스 도구이다. 엉망인 데이터 정리, 데이터 변환, 웹사이트 데이터 파싱, 웹 서비스 데이터 가져오기, 위키데이터 정렬 등 다양한 기능을 제공한다. TSV, CSV, XML, JSON 등 다양한 파일 형식을 지원하며, 데이터를 HTML, 엑셀, 구글 스프레드시트, 템플릿, .tar.gz 형식으로 내보낼 수 있다. 메타웹에서 개발한 Freebase Gridworks로 시작하여 구글 리파인을 거쳐 현재 오픈리파인으로 운영되고 있다.
더 읽어볼만한 페이지
- 데이터 관리 소프트웨어 - 오브젝트 스토리지
오브젝트 스토리지는 객체 단위로 데이터를 관리하며 유연한 메타데이터, 높은 확장성, 고유 식별자를 통한 접근, RESTful API 기반 관리 등의 특징을 가진 스토리지 아키텍처이다. - 데이터 관리 소프트웨어 - 데이터 유출 방지
데이터 유출 방지(DLP)는 기업 및 조직의 중요 정보가 무단 유출되는 것을 막기 위한 기술 및 전략으로, 머신 러닝 등 다양한 보안 조치를 활용해 데이터 유출을 예방하고, 포티넷, 맥아피, 지니언스 등의 업체가 관련 솔루션을 제공한다. - 구글의 소프트웨어 - 구글 어시스턴트
구글 어시스턴트는 2016년 구글에서 개발한 인공지능 음성 비서 서비스로, 양방향 대화 지원, 다양한 기기 및 플랫폼 확장성, 인터넷 검색, 일정 관리, 홈 오토메이션 제어 등의 기능을 제공하지만 개인정보 보호 문제에 대한 비판도 존재한다. - 구글의 소프트웨어 - 제미니 (챗봇)
구글이 개발한 대화형 인공지능 챗봇 제미니는 챗GPT에 대응하기 위해 개발되었으며, LaMDA에서 PaLM 2를 거쳐 자체 개발한 제미니 모델로 업그레이드되었고, 현재 구글 서비스와 통합되어 정보를 제공하지만 편향성 논란도 있다. - 자유 소프트웨어 - 김프
김프(GIMP)는 GNU 프로젝트에서 개발된 크로스 플랫폼 기반의 무료 오픈소스 래스터 그래픽 편집기로, 다양한 운영체제를 지원하며 풍부한 기능을 제공하지만 사용자 인터페이스에 대한 비판과 일부 기능의 부족함에 대한 평가도 존재한다. - 자유 소프트웨어 - PHP
PHP는 라스무스 러도프가 개발한 범용 스크립팅 언어로, 웹 개발에 널리 사용되며 LAMP 아키텍처의 핵심 요소이다.
오픈리파인 - [IT 관련 정보]에 관한 문서 | |
---|---|
기본 정보 | |
![]() | |
명칭 | OpenRefine |
개발 | 프리베이스 (최초) 구글 (이후) 현재 오픈 소스 커뮤니티 |
최초 릴리스 | 2010년 11월 10일 |
최신 버전 | 미확인 |
최신 버전 출시일 | 미확인 |
프로그래밍 언어 | 자바 |
플랫폼 | 마이크로소프트 윈도우 리눅스 macOS |
지원 상태 | 활발 |
종류 | 데이터 관리 데이터 시각화 |
라이선스 | BSD 허가서 |
공식 웹사이트 | OpenRefine 프로젝트 홈 |
지원 언어 | 영어 이탈리아어 중국어 일본어 프랑스어 |
기능 | |
주요 기능 | 데이터 정리 데이터 변환 |
셀 편집 | 변환을 통한 편집 지원 |
스프레드시트 소프트웨어와 비교 | 스프레드시트 소프트웨어와 비교 가능 |
표현식 | 표현식 지원 |
2. 활용
오픈리파인은 데이터를 정제하고 변환하며, 웹사이트에서 데이터를 파싱하거나 웹 서비스에서 데이터를 가져오는 기능을 제공한다. 또한 위키데이터와 연동하여 데이터를 정렬할 수 있다.[7]
2. 1. 데이터 정제
오픈리파인은 반구조화된 텍스트 파일과 같이 엉망인 데이터를 정리하고 구조화할 수 있다.[7] 패싯, 클러스터링, 변환 기능을 사용하여 데이터를 정제한다.[7]- 데이터 변환: 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다.
- 웹사이트에서 데이터 파싱: 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다.[8]
- 웹 서비스에서 데이터 가져오기: JSON 형식으로 반환되는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9] 예를 들어, 주소를 지리 좌표계로 지오코딩하는 데 사용할 수 있다.[10]
- 위키데이터에 정렬: 셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정' 기능을 포함한다. (이전 프리베이스[11])[12]
2. 2. 데이터 변환
오픈리파인은 데이터 값을 다른 형식으로 변환하고, 정규화 및 비정규화를 수행한다.[7] 예를 들어, 반구조화된 데이터가 있는 텍스트 파일을 사용할 경우, 변환, 패싯 및 클러스터링을 사용하여 데이터를 깔끔하게 구조화할 수 있다.[7]웹사이트에서 데이터를 파싱할 때, 오픈리파인은 URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있다.[8] JSON 형식 등으로 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9] 예를 들어, 지리적 좌표로 주소를 지오코딩하는 데 사용할 수 있다.[10]
위키데이터에 정렬(이전 프리베이스[11])하는 기능도 제공한다. 이는 셀의 문자열 값을 위키데이터 엔티티에 매핑하는 '조정'을 포함한다.[12]
2. 3. 데이터 파싱 및 보강
오픈리파인은 웹사이트에서 데이터를 파싱하여 가져올 수 있다. URL 가져오기 기능과 jsoup HTML 파서 및 DOM 엔진을 갖추고 있어 웹 페이지를 처리할 수 있다.[8][30] JSON을 반환하는 웹 서비스에서 데이터를 가져와 데이터 세트에 추가할 수 있다.[9][31] 예를 들어 주소를 지리 좌표계로 지오코딩하는 등 외부 데이터를 활용하여 데이터를 보강할 수 있다.[10][32]2. 4. 위키데이터 연동
셀의 문자열 값을 위키데이터의 엔티티에 매핑하는 '조정'이 포함된다.[12] 이는 '조회(명칭 통일)' 기능과 관련하여, 셀 내 문자열 값을 위키데이터 엔티티에 매핑할 수 있다.[34]3. 지원 포맷
오픈리파인은 데이터를 가져오고 내보내는 다양한 포맷을 지원한다.[51][53]
가져오기 | 내보내기 |
---|---|
| |
오픈리파인 네이티브 포맷 프로젝트는 .tar.gz 아카이브로 내보낼 수 있다.
3. 1. 가져오기 지원 포맷
- TSV, CSV[51]
- 사용자 지정 구분자 또는 고정폭 컬럼이 있는 텍스트 파일[51]
- XML[51]
- RDF 트리플 (RDF/XML, Notation3)[51]
- JSON[51]
- 구글 드라이브[52], 구글 스프레드시트[14]
- 압축 파일 (.zip, .tar.gz, .tgz, .tar.bz2, .gz, .bz2)[13]
- URL에서 파일 다운로드[13]
3. 2. 내보내기 지원 포맷
오픈리파인은 다음과 같은 다양한 형식으로 데이터를 내보낼 수 있다.[53][15][37]형식 | 설명 |
---|---|
TSV | 탭으로 구분된 텍스트 파일이다. |
CSV | 쉼표로 구분된 텍스트 파일이다. |
마이크로소프트 엑셀 | 엑셀 파일이다. |
HTML 테이블 | HTML 테이블이다. |
구글 드라이브 | 구글 드라이브에 직접 내보낼 수 있다. |
구글 스프레드시트 | 구글 스프레드시트에 직접 내보낼 수 있다. |
템플릿 내보내기 | 사용자가 지정한 템플릿에 따라 데이터를 내보낼 수 있다. 예를 들어 미디어위키 테이블 형식으로 내보낼 수 있다. |
.tar.gz 아카이브 | 오픈리파인 프로젝트를 기본 형식으로 압축하여 내보낼 수 있다. |
4. 개발
메타웹에서 '''Freebase Gridworks'''를 개발하여 시작되었으며, 2010년 1월부터 오픈 소스로 제공되었다.[16] 2010년 7월 16일, 구글은 Freebase의 제작사인 메타웹을 인수했으며,[17] 2010년 11월 10일, Freebase Gridwords의 이름을 '''구글 리파인'''으로 변경하고 버전 2.0을 출시했다.[18] 2012년 10월 2일, 원 개발자인 데이비드 휴잉은 구글이 곧 구글 리파인에 대한 적극적인 지원을 중단할 것이라고 발표했다.[19][20][21] 이후, 코드베이스는 오픈리파인이라는 이름의 오픈 소스 프로젝트로 전환되었다.[22]
참조
[1]
웹사이트
OpenRefine/OpenRefine - GitHub
https://github.com/O[...]
2017-06-25
[2]
웹사이트
openrefine.github.com
http://openrefine.or[...]
[3]
웹사이트
Editing by transforming: Cell Editing wiki page from Refine documentation
https://code.google.[...]
2012-04-18
[4]
웹사이트
Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation
https://code.google.[...]
2012-04-18
[5]
Github
General Refine expression language OpenRefine/OpenRefine Wiki GitHub
https://github.com/O[...]
2013-08-16
[6]
웹사이트
Expressions: Refine documentation
https://code.google.[...]
2012-04-18
[7]
Youtube
Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data
https://www.youtube.[...]
2011-07-19
[8]
웹사이트
Stripping HTML: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[9]
웹사이트
FetchingURLsFromWebServices wiki page: Refine documentation
https://code.google.[...]
2012-04-18
[10]
Youtube
Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation
https://www.youtube.[...]
2011-07-19
[11]
웹사이트
Schema Alignment: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[12]
웹사이트
OpenRefine documentation: Reconciliation
https://github.com/O[...]
2017-03-12
[13]
웹사이트
Importers: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[14]
웹사이트
Changelog for 2.5
https://code.google.[...]
2012-04-18
[15]
웹사이트
Exporting: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[16]
웹사이트
Google Code Archive - Long-term storage for Google Code Project Hosting.
https://code.google.[...]
[17]
뉴스
Google Official Blog: Deeper understanding with Metaweb
http://googleblog.bl[...]
2012-04-18
[18]
뉴스
Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers
http://google-openso[...]
2012-04-18
[19]
웹사이트
Google Groups
https://groups.googl[...]
[20]
웹사이트
From Freebase Gridworks to Google Refine and now OpenRefine
http://kb.refinepro.[...]
[21]
웹사이트
OpenRefine
http://openrefine.or[...]
2013-08-16
[22]
문서
google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting
https://code.google.[...]
2013-08-16
[23]
웹사이트
OpenRefine/OpenRefine - GitHub
https://github.com/O[...]
2017-06-25
[24]
웹사이트
OpenRefine Project Home
http://openrefine.or[...]
2018-10-05
[25]
웹사이트
Editing by transforming: Cell Editing wiki page from Refine documentation
https://code.google.[...]
2012-04-18
[26]
웹사이트
Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation
https://code.google.[...]
2012-04-18
[27]
Github
General Refine expression language OpenRefine/OpenRefine Wiki GitHub
https://github.com/O[...]
2013-08-16
[28]
웹사이트
Expressions: Refine documentation
https://code.google.[...]
2012-04-18
[29]
웹사이트
Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data
https://www.youtube.[...]
2012-04-18
[30]
웹사이트
Stripping HTML: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[31]
웹사이트
FetchingURLsFromWebServices wiki page: Refine documentation
https://code.google.[...]
2012-04-18
[32]
웹사이트
Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation
https://www.youtube.[...]
2012-04-18
[33]
웹사이트
Schema Alignment: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[34]
웹사이트
OpenRefine documentation: Reconciliation
https://github.com/O[...]
2017-03-12
[35]
웹사이트
Importers: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[36]
웹사이트
Changelog for 2.5
https://code.google.[...]
2012-04-18
[37]
웹사이트
Exporting: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[38]
문서
https://code.google.[...]
[39]
뉴스
Google Official Blog: Deeper understanding with Metaweb
https://googleblog.b[...]
2012-04-18
[40]
뉴스
Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers
http://google-openso[...]
2012-04-18
[41]
뉴스
"[announcement] the future of the Refine projects"
https://groups.googl[...]
[42]
뉴스
From Freebase Gridworks to Google Refine and now OpenRefine
http://googlerefine.[...]
[43]
웹사이트
OpenRefine
http://openrefine.or[...]
2013-08-16
[44]
웹사이트
google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting
https://code.google.[...]
2013-08-16
[45]
웹인용
OpenRefine/OpenRefine - GitHub
https://github.com/O[...]
2017-06-25
[46]
웹인용
openrefine.github.com
http://openrefine.or[...]
[47]
웹인용
Editing by transforming: Cell Editing wiki page from Refine documentation
https://code.google.[...]
2012-04-18
[48]
웹인용
Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation
https://code.google.[...]
2012-04-18
[49]
웹사이트
General Refine expression language OpenRefine/OpenRefine Wiki GitHub
https://github.com/O[...]
Github.com
2013-08-16
[50]
웹인용
Expressions: Refine documentation
https://code.google.[...]
2012-04-18
[51]
웹인용
Importers: Refine documentation wiki page
https://code.google.[...]
2012-04-18
[52]
웹인용
Changelog for 2.5
https://code.google.[...]
2012-04-18
[53]
웹인용
Exporting: Refine documentation wiki page
https://code.google.[...]
2012-04-18
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com