맨위로가기

디비피디아

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

디비피디아는 위키백과의 구조화된 정보를 추출하여 쿼리 가능한 데이터 세트로 변환하는 프로젝트이다. 2007년 시작되어, 자유 라이선스 하에 데이터를 제공하며, 인물, 장소, 영화 등 다양한 정보를 포함한다. DBpedia는 자원 기술 프레임워크(RDF)를 사용하며, 여러 위키백과 페이지에 흩어져 있는 정보를 통합하여 제공한다. SPARQL 질의어를 통해 데이터에 접근할 수 있으며, 외부 데이터 세트와의 연결을 통해 지식 허브 역할을 수행한다. 또한, 텍스트에서 DBpedia 리소스 언급에 주석을 다는 도구인 DBpedia Spotlight를 제공한다.

더 읽어볼만한 페이지

  • 지식 베이스 - Cyc
    Cyc는 더글러스 레너트가 시작한 인공지능 프로젝트로, 인간 수준의 지식을 컴퓨터에 구축하는 것을 목표로 지식베이스와 추론 엔진을 활용하며, 다양한 분야에 응용되었으나 데이터 구축의 어려움으로 비판받기도 했다.
  • 지식 베이스 - 지식 그래프
    지식 그래프는 개념과 관계를 통해 지식을 표현하는 디지털 구조로, 구글, 페이스북 등 여러 기업에서 활용되며 대중화되었고, 온톨로지, 그래프 데이터베이스, 대규모 언어 모델 등을 통해 구현 및 연구되고 있다.
  • 오픈 데이터 - 오픈스트리트맵
    오픈스트리트맵(OSM)은 전 세계 사용자들이 참여하여 자유롭게 이용할 수 있도록 만들어진 크라우드소싱 기반의 세계 지도로, 오픈 데이터베이스 라이선스(ODbL)에 따라 배포되며 다양한 분야에서 활용되고 지속적으로 발전하고 있다.
  • 오픈 데이터 - 열린 정부
    열린 정부는 투명성, 참여, 책무성을 통해 정부 활동에 대한 시민 이해를 돕고 정책 결정 참여를 장려하여 책임성을 강화하는 개념으로, OECD는 정부 조정, 시민 참여, 정보 접근 등의 범주로 접근하며, 전자 참여를 통해 시민의 거버넌스 직접 참여를 가능하게 한다.
  • 스칼라로 작성된 자유 소프트웨어 - 스칼라 (프로그래밍 언어)
    스칼라는 마틴 오더스키가 설계한 객체 지향 및 함수형 프로그래밍 언어이며, 자바 플랫폼에서 실행되고 자바 코드와 상호 운용이 가능하며, 아파치 스파크 등 다양한 곳에서 활용된다.
  • 스칼라로 작성된 자유 소프트웨어 - 아파치 스파크
    아파치 스파크는 대규모 데이터 처리를 위한 오픈 소스 분산 처리 시스템으로, 빠른 속도와 다양한 API 지원을 통해 빅데이터 분석, 머신 러닝, 스트리밍 처리 등 여러 분야에서 활용되며 아파치 소프트웨어 재단의 핵심 프로젝트 중 하나이다.
디비피디아 - [IT 관련 정보]에 관한 문서
기본 정보
이름DBpedia (디비피디아)
유형시맨틱 웹, 링크드 데이터
개발자라이프치히 대학교
만하임 대학교
오픈링크 소프트웨어
최초 공개2007년 1월 10일
최신 버전DBpedia 2016-10
최신 버전 출시일2017년 7월 4일
운영 체제Virtuoso Universal Server
프로그래밍 언어스칼라
자바
VSP
라이선스GNU 일반 공중 사용권
웹사이트DBpedia 공식 웹사이트

2. 배경

DBpedia 프로젝트는 자유 베를린 대학교와 라이프치히 대학교[1]의 연구진들이 OpenLink Software와 협력하여 시작되었으며, 현재는 만하임 대학교라이프치히 대학교[2]의 연구진들에 의해 유지되고 있다. 최초로 공개된 데이터 세트는 2007년에 발표되었다.[1] 이 데이터는 자유 라이선스(CC BY-SA) 하에 제공되어 다른 사람들이 데이터 세트를 재사용할 수 있도록 허용한다.

위키백과 문서는 주로 자유 텍스트로 구성되지만, "인포박스" 테이블, 분류 정보, 이미지, 지리 좌표 및 외부 웹 페이지 링크와 같은 구조화된 정보도 포함한다. 이러한 구조화된 정보는 추출되어 쿼리할 수 있는 균일한 데이터 세트에 포함된다.

3. 데이터 세트

DBpedia 데이터 세트는 수백만 개의 엔티티를 설명하며, 일관된 온톨로지로 분류된다. 여기에는 인물, 장소, 음악 앨범, 영화, 비디오 게임, 조직, 종, 질병 등 다양한 범주가 포함된다.[3] 정보는 자원 기술 프레임워크(RDF) 형식을 사용하여 표현되며, 수십억 개의 RDF 트리플로 구성된다.[3] 이 데이터는 여러 언어판 위키백과에서 추출된 정보를 포함한다.

위키백과의 다양한 템플릿에서 사용되는 동일 개념의 다른 표현 (예: 출생지, 출신지) 문제를 해결하기 위해 DBpedia 매핑 언어가 개발되었다. 위키미디어 공용에서 추출한 데이터 세트도 포함되며, 2021년 6월 기준으로 8억 5천만 개 이상의 트리플을 포함하고 있다.[5]

4. 예시

DBpedia는 위키백과 문서에서 사실 정보를 추출하여 사용자들이 여러 위키백과 문서에 흩어져 있는 질문에 대한 답변을 찾을 수 있게 한다. 데이터는 SPARQL이라는 RDF를 위한 SQL과 유사한 질의어를 사용하여 접근한다.

예를 들어, 일본어 소녀 만화 시리즈인 ''도쿄 뮤우 뮤우''에 관심이 있고, 이 만화의 삽화가인 이쿠미 미아의 다른 작품 장르를 찾고 싶을 수 있다. DBpedia는 ''도쿄 뮤우 뮤우'', 이쿠미 미아 및 이 작가의 작품(예: ''슈퍼 돌 리카''와 ''사랑의 큐피드'')에 대한 위키백과 항목의 정보를 결합한다. DBpedia는 정보를 단일 데이터베이스로 정규화하므로, 어떤 항목이 어떤 정보를 가지고 있는지 정확히 알 필요 없이 관련 장르를 요청할 수 있다.

4. 1. SPARQL 쿼리 예시



PREFIX db:

SELECT ?who, ?WORK, ?genre WHERE {

db:Tokyo_Mew_Mew dbprop:author ?who .

?WORK dbprop:author ?who .

OPTIONAL { ?WORK dbprop:genre ?genre } .

}

```

이 쿼리는 도쿄 뮤우 뮤우, 이쿠미 미아 및 이 작가의 작품(예: 슈퍼 돌 리카와 사랑의 큐피드)에 대한 위키백과 항목의 정보를 결합하여 관련 장르를 나열한다. 디비피디아는 정보를 단일 데이터베이스로 정규화하므로, 각 정보 조각을 정확히 어떤 항목이 가지고 있는지 알 필요 없이 요청을 수행할 수 있다.

5. 활용 사례

DBpedia는 다양한 분야의 외부 데이터 세트와 연결되어 지식 허브 역할을 한다.[6][17] Freebase, OpenCyc, UMBEL, GeoNames, MusicBrainz, CIA World Fact Book 등과 RDF 수준에서 상호 연결되어 있어, 애플리케이션이 이러한 데이터 세트의 데이터로 DBpedia 데이터를 풍부하게 할 수 있도록 돕는다.

Thomson Reuters의 OpenCalais, ''The New York Times''의 링크된 오픈 데이터 프로젝트, Zemanta API,[7] DBpedia Spotlight 등도 DBpedia에 대한 링크를 포함한다.

DBpedia 활용 사례는 다음과 같다.


  • BBC는 콘텐츠 구성에 DBpedia를 사용한다.
  • Faviki는 의미적 태깅에 DBpedia를 사용한다.
  • 삼성(Samsung)은 자사의 [https://github.com/Samsung/KnowledgeSharingPlatform "Knowledge Sharing Platform"]에 DBpedia를 포함한다.
  • IBM Watson은 Jeopardy! 우승 시스템의 지식 소스 중 하나로 DBpedia를 활용했다.[8]
  • Amazon은 Amazon Web Services 애플리케이션에 통합될 수 있는 DBpedia ''Public Data Set''을 제공한다.
  • Ushahidi는 시민 생성 보고서의 의미적 주석을 위해 DBpedia를 활용한다.[11]

6. DBpedia Spotlight

DBpedia Spotlight는 텍스트에서 DBpedia 리소스 언급에 주석을 다는 도구이다. 이를 통해 비정형 정보 소스를 DBpedia를 통해 링크된 공개 데이터 클라우드에 연결할 수 있다. DBpedia Spotlight는 개체 추출을 수행하며, 여기에는 개체 감지 및 이름 확인(모호성 제거)이 포함된다. 또한 개체명 인식 및 기타 정보 추출 작업에도 사용할 수 있다. DBpedia Spotlight는 다양한 사용 사례에 맞게 사용자 정의할 수 있도록 하는 것을 목표로 한다. 몇 가지 개체 유형에 초점을 맞추는 대신, 이 프로젝트는 DBpedia의 320개 이상의 클래스에서 350만 개의 개체 및 개념에 대한 주석을 지원하고자 한다. 이 프로젝트는 2010년 6월 베를린 자유 대학교의 웹 기반 시스템 그룹에서 시작되었다.

DBpedia Spotlight는 테스트를 위한 웹 서비스아파치 라이선스를 통해 라이선스가 부여된 자바/스칼라 API로 공개적으로 사용할 수 있다. DBpedia Spotlight 배포판에는 개발자가 페이지에 한 줄을 추가하여 웹 어디에서나 페이지에 주석을 달 수 있도록 하는 제이쿼리 플러그인이 포함되어 있다.[12] 클라이언트는 Java 또는 PHP로도 사용할 수 있다.[13] 이 도구는 데모 페이지[14] 및 웹 서비스를 통해 다양한 언어를 처리한다. 국제화는 위키백과 에디션이 있는 모든 언어에 대해 지원된다.[15]

7. Archivo ontology database

DBpedia 프로젝트는 OWL 온톨로지 언어로 작성된 웹 접근 가능 온톨로지의 정기적으로 업데이트되는 데이터베이스를 제공한다. Archivo는 접근성, 품질 및 관련 사용 적합성 기준에 따라 수집된 온톨로지에 대해 4성급 등급 체계를 제공한다. 예를 들어, 그래프 기반 데이터에 대한 SHACL 준수 여부가 적절하게 평가된다. 온톨로지는 또한 특성에 대한 메타데이터를 포함하고 사용 조건을 설명하는 공개 라이선스를 지정해야 한다. 2021년 6월 현재 Archivo 데이터베이스에는 1368개의 항목이 포함되어 있다.

8. 역사

DBpedia는 2007년 쇠렌 아우어(Sören Auer), 크리스티안 비처(Christian Bizer), 게오르기 코빌라로프(Georgi Kobilarov), 옌스 레만(Jens Lehmann), 리처드 치가니악(Richard Cyganiak), 자카리 아이브스(Zachary Ives)에 의해 시작되었다.[1]

이 프로젝트는 오픈 링크 소프트웨어와의 협력 하에 자유 베를린 대학교와 라이프치히 대학교의 구성원에 의해 시작되었으며, 2007년에 첫 번째 공개용 데이터 세트가 공개되었다. 데이터 세트는 자유 라이선스로 제공되어 재사용할 수 있다.

참조

[1] 논문 DBpedia: A Nucleus for a Web of Open Data https://link.springe[...]
[2] 웹사이트 Home https://wiki.dbpedia[...] 2024-03
[3] 웹사이트 YEAH! We did it again ;) – New 2016-04 DBpedia release https://blog.dbpedia[...] DBpedia 2016-10-19
[4] 웹사이트 Changelog https://wiki.dbpedia[...] DBpedia 2014-09
[5] 웹사이트 Announcement: DBpedia Snapshot 2021-06 Release https://www.dbpedia.[...] 2021-07-23
[6] 간행물 The Role of Community-Driven Data Curation for Enterprises http://3roundstones.[...] 2010
[7] 웹사이트 Zemanta API http://dev.zemanta.c[...]
[8] 간행물 Building Watson: An Overview of the DeepQA Project. https://www.aaai.org[...] 2010
[9] 서적 Business Information Systems Workshops 2015-12-02
[10] 웹사이트 GATE.ac.uk - applications/yodie.html https://gate.ac.uk/a[...]
[11] 웹사이트 ushahidi/platform-comrades https://github.com/u[...] 2019-06-30
[12] 웹사이트 DBpedia Spotlight jQuery Plugin http://plugins.jquer[...]
[13] 웹사이트 PHP Client for DBpedia Spotlight https://github.com/r[...] 2016-09-25
[14] 웹사이트 Demo of DBpedia Spotlight https://dbpedia-spot[...]
[15] 웹사이트 Internationalization of DBpedia Spotlight https://github.com/d[...]
[16] 웹사이트 DBpedia 3.8 released, including enlarged Ontology and additional localized Versions http://blog.dbpedia.[...] DBpedia Blog 2012-08-06
[17] 간행물 The Role of Community-Driven Data Curation for Enterprises http://3roundstones.[...] 2010
[18] 저널 DBpedia - A crystallization point for the Web of Data http://www.wiwiss.fu[...] 2009-09
[19] 웹인용 Komplett verlinkt — Linked Data http://www.3sat.de/d[...] 3sat 2009-06-19
[20] 웹인용 Sir Tim Berners-Lee Talks with Talis about the Semantic Web http://talis-podcast[...] Talis 2008-02-07



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com