시맨틱 웹

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

시맨틱 웹은 컴퓨터가 정보를 이해하고 처리할 수 있도록 웹의 데이터를 구조화하는 기술이다. 기존 웹의 키워드 기반 검색의 한계를 극복하고, 의미적 상호 운용성을 통해 정보 처리 자동화, 데이터 통합, 재사용을 목표로 한다. 팀 버너스리가 제시한 시맨틱 웹은 HTML 대신 XML, RDF, OWL 등의 언어를 사용하여 정보의 의미를 명확하게 표현하며, 에이전트 기술을 활용하여 지능적인 정보 검색과 추론을 가능하게 한다. 이러한 기술은 웹 2.0과 연계되어 다양한 분야에 응용될 수 있으며, 데이터 공유를 통해 웹을 더욱 발전시킬 것으로 기대된다.

더 읽어볼만한 페이지

지식공학 - 의사결정 지원 시스템
의사결정 지원 시스템은 데이터베이스, 모델, 사용자 인터페이스를 기반으로 비구조화된 문제 해결을 돕는 대화형 컴퓨터 시스템으로, 다양한 분야에서 활용되며 인공지능 기술을 활용한 지능형 시스템으로 발전하고 있고, 의사결정 과정 개선 및 최적화에 중점을 두며 한국적 맥락에서는 투명성, 공정성, 시민 참여 확대 및 개인정보 보호를 고려한 발전이 중요하다.
지식공학 - 온톨로지
온톨로지는 철학의 존재론에서 유래하여 정보기술 분야에서 지식의 위치와 관계를 명확히 하는 연구 분야로 사용되며, 시맨틱 웹 구현의 핵심 도구로서 웹 자원 관리 및 정보 검색 효율성을 높이는 데 기여한다.
시맨틱 웹 - 시맨틱 네트워크
시맨틱 네트워크는 개념 간의 관계를 표현하는 지식 표현 방법으로, 노드와 링크를 사용하여 지식을 구조화하며 인공지능, 언어학 등 다양한 분야에서 활용된다.
시맨틱 웹 - 웹 온톨로지 언어
웹 온톨로지 언어(OWL)는 시맨틱 웹 구축을 위한 지식 표현 언어로, W3C 웹 표준이며, 온톨로지 명시적 표현을 통해 데이터 공유 및 재사용을 가능하게 하고, 기술 논리에 기반하여 표현력 수준에 따라 다양한 종류를 제공한다.
웹 서비스 - 빅쿼리
빅쿼리는 구글의 데이터 분석 서비스로, 드레멜을 기반으로 수조 행의 데이터에 대한 빠른 쿼리를 가능하게 하며, 데이터 관리, 쿼리 실행, 서비스 통합, 접근 제어, 기계 학습 기능을 제공한다.
웹 서비스 - AWS 일래스틱 빈스토크
AWS 일래스틱 빈스토크는 자바, PHP, 파이썬, Node.js, 루비, .NET, Java SE, 도커, Go 등 다양한 애플리케이션과 소프트웨어 스택을 지원하여 애플리케이션 배포 및 관리를 단순화하는 AWS의 서비스이다.

2. 시맨틱 웹의 개념

웹 기술은 정보표현과 전달에 간편한 방법을 제공하여 인터넷이 실생활까지 확산되는 기폭제 역할을 하였다. 그러나, 웹상에 축적된 정보가 방대해 짐에 따라 많은 문제에 봉착하게 되었다. 웹 기술은 축적된 방대한 데이터에 대하여 키워드(keyword)에 의한 정보 접근만을 허용하고 있어, 정보 검색시 무수히 많은 불필요한 정보가 돌출하여 정보 홍수를 가중시키고 있다. 또한, 컴퓨터가 필요한 정보를 추출, 해석, 가공할 수 있는 방법이 없어, 모든 정보를 사용자가 직접 개입해서 처리하여야 하는 문제가 있다. 이러한 문제들의 근본원인은 컴퓨터가 정보자원의 의미를 이해하지 못하는데 원인이 있다. 이러한 웹 기술은 팀 버너스리가 초창기에 구상하였던 웹과도 거리가 있다.

2001년 팀 버너스리등에 의해 웹 기술의 비전으로 시맨틱 웹이 제시되었다. 시맨틱 웹은 기존 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기반으로 의미적 상호운용성(semantic interoperability)을 실현하여, 다양한 정보자원의 처리 자동화, 데이터의 통합 및 재사용등을 컴퓨터가 스스로 수행하여, 인간과 컴퓨터 모두 잘 이해할 수 있는 웹을 만드는 것이 목표이다.

시맨틱 네트워크 모델의 개념은 1960년대 초 인지 과학자 앨런 M. 콜린스, 언어학자 로스 퀼리안, 그리고 심리학자 엘리자베스 F. 로프터스와 같은 연구자들에 의해 의미적으로 구조화된 지식을 표현하는 형태로 형성되었다. 현대 인터넷 환경에서 이 개념은 사람이 읽을 수 있는 웹 페이지의 하이퍼링크 네트워크를 확장하여, 페이지와 페이지 간의 관계에 대한 기계가 읽을 수 있는 메타데이터를 삽입한다. 이는 웹 크롤러와 같은 자동화된 에이전트가 웹에 더욱 지능적으로 접근하고 사용자를 대신하여 더 많은 작업을 수행할 수 있게 해준다. "시맨틱 웹"이라는 용어는 월드 와이드 웹의 발명자이자 시맨틱 웹 표준 제정을 감독하는 월드 와이드 웹 컨소시엄(W3C)의 이사인 팀 버너스리에 의해 만들어졌다.^[57] 그는 시맨틱 웹을 "기계가 직접적이고 간접적으로 처리할 수 있는 데이터의 웹"으로 정의한다.

W3C가 제안한 많은 기술들은 W3C의 관리하에 놓이기 전부터 이미 존재했다. 이러한 기술들은 제한되고 정의된 도메인을 포함하는 정보, 그리고 데이터 공유가 필수적인 과학 연구나 기업 간의 데이터 교환과 같은 다양한 상황에서 사용된다. 게다가, 마이크로포맷과 같이 유사한 목표를 가진 다른 기술들도 등장했다.

2. 1. 의미적으로 주석화된 웹

온톨로지로 주석화된 웹 정보 자원은 일종의 지식 베이스를 형성한다. 시맨틱 웹에서는 온톨로지의 의미적 상호 운용성을 기반으로 인터넷의 분산 정보 자원을 의미적으로 통합한 거대한 지식 베이스를 구축할 수 있다.

2. 2. 에이전트

사람을 대신하여 정보를 수집, 검색, 추론하고 다른 에이전트와 정보를 교환하는 지능형 에이전트가 시맨틱 웹의 핵심 요소이다. 지능형 에이전트는 온톨로지를 이용하여 상호 정보 교환 등의 일을 수행한다.

2. 3. HTML5에서의 시맨틱 웹

HTML5에서는 시맨틱 웹을 쉽게 구성할 수 있도록 하는 요소들이 추가되었다. 기존에는 `

`와 같이 표현했던 머리 부분을 `

` 태그를 사용하여 더 의미론적으로 나타낼 수 있게 되었다. 이는 `div`와 `id=header`를 모두 읽어야 했던 XHTML이나 HTML4보다 훨씬 효율적이다.

3. 시맨틱 웹과 현재 웹의 차이

기존의 HTML로 작성된 문서는 컴퓨터가 의미정보를 해석할 수 있는 메타데이터보다는 사람의 눈으로 보기에 용이한 시각정보에 대한 메타데이터와 자연어로 기술된 문장으로 가득 차 있다. 예를 들어 '''바나나는 노란색이다.'''라는 예에서 볼 수 있듯 이라는 태그는 단지 ''바나나''와 ''노란색''이라는 단어를 강조하기 위해 사용된다. 이 HTML을 받아서 처리하는 기계(컴퓨터)는 바나나라는 개념과 노란색이라는 개념이 어떤 관계를 가지는지 해석할 수 없다. 단지  태그로 둘러싸인 구절을 다르게 표시하여 시각적으로 강조를 할 뿐이다. 게다가 바나나가 노란색이라는 것을 서술하는 예의 문장은 자연어로 작성되었으며 기계는 단순한 문자열로 해석하여 화면에 표시한다.

반면 시맨틱 웹은 XML에 기반한 시맨틱 마크업 언어를 기반으로 한다. 가장 단순한 형태인 RDF는 의 트리플 형태로 개념을 표현한다. 위의 예를 트리플로 표현하면 과 같이 표현할 수 있다. 이렇게 표현된 트리플을 컴퓨터가 해석하여 urn:바나나 라는 개념은 urn:노랑이라는 urn:색을 가지고 있다는 개념을 해석하고 처리할 수 있게 된다. 보다 구체적인 예로 다음이 카카오 소유임을 나타내는 트리플은 과 같이 된다. 시맨틱 웹은 이러한 트리플 구조에 기반하여 그래프 형태로 의미정보인 온톨로지를 표현한다.

현재 월드 와이드 웹은 주로 하이퍼텍스트 마크업 언어(HTML)로 작성된 문서를 기반으로 하며, 메타데이터 태그는 컴퓨터가 웹 페이지의 내용을 분류할 수 있는 방법을 제공한다. 예를 들어, "키워드", "설명" 및 "작성자" 필드에 "컴퓨팅", "판매용 저렴한 위젯", "존 도"(John Doe)와 같은 값을 할당할 수 있다. 이러한 메타데이터 태깅 및 분류를 통해 다른 컴퓨터 시스템은 관련 값을 쉽게 식별하고 데이터에 접근하여 공유할 수 있다.

하지만 HTML은 레이아웃 세부 정보만 지정할 수 있을 뿐, 객체의 의미를 명확하게 표현하는 기능은 부족하다. 예를 들어, HTML은 "X586172"가 "Acme Gizmo" 및 "199유로"와 가까이 위치해야 하는 텍스트 범위라고만 표현할 수 있으며, "이것은 카탈로그입니다"라고 말하거나 "Acme Gizmo"가 제목이고 "199유로"가 가격임을 명시할 수 없다.

이러한 문제를 해결하기 위해 시맨틱 HTML은 의도를 따르는 마크업 방식을 사용하지만, 객체의 의미를 지정하는 데는 한계가 있다. 마이크로포맷은 HTML 구문을 확장하여 기계 판독 가능한 의미론적 마크업을 생성하며, RDFa, 마이크로데이터, Schema.org와 같은 유사한 이니셔티브가 있다.

4. 시맨틱 웹 언어

시맨틱 웹에서 Subject, Predicate, Object는 XML의 URI 형태로 표현되며, 이는 웹 환경에 산재한 자원에 대한 온톨로지를 기술하는 데 목적이 있다. 시맨틱 웹 온톨로지를 기술하는 표준 언어로는 W3C에서 제안한 RDF와 OWL이 가장 많이 쓰인다. 이 외에도 ISO에서 제안한 TopicMaps 또는 N3, N-Triple, 그리고 인공지능 분야에서 예전부터 쓰이던 KIF 형태로도 온톨로지가 작성되기도 한다.

시맨틱 웹은 자원 기술 프레임워크(RDF), 웹 온톨로지 언어(OWL), 그리고 확장성 마크업 언어(XML)를 사용하여 정보를 게시한다.^[12] HTML이 문서와 문서 간의 링크를 설명하는 반면, RDF, OWL, XML은 사람, 회의, 또는 항공기 부품과 같은 임의의 대상을 설명할 수 있다.^[12]

이러한 기술들은 웹 문서의 내용을 보완하거나 대체하는 설명을 제공하기 위해 결합된다.^[12] 따라서, 내용은 웹에서 접근 가능한 데이터베이스에 저장된 설명 데이터, 또는 문서 내의 마크업(특히 XML과 혼합된 확장성 HTML(XHTML), 또는 레이아웃이나 렌더링 큐가 별도로 저장된 순수한 XML)으로 나타날 수 있다.^[12] 기계가 읽을 수 있는 설명은 콘텐츠 관리자가 콘텐츠에 의미를 추가할 수 있게 해주며, 이는 콘텐츠에 대한 지식의 구조를 설명하는 것이다.^[12] 이러한 방식으로, 기계는 인간의 연역적 추론과 추론과 유사한 프로세스를 사용하여 텍스트 대신 지식 자체를 처리하여 보다 의미 있는 결과를 얻고, 컴퓨터가 자동화된 정보 수집 및 연구를 수행하도록 돕는다.^[12]

팀 버너스 리는 결과적으로 생성된 링크된 데이터 네트워크를 HTML 기반 월드 와이드 웹과 대조하여 거대한 글로벌 그래프라고 부른다.^[12] 버너스 리는 과거가 문서 공유였다면, 미래는 데이터 공유라고 보았다.

5. 시맨틱 웹 기술과 표준

시맨틱 웹은 '''명시적 메타데이터''', '''온톨로지''', '''논리적 추론''' 등의 기술을 기반으로 한다. 명시적 메타데이터는 XML (eXtensible Markup Language), RDF (Resource Description framework)와 같은 언어 기술을 통해 메타데이터와 추론에 필요한 규칙 등을 표현한다. 온톨로지는 데이터의 의미와 관계 정보를 체계적으로 표현하는 지식 표현 기술이다. 논리적 추론은 온톨로지와 결합된 관계 정보들로부터 새로운 정보를 도출한다.

W3C는 시맨틱 웹 액티비티 그룹 산하의 워킹그룹을 통하여 관련 표준을 개발하였다. 주요 표준은 다음과 같다.

RDF (Resource Description Framework)
RDFa in XHTML
SPARQL Query Language for RDF
OWL (Web Ontology Language)

시맨틱 웹의 기술 계층 구조는 다음과 같다.

URI (Uniform Resource Identifier): 웹 상의 자원을 식별하기 위한 객체의 명칭, 위치 등을 표현한다.
IRI (International Resource Identifier with UNICODE)
XML (eXtensible Markup Language): 메타데이터 표현 언어인 XML, XML 상에서의 동일한 요소나 속성을 구분하기 위해 쓰이는 이름인 Namespace, XML 문서의 마크업 방식에 대한 정의인 XML Schema 등과 같은 다양한 표준을 의미한다.
RDF (Resource Description Framework): RDF는 정보 자원이나 자원의 구조를 표현하는 언어이다.
RDFS: RDF의 Schema 정보로 경량의 온톨로지를 표현한다.
SPARQL: RDF 질의를 위한 언어이다.
RIF (Rule Interchange Format): 규칙의 정의와 교환을 위한 계층이다.
OWL: 특정 도메인에 대한 공유되는 일반적인 이해와 개념, 개념과의 관계를 표현하기 위한 언어이다.
로직(Logic): 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능 등을 의미한다.
증거 / 신뢰(Proof / Trust): 웹의 정보에 대한 신뢰를 말한다.

시맨틱 웹은 자원 기술 프레임워크(RDF), 웹 온톨로지 언어(OWL), 그리고 확장성 마크업 언어(XML)를 사용하여 정보를 게시한다. HTML이 문서와 문서 간의 링크를 설명하는 반면, RDF, OWL, XML은 사람, 회의, 또는 항공기 부품과 같은 임의의 대상을 설명할 수 있다.^[12] 이러한 기술들은 웹 문서의 내용을 보완하거나 대체하는 설명을 제공하며, 기계가 읽을 수 있는 설명을 통해 콘텐츠 관리자는 콘텐츠에 의미를 추가할 수 있다.^[12] 이를 통해 기계는 연역적 추론과 추론과 유사한 프로세스를 사용하여 지식 자체를 처리하고, 자동화된 정보 수집 및 연구를 수행할 수 있다.

W3C 표준으로 지정된 시맨틱 웹 기술은 다음과 같다.^[58]

자원 기술 프레임워크(RDF), 정보를 설명하기 위한 일반적인 방법
RDF 스키마(RDFS)
단순 지식 구성 시스템(SKOS)
SPARQL, RDF 쿼리 언어
Notation3(N3), 인간 가독성을 염두에 두고 설계됨
N-Triples, 데이터를 저장하고 전송하기 위한 형식
Turtle (간결한 RDF 삼중 언어)
웹 온톨로지 언어(OWL), 지식 표현 언어 제품군
규칙 교환 형식(RIF), 웹 규칙 언어 방언의 프레임워크로, 웹에서 규칙 교환을 지원
링크된 데이터를 위한 JavaScript 객체 표기법(JSON-LD), 데이터를 설명하는 JSON 기반 방법
ActivityPub, 클라이언트와 서버가 서로 통신하는 일반적인 방법. 이는 인기 있는 분산 소셜 네트워크인 Mastodon에서 사용된다.

시맨틱 웹 스택은 시맨틱 웹의 아키텍처를 보여준다. 구성 요소의 기능과 관계는 다음과 같이 요약할 수 있다.^[29]

XML은 문서 내 콘텐츠 구조에 대한 기본적인 구문을 제공하지만, 포함된 콘텐츠의 의미와 관련된 의미론은 연결하지 않는다. XML은 현재 대부분의 경우 시맨틱 웹 기술에 필요한 구성 요소가 아니며, Turtle과 같은 대체 구문이 존재하기 때문이다. Turtle은 사실상의 표준이지만, 공식적인 표준화 과정을 거치지는 않았다.
XML 스키마는 XML 문서 내에 포함된 요소의 구조와 내용을 제공하고 제한하기 위한 언어이다.
RDF는 객체 ("웹 리소스")와 그 관계를 참조하는 데이터 모델을 표현하기 위한 간단한 언어이다. RDF 기반 모델은 다양한 구문(예: RDF/XML, N3, Turtle, RDFa)으로 표현할 수 있다. RDF는 시맨틱 웹의 기본 표준이다.^[30]^[31]
RDF 스키마는 RDF를 확장하며, 이러한 속성과 클래스의 일반화된 계층 구조에 대한 의미론과 함께, RDF 기반 리소스의 속성과 클래스를 설명하기 위한 어휘이다.
OWL은 속성과 클래스를 설명하기 위한 더 많은 어휘를 추가한다. 예를 들어, 클래스 간의 관계(예: 불일치), 카디널리티(예: "정확히 하나"), 동일성, 속성의 더 풍부한 유형 지정, 속성의 특징(예: 대칭) 및 열거된 클래스 등이다.
SPARQL은 시맨틱 웹 데이터 소스에 대한 프로토콜이자 쿼리 언어이다.
RIF는 W3C 규칙 교환 형식이다. 이는 컴퓨터가 실행할 수 있는 웹 규칙을 표현하기 위한 XML 언어이다. RIF는 RIF 기본 논리 방언(RIF-BLD) 및 RIF 생산 규칙 방언(RIF PRD)을 포함하여 여러 버전을 제공한다.

팀 버너스 리는 결과적으로 생성된 링크된 데이터 네트워크를 HTML 기반 월드 와이드 웹과 대조하여 거대한 글로벌 그래프라고 부른다. 미래는 데이터 공유가 될 것이라고 주장한다.^[58]

5. 1. 시맨틱 웹 기술 계층 구조

시맨틱 웹은 웹 상의 자원을 식별하기 위한 URI (Uniform Resource Identifier) 및 IRI (International Resource Identifier with UNICODE)를 사용한다.^[62] 이러한 식별자를 기반으로, XML (eXtensible Markup Language)은 메타 정보 표현을 위한 기본적인 언어 역할을 한다.^[62] XML은 이름 공간(Namespace)과 XML 스키마(XML Schema)를 통해 요소와 속성을 구분하고 문서 구조를 정의한다.^[62]

RDF (Resource Description Framework)는 정보 자원과 그 구조를 표현하는 언어로, 시맨틱 웹의 핵심 기술이다.^[30]^[31] RDF는 웹 리소스와 그 관계를 표현하는 데이터 모델을 제공하며, RDF/XML, N3, Turtle, RDFa 등 다양한 구문으로 표현될 수 있다.^[62] RDFS는 RDF의 Schema 정보로 경량의 온톨로지를 표현한다.^[62]

OWL (Web Ontology Language)은 특정 도메인에 대한 공유되는 이해와 개념, 개념과의 관계를 표현하기 위한 언어이다.^[62] OWL은 클래스 간의 관계(예: 불일치), 카디널리티(예: "정확히 하나"), 동일성, 속성의 더 풍부한 유형 지정, 속성의 특징(예: 대칭) 및 열거된 클래스 등을 표현할 수 있다.^[62]

SPARQL은 RDF 질의를 위한 언어로, 시맨틱 웹 데이터 소스에 대한 쿼리를 수행하는 데 사용된다.^[62] RIF (Rule Interchange Format)는 규칙의 정의와 교환을 위한 계층으로, 웹 규칙을 표현하기 위한 XML 언어이다.^[62] RIF는 RIF 기본 논리 방언(RIF-BLD) 및 RIF 생산 규칙 방언(RIF PRD) 등 여러 버전을 제공한다.^[62]

이 외에도, Notation3(N3), N-Triples, 링크된 데이터를 위한 JavaScript 객체 표기법(JSON-LD), ActivityPub등의 기술이 시맨틱 웹을 구성한다. 로직(Logic)은 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능 등을 의미하며 증거 / 신뢰(Proof / Trust)는 웹의 정보에 대한 신뢰를 의미한다.^[62]

팀 버너스 리는 이러한 기술을 통해 생성된 링크된 데이터 네트워크를 거대한 글로벌 그래프라고 칭하며, 미래는 데이터 공유가 될 것이라고 주장했다.^[58]

6. 시맨틱 웹의 이상(理想)

자동화된 기계가 웹에 산재한 정보를 해석하고 처리할 수 있도록 표준 의미정보 교환 수단을 제공하는 것이 시맨틱 웹의 목적이다. 인터넷에 방대한 양의 온톨로지가 산재하고, 이를 자동으로 해석하여 처리할 수 있는 에이전트 소프트웨어에 사람 또는 에이전트가 질의를 하면, 컴퓨터가 자동으로 분산된 온톨로지를 탐색하고 추론하여 원하는 결과를 돌려준다.

7. 시맨틱 웹에 대한 오해

시맨틱 웹은 흔히 웹 2.0과 혼동되기도 한다. 팀 버너스리가 1998년에 시맨틱 웹을 제안했을 때 "차세대 웹"이라는 표현을 사용했기 때문이다. 그러나 웹 2.0은 특정 기술을 지칭하는 말이 아니라, 현재 인터넷 업계의 신기술이 지향하는 경향을 일컫는 말이다.

시맨틱 웹이 인터넷에 존재하는 모든 지식을 공유한다는 오해도 있다. 하지만 시맨틱 웹의 온톨로지는 특정 분야(Domain)에 대해서만 유효하면 된다. 예를 들어, 관공서 온톨로지와 동물병원 온톨로지는 '개'의 사체를 다르게 분류할 수 있다. 따라서 해당 분야에 적합한 온톨로지를 선별하여 활용해야 한다.

시맨틱 기술은 웹뿐만 아니라 내부 시스템에서도 활용될 수 있으며, 대규모 데이터 통합을 해결하는 데 사용될 수 있다. 시맨틱 웹은 기존 웹을 대체하는 것이 아니라, 의미 정보를 포함하는 메타데이터를 통해 정보에 대한 자동화된 접근성을 높이는 데 목적이 있다. 시맨틱 웹 기술은 검색 엔진뿐만 아니라 암 치료, 석유가스 산업 등 다양한 분야에서 활용될 수 있다.

8. 시맨틱 웹의 응용

시맨틱 웹은 커뮤니티, 블로그, 데이터 통합, 포털, 검색, 시맨틱 웹 서비스, 기업 소프트웨어, 지식 관리 등 다양한 분야에 응용될 수 있다.^[38]^[39]^[40]^[41]^[42]^[43] 대중적으로 가장 널리 알려진 시맨틱 웹의 활용 예는 RSS이다. RSS 첫 버전인 0.9와 1.0은 RDF로 작성되었으나, 이후 버전에서는 RDF를 사용하지 않고 이름도 Really Simple Syndication 또는 Rich Site Summary로 혼재되어 사용되고 있다.

지정된 관계와 Kialo의 버전 관리를 갖춘 별개의 시맨틱 단위로서의 주장

시맨틱 웹은 웹과 상호 연결된 자원의 사용성과 유용성을 향상시키기 위해 다음과 같은 시맨틱 웹 서비스를 생성하는 것을 목표로 한다.

RDF 및 SPARQL 표준을 사용하여 기존 데이터 시스템을 노출하는 서버. 여러 애플리케이션에서 RDF로 변환하는 변환기가 많이 있으며,^[32] 관계형 데이터베이스는 중요한 소스이다. 시맨틱 웹 서버는 기존 시스템의 작동에 영향을 미치지 않고 연결된다.
시맨틱 정보로 "마크업"된 문서 (오늘날 웹 페이지에서 웹 크롤러를 사용하여 웹 검색 엔진에 정보를 제공하기 위해 사용되는 HTML 태그의 확장).^[33] 이것은 문서의 인간이 이해할 수 있는 내용 (예: 제작자, 제목, 설명 등)에 대한 기계가 이해할 수 있는 정보이거나, 일련의 사실 (예: 사이트의 다른 위치에 있는 자원 및 서비스)을 나타내는 순수한 메타데이터일 수 있다. ''Uniform Resource Identifier'' (URI)로 식별할 수 있는 ''모든 것''을 설명할 수 있으므로 시맨틱 웹은 동물, 사람, 장소, 아이디어 등에 대해 추론할 수 있다. HTML 문서에서 사용할 수 있는 시맨틱 주석 형식에는 Microformat, RDFa, Microdata 및 JSON-LD가 있다. 시맨틱 마크업은 종종 수동으로 생성되기보다는 자동으로 생성된다.
문서 작성자가 에이전트가 제공된 메타데이터의 정보를 사용할 수 있도록 문서를 마크업하는 방법을 알 수 있도록 하는 공통 메타데이터 어휘 (온톨로지) 및 어휘 간의 맵.
이 데이터를 사용하여 시맨틱 웹 사용자를 위한 작업을 수행하는 자동화된 에이전트.
시맨틱 번역.
에이전트에게 정보를 특별히 제공하는 웹 기반 서비스 (자체 에이전트 포함).
관계가 시맨틱하게 구성되고, 주장이 여러 위치에 미러링 (연결)되고, 재사용 (복사)되고, 평가되고, 변경되는 시맨틱적으로 별개의 단위인 협업 구조화된 논증 맵 사이트에서 구현.^[34] Argüman^[35] 및 Kialo에서 어느 정도 구현되었다.

기업에서는 사용자의 폐쇄된 그룹이 있으며, 경영진은 특정 온톨로지 채택 및 시맨틱 주석 사용과 같은 회사 지침을 시행할 수 있다. 공공 시맨틱 웹에 비해 확장성에 대한 요구 사항이 적으며, 일반적으로 회사 내에서 유통되는 정보는 더 신뢰할 수 있다.

9. 시맨틱 웹의 전망

시맨틱 웹은 이제 연구 단계를 넘어 상용화 단계로 발전하고 있다. eClassOWL, BioPAX와 같은 다양한 온톨로지가 개발되었고, AllegroGraph, TopBraid와 같은 상용도구가 개발되었다. 노키아 S60 포털, Haper 온라인 매거진, Yahoo!Food 등 수많은 사이트들에서 시맨틱 웹 기술이 활용되고 있다. 이미 인터넷 상에는 10⁷개의 시맨틱 웹 문서가 존재하는 것으로 알려져 있다. Garlik, Radar Networks, Joost, Ontology Works 등 수많은 시맨틱 웹 기업이 활발한 제품 개발과 비즈니스 활동을 전개하고 있다.

분산된 정보자원을 의미적 상호 운용성으로 통합하여 거대한 지식 베이스를 구축한 시맨틱 웹은, 웹 서비스에도 의미적 상호운용성을 실현하여, 궁극적으로 시맨틱 웹 서비스(Semantic Web Service)로 진화하여 갈 것이다. 온톨로지 언어 OWL 개발과 동시에 서비스 온톨로지인 OWL-S가 개발되었고, W3C의 SWSI나 유럽의 WSMO/L/X 연구등에서 알 수 있는 바와 같이, 시맨틱 웹은 지식을 넘어서 지식 서비스로 나아가고 있다.

현재는 서로 독립적이며 자발적으로 발전되어 온 웹 2.0과 시맨틱 웹은 자신의 영역을 더욱 확대하기 위하여 상존하고 있지만, 궁극적으로는 자연스럽게 통합되어 차세대 웹 기술로 나타날 것이다. 이미, 마이크로포맷, RDFa, GRDDL, RSS 등에서 상호 협력이 진행되고 있고, 인간 중심의 RIA 인터페이스와 컴퓨터 중심의 시맨틱 비즈니스 프로세스를 기반으로 하는 새로운 엔터프라이즈 시스템의 개발이 가속화되고 있다. 웹 2.0과 시맨틱 웹은 경계가 분명한 경쟁기술이 아니라, 차세대 웹을 향한 진행 과정의 기술로 가까운 시일 내에 서로를 감싸게 될 것이다. 팀 오라일리는 웹 2.0이라는 용어를 만들어냈으며, 정교한 애플리케이션이 데이터를 탐색하고 조작하는 데이터 웹으로서의 시맨틱 웹에 대한 장기적인 비전을 제시했다.^[55] 데이터 웹은 분산 컴퓨팅 기반의 파일 시스템인 월드 와이드 웹을 분산 데이터베이스로 변환한다.^[56]

10. 역사

팀 버너스리가 "시맨틱 웹"이라는 용어를 만들었으며, 이는 대부분의 의미가 기계 판독 가능한 웹, 즉 기계가 처리할 수 있는 데이터 웹(또는 '''데이터 웹''')을 지향한다.^[5]^[57] 비평가들은 실현 가능성에 의문을 제기했지만, 지지자들은 도서관학 및 정보 과학, 산업, 생물학 및 인문 과학 연구 분야의 응용 사례들이 이미 원래 개념의 타당성을 입증했다고 주장한다.^[6]

버너스리는 1999년 다음과 같이 시맨틱 웹에 대한 자신의 비전을 표현했다.

나는 [컴퓨터가] 웹의 모든 데이터, 즉 콘텐츠, 링크 및 사람과 컴퓨터 간의 거래를 분석할 수 있게 되는 웹을 꿈꾼다. 이를 가능하게 하는 "시맨틱 웹"은 아직 등장하지 않았지만, 등장하게 되면 무역, 관료주의 및 우리 일상생활의 일상적인 메커니즘은 기계가 기계와 대화하면서 처리하게 될 것이다. 사람들이 오랫동안 칭찬해 온 "지능형 에이전트"가 마침내 실현될 것이다.

^[7]

2001년 버너스리, 헨들러, 라실라가 쓴 ''사이언티픽 아메리칸'' 기사에서는 기존 웹에서 시맨틱 웹으로의 진화를 예상했다.^[8] 2006년 버너스리와 동료들은 "이 단순한 아이디어는… 아직 제대로 실현되지 않고 있다"라고 말했다.^[9] 2013년에는 대략 2억 5천만 개의 웹 도메인 중 4백만 개 이상이 시맨틱 웹 마크업을 포함하고 있었다.^[10]

11. 예제

웹사이트의 "Paul Schuster는 드레스덴에서 태어났습니다"라는 텍스트는 인물과 출생지를 연결하여 주석 처리된다. 다음 HTML 조각은 schema.org 어휘와 위키데이터 ID를 사용하여 RDFa 구문으로 작은 그래프가 설명되는 방식을 보여준다.

```html

Paul Schuster는

Dresden에서 태어났습니다.

```

RDFa 예제에서 생성된 그래프

이 예제는 다음 5개의 삼중항을 정의한다(Turtle 구문으로 표시). 각 삼중항은 결과 그래프에서 하나의 가장자리를 나타낸다. 삼중항의 첫 번째 요소( ''주어'')는 가장자리가 시작되는 노드의 이름이고, 두 번째 요소( ''술어'')는 가장자리의 유형이며, 마지막 세 번째 요소( ''객체'')는 가장자리가 끝나는 노드의 이름 또는 리터럴 값(예: 텍스트, 숫자 등)이다.

```turtle

_:a .

_:a "Paul Schuster" .

_:a .

.

"Dresden" .

```

삼중항은 위에 표시된 그래프를 생성한다.

Uniform Resource Identifier (URI)를 사용하는 것의 장점 중 하나는 HTTP 프로토콜을 사용하여 역참조할 수 있다는 것이다. 소위 Linked Open Data 원칙에 따르면, 그러한 역참조된 URI는 주어진 URI에 대한 추가 데이터를 제공하는 문서를 생성해야 한다. 이 예제에서 가장자리와 노드(예: http://schema.org/Person^영어, http://schema.org/birthPlace^영어, http://www.wikidata.org/entity/Q1731^영어) 모두에 대한 모든 URI는 역참조될 수 있으며 URI, 예를 들어 드레스덴이 독일의 도시이거나 해당 URI의 의미에서 사람이 허구일 수 있다는 것을 설명하는 추가 RDF 그래프를 생성한다.

두 번째 그래프는 이전 예제를 보여주지만 이제 https://schema.org/Person^영어 (녹색 가장자리) 및 https://www.wikidata.org/entity/Q1731^영어 (파란색 가장자리)를 역참조하여 얻은 문서의 몇 가지 삼중항으로 보강되었다.

명시적으로 제공된 가장자리 외에도 가장자리는 자동으로 추론될 수 있다. 삼중항

```turtle

_:a .

```

원래 RDFa 조각에서 가져온 것과 삼중항

```turtle

.

```

https://schema.org/Person^영어의 문서에서 가져온 것은 (OWL 의미론이 주어진 그림에서 녹색 가장자리) 다음 삼중항을 추론할 수 있다(두 번째 그림의 빨간색 점선):

```turtle

_:a .

11. 1. 태그와 식별자

태그는 계층적 분류 및 공동으로 추가되고 유지 관리되는 태그(예: folksonomy)를 포함하여 시맨틱 웹 비전의 일부로 간주되거나, 시맨틱 웹 비전에 잠재적으로 유용하거나, 시맨틱 웹 비전으로 가는 단계가 될 수 있다.^[13]^[14]^[15]

계층적 분류 및 공동으로 추가된 고유 식별자를 포함한 분석 도구(예: scite.ai 알고리즘)^[16] 및 메타데이터는 태그를 포함하여 어느 정도 시맨틱한 웹, 즉 시맨틱 웹의 형태를 만드는 데 사용될 수 있다. 특히, OpenAlex,^[17]^[18]^[19] Wikidata 및 Scholia 프로젝트는 연구 주제 및 과학 분야별로 과학 연구를 구조화하는 데 사용되어 왔으며, 현재 개발 중이며 다양한 시맨틱 쿼리에 대한 API, 웹 페이지, 피드 및 그래프를 제공한다.

12. 한계

시맨틱 웹은 광대함, 모호성, 불확실성, 비일관성, 기만 등의 문제를 안고 있다.^[25]^[26] 자동 추론 시스템은 시맨틱 웹의 약속을 이행하기 위해 이러한 모든 문제를 처리해야 한다.

광대함: 월드 와이드 웹에는 수십억 개의 페이지가 존재한다. SNOMED CT 의료 용어 온톨로지만 해도 37만 개의 클래스 이름이 있으며, 기존 기술로는 의미적으로 중복된 모든 용어를 아직 제거할 수 없다. 모든 자동 추론 시스템은 방대한 입력을 처리해야 한다.
모호성: "어린" 또는 "키가 큰"과 같이 부정확한 개념을 의미한다. 사용자 쿼리, 콘텐츠 제공자가 나타내는 개념, 쿼리 용어를 제공자 용어와 일치시키고, 중복되지만 미묘하게 다른 개념을 가진 서로 다른 지식 베이스를 결합하려는 과정에서 모호성이 발생한다. 퍼지 논리는 모호성을 처리하는 일반적인 기술이다.
불확실성: 불확실한 값을 가진 정확한 개념이다. 예를 들어, 환자는 서로 다른 확률을 가진 여러 진단에 해당하는 증상을 나타낼 수 있다. 확률적 추론 기술은 불확실성을 해결하는 데 사용된다.
비일관성: 대규모 온톨로지를 개발하거나 별도 출처의 온톨로지를 결합할 때 발생하는 논리적 모순이다. 모순으로부터 "무엇이든 따라온다"는 원리에 따라 연역적 추론은 비일관성이 존재하면 실패한다. 반박 가능 추론과 준일관 추론은 비일관성을 처리하는 기술이다.
기만: 정보 제공자가 정보 소비자를 의도적으로 오도하는 경우이다. 암호화 기술은 이러한 위협을 완화하는 데 사용된다. 정보의 무결성을 결정하는 수단을 제공하여 정보 생산 또는 게시 주체의 신원 관련 정보를 포함해 잠재적 기만의 경우 신뢰도 문제를 해결해야 한다.

이러한 과제는 시맨틱 웹의 "통합 논리" 및 "증명" 계층에 대한 과제에 중점을 둔다. 월드 와이드 웹 컨소시엄(W3C)의 불확실성 추론을 위한 월드 와이드 웹 인큐베이터 그룹(URW3-XG) 최종 보고서는 이러한 문제를 "불확실성"이라는 단일 제목 아래에 묶고 있다.^[25]^[26] 여기서 언급된 많은 기술은 조건부 확률에 주석을 달기 위해 웹 온톨로지 언어(OWL)에 대한 확장이 필요하며, 이는 활발한 연구 분야이다.^[27]

13. 표준

W3C는 시맨틱 웹 표준화를 관리하며,^[28] RDF, RDFS, OWL, SPARQL 등을 주요 표준으로 개발하였다.

시맨틱 웹 기술 계층 구조는 다음과 같다.

URI (Uniform Resource Identifier): 웹 상의 자원을 식별하기 위한 객체의 명칭, 위치 등을 표현한다.
IRI (International Resource Identifier with UNICODE)
XML: 메타 정보 표현 언어인 XML, XML 상에서의 동일한 요소나 속성을 구분하기 위해 쓰이는 이름인 Namespace, XML 문서의 마크업 방식에 대한 정의인 XML Schema 등과 같은 다양한 표준을 의미한다.
RDF: 정보 자원이나 자원의 구조를 표현하는 언어이다.
RDFS: RDF의 Schema 정보로 경량의 온톨로지를 표현한다.
SPARQL: RDF 질의를 위한 언어이다.
RIF: 규칙의 정의와 교환을 위한 계층이다.
OWL: 특정 도메인에 대한 공유되는 일반적인 이해와 개념, 개념과의 관계를 표현하기 위한 언어이다.
로직(Logic): 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능 등을 의미한다.
증거 / 신뢰(Proof / Trust): 웹의 정보에 대한 신뢰를 말한다.

잘 정립된 표준은 다음과 같다.^[28]

RDF
RDFS
RIF
SPARQL
유니코드
URI
OWL
XML

아직 완전히 실현되지 않은 표준은 다음과 같다.

논리 및 증명 계층 통합
SWRL

14. 관련 활동

INRIA-소피아-앙티폴리스의 ACACIA 팀은 2002년 설립되어 기업 시맨틱 웹에 초점을 맞춘 연구를 진행한 최초의 연구 그룹이었다.^[50] 이들의 연구는 RDF(S) 기반의 Corese 검색 엔진 개발과 지식 관리(예: 기업 시맨틱 웹을 위한 온톨로지 및 다중 에이전트 시스템)^[51], E-러닝 분야에 시맨틱 웹 기술을 적용하는 것을 포함한다.^[52]

2008년부터 자유 베를린 대학교의 기업 시맨틱 웹 연구 그룹은 기업 시맨틱 검색, 기업 시맨틱 협업 및 기업 온톨로지 엔지니어링과 같은 구성 요소에 중점을 두고 연구를 진행하고 있다.^[53]

온톨로지 엔지니어링 연구는 온톨로지 및 의미적으로 주석이 달린 콘텐츠를 생성하고, 기업 내 사용자 상호 작용에서 명시적 지식을 추출하는 데 비전문 사용자를 참여시키는 방법에 대한 질문을 포함한다.^[54]

15. Web 3.0과의 관계

팀 버너스 리는 시맨틱 웹을 웹 3.0의 구성 요소로 묘사했다.^[20]

팀 버너스 리/Tim Berners-Lee^영어는 확장 가능한 벡터 그래픽스(scalable vector graphics) 오버레이가 있고, 모든 것이 물결치고 접히고 흐릿하게 보이며, 웹 2.0 위에 거대한 데이터 공간 전체에 통합된 시맨틱 웹에 접근할 수 있을 때, 믿을 수 없는 데이터 자원에 접근할 수 있을 것이라고 생각했다.^[61]

"시맨틱 웹"은 때때로 "웹 3.0"과 동의어로 사용되지만, 각 용어의 정의는 다양하다.^[21] 버너스 리의 이론에 따르면, 현재 세대의 웹 2.0까지의 웹은 아직 "문서의 망"이며, 다음은 "데이터의 망"을 구현하는 것이 과제이다. 이것은 Web 2.0 상의 모든 SVG의 관계성과 대량의 횡단적 데이터가 통합된 시맨틱 웹에 접근할 수 있을 때 실현이 가능할 것이라고 한다.^[61]

참조

_[1] 웹사이트 Semantic Web at W3C https://www.w3.org/s[...]
_[2] 웹사이트 World Wide Web Consortium (W3C), "RDF/XML Syntax Specification (Revised)", 25 Feb. 2014. http://www.w3.org/TR[...]
_[3] 웹사이트 World Wide Web Consortium (W3C), "OWL Web Ontology Language Overview", W3C Recommendation, 10 Feb. 2004. http://www.w3.org/TR[...]
_[4] 논문 The MOUSE approach: Mapping Ontologies using UML for System Engineers https://purkh.com/in[...] 2018
_[5] 뉴스 Q&A with Tim Berners-Lee, Special Report https://www.bloomber[...] 2018-04-14
_[6] 간행물 The Semantic Web in Action http://www.thefigtre[...] 2010-02-24
_[7] 서적 Weaving the Web HarperSanFrancisco
_[8] 간행물 The Semantic Web https://web.archive.[...] 2008-03-13
_[9] 웹사이트 The Semantic Web Revisited https://web.archive.[...] 2007-04-13
_[10] 웹사이트 Light at the End of the Tunnel http://iswc2013.sema[...] 2015-03-08
_[11] 서적 Microformats: Empowering Your Markup for Web 2.0 https://archive.org/[...] Friends of ED 2007-03
_[12] 문서 Querying the Semantic Web: An Efficient Approach Using Relational Databases LAP Lambert Academic Publishing 2009
_[13] 웹사이트 Towards the Semantic Web: Collaborative Tag Suggestions https://www.ambuehle[...]
_[14] 서적 The Semantic Web: Research and Applications Springer 2007
_[15] 웹사이트 Bridging the gap between folksonomies and the semantic web: an experience report http://oro.open.ac.u[...]
_[16] 논문 scite: A smart citation index that displays the context of citations and classifies their intent using deep learning 2021-11-05
_[17] 뉴스 Massive open index of scholarly papers launches https://www.nature.c[...] 2022-02-14
_[18] 뉴스 OpenAlex: The Promising Alternative to Microsoft Academic Graph https://library.smu.[...] 2022-02-14
_[19] 웹사이트 OpenAlex Documentation https://docs.openale[...] 2022-02-18
_[20] 뉴스 A 'more revolutionary' Web https://www.nytimes.[...] 2006-06-26
_[21] 웹사이트 Web 3.0 Explained, Plus the History of Web 1.0 and 2.0 https://www.investop[...] 2022-10-21
_[22] 문서 https://www.rsisinte[...]
_[23] 문서 Concept and dimensions of web 4.0 2017
_[24] 웹사이트 The Commission wants the EU to lead on 'Web 4.0' — whatever that is https://www.politico[...] 2023-07-11
_[25] 웹사이트 W3C Uncertainty Reasoning for the World Wide Web https://www.w3.org/2[...] 2021-05-14
_[26] 웹사이트 Uncertainty Reasoning for the World Wide Web http://www.w3.org/20[...] 2018-12-20
_[27] 논문 Managing uncertainty and vagueness in description logics for the Semantic Web http://faure.isti.cn[...]
_[28] 웹사이트 Semantic Web Standards http://www.w3.org/20[...] 2018-04-14
_[29] 웹사이트 OWL Web Ontology Language Overview http://www.w3.org/TR[...] World Wide Web Consortium (W3C) 2011-11-26
_[30] 웹사이트 Resource Description Framework (RDF) http://www.w3.org/RD[...] World Wide Web Consortium
_[31] 서적 Semantic Web for the Working Ontologist : Effective Modeling for Linked Data, RDFS, and OWL ACM Books; 3rd edition 2020-08-03
_[32] 웹사이트 ConverterToRdf - W3C Wiki https://www.w3.org/w[...] 2018-12-20
_[33] 서적 Mastering Structured Data on the Semantic Web: From HTML5 Microdata to Linked Open Data Apress
_[34] 논문 Investigating Expectations for Voice-based and Conversational Argument Search on the Web ACM 2020-03-14
_[35] 논문 L'impossibile necessità delle piattaforme sociali decentralizzate 2018-06-30
_[36] 간행물 Sketching the vision of the Web of Debates 2023
_[37] 간행물 A Review of Argumentation for the Social Semantic Web https://www.semantic[...]
_[38] 서적 Geospatial Semantic Web Springer International Publishing : Imprint: Springer 2015
_[39] 문서 Exploiting semantic annotations in information retrieval: ESAIR '08 2008-06
_[40] 문서 Report on the third workshop on exploiting semantic annotations in information retrieval (ESAIR) 2011-05
_[41] 문서 Fifth workshop on exploiting semantic annotations in information retrieval: ESAIR '12) ACM, New York, NY, USA 2012
_[42] 문서 Report on the Seventh Workshop on Exploiting Semantic Annotations in Information Retrieval (ESAIR '14) 2015-06
_[43] 간행물 Understanding and Adopting Semantic Web Technology http://www.cutter.co[...] CUTTER INFORMATION CORP. 2009-09
_[44] conference Which semantic web? http://www.csdl.tamu[...] 2015-04-17
_[45] conference State of the Semantic Web http://www.w3.org/20[...] 2007-07-26
_[46] 웹사이트 Metacrap: Putting the torch to seven straw-men of the meta-utopia https://people.well.[...] 2023-09-11
_[47] 서적 How to make the Semantic Web more semantic IOS Press
_[48] 간행물 Simulating processes of concept formation and communication
_[49] 웹사이트 Policy Aware Web Project http://www.policyawa[...] Policyawareweb.org 2013-06-14
_[50] 간행물 Searching the Semantic Web: Approximate Query Processing based on Ontologies https://hal.inria.fr[...]
_[51] phdthesis Distributed Artificial Intelligence And Knowledge Management: Ontologies And Multi-Agent Systems For A Corporate Semantic Web https://tel.archives[...] Université Nice Sophia Antipolis 2002-11-07
_[52] conference Towards a Corporate Semantic Web Approach in Designing Learning Systems: Review of the Trial Solutioins Project http://www-sop.inria[...]
_[53] 웹사이트 Corporate Semantic Web - Home http://www.corporate[...] 2018-04-14
_[54] conference Semantic Enrichment by Non-Experts: Usability of Manual Annotation Tools http://iswc2012.sema[...]
_[55] 뉴스 Spread the word, and join it up https://www.theguard[...] The Guardian 2018-04-14
_[56] 웹사이트 The Semantic Web, Collective Intelligence and Hyperdata https://novaspivack.[...] 2018-04-14
_[57] 잡지 The Semantic Web https://www.scientif[...] 2019-07-02
_[58] 웹사이트 W3C Semantic Web Activity http://www.w3.org/20[...] World Wide Web Consortium (W3C) 2011-11-26
_[59] 문서 OWL Web Ontology Language Overview https://www.w3.org/T[...]
_[60] 웹사이트 Introduction to Structured Data https://developers.g[...] 2017-03-25
_[61] 뉴스 A 'more revolutionary' Web 2006-05-23
_[62] 문서 W3C 2007

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com