그래프 데이터베이스

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

그래프 데이터베이스는 그래프 이론에 기반하여 노드, 엣지, 프로퍼티를 사용하여 데이터를 표현하고 저장하는 데이터베이스의 한 유형이다. 1960년대 내비게이셔널 데이터베이스에서 기원하여, 1980년대 논리 데이터 모델에서 그래프 라벨링을 지원하기 시작했다. 2000년대 이후 Neo4j, 오라클 스페셜 앤드 그래프와 같은 상용 ACID 그래프 데이터베이스가 등장했으며, 2010년대에는 수직 스케일링이 가능한 상용 ACID 그래프 데이터베이스가 등장했다. 그래프 데이터베이스는 소셜 네트워크, 추천 시스템, 사물 인터넷 등 다양한 분야에서 활용되며, 관계형 데이터베이스에 비해 복잡한 관계를 효율적으로 처리하는 장점을 가진다.

그래프 데이터베이스

이미지 준비중입니다.

그래프 데이터베이스 스키마

유형	데이터베이스 관리 시스템
데이터 모델	그래프
개발자	Neo4j Amazon JanusGraph TigerGraph OrientDB

특징

일반적인 사용 사례	소셜 네트워크 분석 추천 시스템 지식 그래프 사기 탐지 데이터 통합
쿼리 언어	Cypher GraphQL SPARQL Gremlin

추가 정보

관련 주제	NoSQL 데이터 모델링 데이터베이스 모델 그래프 이론 관계형 데이터베이스

📚 더 읽어볼만한 페이지

그래프 데이터베이스 - 사이퍼 (질의어)
사이퍼는 그래프 데이터베이스의 데이터를 쿼리하고 조작하는 선언적 질의 언어로, 노드, 관계, 레이블, 프로퍼티 기반의 그래프 모델을 사용하며 `MATCH`, `WHERE`, `RETURN` 등의 키워드로 데이터를 검색, 생성, 수정, 삭제하고 국제 표준 그래프 질의어(GQL) 표준에 영향을 주어 오픈사이퍼 프로젝트를 통해 표준화가 진행 중이다.
그래프 데이터베이스 - Neo4j
Neo4j는 Neo4j, Inc.에서 개발한 그래프 데이터베이스 관리 시스템으로, 노드, 엣지, 속성으로 이루어진 데이터 모델을 사용하며 Cypher 쿼리 언어를 통해 데이터에 접근하고 관리한다.
데이터베이스 모델 - 플랫 파일 데이터베이스
플랫 파일 데이터베이스는 각 줄에 레코드를 기록하고 구분자로 필드를 구분하는 단순한 형태이지만, 데이터 중복, 대용량 처리의 어려움, 보안 취약성 등의 한계로 특정 용도로만 활용된다.
데이터베이스 모델 - 네트워크 모델
네트워크 모델은 찰스 바크만이 발명하고 CODASYL 컨소시엄에 의해 표준 사양으로 개발된 데이터베이스 모델이며, 바흐만 다이어그램으로 표현되고 IDS, IDMS, IMAGE 등 다양한 시스템에서 구현되었다.

1. 개요
2. 역사
3. 배경
- 3.1. 구성 요소
- 3.2. 그래프 모델
4. 특징
5. 활용 분야
6. 그래프 데이터베이스 목록
7. 그래프 질의/프로그래밍 언어

2. 역사

그래프 데이터베이스는 1960년대부터 현재까지 여러 단계를 거쳐 발전해 왔다. 1960년대에는 IMS과 같은 내비게이셔널 데이터베이스의 계층형 모델에서 트리 구조를 지원했지만, 가상 레코드로 우회해야 하는 제약이 있었다. 1960년대 후반 CODASYL은 네트워크 데이터베이스 언어를 정의하여 그래프 구조 표현을 가능하게 했다. 1980년대에는 그래프 라벨링을 지원하는 그래프 데이터베이스가 등장했다. 1990년대에는 웹 페이지 색인화 노력과 함께 발전이 가속화되었다. 2000년대 이후 Neo4j, 오라클 스페셜 앤드 그래프와 같은 상용 ACID 그래프 데이터베이스가 출시되었고, 2010년대에는 SAP HANA의 인메모리 및 컬럼화 기술 도입, OrientDB, ArangoDB, 마크로직 등의 멀티 모델 데이터베이스 등장, 소셜 네트워크 분석에서의 활용 증가, 아마존 넵튠 및 Neo4j AuraDB와 같은 클라우드 컴퓨팅 기반 그래프 데이터베이스 출시 등 다양한 기술 발전이 이루어졌다. 한국에서는 비트나인이 2017년 AgensGraph v.1.0을 출시하며 그래프 데이터베이스 연구 개발을 이끌고 있다.

2.1. 초기 발전 (1960년대 ~ 1990년대)

그래프 데이터베이스의 초기 발전은 1960년대 중반 IBM의 IMS과 같은 내비게이셔널 데이터베이스에서 시작되었다. IMS는 계층형 모델에서 트리 계열 구조를 지원했지만, 엄격한 트리 구조는 가상 레코드를 통해 우회할 수 있었다.

1960년대 말, CODASYL이 1959년 코볼을 정의한 데 이어, 1969년에는 네트워크 데이터베이스 언어를 정의하면서 네트워크 모델 데이터베이스에서 그래프 구조를 표현하는 것이 가능해졌다.

1980년대 중반에는 논리 데이터 모델(Logical Data Model) 등에서 그래프 라벨링을 지원하는 그래프 데이터베이스가 나타났다.

1990년대 초, 그래프 데이터베이스는 여러 개선을 겪었으며, 1990년대 말 웹 페이지 색인화 작업과 함께 발전이 가속화되었다.

2.2. 상용화 및 발전 (2000년대 ~ 현재)

2000년대 중후반에는 Neo4j, 오라클 스페셜 앤드 그래프와 같은 상용 ACID 그래프 데이터베이스가 출시되었다.

2010년대에는 수직 스케일링이 가능한 상용 ACID 그래프 데이터베이스가 출시되었다. SAP HANA는 그래프 데이터베이스에 인메모리와 컬럼화 기술을 도입하였다. OrientDB, ArangoDB, 마크로직(7.0 버전부터) 등은 그래프 모델 및 관계형 데이터베이스나 도큐먼트 지향 데이터베이스와 같은 다른 모델을 지원하는 멀티 모델 데이터베이스이다. 이 기간 동안 다양한 유형의 그래프 데이터베이스는 소셜 네트워크 분석에서 특히 인기를 얻었는데, 이는 소셜 미디어 회사의 출현과 관련이 있다. 또한 이 10년 동안에는 아마존 넵튠 및 Neo4j AuraDB와 같은 클라우드 컴퓨팅 기반 그래프 데이터베이스가 출시되었다.

한국의 그래프 데이터베이스 연구 개발 전문 기업으로는 비트나인이 있으며, 2017년 1월 AgensGraph v.1.0을 출시하였다.

2.3. 한국의 그래프 데이터베이스

비트나인은 한국의 그래프 데이터베이스 연구 개발 전문 기업으로, 2017년 1월 AgensGraph v.1.0을 출시하였다.

3. 배경

그래프 데이터베이스는 데이터를 노드, 엣지(관계), 프로퍼티로 묘사하며, 이는 그래프 이론에 기반한다. 이러한 방식은 데이터를 개념적으로 보이는 그대로 표현한다.

* 노드(node): 사람, 기업, 계정 등 추적 대상이 되는 실체를 나타낸다. 관계형 데이터베이스의 레코드, 관계, 로우, 도큐먼트 데이터베이스의 도큐먼트와 유사하다.
* 엣지(edge): '그래프' 또는 '관계'라고도 하며, 노드를 다른 노드에 연결하는 선으로, 노드 간의 관계를 나타낸다. 엣지는 방향성이 있거나 없을 수 있으며, 관계형 모델이나 문서 저장소 모델에서는 직접 구현되지 않는 추상적인 개념이다.
* 프로퍼티(property): 노드와 관련된 정보이다. 예를 들어, '위키백과'가 노드라면, '웹사이트', '참고 문헌' 등의 프로퍼티에 연결될 수 있다.

3.1. 구성 요소

그래프 데이터베이스는 그래프 이론에 기반을 두며 노드, 엣지(edge), 프로퍼티를 갖추고 있다.

* 노드는 사람, 기업, 계정 또는 추적할 다른 항목과 같은 엔티티 또는 인스턴스를 나타낸다. 이는 관계형 데이터베이스의 레코드, 관계 또는 행 또는 문서 저장소 데이터베이스의 문서와 거의 같다.
* 에지는 노드를 다른 노드에 연결하는 선으로, 노드 간의 관계를 나타내며, 그래프 또는 관계라고도 한다. 노드, 속성 및 에지의 연결과 상호 연결을 검사할 때 의미 있는 패턴이 나타난다. 에지는 방향성이 있거나 방향성이 없을 수 있다. 무방향 그래프에서 두 노드를 연결하는 에지는 단일 의미를 갖는다. 방향 그래프에서 두 개의 서로 다른 노드를 연결하는 에지는 방향에 따라 서로 다른 의미를 갖는다. 에지는 관계형 모델 또는 문서 저장소 모델에서 직접 구현되지 않는 추상화를 나타내는 그래프 데이터베이스의 핵심 개념이다.
* 속성은 노드와 관련된 정보이다. 예를 들어, 위키백과가 노드 중 하나인 경우, 주어진 데이터베이스에 위키백과의 어떤 측면이 관련되어 있는지에 따라 웹사이트, 참고 자료 또는 w로 시작하는 단어와 같은 속성에 연결될 수 있다.

3.2. 그래프 모델

그래프 데이터베이스는 그래프 이론에 기반을 두며 노드, 엣지(edge), 프로퍼티를 갖추고 있다.

* 노드(node): 추적 대상이 되는 사람, 기업, 계정 등 의 실체를 대표한다. 관계형 데이터베이스의 레코드, 관계, 로우, 도큐먼트 데이터베이스의 도큐먼트와 개념이 거의 동등하다.
* 엣지(edge): 그래프(graph)나 관계(relationship)이라고도 하며 노드를 다른 노드에 연결하는 선이며 관계를 표현한다.
* 프로퍼티(property): 노드의 정보와 밀접한 관련이 있다. 이를테면 위키백과가 노드 중에 하나라면 위키백과의 어떠한 관점이 주어진 데이터베이스에 밀접한 관련이 있느냐에 따라 웹사이트, 참고 문헌, w로 시작하는 낱말과 같은 프로퍼티에 묶여있을 수 있다.

그래프 데이터베이스는 데이터를 개념적으로 보이는 대로 묘사한다. 이는 데이터를 노드로, 관계를 에지로 변환하여 수행된다.

Labeled-property graph 모델은 노드, 관계, 속성 및 레이블 집합으로 표현된다. 데이터 노드와 해당 관계 모두 이름이 지정되며 키-값 쌍으로 표현되는 속성을 저장할 수 있다. 노드는 그룹화하기 위해 레이블을 지정할 수 있다. 관계를 나타내는 엣지(edge, 변)는 두 가지 특징을 갖는다. 항상 시작 노드와 종료 노드가 있고 방향성을 가집니다. 이는 그래프를 유향 그래프로 만듭니다. 관계에도 속성이 있을 수 있다. 이는 노드 간의 관계에 추가적인 메타데이터와 의미를 제공하는 데 유용하다. 관계를 직접 저장하면 상수 시간의 그래프 순회가 가능하다.

RDF 그래프 모델에서, 정보의 각 추가는 별도의 노드로 표현된다. 예를 들어, 사용자가 그래프에서 별개의 노드로 표현된 사람에 대한 이름 속성을 추가해야 하는 시나리오를 상상해 보자. 레이블이 지정된 속성 그래프 모델에서는, 사람의 노드에 이름 속성을 추가하여 이 작업을 수행한다. 그러나 RDF에서는 `hasName`이라는 별도의 노드를 추가하여 원래의 사람 노드에 연결해야 한다. 구체적으로, RDF 그래프 모델은 노드와 아크로 구성된다. RDF 그래프 표기법 또는 문장은 다음과 같이 표현된다. 주어에 대한 노드, 객체에 대한 노드, 그리고 술어에 대한 아크. 노드는 비어 있을 수 있으며, 리터럴이거나, URI로 식별될 수 있다. 아크도 URI로 식별될 수 있다. 노드에 대한 리터럴은 일반(유형 없음)과 유형의 두 가지 유형이 있을 수 있다. 일반 리터럴은 어휘 형태와 선택적으로 언어 태그를 갖는다. 유형 리터럴은 특정 데이터 유형을 식별하는 URI가 있는 문자열로 구성된다. 데이터에 URI가 없는 경우, 빈 노드를 사용하여 데이터의 상태를 정확하게 나타낼 수 있다.

4. 특징

그래프 데이터베이스는 그래프와 유사한 쿼리에 강력한 도구이다. 예를 들어, 그래프에서 두 노드 사이의 최단 경로를 계산하는 것이 가능하다. 그래프의 지름 계산이나 커뮤니티 감지와 같은 다른 그래프 유사 쿼리도 그래프 데이터베이스에서 자연스럽게 수행할 수 있다.

그래프는 유연하여 사용자가 애플리케이션 기능 손실 없이 기존 그래프에 새로운 데이터를 삽입할 수 있다. 따라서 데이터베이스 설계자는 데이터베이스의 미래 사용 사례에 대한 광범위한 세부 계획을 세울 필요가 없다.

관계형 데이터베이스와 비교하면, 그래프 데이터베이스는 연관 데이터 세트에 대해 더 빠른 경우가 많으며, 객체 지향 프로그래밍 애플리케이션의 구조에 더 직접적으로 매핑된다. 일반적으로 비용이 많이 들 수 있는 조인 연산이 필요하지 않기 때문에 대규모 데이터 세트로 보다 자연스럽게 확장될 수 있다. 또한, 엄격한 스키마에 덜 의존하므로, 임시 데이터와 진화하는 스키마로 변화하는 데이터를 관리하는 데 더 적합하다.

반대로, 관계형 데이터베이스 관리 시스템은 일반적으로 대량의 데이터 요소를 대상으로 동일한 작업을 수행하는 속도가 더 빠르며, 데이터의 자연스러운 구조 내에서 데이터를 조작할 수 있다. 그래프 데이터베이스의 장점과 관계형 데이터베이스에 대한 최근의 인기에도 불구하고, 기존 관계형 데이터베이스를 교체하는 유일한 이유로 그래프 모델 자체를 사용하는 것은 권장되지 않는다. 그래프 데이터베이스는 성능 향상 및 대기 시간 감소의 증거가 있을 경우에 유용할 수 있다.

4.1. 성능

그래프 데이터베이스는 그래프와 유사한 쿼리에 강력한 도구이다. 예를 들어, 그래프에서 두 노드 사이의 최단 경로를 계산하는 것이 있다. 그래프의 지름 계산 또는 커뮤니티 감지와 같은 다른 그래프 유사 쿼리도 그래프 데이터베이스에서 자연스러운 방식으로 수행할 수 있다.

데이터 조회 성능은 특정 노드에서 다른 노드로의 접근 속도에 따라 달라진다. 색인이 없는 인접성은 노드가 직접적인 물리적 RAM 주소를 가지도록 강제하고 다른 인접 노드를 물리적으로 가리키도록 하므로 빠른 검색이 가능하다. 색인이 없는 인접성을 가진 네이티브 그래프 시스템은 노드 간의 링크를 찾기 위해 다른 유형의 데이터 구조를 거칠 필요가 없다. 그래프에서 직접 관련된 노드는 사용자가 노드를 처음 가져올 때보다 데이터 조회가 훨씬 더 빨라지도록, 노드 중 하나를 검색하면 캐시에 저장된다. 그러나 이러한 장점에는 비용이 따르는데, 색인이 없는 인접성은 그래프 순회를 사용하지 않는 쿼리의 효율성을 희생한다. 네이티브 그래프 데이터베이스는 색인이 없는 인접성을 사용하여 저장된 데이터에 대한 CRUD 작업을 처리한다.

4.2. 유연성

그래프 데이터베이스는 유연성을 제공하여 사용자가 애플리케이션의 기능을 잃지 않고 기존 그래프에 새로운 데이터를 추가할 수 있도록 한다. 따라서 데이터베이스 설계자는 데이터베이스의 미래 사용 사례에 대해 광범위하게 세부 계획을 세울 필요가 없다.

4.3. 관계형 데이터베이스와의 비교

에드거 F. 코드가 1970년에 발표한 관계형 모델에 대한 논문 이후, 관계형 데이터베이스는 대규모 데이터 저장 시스템의 사실상 업계 표준이 되었다. 관계형 모델은 엄격한 스키마와 데이터 정규화를 통해 데이터를 여러 테이블로 분리하고 데이터베이스 내의 중복을 제거한다. 데이터는 데이터 일관성을 유지하고 ACID 트랜잭션을 지원하기 위해 정규화되지만, 관계를 쿼리하는 방식에는 제한이 있다.

관계형 모델의 설계 동기 중 하나는 빠른 행 단위 액세스였다. 저장된 데이터 간에 복잡한 관계를 형성해야 할 때 문제가 발생한다. 관계형 모델로 관계를 분석할 수 있지만, 여러 테이블의 여러 속성에 대해 많은 조인 연산을 수행하는 복잡한 쿼리가 필요하다. 관계형 모델 작업 시에는 관계를 검색할 때 외래 키 제약 조건도 고려해야 하므로 추가적인 오버헤드가 발생한다.

관계형 데이터베이스와 비교하면, 그래프 데이터베이스는 연관 데이터 세트에 대해 더 빠른 경우가 많으며, 객체 지향 프로그래밍 애플리케이션의 구조에 더 직접적으로 매핑된다. 일반적으로 비용이 많이 들 수 있는 조인 연산이 필요하지 않기 때문에 대규모 데이터 세트로 보다 자연스럽게 확장될 수 있다. 또한, 엄격한 스키마에 덜 의존하므로, 임시 데이터와 진화하는 스키마로 변화하는 데이터를 관리하는 데 더 적합하다.

반대로, 관계형 데이터베이스 관리 시스템은 일반적으로 대량의 데이터 요소를 대상으로 동일한 작업을 수행하는 속도가 더 빠르며, 데이터의 자연스러운 구조 내에서 데이터를 조작할 수 있다. 그래프 데이터베이스의 장점과 관계형 데이터베이스에 대한 최근의 인기에도 불구하고, 기존 관계형 데이터베이스를 교체하는 유일한 이유로 그래프 모델 자체를 사용하는 것은 권장되지 않는다. 그래프 데이터베이스는 성능이 수 배 향상되고 대기 시간이 감소하는 증거가 있을 경우에 유용할 수 있다.

관계형 모델은 데이터 내의 정보를 사용하여 데이터를 함께 모은다. 예를 들어, 전화번호에 지역 번호 "311"이 포함된 모든 "사용자"를 찾을 수 있는데, 이는 선택된 데이터 저장소(테이블)를 검색하여, 선택된 전화번호 필드에서 문자열 "311"을 찾는 방식으로 수행된다. 이는 대용량 테이블에서 시간이 오래 걸릴 수 있으므로 관계형 데이터베이스는 인덱스를 제공한다. 일반적으로 테이블은 키를 통해 매우 빠르게 조회가 가능하도록 저장된다.

관계형 데이터베이스는 레코드 간의 고정된 관계를 본질적으로 포함하지 않는다. 대신, 관련 데이터는 한 레코드의 고유 키를 다른 레코드의 데이터에 저장하여 서로 연결된다. 이러한 작업을 조인이라고 하며, 계산 비용이 많이 들 수 있다. 쿼리의 복잡성, 조인 수 및 다양한 키의 인덱싱에 따라 시스템은 여러 테이블과 인덱스를 검색한 다음 모든 것을 정렬하여 일치시켜야 할 수 있다.

반면에 그래프 데이터베이스는 레코드 간의 관계를 직접 저장한다. 이를 통해 비용이 많이 드는 조인 작업을 제거할 수 있다. 예를 들어, 지역 번호 "311"의 사용자에 대한 모든 이메일 주소를 검색하는 경우, 엔진은 먼저 기존 검색을 수행하여 "311"의 사용자를 찾은 다음, 해당 레코드에서 발견된 링크를 따라 이메일 주소를 검색한다. 관계형 데이터베이스는 먼저 "311"의 모든 사용자를 찾고, 기본 키 목록을 추출하고, 해당 기본 키가 있는 이메일 테이블의 모든 레코드에 대해 다른 검색을 수행하고, 일치하는 레코드를 함께 연결한다. 이러한 유형의 일반적인 작업의 경우 그래프 데이터베이스가 이론적으로 더 빠르다.

그래프 접근 방식의 진정한 가치는 하나 이상의 수준 깊이의 검색을 수행할 때 분명해진다. 예를 들어, "311" 지역 번호에 "구독자"(사용자를 다른 사용자에 연결하는 테이블)가 있는 사용자를 검색하는 경우를 보자. 관계형 데이터베이스는 여러 번의 검색과 조회를 통해 결과를 얻지만, 그래프 데이터베이스는 "311"의 모든 사용자를 검색한 다음, 구독자 관계를 통해 백링크를 따라 구독자 사용자를 찾아, 여러 검색, 조회 및 출력을 구성하는 데 필요한 메모리 사용량을 방지할 수 있다. 빅 오 표기법으로 표현하면, 이 쿼리는 $O(\log n) + O(1)$ 시간이 된다. 즉, 데이터 크기의 로그에 비례한다. 반면에 관계형 버전은 여러 $O(\log n)$ 조회와 모든 데이터 레코드를 조인하는 데 필요한 $O(n)$ 시간이 소요된다.

그래프 검색의 상대적 이점은 쿼리의 복잡성이 증가함에 따라 커진다. 복잡한 관계를 찾는 예시로, "그 영화에 출연했던 배우가, 바람과 함께 사라지다에서 주연을 맡았던 그 다른 배우와 함께 출연했던 잠수함에 관한 그 영화"를 찾는 경우를 보자. 관계형 데이터베이스에서는 여러 테이블을 통해 복수 번의 검색을 수행하고 결과를 비교해야 하지만, 그래프 데이터베이스는 바람과 함께 사라지다에서 클라크 게이블로 이동하여 그가 출연했던 영화에 대한 링크를 수집하고, 그 영화에서 다른 배우로의 링크를 수집한 다음, 해당 배우에서 다시 영화 목록으로의 링크를 따라가는 방식으로 한 번의 검색으로 수행이 가능하다.

속성은 모든 레코드 또는 엣지에 적용할 수 있는 레이블로, 이 구조에 또 다른 추상화 계층을 추가하여 많은 일반적인 쿼리를 개선한다. 예를 들어, 클라크 게이블을 "배우"로 레이블링하여 배우인 모든 레코드를 빠르게 찾을 수 있다. 엣지에 레이블을 허용하는 경우, 바람과 함께 사라지다와 클라크 게이블 간의 관계를 "주연"으로 레이블링하여, "주연" "배우"를 검색하여 비비안 리, 올리비아 드 하빌랜드 및 클라크 게이블을 찾을 수도 있다. 이러한 종류의 레이블은 특정 상황에서 검색 성능을 향상시킬 수 있지만, 일반적으로 최종 사용자에게 추가적인 의미론적 데이터를 제공하는 데 더 유용하다.

관계형 데이터베이스는 데이터 간의 관계가 1~2단계 깊이인 플랫 데이터 레이아웃에 매우 적합하다. 그래프 데이터베이스는 더 많은 링크를 포함하는 데이터 세트를 대상으로 하며, 특히 "친구" 관계가 본질적으로 무제한인 소셜 네트워킹 시스템에 적합하다. 이러한 속성으로 인해 그래프 데이터베이스는 온라인 시스템과 빅 데이터 환경에서 점점 더 흔해지는 유형의 검색에 자연스럽게 적합하다. 이러한 이유로 그래프 데이터베이스는 페이스북, 구글, 트위터 및 레코드 간의 깊은 링크가 있는 유사한 대규모 온라인 시스템에 매우 인기가 있다.

두 개의 테이블, 즉 people 테이블(person_id 및 person_name 열)과 friend 테이블(friend_id 및 person_id, 즉 people 테이블의 외래 키)을 가지는 관계형 모델을 통해 잭의 모든 친구를 검색하는 SQL 쿼리는 다음과 같다.

SELECT p2.person_name
FROM people p1
JOIN friend ON (p1.person_id = friend.person_id)
JOIN people p2 ON (p2.person_id = friend.friend_id)
WHERE p1.person_name = 'Jack';

동일한 쿼리를 그래프 데이터베이스 쿼리 언어인 사이퍼를 통해 다음과 같이 변환할 수 있다.

MATCH (p1:person {name: 'Jack'})-[:FRIEND_WITH]-(p2:person)
RETURN p2.name

W3C에서 표준화하고 여러 RDF 트리플 및 쿼드 스토어에서 사용되는 RDF 그래프 데이터베이스 쿼리 언어인 SPARQL을 사용하면 다음과 같다.

* 장문 형식

PREFIX foaf:

SELECT ?name
WHERE { ?s a foaf:Person .
?s foaf:name "Jack" .
?s foaf:knows ?o .
?o foaf:name ?name .
}

* 단문 형식

PREFIX foaf:

SELECT ?name
WHERE { ?s foaf:name "Jack" ;
foaf:knows ?o .
?o foaf:name ?name .
}

SQL을 SPARQL로 확장한 하이브리드 데이터베이스 쿼리 언어인 SPASQL을 사용하면 다음과 같다.

SELECT people.name
FROM (
SPARQL PREFIX foaf:
SELECT ?name
WHERE { ?s foaf:name "Jack" ;
foaf:knows ?o .
?o foaf:name ?name .
}
) AS people ;

위의 예는 기본 관계 쿼리의 간단한 예시이다. 이는 전체 데이터 양에 따라 증가하는 관계형 모델의 쿼리 복잡성에 대한 아이디어를 압축한다. 이에 비해 그래프 데이터베이스 쿼리는 관계 그래프를 쉽게 정렬하여 결과를 표시할 수 있다.

그래프 데이터베이스의 단순하고 압축적이며 선언적인 쿼리가 관계형 데이터베이스에 비해 반드시 좋은 성능을 제공하지는 않는다는 결과도 있다. 그래프 데이터베이스는 데이터의 직관적인 표현을 제공하지만, 관계형 데이터베이스는 집합 연산이 필요할 때 더 나은 결과를 제공한다.

5. 활용 분야

가트너는 그래프의 다섯 가지 광범위한 범주를 제안한다.

* 소셜 그래프: 페이스북, 트위터 등 사람들 간의 관계를 다루며, 6단계 분리 이론 개념과 관련이 있다.
* 의도 그래프: 추론과 동기를 다룬다.
* 소비 그래프: "결제 그래프"라고도 불리며, 소매 산업에서 널리 사용된다. 아마존, 이베이, 월마트와 같은 전자 상거래 기업은 소비 그래프를 이용하여 개별 고객의 소비를 추적한다.
* 관심 그래프: 개인의 관심사를 매핑하며, 종종 소셜 그래프로 보완된다. 관심사별로 웹을 매핑하여 웹 조직의 이전 혁명을 따를 잠재력을 가지고 있다.
* 모바일 그래프: 모바일 데이터에서 구축된다. 미래의 모바일 데이터에는 웹, 애플리케이션, 디지털 지갑, GPS 및 사물 인터넷 (IoT) 장치의 데이터가 포함될 수 있다.

6. 그래프 데이터베이스 목록

다음은 저명한 그래프 데이터베이스 목록이다.

👆

좌우로 밀어서 보기

이름	버전	라이선스	언어
[https://bitnine.net AgensGraph]	2.5 (2021년 10월)	커뮤니티 에디션은 아파치 2 / 엔터프라이즈 에디션은 상용	C, 자바, Javascript, 파이썬
AllegroGraph	6.4.5 (2018년 11월)	사유, 클라이언트: 이클립스 공용 허가서 v1	C#, C, 커먼 리스프, 자바, 파이썬
ArangoDB	3.3.11 (2018년 6월)	아파치 2	C++, 자바스크립트
Blazegraph	2.1 (2016년 4월)	상용 또는 GPLv2 (평가용)	자바
Cayley	0.7.5 (2018년 11월)	아파치 2	Go
Dgraph	1.0.11 (2018년 12월)	AGPLv3 (서버용), 아파치 2 (클라이언트용)	Go
DataStax Enterprise Graph	v6.0.1 (2018년 6월)	사유	자바
Sparksee	5.2.0 (2015)	사유, 상용, 프리웨어 (평가, 연구, 개발용)	C++
GraphBase	1.0.03b	사유, 상용	자바
gStore	0.4.1 (2017년 3월)	BSD 허가서	C++
InfiniteGraph	3.0 (2013년 1월)	사유, 상용	자바
JanusGraph	0.6.1 (2022년 1월)	아파치 2	자바
마크로직	8.0.4 (2015)	사유, 프리웨어 개발자 버전	자바
Neo4j	3.5.1 (2018년 12월)	GPLv3 커뮤니티 에디션, 상용 & AGPLv3 옵션 (엔터프라이즈, 어드밴스트 에디션의 경우)	자바, .NET, 자바스크립트, 파이썬, 루비
오픈링크 Virtuoso	8.0 (2017년 9월)	오픈 소스 에디션은 GPLv2. 엔터프라이즈 에디션은 사유	C, C++
Oracle Spatial and Graph - 오라클 데이터베이스의 일부	12.1.0.2 (2014)	사유	자바, PL/SQL
OrientDB	3.0.13 (2019년 1월)	커뮤니티 에디션은 아파치 2. 엔터프라이즈 에디션은 상용	자바
SAP HANA	SPS12 Revision 120	사유	C, C++, 자바, 자바스크립트 & SQL 계열 언어
Sqrrl Enterprise	2.0 (2015년 2월)	사유	자바
Teradata Aster	7 (2016)	사유	자바, SQL, 파이썬, C++, R
TigerGraph	2.1.3 (2018년 7월)	사유	C++
마이크로소프트 SQL 서버 2017	RC1	사유	SQL/T-SQL, R, 파이썬

👆

좌우로 밀어서 보기

이름	현재 버전	최신 출시 날짜 (YYYY-MM-DD)	소프트웨어 라이선스	프로그래밍 언어	설명
Aerospike	7.0	2023-11-15	독점	C	Aerospike Graph는 Aerospike의 입증된 실시간 데이터 플랫폼을 기반으로 구축된 확장성이 뛰어나고 지연 시간이 짧은 속성 그래프 데이터베이스이다. Apache Tinkerpop 그래프 계산 엔진을 통해 속성 그래프 데이터 모델을 결합하며, Gremlin 쿼리 언어를 기본적으로 지원한다.
AllegroGraph	7.0.0	2020-04	독점, 클라이언트: 이클립스 공용 라이선스 v1	C#, C, Common Lisp, 자바, 파이썬	자원 기술 프레임워크 (RDF) 및 그래프 데이터베이스.
아마존 넵튠	1.4.0.0	2024-11-06	독점	미공개	Amazon.com에서 완전 관리형 그래프 데이터베이스이다. 웹 서비스로 사용되며 아마존 웹 서비스의 일부이다. 속성 그래프와 W3C의 RDF와 해당 쿼리 언어 Apache TinkerPop, Gremlin, SPARQL, openCypher를 지원한다.
AnzoGraph DB	2.1	2020-02	독점	C, C++	대규모 병렬 처리 기반 그래프 온라인 분석 처리(GOLAP) 스타일 데이터베이스이다. SPARQL 및 Cypher Query Language를 지원하며, 대규모 시맨틱 삼중항 데이터 집합의 대화형 분석을 위해 설계되었지만 제안된 W3C 표준에 따라 레이블이 지정된 속성도 지원한다.
ArangoDB	3.9.1	2022-04	자유 아파치 2, 독점	C++, 자바스크립트, .NET, 자바, 파이썬, Node.js, PHP, 스칼라, Go, 루비, 엘릭서	ArangoDB Inc.에서 개발한 NoSQL 기반 그래프 데이터베이스 시스템으로, 키/값, 문서, 그래프의 세 가지 데이터 모델을 지원한다. AQL(ArangoDB Query Language)이라는 통합 쿼리 언어를 사용하며, 데이터센터 간 복제, 자동 분할, 자동 장애 조치 등으로 확장성 및 고가용성을 제공한다.
Azure Cosmos DB		2017	독점	미공개	Apache Gremlin 쿼리 언어를 사용하여 그래프 개념을 지원하는 다중 모델 데이터베이스
DataStax Enterprise Graph	v6.0.1	2018-06	독점	자바	분산형, 실시간, 확장 가능한 데이터베이스; Tinkerpop을 지원하고 카산드라와 통합된다
InfiniteGraph	2021.2	2021-05	독점], 상용, 무료 50GB 버전	자바, C++, 'DO' 쿼리 언어	복잡한 실시간 쿼리 및 작업을 위한 분산형, 클라우드 지원 및 대규모로 확장 가능한 그래프 데이터베이스이다. Vertex 및 Edge 객체에는 고유한 64비트 객체 식별자가 있어 그래프 탐색 및 경로 찾기 작업을 가속화한다. 동시 및 병렬 쿼리와 함께 그래프에 대한 일괄 업데이트 또는 스트리밍 업데이트를 지원하며, 'DO' 쿼리 언어는 값 기반 쿼리뿐만 아니라 복잡한 그래프 쿼리도 가능하게 한다.
JanusGraph	1.0.0	2023-10-21	아파치 2	자바	리눅스 재단에서 관리하는 오픈 소스, 확장 가능, 다중 머신 클러스터 그래프 데이터베이스; 아파치 카산드라, 아파치 HBase, Google Cloud Bigtable, Oracle Berkeley DB 등 다양한 스토리지 백엔드를 지원한다; 빅 데이터 플랫폼(아파치 스파크, 아파치 기라프, 아파치 하둡)과의 통합을 통해 글로벌 그래프 데이터 분석, 보고 및 추출, 변환, 로드 (ETL)를 지원하며, 외부 인덱스 스토리지(Elasticsearch, 아파치 Solr, 아파치 루씬)를 통해 지리, 숫자 범위 및 전체 텍스트 검색을 지원한다.
MarkLogic	8.0.4	2015	독점], 무료 소프트웨어 개발자 버전	자바	문서 (JSON 및 XML) 및 시맨틱 그래프 데이터(RDF 삼중항)를 저장하는 다중 모델 NoSQL 데이터베이스; 내장된 검색 엔진도 있다.
마이크로소프트 SQL 서버 2017	RC1		독점	SQL/T-SQL, R, 파이썬	다대다 관계를 모델링하는 그래프 데이터베이스 기능을 제공한다. 그래프 관계는 Transact-SQL에 통합되어 있으며 기본 데이터베이스 관리 시스템으로 SQL Server를 사용한다.
NebulaGraph	3.7.0	2024-03	오픈 소스 에디션은 아파치 2.0, Common Clause 1.0 하에 있다	C++, Go, 자바, 파이썬	수십억 개의 정점과 수조 개의 가장자리를 밀리초의 지연 시간으로 저장하고 처리하기 위한 확장 가능한 오픈 소스 분산 그래프 데이터베이스이다. 공유하지 않는 분산 아키텍처를 기반으로 선형 확장성을 위해 설계되었다.
Neo4j	5.26	2024-12-09	GPLv3 커뮤니티 에디션, 엔터프라이즈 및 고급 에디션의 상용 및 AGPLv3 옵션	자바, .NET, 자바스크립트, 파이썬, Go, 루비, PHP, R, Erlang/엘릭서, C/C++, 클로저, 펄, 하스켈	오픈 소스이며, ACID를 지원하고, 엔터프라이즈 배포를 위한 고가용성 클러스터링을 갖추고 있으며, 전체 트랜잭션 지원 및 시각적 노드-링크 그래프 탐색기를 포함하는 웹 기반 관리가 제공된다. 내장된 REST 웹 API 인터페이스와 공식 드라이버가 있는 독점 Bolt 프로토콜을 사용하여 대부분의 프로그래밍 언어에서 액세스할 수 있다.
Ontotext GraphDB	10.7.6	2024-10-15	독점], Standard 및 Enterprise 에디션은 상용, Free 에디션은 무료 소프트웨어	자바	RDF 및 SPARQL을 지원하는 시맨틱 그래프 데이터베이스로, 고가용성 클러스터로도 사용할 수 있다. OpenRefine을 통합하여 테이블 형식 데이터를 수집 및 조정하고 ontop을 사용하여 온톨로지 기반 데이터 액세스를 수행한다. Lucene, SOLR 및 Elasticsearch를 연결하여 전체 텍스트 및 패싯 검색을 수행하고, Kafka를 연결하여 이벤트 및 스트림을 처리한다. OGC GeoSPARQL을 지원하며, JDBC를 통해 지식 그래프에 액세스할 수 있다.
OpenLink Virtuoso	8.2	2018-10	오픈 소스 에디션은 GPLv2, 엔터프라이즈 에디션은 독점	C, C++	SQL 테이블 및/또는 RDF 그래프로 모델링된 데이터에 대한 선언적 작업에 대해 SQL과 SPARQL을 모두 지원하는 다중 모델(하이브리드) 관계형 데이터베이스 관리 시스템(RDBMS)이다. CSV, XML 및 JSON을 포함한 수많은 문서 유형에서 관계(SQL 테이블 또는 RDF 그래프)의 RDF-Turtle, RDF-N-Triples, RDF-XML, JSON-LD, 매핑 및 생성을 지원한다. NEPOMUK 시맨틱 데스크탑에서 사용되는 것처럼 로컬 또는 임베디드 인스턴스, 단일 인스턴스 네트워크 서버 또는 공유 없는 탄력적 클러스터 다중 인스턴스 네트워크 서버로 배포할 수 있다.
Oracle RDF 그래프; Oracle Database의 일부	21c	2020	독점	SPARQL, SQL	다중 모델 Oracle 데이터베이스의 기능으로서의 RDF 그래프 기능: RDF 그래프는 기본 추론 및 삼중항 수준 레이블 보안을 갖춘 Oracle Database의 포괄적인 W3C RDF 그래프 관리 기능이다. ACID, 고가용성, 엔터프라이즈 규모를 지원하며, 시각화, RDF4J 및 네이티브 Sparql 엔드 포인트를 포함한다.
Oracle 속성 그래프; Oracle 데이터베이스의 일부	21c	2020	독점; 오픈 소스 언어 사양	PGQL, 자바, 파이썬	속성 그래프는 객체 또는 정점 집합과 객체를 연결하는 화살표 또는 가장자리 집합으로 구성된다. 정점과 가장자리는 키-값 쌍으로 표시되는 여러 속성을 가질 수 있다. SQL과 유사한 그래프 쿼리 언어인 PGQL과 약 60개의 사전 구축된 병렬 그래프 알고리즘을 갖춘 인 메모리 분석 엔진(PGX)이 포함되어 있으며, REST API 및 그래프 시각화를 포함한다.
OrientDB	3.2.28	2024-02	커뮤니티 에디션은 아파치 2, 엔터프라이즈 에디션은 상용	자바	하나의 제품에서 유연한 문서(그래프 데이터베이스이자 문서 NoSQL 데이터베이스)를 갖춘 2세대 분산 그래프 데이터베이스; 오픈 소스 아파치 2 라이선스 하에 라이선스가 부여됨; 전체 ACID를 지원; 멀티 마스터 복제를 지원; 스키마리스, -풀 및 -혼합 모드를 지원; 사용자 및 역할을 기반으로 하는 보안 프로파일링; SQL과 유사한 쿼리 언어 지원; HTTP REST 및 JSON API 제공.
RedisGraph	2.0.20	2020-09	Redis 소스 사용 가능 라이선스	C	그래프에서 인접 행렬을 나타내기 위해 희소 행렬을 사용하고 그래프를 쿼리하기 위해 선형 대수를 사용하는 인 메모리, 쿼리 가능한 속성 그래프 데이터베이스.
SAP HANA	2.0 SPS 05	2020-06	독점	C, C++, 자바, 자바스크립트 및 SQL과 유사한 언어	인 메모리 ACID 트랜잭션 지원 속성 그래프
Sparksee	5.2.0	2015	독점], 상용, 평가, 연구, 개발용 무료 소프트웨어	C++	Sparsity Technologies의 고성능 확장 가능한 데이터베이스 관리 시스템; 주요 특징은 대규모 네트워크를 검색하고 탐색하는 쿼리 성능이다. 자바, C++, C#, 파이썬 및 Objective-C 바인딩이 있다. 버전 5는 최초의 그래프 모바일 데이터베이스이다.
Sqrrl Enterprise	2.0	2015-02	독점	자바	셀 수준 보안 및 대규모 확장성을 특징으로 하는 분산, 실시간 그래프 데이터베이스
Teradata Aster	7	2016	독점	자바, SQL, 파이썬, C++, R	대규모 병렬 처리 (MPP) 데이터베이스로, 기본 SQL, MapReduce 및 그래프 데이터 저장 및 조작을 지원하는 특허 엔진을 통합한다. 일련의 분석 기능 라이브러리 및 데이터 시각화를 제공한다.
TerminusDB	11.0.6	2023-05-03	아파치 2	프롤로그, 러스트, 파이썬, JSON-LD	문서 지향 지식 그래프; 문서의 단순함과 엔터프라이즈 지식 그래프의 성능을 제공한다.
TigerGraph	3.10.1	2024-05-07	독점	C++	대규모 병렬 처리 (MPP) 네이티브 그래프 데이터베이스 관리 시스템
TypeDB	2.14.0	2022-11	GNU AGPLv3, 독점	자바, 파이썬, 자바스크립트	TypeDB는 강력하게 형식화된 풍부하고 논리적인 유형 시스템을 갖춘 데이터베이스이다. TypeDB를 사용하면 복잡한 문제를 해결할 수 있으며 TypeQL은 해당 쿼리 언어이다. TypeDB를 사용하면 개체 지향 원칙과 논리를 기반으로 도메인을 모델링할 수 있다.

7. 그래프 질의/프로그래밍 언어

* AQL: 아랑고DB에서 문서와 그래프 모두에 사용되는 SQL과 유사한 쿼리 언어이다.
* 사이퍼: 그래프에 대한 임시 및 프로그래밍 방식(SQL과 유사) 접근을 가능하게 하는 Neo4j의 그래프 쿼리 선언적 언어이다.
* GQL: 제안된 ISO 표준 그래프 쿼리 언어이다.
* GraphQL: API를 위한 오픈 소스 데이터 쿼리 및 조작 언어이다. Dgraph는 DQL(이전의 GraphQL+-)이라고 하는 수정된 GraphQL 언어를 구현한다.
* 그렘린: Apache TinkerPop 오픈 소스 프로젝트의 일부인 그래프 프로그래밍 언어이다.
* SPARQL: RDF 형식으로 저장된 데이터를 검색하고 조작할 수 있는 RDF 데이터베이스용 쿼리 언어이다.
* 정규 경로 쿼리: 그래프 데이터베이스에 대한 쿼리를 위한 이론적 언어이다.