관계대수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

관계 대수는 에드거 F. 코드가 제안한 관계형 모델에 기반한 데이터베이스 언어의 기초로, 데이터베이스 질의 언어의 한 종류이다. 관계 대수는 집합론과 일계 술어 논리에 기반하며, 관계 모델의 개념을 사용하여 테이블 형태의 데이터를 연산한다.

관계 대수는 역사적으로 IBM의 ISBL, Tutorial D 등의 데이터베이스 언어에 영향을 미쳤으며, SQL에도 부분적으로 영향을 주었지만, SQL은 관계 대수를 완전하게 구현하지는 않는다.

관계 대수는 기본적인 연산자로 집합 연산(합집합, 차집합, 교집합, 데카르트 곱)과 관계 대수 특유의 연산자(제한, 투영, 결합, 나눗셈)를 사용한다. 또한, 속성 이름 변경, 확장, 요약 등의 응용적인 연산자를 통해 기능을 확장한다.

관계 대수식은 트리 구조로 표현되며, 질의 최적화를 통해 연산 순서를 변경하여 질의 처리 효율을 높인다. 제한 연산의 이동, 복합 제한 연산의 분할 및 결합, 결합 연산과 제한 연산의 조합 등을 통해 질의의 성능을 향상시킨다.

관계대수

📚 더 읽어볼만한 페이지

관계대수 - 제1정규형
제1정규형(1NF)은 관계형 데이터베이스에서 데이터 중복을 최소화하고 데이터 무결성을 유지하기 위해 각 열이 원자적인 값을 가지며 행과 열의 순서가 중요하지 않은 기본적인 정규화 형태이다.
관계대수 - 데이터베이스 정규화
데이터베이스 정규화는 데이터 중복을 최소화하고 무결성을 보장하기 위해 데이터를 관련된 테이블로 분리하는 과정으로, 커드가 정의한 여러 단계의 정규형을 통해 이상 현상을 방지하고 데이터베이스 구조 확장에 유연하게 대처하는 것을 목표로 한다.
관계형 모델 - 관계 논리
관계 논리는 관계 모델 기반 데이터베이스 언어로서 관계 대수와 논리적으로 동일하며, 튜플 관계 논리와 도메인 관계 논리로 나뉘어 쿼리 최적화에 사용된다.
관계형 모델 - 관계형 데이터베이스
관계형 데이터베이스는 데이터를 테이블 형태로 구성하여 관리하며, 1970년 E.F. 코드에 의해 정의되었고, RDBMS를 통해 ACID 트랜잭션, 저장 프로시저, 정규화, 인덱스 등의 기술을 활용하여 다양한 분야에서 사용된다.
데이터베이스 관리 시스템 - 트랜잭션 처리
트랜잭션 처리는 데이터베이스 시스템에서 데이터의 일관성과 무결성을 보장하기 위한 기술이며, ACID 속성을 통해 데이터 정확성을 유지하고 롤백, 데드락 처리 등의 기술을 활용한다.
데이터베이스 관리 시스템 - 저장 프로시저
저장 프로시저는 데이터베이스 관리 시스템에서 SQL 문들을 미리 컴파일하여 저장하고, 모듈화, 보안성, 성능 향상, 유지보수 용이성과 같은 특징을 가지며, 데이터베이스 시스템마다 구현 방식과 지원하는 언어가 다를 수 있는 코드 묶음이다.

2. 역사

코드가 1969년에 관계형 모델을 고안하기 전까지 관계대수는 거의 주목받지 못했다. 코드는 관계대수를 데이터베이스 언어 (질의 언어)의 기초로 제안했다. 코드의 관계대수에 기초하여 구현된 최초의 데이터베이스 언어는 IBM의 ISBL (Information Systems Base Language)이었다. ISBL은 PRTV (Peterlee Relational Test Vehicle)라는 관계형 데이터베이스 관리 시스템 (RDBMS, 관계형 데이터베이스)의 데이터베이스 언어였다. ISBL은 데이터베이스 분야의 권위자들로부터 코드의 구상을 사용하기 쉬운 언어로 구현하는 길을 열었다고 평가받았다. 이후 ISBL을 계승한 IBM Business System 12라는 RDBMS는 업계에 단기간 영향을 미쳤다. 1998년에 크리스 데이트와 휴 다윈은 Tutorial D라는 데이터베이스 언어를 제창했다. Tutorial D는 관계형 데이터베이스 이론 학습을 위해 사용되었으며, ISBL의 기본적인 사고방식을 이용했다. Rel이라는 RDBMS는 Tutorial D를 구현했다. SQL은 관계대수에 어느 정도 기반을 두고 있지만, 완전하지는 않다. SQL의 연산 대상인 표 (테이블)는 엄밀하게 관계라고 할 수 없으며, 관계대수의 몇 가지 편리한 법칙도 SQL에서는 활용할 수 없다. 이 때문에 관계대수식의 최적화, 옵티마이저 및 데이터베이스 이용자에게 큰 손실을 주고 있다.

3. 관계 모델

--

관계 대수는 관계 모델에 기반한 관계 데이터베이스의 데이터베이스 언어 (질의 언어)이므로, 먼저 관계 모델을 간단히 정의한다. 관계 모델의 기본적인 구성 요소는 정의역, 즉 데이터 타입이다. 튜플은 순서가 없는 속성의 집합이다. 속성은 정의역과 값의 쌍이다. 관계 변수는 특정 관계형의 이름이 붙은 변수이며, 순서가 없는 속성 이름과 속성의 정의역의 쌍의 집합이다. 관계 변수는 관계의 머리글을 제공한다. 관계는 머리글과 튜플 집합으로 구성된다. 이러한 관계 모델의 개념은 수학적으로 정의되지만, 기존 데이터베이스의 구현은 이러한 정의에 엄격하게 준수하지 않는다. 테이블은 관계의 시각적 표현으로 받아들여지고 있다. 튜플은 행의 개념과 유사하다.

4. 관계 논리와의 관계

관계 대수와 관계 논리(관계 계산)는 서로 동등하다. 즉, 관계 대수로 표현된 식은 그에 상응하는 관계 논리의 식으로 표현할 수 있으며, 그 반대로도 가능하다. 이러한 동등성은 집합론과 일계 술어 논리에 기반을 둔 관계 대수의 기본 개념에서 비롯된다.

관계 대수를 구현한 대표적인 데이터베이스 언어로는 SQL과 Tutorial D가 있다. SQL은 관계 대수와 관계 논리를 구현한 것으로 널리 알려져 있다. 그러나 크리스 데이트와 휴 다웬을 비롯한 일부 연구자들은 SQL이 코드가 제안한 관계 대수를 완벽하게 구현하지 못한다고 비판하며, 완전한 구현체로 D (Tutorial D)를 제안했다.

관계는 특정 술어의 외연으로 해석될 수 있으며, 관계 대수의 각 연산자는 술어 계산의 해당 연산으로 해석할 수 있다. 예를 들어, 자연 결합은 논리곱 AND ( $\land$ )에 해당한다. 관계 R과 관계 S가 각각 술어 p1과 술어 p2의 외연을 나타낸다면, R과 S의 자연 결합 (R $\bowtie$ S)은 술어 p1 $\land$ p2의 외연을 나타낸다.

--

5. 관계의 형 적합성

집합론에 기반한 관계 연산자 (합집합, 차집합, 교집합)에서는 두 개의 형(type)이 적합(compatible)한 관계를 대상으로 연산을 수행한다. 형 적합은 합집합 호환(union-compatibility)이라고도 한다. 이러한 관계 연산에서는 형이 적합하지 않은 두 관계를 대상으로 연산을 수행할 수 없다.

관계의 형 적합이란, 두 관계가 잘 조합될 수 있다는 것을 의미한다. 구체적으로, 관계 R과 관계 S가 형 적합성을 가지려면 다음 조건을 만족해야 한다.

* R과 S가 같은 수의 속성을 가지고 있을 것.
* R과 S가 가진 속성의 이름이 같을 것.
* R과 S가 가진 같은 이름의 속성의 정의역이 같을 것.

6. 기본적인 연산자

관계 대수의 연산자는 크게 집합론에 기반한 연산자와 관계 대수에 특유한 연산자로 분류할 수 있다.

집합론에 기반한 연산자로는 합집합, 차집합, 교집합, 데카르트 곱이 있다. 관계 대수 특유의 연산자로는 제한(선택), 투영, 결합, 제어가 있다. 나눗셈은 SQL에서 직접 구현되지 않는 특수한 연산자이다.

이러한 연산자들은 관계에 대해 연산을 수행하며, 그 결과 역시 관계이다. 따라서 관계 대수 연산은 중첩되어 사용될 수 있다.

6.1. 집합 연산자

관계 대수는 집합론의 집합의 합집합, 집합의 차집합, 집합의 교집합, 데카르트 곱 연산을 사용한다. 합집합, 차집합, 교집합 연산은 두 관계가 형 적합성을 가져야 한다. 형 적합성은 합집합 호환이라고도 불리며, 두 관계의 속성 수, 이름, 정의역이 같아야 함을 의미한다. 데카르트 곱은 두 관계가 서로소 헤더, 즉 공통된 속성 이름을 가지지 않아야 정의될 수 있다.

6.1.1. 합집합 (Union)

집합론에 기반한 관계 연산자 중 하나인 합집합(union) 연산 R ∪ S는 R과 S의 모든 튜플(tuple, 행)로 구성된 하나의 관계를 반환한다. 이 연산은 R과 S가 타입 적합성, 즉 합집합 호환성을 갖는다는 것을 전제로 하며, 연산 결과 중복되는 튜플은 제거된다.

관계 R과 S가 타입 적합성을 갖는다는 것은 다음을 의미한다.

* R과 S는 같은 수의 속성을 가진다.
* R과 S는 같은 이름의 속성을 가진다.
* R과 S에서 같은 이름을 가진 속성의 정의역이 같다.

6.1.2. 차집합 (Difference)

두 관계 R과 S의 차집합은 R에서 S에 속하는 튜플을 제거한 관계를 반환한다. R과 S는 합집합 호환이 되어야 한다. 즉, 두 관계는 동일한 속성 집합을 가져야 한다.

👆

좌우로 밀어서 보기

R
A	B	C
1	2	3
4	5	6

👆

좌우로 밀어서 보기

S
A	B	C
4	5	6
7	8	9

👆

좌우로 밀어서 보기

R - S
A	B	C
1	2	3

6.1.3. 교집합 (Intersection)

집합론에 기반한 관계 연산자 중 하나로, 두 관계 R과 S 모두에 속하는 튜플로 구성된 관계를 반환한다. 집합의 교집합은 집합의 합집합과 집합의 차집합을 사용하여 정의되므로, 교집합 연산에 관련된 두 관계 역시 합집합 호환되어야 한다. 즉, 두 관계는 동일한 속성 집합을 가져야 한다. 교집합 연산은 차집합 연산을 사용하여 표현할 수 있다. (R ∩ S = R - (R - S))

6.1.4. 데카르트 곱 (Cartesian Product)

관계 R과 S의 데카르트 곱은 R의 모든 튜플과 S의 모든 튜플을 조합한 모든 튜플로 구성된 관계를 반환하며, R과 S는 형 적합성을 가질 필요가 없다.

데카르트 곱이 정의되려면 관련된 두 관계는 서로소 헤더를 가져야 한다. 즉, 공통된 속성 이름을 가져서는 안 된다.

데카르트 곱은 집합 이론에서의 데카르트 곱과는 다르게 정의된다. 튜플이 연산의 목적에 따라 "얕게" 간주된다. 즉, n-튜플 집합과 m-튜플 집합의 데카르트 곱은 "평평해진" (n + m)-튜플 집합을 생성한다. 반면, 기본적인 집합 이론은 각각 n-튜플과 m-튜플을 포함하는 2-튜플 집합을 규정했을 것이다. 더 형식적으로, R × S는 다음과 같이 정의된다.

: $R\times S:=\{(r_1,r_2,\dots,r_n,s_1,s_2,\dots,s_m)|(r_1,r_2,\dots,r_n)\in R, (s_1,s_2,\dots,s_m)\in S\}$

데카르트 곱의 기수는 그 인수의 기수의 곱이다. 즉, |R × S| = |R| × |S|이다.

6.2. 관계 대수 특유 연산자

관계 대수는 집합론에 기반한 연산자와 관계 대수 특유의 연산자로 분류할 수 있다. 관계 대수 특유의 연산자에는 제한(선택), 투영, 조인, 나눗셈이 있다.

* 제한(Selection): 주어진 조건을 만족하는 튜플들을 선택한다.
* 투영(Projection): 주어진 속성들만 남기고 나머지 속성들은 제거한다.
* 조인(Join): 두 관계에서 공통 속성을 기준으로 튜플들을 결합한다.
* 나눗셈(Division): 특정 조건을 만족하는 튜플들을 포함하는 관계를 반환한다. SQL에서는 직접 구현되지 않는다.

6.2.1. 제한 (Selection)

일반화된 선택(σ)은 $\sigma_\varphi(R)$ 로 표기되는 단항 연산이며, 여기서 φ는 명제 공식으로, 일반 선택에 허용된 원자 공식과 논리곱(and), 논리합(or), $\neg$ (부정) 논리 연산자로 구성된다. 이 선택은 R의 모든 튜플 중에서 φ가 참인 튜플을 선택한다.

예를 들어 주소록에서 모든 친구 또는 비즈니스 파트너의 목록을 얻기 위해 선택을 $\sigma_{\text{isFriend = true} \,\lor\, \text{isBusinessContact = true}}( \text{addressBook} )$ 로 작성할 수 있다. 결과는 isFriend가 참이거나 isBusinessContact가 참인 모든 고유 레코드의 모든 속성을 포함하는 관계가 된다.

6.2.2. 투영 (Projection)

프로젝션은 $\Pi_{a_1, \ldots,a_n}( R )$ 와 같이 작성되는 단항 연산이며, 여기서 $a_1,\ldots,a_n$ 은 속성 이름의 집합이다. 이러한 프로젝션의 결과는 R의 모든 튜플이 집합 $\{a_1,\ldots,a_n\}$ 으로 제한될 때 얻어지는 집합으로 정의된다.

SQL 표준에서 구현될 때 "기본 프로젝션"은 집합 대신 멀티셋을 반환하며, 중복 데이터를 제거하는 프로젝션은 DISTINCT 키워드를 추가하여 얻는다.

6.2.3. 결합 (Join)

관계 대수에서 결합(Join)은 두 관계에서 공통 속성을 기반으로 튜플을 결합하여 새로운 관계를 반환하는 연산이다. 예를 들어, 서적 데이터베이스에서 특정 서명을 가진 서적을 재고로 보유한 서점의 점포명과 전화번호를 조회하는 절차는 다음과 같다.

1. 서적 관계와 서명 관계를 서점 ID로 결합한다.
2. 결합하여 생성된 관계를 지정된 서명으로 제한한다.
3. 제한하여 생성된 관계를 점포명과 전화번호로 사영한다.

이러한 조회는 관계 논리(관계 계산)에서 다음과 같이 표현할 수 있다.

관계 대수의 연산자는 집합론 기반 연산자(합집합, 차집합, 교집합, 데카르트 곱)와 관계 대수 특유의 연산자(제한(선택), 투영, 조인, 나눗셈)로 분류할 수 있다.

6.2.4. 나눗셈 (Division)

나눗셈(÷)은 이항 연산으로, R ÷ S와 같이 표기한다. 나눗셈은 SQL에서 직접 구현되지 않는다. 결과는 R에만 있고 S에는 없는 속성(즉, R의 헤더에는 있지만 S의 헤더에는 없는 속성)으로 제한된 R의 튜플 집합으로 구성된다. 이 튜플들은 S의 모든 튜플과의 조합이 R에 존재한다.

👆

좌우로 밀어서 보기

*완료됨*
학생	과제
프레드	데이터베이스1
프레드	데이터베이스2
프레드	컴파일러1
유진	데이터베이스1
유진	컴파일러1
사라	데이터베이스1
사라	데이터베이스2

👆

좌우로 밀어서 보기

*DB프로젝트*
과제
데이터베이스1
데이터베이스2

👆

좌우로 밀어서 보기

*완료됨* ÷ *DB프로젝트*
학생
프레드
사라

만약 DB프로젝트가 데이터베이스 프로젝트의 모든 과제를 포함한다면, 위의 나눗셈 결과는 데이터베이스 프로젝트의 두 과제를 모두 완료한 학생만 정확하게 포함한다.

더욱 형식적으로 나눗셈의 의미는 다음과 같이 정의된다.

: R ÷ S = { t[a₁,...,a_n] : t ∈ R ∧ ∀s ∈ S ( (t[a₁,...,a_n] ∪ s) ∈ R) }

여기서 {a₁,...,a_n}은 R에 고유한 속성 이름의 집합이고, t[a₁,...,a_n]은 이 집합에 대한 t의 제한이다. 일반적으로 S의 헤더에 있는 속성 이름은 R의 부분 집합이어야 한다. 그렇지 않으면 연산의 결과는 항상 비어 있게 된다.

기본 연산을 사용하여 나눗셈을 시뮬레이션하는 방법은 다음과 같다. a₁,...,a_n은 R에 고유한 속성 이름이고, b₁,...,b_m은 S의 속성 이름이라고 가정한다.

1. 먼저 R을 고유한 속성 이름에 투영하고, S의 튜플과 모든 조합을 구성한다.
: T := π_{a₁,...,a_n}(R) × S

이전 예제에서, T는 모든 학생(학생이 완료됨 테이블의 고유 키/속성이기 때문에)이 주어진 모든 과제와 결합된 테이블을 나타낸다. 예를 들어, 유진은 T에 유진 → 데이터베이스1과 유진 → 데이터베이스2의 두 행을 갖게 된다.

👆

좌우로 밀어서 보기

T
학생	과제
프레드	데이터베이스1
프레드	데이터베이스2
유진	데이터베이스1
유진	데이터베이스2
사라	데이터베이스1
사라	데이터베이스2

2. 다음 단계에서는 T에서 R을 뺀다.
: U := T − R
U에는 R에 "있을 수 있었지만" 없었던 가능한 조합이 있다.

👆

좌우로 밀어서 보기

T
학생	과제
프레드	데이터베이스1
프레드	데이터베이스2
유진	데이터베이스1
유진	데이터베이스2
사라	데이터베이스1
사라	데이터베이스2

👆

좌우로 밀어서 보기

R (*완료됨*)
학생	과제
프레드	데이터베이스1
프레드	데이터베이스2
프레드	컴파일러1
유진	데이터베이스1
유진	컴파일러1
사라	데이터베이스1
사라	데이터베이스2

👆

좌우로 밀어서 보기

U (T − R, *누락된 것*)
학생	과제
유진	데이터베이스2

3. 이제 R에 고유한 속성 이름에 대한 투영을 수행하면 S의 튜플과 모든 조합이 R에 존재하지 않았던 튜플의 제한을 얻게 된다.
: V := π_{a₁,...,a_n}(U)

👆

좌우로 밀어서 보기

V
학생
유진

4. 마지막으로, R을 고유 속성 이름으로 투영하고 V를 뺀다.
: W := π_{a₁,...,a_n}(R) − V

👆

좌우로 밀어서 보기

π_학생(R)
학생
프레드
유진
사라

👆

좌우로 밀어서 보기

V
학생
유진

👆

좌우로 밀어서 보기

W (π_학생(R) − V, 원하는 결과)
학생
프레드
사라

7. 응용적인 연산자

관계 대수는 외부 조인, 집계 함수, 전이적 폐쇄 등 다양한 연산으로 확장된다.

Codd의 대수를 기반으로 한 최초의 쿼리 언어는 Codd 박사가 직접 개발한 Alpha였다. 그 후 ISBL이 만들어졌으며, 많은 권위자들은 ISBL이 Codd의 아이디어를 유용한 언어로 만드는 방법을 제시했다고 평가했다. Business System 12는 ISBL의 예를 따른, 수명이 짧았던 산업용 관계형 DBMS였다.

1998년 크리스 데이트와 휴 다윈은 관계형 데이터베이스 이론 교육용 언어인 튜토리얼 D를 제안했으며, 이 언어 또한 ISBL의 아이디어를 활용한다. Rel은 튜토리얼 D의 구현체이다. Bmg는 튜토리얼 D와 The Third Manifesto의 원칙을 엄격히 따르는, Ruby로 구현된 관계 대수이다.

SQL은 관계 대수를 느슨하게 기반으로 하지만, SQL의 피연산자(테이블)는 관계가 아니며, 관계 대수의 몇 가지 유용한 정리들은 SQL에서 성립하지 않는다. (이는 최적화 프로그램 및/또는 사용자에게 불이익을 줄 수 있다.) SQL 테이블 모델은 집합이 아닌 백(bag) (멀티셋)이다. 예를 들어, 집합에 대한 관계 대수의 정리인 $(R \cup S) \setminus T = (R \setminus T) \cup (S \setminus T)$ 는 백에 대한 관계 대수에는 적용되지 않는다.

👆

좌우로 밀어서 보기

👆

좌우로 밀어서 보기

예시

R:
\| B \|\| C
1	2	3
4	5	6

👆

좌우로 밀어서 보기

S:
\| B \|\| C
7	8	9
4	5	6

👆

좌우로 밀어서 보기

R ∩ S:
\| B \|\| C
4	5	6

관계대수

1. 개요

2. 역사

3. 관계 모델

4. 관계 논리와의 관계

5. 관계의 형 적합성

6. 기본적인 연산자

6.1. 집합 연산자

6.1.1. 합집합 (Union)

6.1.2. 차집합 (Difference)

6.1.3. 교집합 (Intersection)

6.1.4. 데카르트 곱 (Cartesian Product)

6.2. 관계 대수 특유 연산자

6.2.1. 제한 (Selection)

6.2.2. 투영 (Projection)

6.2.3. 결합 (Join)

6.2.4. 나눗셈 (Division)

7. 응용적인 연산자

7.1. 속성 이름 변경 (Rename)

7.2. 확장 (Extend)

7.3. 요약 (Summarize)

8. 질의 최적화

8.1. 최적화의 목표

8.2. 최적화 규칙