버로우즈-휠러 변환

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 원리
- 2.1. 부호화 (Encoding)
- 2.2. 복호화 (Decoding)
3. 특징
4. 최적화
5. 전단사 변환 (Bijective Variant)
6. 응용 분야
참조

1. 개요

버로우즈-휠러 변환(Burrows-Wheeler Transform, BWT)은 데이터를 압축하기 위한 알고리즘으로, 텍스트 문자열을 변환하여 압축 효율을 높이는 데 사용된다. BWT는 입력 문자열의 모든 원형 이동을 사전식 순서로 정렬하여 마지막 열을 추출하는 방식으로 작동하며, 이 변환은 가역적이어서 원래 데이터를 복원할 수 있다. BWT는 데이터 압축, 염기 서열 정렬, 이미지 압축, 유전체 데이터베이스 압축, 시퀀스 예측 등 다양한 분야에 활용된다. BWT는 자체적으로는 압축을 수행하지 않지만, 데이터를 "압축하기 쉽게" 만들어 MTF, RLE, 엔트로피 부호화 등의 후처리 과정을 통해 압축 효율을 높인다.

더 읽어볼만한 페이지

변환 (수학) - 르장드르 변환
르장드르 변환은 볼록 함수에 적용되어 도함수의 상에 작용하며 쌍대성을 통해 함수 관계를 재표현하는 변환으로, 해석역학, 열역학, 미시경제학 등에서 활용되고 볼록 켤레 함수라고도 불린다.
변환 (수학) - 이산시간 푸리에 변환
이산시간 푸리에 변환(DTFT)은 이산 시간 신호를 주파수 영역에서 분석하는 변환으로, 주기적인 스펙트럼을 가지며 샘플링된 신호 분석 및 시스템 주파수 응답 특성 파악에 유용하고 Z 변환과 밀접한 관계를 가진다.
무손실 압축 알고리즘 - VP9
VP9는 구글이 개발한 오픈 소스 비디오 코덱으로, VP8보다 압축 효율을 높이고 HEVC보다 나은 성능을 목표로 개발되었으며, WebM 형식으로 사용되고 주요 웹 브라우저와 넷플릭스, 유튜브 등에서 지원했으나 AV1의 등장으로 개발이 중단되었다.
무손실 압축 알고리즘 - FLAC
FLAC은 조시 콜슨이 개발한 무손실 오디오 코덱으로, 원본 음질을 유지하면서 파일 크기를 줄이기 위해 오디오 데이터를 압축하며, 4~32비트 샘플 크기, 최대 8 채널을 지원하고, 미국 국립 문서 기록 관리청에서 디지털 오디오에 선호되는 형식으로 지정되었다.

버로우즈-휠러 변환
알고리즘 개요
종류	무손실 압축을 위한 전처리
특징
시간 복잡도	O(n)
공간 복잡도	O(n)
데이터	문자열
개발 및 발표
개발자	마이클 버로스 데이비드 J. 휠러
발표일	1994년 5월 10일

2. 원리

BWT(버로우즈-휠러 변환)는 입력 데이터의 모든 원형 이동을 사전식 순서로 정렬하여 얻어지는 행렬의 마지막 열을 추출하는 방식으로 작동한다.^[2]

BWT는 문자열의 순서를 순열하는데, 원본 문자열에 자주 나타나는 부분 문자열이 있으면 변환된 문자열에는 같은 문자가 여러 번 반복되는 경우가 많아진다. 예를 들어 "SIX.MIXED.PIXIES.SIFT.SIXTY.PIXIE.DUST.BOXES"를 변환하면 "TEXYDST.E.IXIXIXXSSMPPS.B..E.S.EUSFXDIIOIIIT"가 되는데, 여기에는 XX, SS, PP, .., II, III와 같이 동일한 문자가 반복되는 구간이 6개나 나타난다.

변환 과정은 입력 문자열 `S`의 모든 원형 이동을 사전식 순서로 정렬하고, 정렬된 문자열 집합에서 마지막 열과 원래 문자열의 인덱스를 추출한다. 예를 들어 입력 문자열이 `S = ^BANANA$` 라면 (여기서 `^`는 문자열의 시작, `$`는 'EOF'를 나타냄), 문자열을 N번 회전하여 모든 원형 이동을 만든다. 이를 사전식으로 정렬한 후, 마지막 열 `L = BNN^AA$A` 와 원래 문자열 `S` 가 위치한 행의 인덱스 `I = 6` 을 얻는다.

BWT의 핵심은 변환된 문자열이 원본 문자열보다 압축하기 쉽다는 점뿐만 아니라, 마지막 열의 데이터만으로도 원본 문자열을 복원할 수 있다는 점이다. 역변환은 마지막 열의 문자들을 알파벳 순으로 정렬하여 첫 번째 열을 만들고, 마지막 열과 첫 번째 열을 조합하여 모든 연속된 문자 쌍을 찾고, 이를 다시 정렬하여 첫 번째와 두 번째 열을 얻는 과정을 반복하여 전체 문자열을 복원한다.

길이 ''n''의 데이터를 순환 이동시켜 얻을 수 있는 모든 문자열을 사전식 정렬하여 만들어진 ''n''×''n'' 행렬의 n번째 열이 BWT 시퀀스이다. 이 BWT 시퀀스와, 원래 문자열이 정렬되었을 때 행렬의 몇 번째에 위치했는지를 기억해두면, 이를 통해 원래 문자열을 복호화할 수 있다.

2. 1. 부호화 (Encoding)

회전3. 사전식으로
정렬4.
마지막 열 가져오기5. 출력align=center |

역변환 과정
Input
align=center colspan=4 \|
Add 1	Sort 1	Add 2	Sort 2
align=right \|	align=right \|	align=right \|	align=right \|
Add 3	Sort 3	Add 4	Sort 4
align=right \|	align=right \|	align=right \|	align=right \|
Add 5	Sort 5	Add 6	Sort 6
align=right \|	align=right \|	align=right \|	align=right \|
Output
align=center colspan=4 \|

역 전단사 변환
입력
align=center colspan=4 \|
Add 1	Sort 1	Add 2	Sort 2
align=right \|	align=right \|	align=right \|	align=right \|
Add 3	Sort 3	Add 4	Sort 4
align=right \|	align=right \|	align=right \|	align=right \|
출력
align=center colspan=4 \|

입력	`SIX.MIXED.PIXIES.SIFT.SIXTY.PIXIE.DUST.BOXES`
Lyndon 단어	`SIX.MIXED.PIXIES.SIFT.SIXTY.PIXIE.DUST.BOXES`
출력	`STEYDST.E.IXXIIXXSMPPXS.B..EE..SUSFXDIOIIIIT`

분야	설명
시퀀스 정렬	차세대 염기 서열 분석(NGS) 기술에서 DNA 리드를 참조 게놈에 정렬하는 데 사용된다. Bowtie, BWA, SOAP2 등의 프로그램이 BWT를 활용한다.^[12] ^[13] ^[14]
이미지 압축	BWIC와 같이 BWT를 기반으로 한 압축 방식은 무손실 JPEG, JPEG 2000 등의 기존 알고리즘보다 뛰어난 성능을 보이기도 한다.^[15]
데이터 압축	텍스트, 이미지, 유전체 데이터 등 다양한 데이터 압축에 활용된다.^[17]
시퀀스 예측	기계 학습 및 자연어 처리 분야에서 시퀀스 예측에 활용된다. BWT의 무손실 데이터 압축을 활용하는 SuBSeq 방식은 학습 시간과 정확성 측면에서 뛰어난 성능을 보인다.^[18]

버로우즈-휠러 변환

1. 개요

더 읽어볼만한 페이지

2. 원리

2. 1. 부호화 (Encoding)

2. 2. 복호화 (Decoding)

3. 특징

4. 최적화

5. 전단사 변환 (Bijective Variant)

6. 응용 분야

6. 1. 데이터 압축

6. 2. 염기서열 정렬 (Sequence Alignment)

6. 3. 이미지 압축

6. 4. 유전체 데이터베이스 압축

6. 5. 시퀀스 예측 (Sequence Prediction)

참조

변환
1. 입력	2. 모든 회전	3. 사전식으로 정렬	4. 마지막 열 가져오기	5. 출력
align=center \|

전단사 변환
입력	모든 회전	알파벳순으로 정렬됨	회전된 Lyndon 단어의 마지막 열	출력
align=center \|