UTF-8

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
3. 구조
- 3.1. 인코딩 방식
- 3.2. 예시: 한글 인코딩
4. 변형된 UTF-8
5. 설계 원칙 및 특징
6. 오류 처리
7. 장점과 단점
8. 바이트 순서 표시(BOM)
9. 대한민국 현황 및 한국어 처리 문제
참조

1. 개요

UTF-8은 유니코드 문자를 가변 길이로 인코딩하는 방식이다. 1992년 켄 톰슨과 롭 파이크에 의해 설계되었으며, 1993년 USENIX 컨퍼런스에서 처음 발표되었다. ASCII 문자와의 호환성을 가지며, 웹에서 가장 널리 사용되는 인코딩 방식이다. UTF-8은 1바이트에서 4바이트까지 사용하여 유니코드 코드 포인트를 표현하며, ASCII 문자는 1바이트로, 한글을 포함한 동아시아 문자는 대부분 3바이트로 인코딩된다. UTF-8은 설계상 문자열 검색에 용이하며, 엔디안에 영향을 받지 않는 장점이 있다. 대한민국에서는 대부분의 현대 한글을 문제없이 표현할 수 있지만, 옛한글이나 한자 확장 영역의 일부 문자는 4바이트 영역에 포함되어 일부 시스템에서 처리 문제가 발생할 수 있다.

더 읽어볼만한 페이지

유니코드 변환 형식 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
유니코드 변환 형식 - UTF-32
UTF-32는 유니코드 문자 집합의 각 코드 포인트를 32비트로 표현하는 가변 길이 문자 인코딩 방식이며, 문자열 내 특정 문자를 빠르게 찾는 데 사용되지만 데이터 크기가 크다는 단점이 있다.
유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
유니코드에 관한 - 유니코드 영역
유니코드 영역은 문자 및 기호를 논리적으로 그룹화한 블록들의 집합으로, 고유한 이름과 코드 포인트 범위를 가지며, 기본 다국어 평면(BMP)을 포함하여 다양한 평면으로 확장되어 문자 인코딩 등 다양한 분야에서 중요한 역할을 한다.
문자 인코딩 - 유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다.
문자 인코딩 - Shift JIS
Shift JIS는 JIS X 0201을 기반으로 JIS X 0208을 할당하여 일본어 문자를 인코딩하는 방식으로, 이스케이프 시퀀스 없이 문자 집합을 혼용하여 파일 크기를 절약하고 처리 시간을 단축하며, MS-DOS에서 "MS 한자 코드"로 채택된 후 사실상 표준으로 자리 잡았다.

2. 역사

국제 표준화 기구(ISO)는 1989년에 유니버설 멀티바이트 문자 집합 구성을 시작했다. 1992년 7월, X/Open 위원회는 더 나은 인코딩을 찾고 있었다. 유닉스 시스템 연구소의 데이브 프로서는 빠른 구현 특성을 가진 제안을 제출했고, 7비트 ASCII 문자는 "자신"만을 나타내도록 하는 개선 사항을 도입했다.^[3] 1992년 8월, 이 제안은 IBM X/Open 대표에 의해 관련 당사자들에게 배포되었다. 벨 연구소의 플랜 9 운영 체제 그룹의 켄 톰슨은 자기 동기화 코드가 되도록 수정하여, 독자가 어디에서든 시작하여 즉시 문자 경계를 감지할 수 있게 하였다. 1992년 9월 2일, 롭 파이크와 켄 톰슨은 뉴저지 식당의 식탁 매트에 UTF-8의 기본 설계를 요약했다.^[8] 다음 날, 파이크와 톰슨은 이를 구현하고 플랜 9를 업데이트하여 사용했으며,^[8] X/Open에 그들의 성공을 전달했고, X/Open은 이를 FSS-UTF의 사양으로 받아들였다.^[6]

UTF-8은 1993년 1월 25일부터 29일까지 샌디에이고에서 열린 USENIX 컨퍼런스에서 처음 공식 발표되었다.^[9] 인터넷 기술 연합은 1998년 1월에 미래의 인터넷 표준 작업을 위해 UTF-8을 채택했다.^[10] 2003년 11월, UTF-8은 UTF-16 문자 인코딩의 제약에 맞춰 제한되었다.^[11]

2010년 이후 1,000만 개의 가장 인기 있는 웹사이트에서 선언된 문자 집합

UTF-8은 2008년부터 월드 와이드 웹에서 가장 흔하게 사용되는 인코딩 방식이 되었다.^[23]

3. 구조

UTF-8은 유니코드 문자들을 인코딩하기 위해 만들어진 가변 길이 문자 인코딩 방식이다. 여기서 '가변 길이'란, 문자에 따라 사용하는 바이트 수가 달라진다는 뜻이다.

ASCII와 호환성을 유지하기 위해, ASCII 문자는 1바이트로 표현된다. 그 외의 문자들은 2바이트에서 최대 4바이트까지 사용하여 표현한다.^[90]^[91]^[92]^[93] 4바이트 시퀀스에서는 21비트(0x1FFFFF)까지 표현할 수 있지만, 유니코드 범위를 벗어나는 U+10FFFF보다 큰 값은 허용하지 않는다.

인코딩은 최소 바이트 수로 표현해야 한다. 따라서 바이트 수마다 유니코드의 부호 위치 최소값(하한)도 설정되어 있다.

* 첫 번째 바이트가 E0일 때 두 번째 바이트가 80-9F 범위, 또는 F0일 때 80-8F 범위를 취하는 것은 중복된 인코딩이므로 허용되지 않는다. 첫 번째 바이트가 ED일 때 두 번째 바이트가 A0 이상이 되는 것은 서로게이트 페어를 위한 부호 위치에 해당하며, 또한 F4일 때 90 이상이 되는 것은 유니코드 범위를 벗어나므로, UTF-8에서는 역시 허용되지 않는다.

유니코드의 부호 위치를 2진 표기한 것을 위의 비트 패턴의 x, y에 오른쪽 정렬하여 저장한다(최소 바이트 수로 표현하기 위해 y 부분에는 최소 1회는 1이 나타난다). 인코딩된 바이트 열은 바이트 순서에 관계없이 왼쪽부터 순서대로 출력한다.

1바이트째의 선두에 연속된 비트 "1"의 개수(그 뒤에 비트 "0"이 1개 붙음)로 해당 문자의 바이트 수를 알 수 있다. 또한 2바이트째 이후는 비트 패턴 "10"으로 시작하며, 1바이트째와 2바이트째 이후에서는 값의 범위가 겹치지 않으므로 문자 경계를 확실하게 판정할 수 있다.

7바이트 이상의 문자는 규정되지 않으므로 0xFE, 0xFF는 사용되지 않는다. 이 때문에 바이트 순서 표식(BOM)에 0xFE와 0xFF를 사용하는 UTF-16이나 UTF-32가 UTF-8과 혼동되는 일은 없다.

UTF-8 인코딩은 다음과 같은 특징을 갖는다.

ASCII 문자 코드 텍스트를 처리하는 소프트웨어의 대부분을 그대로 사용할 수 있다.^[94]
바이트 스트림 내 임의의 위치에서 해당 문자, 이전 문자 또는 다음 문자의 첫 번째 바이트를 쉽게 판별할 수 있다.
문자열 검색을 단순한 바이트 열 검색으로 수행해도 문자 경계와 다른 곳에서 일치하는 일이 없다.
UTF-16 또는 UTF-32와 달리 바이트 단위 입출력을 수행하므로, 바이트 순서의 영향을 받지 않는다.
21비트까지 표현할 수 있으므로 서로게이트 페어를 사용할 필요가 없다.
ASCII 문자가 주를 이루는 문서라면, 거의 데이터 크기를 늘리지 않고 유니코드의 이점을 누릴 수 있다.
여러 UTF-8 문자열을 단순한 부호 없는 8비트 정수의 배열로 간주하여 사전순 정렬한 결과는 유니코드 코드 포인트의 사전순 정렬 결과와 동일하다.

3. 1. 인코딩 방식

나머지 바이트들은 10으로 시작함000800-00FFFFxxxxxxxx xxxxxxxx1110xxxx 10xxxxxx 10xxxxxx010000-10FFFF110110ZZ ZZxxxxxx 110111xx xxxxxxxx11110zzz 10zzxxxx 10xxxxxx 10xxxxxxUTF-16 서러게이트 쌍 영역 (ZZZZ = zzzzz - 1).
UTF-8로 표시된 비트 패턴은 실제 코드 포인트와 동일하다.

바이트 수	유효 비트	유니코드		2진수 표기				16진수 표기
1	7 비트	colspan="2" \|	0xxx-xxxx	colspan="3" rowspan="3" style="background: silver;" \|	00..7F	colspan="3" rowspan="3" style="background: silver;" \|
		하한	U+0000	0000-0000	00
		상한	U+007F	0111-1111	7F
2	11 비트	colspan="2" \|	110y-yyyx	10xx-xxxx	colspan="2" rowspan="3" style="background: silver;" \|	C2..DF	80..BF	colspan="2" rowspan="3" style="background: silver;" \|
		하한	U+0080	1100-0010	1000-0000	C2	80
		상한	U+07FF	1101-1111	1011-1111	DF	BF
3	16 비트	colspan="2" \|	1110-yyyy	10yx-xxxx	10xx-xxxx	colspan="1" rowspan="3" style="background: silver;" \|	E0..EF	80..BF	80..BF	colspan="1" rowspan="3" style="background: silver;" \|
		하한	U+0800	1110-0000	1010-0000	1000-0000	E0	80^*	80
		상한	U+FFFF	1110-1111	1011-1111	1011-1111	EF	BF^*	BF
4	21 비트	colspan="2" \|	1111-0yyy	10yy-xxxx	10xx-xxxx	10xx-xxxx	F0..F4	80..BF	80..BF	80..BF
		하한	U+10000	1111-0000	1001-0000	1000-0000	1000-0000	F0	80^*	80	80
		상한	U+10FFFF	1111-0100	1000-1111	1011-1111	1011-1111	F4	BF^*	BF	BF

첫 번째 코드 포인트	마지막 코드 포인트	바이트 2	바이트 3	바이트 4
U+0000	U+007F	style="background: darkgray" colspan=3 \|
U+0080	U+07FF		style="background: darkgray" colspan=2 \|
U+0800	U+FFFF			style="background: darkgray" \|
U+010000	U+10FFFF

첫 번째 코드 포인트	마지막 코드 포인트	바이트 1	바이트 2	바이트 3	바이트 4
U+0000	U+007F	0xxxxxxx	style="background: darkgray" colspan=3 \|
U+0080	U+07FF	110xxxxx	10xxxxxx	style="background: darkgray" colspan=2 \|
U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx	style="background: darkgray" \|
U+010000	U+10FFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

B	유니코드	스크립트	JIS X 0201	JIS X 0208	JIS X 0212	JIS X 0213
1	U+0000–U+007F	ASCII	로마자(엔 기호・오버라인 제외)
2	U+0080–U+07FF	라틴 문자, 분음 부호, 그리스 문자, 키릴 문자, 아르메니아 문자, 히브리 문자, 아랍 문자, 시리아 문자, 타나 문자, N'Ko 문자	엔 기호	비한자의 일부	비한자의 일부	비한자의 일부
3	U+0800–U+FFFF	인도 계열 문자, 구두점, 학술 기호, 이모지, 동아시아의 여러 문자, 전각 반각 형태 등	오버라인, 가나	나머지 전부	나머지 전부	대다수
4	U+10000–U+10FFFF	고대 문자, 3에 포함되지 않는 한자				제3・제4수준 한자의 일부

UTF-8

1. 개요

더 읽어볼만한 페이지

2. 역사

3. 구조

3. 1. 인코딩 방식

3. 2. 예시: 한글 인코딩

4. 변형된 UTF-8

5. 설계 원칙 및 특징

6. 오류 처리

7. 장점과 단점

7. 1. 일반적인 장단점

7. 2. 기존 인코딩과의 비교

7. 3. UTF-16과의 비교

8. 바이트 순서 표시(BOM)

9. 대한민국 현황 및 한국어 처리 문제

참조

UTF-8
인코딩 방식
이름	UTF-8
표준	유니코드 표준
분류	유니코드 변환 포맷 EASCII 가변 너비 인코딩
인코딩 대상	ISO/IEC 10646 (유니코드)
확장	US-ASCII
이전	UTF-1