UTF-1

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

UTF-1은 유니코드 문자 집합을 인코딩하기 위한 가변 길이 문자 인코딩 방식이다. UTF-8과 유사하게 ASCII와 하위 호환되며, 유니코드 코드 포인트를 1, 2, 3 또는 5바이트 시퀀스로 표현한다. C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않으며, ISO/IEC 2022와 호환되도록 설계되었다. UTF-8과 비교하여 코드 포인트 표현 방식에 차이가 있다.

UTF-1

개요

이름	UTF-1
MIME 형식	ISO-10646-UTF-1
관련	해당 사항 없음
언어	국제어
상태	모호함, 주로 역사적인 관심사
분류	유니코드 변환 형식 확장 ASCII 가변 너비 인코딩
인코딩 대상	ISO/IEC 10646 (유니코드)
확장	US-ASCII
이전	해당 사항 없음
다음	UTF-8

📚 더 읽어볼만한 페이지

유니코드 변환 형식 - UTF-8
유니코드 변환 형식 - UTF-32
UTF-32는 유니코드 문자 집합의 각 코드 포인트를 32비트로 표현하는 가변 길이 문자 인코딩 방식이며, 문자열 내 특정 문자를 빠르게 찾는 데 사용되지만 데이터 크기가 크다는 단점이 있다.
문자 인코딩 - 유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다.
문자 인코딩 - UTF-8
유니코드에 관한 - UTF-8
유니코드에 관한 - 유니코드 영역
유니코드 영역은 문자 및 기호를 논리적으로 그룹화한 블록들의 집합으로, 고유한 이름과 코드 포인트 범위를 가지며, 기본 다국어 평면(BMP)을 포함하여 다양한 평면으로 확장되어 문자 인코딩 등 다양한 분야에서 중요한 역할을 한다.

1. 개요
2. 설계

2. 설계

UTF-1은 UTF-8과 유사하게 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3, 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트로 표현되며, U+0080에서 U+009F 범위의 코드 포인트도 단일 바이트로 표현된다는 점이 특징이다.

UTF-1은 C0 및 C1 제어 코드 또는 멀티바이트 인코딩에서 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와의 호환성을 고려한 것이다.

UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 이에 비해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술을 사용한다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.

👆

좌우로 밀어서 보기

코드포인트	UTF-16BE	UTF-16LE	UTF-8	UTF-1
U+007F	00 7F	7F 00	7F	7F
U+0080	00 80	80 00	C2 80	80
U+009F	00 9F	9F 00	C2 9F	9F
U+00A0	00 A0	A0 00	C2 A0	A0 A0
U+00BF	00 BF	BF 00	C2 BF	A0 BF
U+00C0	00 C0	C0 00	C3 80	A0 C0
U+00FF	00 FF	FF 00	C3 BF	A0 FF
U+0100	01 00	00 01	C4 80	A1 21
U+015D	01 5D	5D 01	C5 9D	A1 7E
U+015E	01 5E	5E 01	C5 9E	A1 A0
U+01BD	01 BD	BD 01	C6 BD	A1 FF
U+01BE	01 BE	BE 01	C6 BE	A2 21
U+07FF	07 FF	FF 07	DF BF	AA 72
U+0800	08 00	00 08	E0 A0 80	AA 73
U+0FFF	0F FF	FF 0F	E0 BF BF	B5 48
U+1000	10 00	00 10	E1 80 80	B5 49
U+4015	40 15	15 40	E4 80 95	F5 FF
U+4016	40 16	16 40	E4 80 96	F6 21 21
U+D7FF	D7 FF	FF D7	ED 9F BF	F7 2F C3
U+E000	E0 00	00 E0	EE 80 80	F7 3A 79
U+F8FF	F8 FF	FF F8	EF A3 BF	F7 5C 3C
U+FDD0	FD D0	D0 FD	EF B7 90	F7 62 BA
U+FDEF	FD EF	EF FD	EF B7 AF	F7 62 D9
U+FEFF	FE FF	FF FE	EF BB BF	F7 64 4C
U+FFFD	FF FD	FD FF	EF BF BD	F7 65 AD
U+FFFE	FF FE	FE FF	EF BF BE	F7 65 AE
U+FFFF	FF FF	FF FF	EF BF BF	F7 65 AF
U+10000	D8 00 DC 00	00 D8 00 DC	F0 90 80 80	F7 65 B0
U+38E2D	D8 A3 DE 2D	A3 D8 2D DE	F0 B8 B8 AD	FB FF FF
U+38E2E	D8 A3 DE 2E	A3 D8 2E DE	F0 B8 B8 AE	FC 21 21 21 21
U+FFFFF	DB BF DF FF	BF DB FF DF	F3 BF BF BF	FC 21 37 B2 7A
U+100000	DB C0 DC 00	C0 DB 00 DC	F4 80 80 80	FC 21 37 B2 7B
U+10FFFF	DB FF DF FF	FF DB FF DF	F4 8F BF BF	FC 21 39 6E 6C
U+7FFFFFFF	오류	오류	FD BF BF BF BF BF	FD BC 2B B8 40

현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합(UCS-4)의 전체 31비트를 인코딩하도록 설계되었다.

2.1. 코드 포인트 표현

UTF-1은 유니코드 코드 포인트를 단일 바이트 또는 2, 3, 5바이트 시퀀스로 표현하는 가변 길이 인코딩 방식이다. ASCII와 하위 호환되며, 모든 ASCII 코드 포인트는 단일 바이트로 표현된다. 특히 코드 포인트 U+0080에서 U+009F도 단일 바이트로 표현되는 특징이 있다.

UTF-1은 C0 및 C1 제어 코드나 멀티바이트 인코딩의 공백 문자를 사용하지 않아, 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 이러한 설계는 ISO/IEC 2022와의 호환성을 고려한 것이다.

UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 이는 모든 128개의 ASCII 문자를 보호하고 자체 동기화를 위해 추가 비트가 필요한 UTF-8의 "모듈로 64" 산술과 비교된다.

다음은 UTF-1과 UTF-8의 코드 포인트 표현을 비교한 표이다.

👆

좌우로 밀어서 보기

코드 포인트	UTF-8	UTF-1
U+007F	7F	7F
U+0080	C2 80	80
U+009F	C2 9F	9F
U+00A0	C2 A0	A0 A0
U+00BF	C2 BF	A0 BF
U+00C0	C3 80	A0 C0
U+00FF	C3 BF	A0 FF
U+0100	C4 80	A1 21
U+015D	C5 9D	A1 7E
U+015E	C5 9E	A1 A0
U+01BD	C6 BD	A1 FF
U+01BE	C6 BE	A2 21
U+07FF	DF BF	AA 72
U+0800	E0 A0 80	AA 73
U+0FFF	E0 BF BF	B5 48
U+1000	E1 80 80	B5 49
U+4015	E4 80 95	F5 FF
U+4016	E4 80 96	F6 21 21
U+D7FF	ED 9F BF	F7 2F C3
U+E000	EE 80 80	F7 3A 79
U+F8FF	EF A3 BF	F7 5C 3C
U+FDD0	EF B7 90	F7 62 BA
U+FDEF	EF B7 AF	F7 62 D9
U+FEFF	EF BB BF	F7 64 4C
U+FFFD	EF BF BD	F7 65 AD
U+FFFE	EF BF BE	F7 65 AE
U+FFFF	EF BF BF	F7 65 AF
U+10000	F0 90 80 80	F7 65 B0
U+38E2D	F0 B8 B8 AD	FB FF FF
U+38E2E	F0 B8 B8 AE	FC 21 21 21 21
U+FFFFF	F3 BF BF BF	FC 21 37 B2 7A
U+100000	F4 80 80 80	FC 21 37 B2 7B
U+10FFFF	F4 8F BF BF	FC 21 39 6E 6C
U+7FFFFFFF	FD BF BF BF BF BF	FD BD 2B B9 40

현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합 (UCS-4)의 전체 31비트를 인코딩하도록 설계되었다.

2.2. 인코딩 방식

UTF-1은 UTF-8과 유사하게 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3, 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트이다(코드 포인트 U+0080에서 U+009F도 단일 바이트이다).

UTF-1은 C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와 호환되도록 시도되었다.

UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 비교를 위해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술(2⁶ = 64)이 된다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.

다음은 코드 포인트에 따른 UTF-1의 인코딩 방식을 보여주는 표이다.

👆

좌우로 밀어서 보기

코드포인트	UTF-1	UTF-8
U+007F	7F	7F
U+0080	80	C2 80
U+009F	9F	C2 9F
U+00A0	A0 A0	C2 A0
U+00BF	A0 BF	C2 BF
U+00C0	A0 C0	C3 80
U+00FF	A0 FF	C3 BF
U+0100	A1 21	C4 80
U+015D	A1 7E	C5 9D
U+015E	A1 A0	C5 9E
U+01BD	A1 FF	C6 BD
U+01BE	A2 21	C6 BE
U+07FF	AA 72	DF BF
U+0800	AA 73	E0 A0 80
U+0FFF	B5 48	E0 BF BF
U+1000	B5 49	E1 80 80
U+4015	F5 FF	E4 80 95
U+4016	F6 21 21	E4 80 96
U+D7FF	F7 2F C3	ED 9F BF
U+E000	F7 3A 79	EE 80 80
U+F8FF	F7 5C 3C	EF A3 BF
U+FDD0	F7 62 BA	EF B7 90
U+FDEF	F7 62 D9	EF B7 AF
U+FEFF	F7 64 4C	EF BB BF
U+FFFD	F7 65 AD	EF BF BD
U+FFFE	F7 65 AE	EF BF BE
U+FFFF	F7 65 AF	EF BF BF
U+10000	F7 65 B0	F0 90 80 80
U+38E2D	FB FF FF	F0 B8 B8 AD
U+38E2E	FC 21 21 21 21	F0 B8 B8 AE
U+FFFFF	FC 21 37 B2 7A	F3 BF BF BF
U+100000	FC 21 37 B2 7B	F4 80 80 80
U+10FFFF	FC 21 39 6E 6C	F4 8F BF BF
U+7FFFFFFF	FD BD 2B B9 40	FD BF BF BF BF BF

현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합 (UCS-4)의 전체 31비트를 인코딩하도록 설계되었으며, 위 표의 마지막 항목은 이 원래 최종 코드 포인트를 보여준다.

2.3. UTF-8과의 비교

UTF-8과 유사하게 UTF-1은 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3 또는 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트이다(코드 포인트 에서 도 단일 바이트이다).

UTF-1은 C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와 호환되도록 시도되었다.

UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 비교를 위해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술(2⁶ = 64)이 된다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.

👆

좌우로 밀어서 보기

코드 포인트	UTF-8	UTF-1
U+007F	7F	7F
U+0080	C2 80	80
U+009F	C2 9F	9F
U+00A0	C2 A0	A0 A0
U+00BF	C2 BF	A0 BF
U+00C0	C3 80	A0 C0
U+00FF	C3 BF	A0 FF
U+0100	C4 80	A1 21
U+015D	C5 9D	A1 7E
U+015E	C5 9E	A1 A0
U+01BD	C6 BD	A1 FF
U+01BE	C6 BE	A2 21
U+07FF	DF BF	AA 72
U+0800	E0 A0 80	AA 73
U+0FFF	E0 BF BF	B5 48
U+1000	E1 80 80	B5 49
U+4015	E4 80 95	F5 FF
U+4016	E4 80 96	F6 21 21
U+D7FF	ED 9F BF	F7 2F C3
U+E000	EE 80 80	F7 3A 79
U+F8FF	EF A3 BF	F7 5C 3C
U+FDD0	EF B7 90	F7 62 BA
U+FDEF	EF B7 AF	F7 62 D9
U+FEFF	EF BB BF	F7 64 4C
U+FFFD	EF BF BD	F7 65 AD
U+FFFE	EF BF BE	F7 65 AE
U+FFFF	EF BF BF	F7 65 AF
U+10000	F0 90 80 80	F7 65 B0
U+38E2D	F0 B8 B8 AD	FB FF FF
U+38E2E	F0 B8 B8 AE	FC 21 21 21 21
U+FFFFF	F3 BF BF BF	FC 21 37 B2 7A
U+100000	F4 80 80 80	FC 21 37 B2 7B
U+10FFFF	F4 8F BF BF	FC 21 39 6E 6C
U+7FFFFFFF	FD BF BF BF BF BF	FD BD 2B B9 40

현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합(UCS-4)의 전체 31비트를 인코딩하도록 설계되었으며, 이 표의 마지막 항목은 이 원래 최종 코드 포인트를 보여준다.