UTF-1
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
UTF-1은 유니코드 문자 집합을 인코딩하기 위한 가변 길이 문자 인코딩 방식이다. UTF-8과 유사하게 ASCII와 하위 호환되며, 유니코드 코드 포인트를 1, 2, 3 또는 5바이트 시퀀스로 표현한다. C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않으며, ISO/IEC 2022와 호환되도록 설계되었다. UTF-8과 비교하여 코드 포인트 표현 방식에 차이가 있다.
더 읽어볼만한 페이지
- 유니코드 변환 형식 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다. - 유니코드 변환 형식 - UTF-32
UTF-32는 유니코드 문자 집합의 각 코드 포인트를 32비트로 표현하는 가변 길이 문자 인코딩 방식이며, 문자열 내 특정 문자를 빠르게 찾는 데 사용되지만 데이터 크기가 크다는 단점이 있다. - 유니코드에 관한 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다. - 유니코드에 관한 - 유니코드 영역
유니코드 영역은 문자 및 기호를 논리적으로 그룹화한 블록들의 집합으로, 고유한 이름과 코드 포인트 범위를 가지며, 기본 다국어 평면(BMP)을 포함하여 다양한 평면으로 확장되어 문자 인코딩 등 다양한 분야에서 중요한 역할을 한다. - 문자 인코딩 - 유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다. - 문자 인코딩 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다.
| UTF-1 | |
|---|---|
| 개요 | |
| 이름 | UTF-1 |
| MIME 형식 | ISO-10646-UTF-1 |
| 관련 | 해당 사항 없음 |
| 언어 | 국제어 |
| 상태 | 모호함, 주로 역사적인 관심사 |
| 분류 | 유니코드 변환 형식 확장 ASCII 가변 너비 인코딩 |
| 인코딩 대상 | ISO/IEC 10646 (유니코드) |
| 확장 | US-ASCII |
| 이전 | 해당 사항 없음 |
| 다음 | UTF-8 |
2. 설계
UTF-1은 UTF-8과 유사하게 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3, 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트로 표현되며, U+0080에서 U+009F 범위의 코드 포인트도 단일 바이트로 표현된다는 점이 특징이다.
UTF-1은 C0 및 C1 제어 코드 또는 멀티바이트 인코딩에서 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와의 호환성을 고려한 것이다.
UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 이에 비해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술을 사용한다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.
| 코드포인트 | UTF-16BE | UTF-16LE | UTF-8 | UTF-1 |
|---|---|---|---|---|
| U+007F | 00 7F | 7F 00 | 7F | 7F |
| U+0080 | 00 80 | 80 00 | C2 80 | 80 |
| U+009F | 00 9F | 9F 00 | C2 9F | 9F |
| U+00A0 | 00 A0 | A0 00 | C2 A0 | A0 A0 |
| U+00BF | 00 BF | BF 00 | C2 BF | A0 BF |
| U+00C0 | 00 C0 | C0 00 | C3 80 | A0 C0 |
| U+00FF | 00 FF | FF 00 | C3 BF | A0 FF |
| U+0100 | 01 00 | 00 01 | C4 80 | A1 21 |
| U+015D | 01 5D | 5D 01 | C5 9D | A1 7E |
| U+015E | 01 5E | 5E 01 | C5 9E | A1 A0 |
| U+01BD | 01 BD | BD 01 | C6 BD | A1 FF |
| U+01BE | 01 BE | BE 01 | C6 BE | A2 21 |
| U+07FF | 07 FF | FF 07 | DF BF | AA 72 |
| U+0800 | 08 00 | 00 08 | E0 A0 80 | AA 73 |
| U+0FFF | 0F FF | FF 0F | E0 BF BF | B5 48 |
| U+1000 | 10 00 | 00 10 | E1 80 80 | B5 49 |
| U+4015 | 40 15 | 15 40 | E4 80 95 | F5 FF |
| U+4016 | 40 16 | 16 40 | E4 80 96 | F6 21 21 |
| U+D7FF | D7 FF | FF D7 | ED 9F BF | F7 2F C3 |
| U+E000 | E0 00 | 00 E0 | EE 80 80 | F7 3A 79 |
| U+F8FF | F8 FF | FF F8 | EF A3 BF | F7 5C 3C |
| U+FDD0 | FD D0 | D0 FD | EF B7 90 | F7 62 BA |
| U+FDEF | FD EF | EF FD | EF B7 AF | F7 62 D9 |
| U+FEFF | FE FF | FF FE | EF BB BF | F7 64 4C |
| U+FFFD | FF FD | FD FF | EF BF BD | F7 65 AD |
| U+FFFE | FF FE | FE FF | EF BF BE | F7 65 AE |
| U+FFFF | FF FF | FF FF | EF BF BF | F7 65 AF |
| U+10000 | D8 00 DC 00 | 00 D8 00 DC | F0 90 80 80 | F7 65 B0 |
| U+38E2D | D8 A3 DE 2D | A3 D8 2D DE | F0 B8 B8 AD | FB FF FF |
| U+38E2E | D8 A3 DE 2E | A3 D8 2E DE | F0 B8 B8 AE | FC 21 21 21 21 |
| U+FFFFF | DB BF DF FF | BF DB FF DF | F3 BF BF BF | FC 21 37 B2 7A |
| U+100000 | DB C0 DC 00 | C0 DB 00 DC | F4 80 80 80 | FC 21 37 B2 7B |
| U+10FFFF | DB FF DF FF | FF DB FF DF | F4 8F BF BF | FC 21 39 6E 6C |
| U+7FFFFFFF | 오류 | 오류 | FD BF BF BF BF BF | FD BC 2B B8 40 |
현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합(UCS-4)의 전체 31비트를 인코딩하도록 설계되었다.
2. 1. 코드 포인트 표현
UTF-1은 유니코드 코드 포인트를 단일 바이트 또는 2, 3, 5바이트 시퀀스로 표현하는 가변 길이 인코딩 방식이다. ASCII와 하위 호환되며, 모든 ASCII 코드 포인트는 단일 바이트로 표현된다. 특히 코드 포인트 U+0080에서 U+009F도 단일 바이트로 표현되는 특징이 있다.UTF-1은 C0 및 C1 제어 코드나 멀티바이트 인코딩의 공백 문자를 사용하지 않아, 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 이러한 설계는 ISO/IEC 2022와의 호환성을 고려한 것이다.
UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 이는 모든 128개의 ASCII 문자를 보호하고 자체 동기화를 위해 추가 비트가 필요한 UTF-8의 "모듈로 64" 산술과 비교된다.
다음은 UTF-1과 UTF-8의 코드 포인트 표현을 비교한 표이다.
| 코드 포인트 | UTF-8 | UTF-1 |
|---|---|---|
| U+007F | 7F | 7F |
| U+0080 | C2 80 | 80 |
| U+009F | C2 9F | 9F |
| U+00A0 | C2 A0 | A0 A0 |
| U+00BF | C2 BF | A0 BF |
| U+00C0 | C3 80 | A0 C0 |
| U+00FF | C3 BF | A0 FF |
| U+0100 | C4 80 | A1 21 |
| U+015D | C5 9D | A1 7E |
| U+015E | C5 9E | A1 A0 |
| U+01BD | C6 BD | A1 FF |
| U+01BE | C6 BE | A2 21 |
| U+07FF | DF BF | AA 72 |
| U+0800 | E0 A0 80 | AA 73 |
| U+0FFF | E0 BF BF | B5 48 |
| U+1000 | E1 80 80 | B5 49 |
| U+4015 | E4 80 95 | F5 FF |
| U+4016 | E4 80 96 | F6 21 21 |
| U+D7FF | ED 9F BF | F7 2F C3 |
| U+E000 | EE 80 80 | F7 3A 79 |
| U+F8FF | EF A3 BF | F7 5C 3C |
| U+FDD0 | EF B7 90 | F7 62 BA |
| U+FDEF | EF B7 AF | F7 62 D9 |
| U+FEFF | EF BB BF | F7 64 4C |
| U+FFFD | EF BF BD | F7 65 AD |
| U+FFFE | EF BF BE | F7 65 AE |
| U+FFFF | EF BF BF | F7 65 AF |
| U+10000 | F0 90 80 80 | F7 65 B0 |
| U+38E2D | F0 B8 B8 AD | FB FF FF |
| U+38E2E | F0 B8 B8 AE | FC 21 21 21 21 |
| U+FFFFF | F3 BF BF BF | FC 21 37 B2 7A |
| U+100000 | F4 80 80 80 | FC 21 37 B2 7B |
| U+10FFFF | F4 8F BF BF | FC 21 39 6E 6C |
| U+7FFFFFFF | FD BF BF BF BF BF | FD BD 2B B9 40 |
현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합 (UCS-4)의 전체 31비트를 인코딩하도록 설계되었다.
2. 2. 인코딩 방식
UTF-1은 UTF-8과 유사하게 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3, 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트이다(코드 포인트 U+0080에서 U+009F도 단일 바이트이다).UTF-1은 C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와 호환되도록 시도되었다.
UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 비교를 위해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술(26 = 64)이 된다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.
다음은 코드 포인트에 따른 UTF-1의 인코딩 방식을 보여주는 표이다.
| 코드포인트 | UTF-1 | UTF-8 |
|---|---|---|
| U+007F | 7F | 7F |
| U+0080 | 80 | C2 80 |
| U+009F | 9F | C2 9F |
| U+00A0 | A0 A0 | C2 A0 |
| U+00BF | A0 BF | C2 BF |
| U+00C0 | A0 C0 | C3 80 |
| U+00FF | A0 FF | C3 BF |
| U+0100 | A1 21 | C4 80 |
| U+015D | A1 7E | C5 9D |
| U+015E | A1 A0 | C5 9E |
| U+01BD | A1 FF | C6 BD |
| U+01BE | A2 21 | C6 BE |
| U+07FF | AA 72 | DF BF |
| U+0800 | AA 73 | E0 A0 80 |
| U+0FFF | B5 48 | E0 BF BF |
| U+1000 | B5 49 | E1 80 80 |
| U+4015 | F5 FF | E4 80 95 |
| U+4016 | F6 21 21 | E4 80 96 |
| U+D7FF | F7 2F C3 | ED 9F BF |
| U+E000 | F7 3A 79 | EE 80 80 |
| U+F8FF | F7 5C 3C | EF A3 BF |
| U+FDD0 | F7 62 BA | EF B7 90 |
| U+FDEF | F7 62 D9 | EF B7 AF |
| U+FEFF | F7 64 4C | EF BB BF |
| U+FFFD | F7 65 AD | EF BF BD |
| U+FFFE | F7 65 AE | EF BF BE |
| U+FFFF | F7 65 AF | EF BF BF |
| U+10000 | F7 65 B0 | F0 90 80 80 |
| U+38E2D | FB FF FF | F0 B8 B8 AD |
| U+38E2E | FC 21 21 21 21 | F0 B8 B8 AE |
| U+FFFFF | FC 21 37 B2 7A | F3 BF BF BF |
| U+100000 | FC 21 37 B2 7B | F4 80 80 80 |
| U+10FFFF | FC 21 39 6E 6C | F4 8F BF BF |
| U+7FFFFFFF | FD BD 2B B9 40 | FD BF BF BF BF BF |
현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합 (UCS-4)의 전체 31비트를 인코딩하도록 설계되었으며, 위 표의 마지막 항목은 이 원래 최종 코드 포인트를 보여준다.
2. 3. UTF-8과의 비교
UTF-8과 유사하게 UTF-1은 가변 길이 인코딩이며 ASCII와 하위 호환된다. 모든 유니코드 코드 포인트는 단일 바이트 또는 2, 3 또는 5 바이트 시퀀스로 표현된다. 모든 ASCII 코드 포인트는 단일 바이트이다(코드 포인트 에서 도 단일 바이트이다).UTF-1은 C0 및 C1 제어 코드 또는 멀티 바이트 인코딩의 공백 문자를 사용하지 않는다. 0–0x20 또는 0x7F–0x9F 범위의 바이트는 항상 해당 코드 포인트를 나타낸다. 66개의 "보호된" 문자를 사용하는 이 설계는 ISO/IEC 2022와 호환되도록 시도되었다.
UTF-1은 "모듈로 190" 산술(256 − 66 = 190)을 사용한다. 비교를 위해 UTF-8은 모든 128개의 ASCII 문자를 보호하고 이를 위해 1비트가 필요하며, 자체 동기화를 만들기 위해 두 번째 비트가 필요하므로 "모듈로 64" 산술(26 = 64)이 된다. BOCU-1은 MIME 호환성에 필요한 최소한의 세트(0x00, 0x07–0x0F, 0x1A–0x1B, 및 0x20)만 보호하므로 "모듈로 243" 산술(256 − 13 = 243)이 된다.
| 코드 포인트 | UTF-8 | UTF-1 |
|---|---|---|
| U+007F | 7F | 7F |
| U+0080 | C2 80 | 80 |
| U+009F | C2 9F | 9F |
| U+00A0 | C2 A0 | A0 A0 |
| U+00BF | C2 BF | A0 BF |
| U+00C0 | C3 80 | A0 C0 |
| U+00FF | C3 BF | A0 FF |
| U+0100 | C4 80 | A1 21 |
| U+015D | C5 9D | A1 7E |
| U+015E | C5 9E | A1 A0 |
| U+01BD | C6 BD | A1 FF |
| U+01BE | C6 BE | A2 21 |
| U+07FF | DF BF | AA 72 |
| U+0800 | E0 A0 80 | AA 73 |
| U+0FFF | E0 BF BF | B5 48 |
| U+1000 | E1 80 80 | B5 49 |
| U+4015 | E4 80 95 | F5 FF |
| U+4016 | E4 80 96 | F6 21 21 |
| U+D7FF | ED 9F BF | F7 2F C3 |
| U+E000 | EE 80 80 | F7 3A 79 |
| U+F8FF | EF A3 BF | F7 5C 3C |
| U+FDD0 | EF B7 90 | F7 62 BA |
| U+FDEF | EF B7 AF | F7 62 D9 |
| U+FEFF | EF BB BF | F7 64 4C |
| U+FFFD | EF BF BD | F7 65 AD |
| U+FFFE | EF BF BE | F7 65 AE |
| U+FFFF | EF BF BF | F7 65 AF |
| U+10000 | F0 90 80 80 | F7 65 B0 |
| U+38E2D | F0 B8 B8 AD | FB FF FF |
| U+38E2E | F0 B8 B8 AE | FC 21 21 21 21 |
| U+FFFFF | F3 BF BF BF | FC 21 37 B2 7A |
| U+100000 | F4 80 80 80 | FC 21 37 B2 7B |
| U+10FFFF | F4 8F BF BF | FC 21 39 6E 6C |
| U+7FFFFFFF | FD BF BF BF BF BF | FD BD 2B B9 40 |
현대 유니코드는 U+10FFFF에서 끝나지만, UTF-1과 UTF-8은 원래 범용 문자 집합(UCS-4)의 전체 31비트를 인코딩하도록 설계되었으며, 이 표의 마지막 항목은 이 원래 최종 코드 포인트를 보여준다.
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com