유니코드 평면
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
유니코드 평면은 유니코드가 문자를 체계적으로 관리하기 위해 사용하는 개념으로, 각 평면은 65,536개의 코드 포인트를 포함한다. 유니코드에서는 현재 0번부터 16번까지의 평면 중 0, 1, 2, 3, 14, 15, 16번 평면을 사용하며, 각 평면은 특정 문자 집합을 담고 있다. 0번 평면인 기본 다국어 평면(BMP)은 가장 기본적인 문자를 포함하며, 1번 평면인 보충 다국어 평면(SMP)은 고대 문자, 음악 기호 등을, 2번 평면인 보충 상형 문자 평면(SIP)은 한중일 통합 한자를 주로 담고 있다. 3번 평면인 제3 상형 문자 평면(TIP)은 고대 한자 등을, 14번 평면인 특수 목적 보충 평면(SSP)은 서식 제어 문자를, 15, 16번 평면은 사설 사용 영역으로 특정 사용자나 업체가 정의하여 사용한다. 4번부터 13번 평면은 현재 미지정 상태이다.
더 읽어볼만한 페이지
- 유니코드에 관한 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다. - 유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다. - 유니코드 - 이모지
이모지는 1999년 NTT 도코모에서 처음 도입된 그림 문자로, 유니코드 표준 제정 후 전 세계적으로 확산되어 다양한 언어적 기능을 수행하며 대중문화에 영향을 미치지만, 플랫폼별 표현 방식 차이와 의미 해석 논란도 존재한다. - 유니코드 - 국제 음성 기호
국제 음성 기호는 국제 음성 협회가 개발한 언어의 음성 표기 문자 기호 체계로, 라틴 문자를 기반으로 자음, 모음, 초분절 기호 등을 포함하여 모든 언어의 음성을 정확하게 표기하는 것을 목표로 한다. - 컴퓨터에 관한 - 고속 패킷 접속
고속 패킷 접속(HSPA)은 3세대 이동통신(3G)의 데이터 전송 속도를 높이는 기술 집합체로, 고속 하향/상향 패킷 접속(HSDPA/HSUPA)을 통해 속도를 개선하고 다중 안테나, 고차 변조, 다중 주파수 대역 활용 등의 기술로 진화했으나, LTE 및 5G 기술 발전으로 현재는 상용 서비스가 중단되었다. - 컴퓨터에 관한 - 데이터베이스
데이터베이스는 여러 사용자가 공유하고 사용하는 정보의 집합으로, 데이터베이스 관리 시스템을 통해 접근하며, 검색 및 갱신 효율을 높이기 위해 고도로 구조화되어 있고, 관계형, NoSQL, NewSQL 등 다양한 모델로 발전해왔다.
유니코드 평면 | |
---|---|
유니코드 평면 정보 | |
명칭 | 유니코드 평면 |
영어 명칭 | Plane (Unicode) |
면 (문자 코드) 일본어 명칭 | 面 (文字コード) |
유니코드 평면 한국어 명칭 | 유니코드 평면 |
기본 정보 | |
범위 | 연속된 65536개의 유니코드 코드 포인트 그룹 |
추가 정보 | |
참고 자료 | 유니코드 용어집 |
유니코드 버전 | 16.0 |
로드맵 | 유니코드 로드맵 |
표시 문제 | 일부 컴퓨터 및 웹 브라우저에서 특정 문자 표시 불가 |
2. 유니코드 평면
유니코드는 여러 개의 평면으로 나뉘며, 각 평면은 65,536개의 코드 포인트를 갖는다. 현재까지 정의된 평면은 다음과 같다.
평면 | 할당된 코드 포인트 | 할당된 문자 |
---|---|---|
0 BMP | 65,520 | 55,656 |
1 SMP | 31,424 | 28,444 |
2 SIP | 61,536 | 61,495 |
3 TIP | 9,136 | 9,131 |
14 SSP | 368 | 337 |
15 SPUA-A | 65,536 | 0 (정의상) |
16 SPUA-B | 65,536 | 0 (정의상) |
합계 | 299,056 | 155,063 |
ISO/IEC 10646에서 평면은 UCS-4의 부호 공간을 분할한 것이다. UCS-4에서 문자는 4옥텟(4바이트)로 표시되며, 31비트로 구성되어 그룹 옥텟(7비트), 면 옥텟, 구역 옥텟, 점 옥텟으로 구분된다. 부호 공간은 128개의 그룹, 각 그룹은 256개의 면, 각 면은 256개의 구역, 각 구역은 256개의 점으로 나뉜다. 총 32,768개의 면으로 구성되며, 각 면은 65,536개의 점을 갖는다.
유니코드에서는 제0 그룹의 제0~16면만 사용할 수 있다. 이는 UTF-16으로 표시할 수 있는 부호 위치가 000016-10FFFF16으로 제한되기 때문이다. 유니코드의 부호 공간을 분할하는 첫 번째 단위는 그룹이 아닌 면이다.
현재 유니코드에서 실제로 사용하고 있는 평면은 다음과 같다.
- 제0면 (Plane 0): 기본 다국어 평면 (Basic Multilingual Plane; BMP)
- 제1면 (Plane 1): 보충 다국어 평면 (Supplementary Multilingual Plane; SMP)
- 제2면 (Plane 2): 보충 상형 문자 평면 (Supplementary Ideographic Plane; SIP)
- 제3면 (Plane 3): 제3 상형 문자 평면 (Tertiary Ideographic Plane; TIP)
- 제14면 (Plane 14): 특수 목적 보충 평면 (Supplementary Special‐purpose Plane; SSP)
- 제15-16면 (Plane 15-16): 사용자 영역 평면 (Private Use Area)
제4-13면은 미지정 평면으로, 어떤 목적으로 사용할지조차 결정되지 않았으며, 향후 표준화를 위해 보류되어 있다.[1]
2. 1. 기본 다국어 평면 (BMP)
유니코드의 첫 번째 평면으로, 000016부터 FFFF16까지의 코드 위치 65,536개로 구성된다. UCS-2의 유일한 평면이자, 유니코드 3.1 이전까지 유일한 평면이었다. UTF-16에서는 서로게이트 쌍(대용 쌍)을 사용하지 않고 2바이트로, UTF-8에서는 3바이트 이내로 나타낼 수 있다.BMP에는 현대 문자와 특수 기호 대부분이 수록되어 있다. 예를 들어 한글 자모 (1100–11FF), 한글 음절 (AC00–D7AF), 한중일 통합 한자 (4E00–9FFF) 등이 BMP에 속한다. 한글은 초성, 중성, 종성을 조합하여 음절 단위로 표현하며, 현대 한글의 모든 조합 가능한 음절은 BMP에 포함되어 있다. 한자는 한국, 중국, 일본 등에서 사용되는 표의 문자로, BMP에는 가장 빈번하게 사용되는 한자들이 포함되어 있다.
2. 2. 보충 다국어 평면 (SMP)
Supplementary Multilingual Plane, SMP영어은 옛 문자나 음악 기호, 수학 기호 등에 쓰인다.다국어 보충 평면에는 총 151개 영역이 존재한다.
영역 종류 | 유니코드 영역 |
---|---|
고졸기 그리스와 기타 좌횡서 문자 | |
우횡서 문자 | |
브라흐미 문자 | |
통합 캐나다 원주민 음절 문자 확장-A | (11AB0–11ABF) |
브라흐미 문자 | |
리수 문자 보충 | (11FB0–11FBF) |
타밀 문자 보충 | (11FC0–11FFF) |
설형문자 | (12000–123FF) |
설형문자 숫자와 구두점 | (12400–1247F) |
초기왕조 설형문자 | (12480–1254F) |
키프로스-미노아 문자 | (12F90–12FFF) |
이집트 상형문자 | (13000–1342F) |
이집트 상형문자 Format Controls | (13430–1345F) |
아나톨리아 상형문자 | (14400–1467F) |
바뭄 문자 보충 | (16800–16A3F) |
Mro | (16A40–16A6F) |
Tangsa | (16A70–16ACF) |
Bassa Vah | (16AD0–16AFF) |
Pahawh Hmong | (16B00–16B8F) |
Medefaidrin | (16E40–16E9F) |
Miao | (16F00–16F9F) |
Ideographic Symbols and Punctuation | (16FE0–16FFF) |
탕구트 문자 | (17000–187FF) |
Tangut Components | (18800–18AFF) |
Khitan Small Script | (18B00–18CFF) |
탕구트 문자 보충 | (18D00–18D7F) |
가나 확장-B | (1AFF0–1AFFF) |
가나 보충 | (1B000–1B0FF) |
가나 확장-A | (1B100–1B12F) |
소형 가나 확장 | (1B130–1B16F) |
여서문자 | (1B170–1B2FF) |
뒤플루아예 속기 | (1BC00–1BC9F) |
Shorthand Format Controls | (1BCA0–1BCAF) |
기호 | |
서튼 수화문자 | (1D800–1DAAF) |
로마자 확장-G | (1DF00–1DFFF) |
글라골 문자 보충 | (1E000–1E02F) |
키릴 문자 보충-D | (1E030–1E08F) |
냐켕푸아체몽 | (1E100–1E14F) |
토토 문자 | (1E290–1E2BF) |
완초 문자 | (1E2C0–1E2FF) |
문다리 문자 | (1E4D0–1E4FF) |
에티오피아 문자 확장-B | (1E7E0–1E7FF) |
멘데 문자 | (1E800–1E8DF) |
아들람 문자 | (1E900–1E95F) |
기호 | |
Enclosed Alphanumeric Supplement | (1F100–1F1FF) |
Enclosed Ideographic Supplement | (1F200–1F2FF) |
여러 가지 기호와 그림문자 | (1F300–1F5FF) |
이모티콘 | (1F600–1F64F) |
장식용 딩뱃 | (1F650–1F67F) |
교통과 지도 기호 | (1F680–1F6FF) |
연금술 기호 | (1F700–1F77F) |
Geometric Shapes Extended | (1F780–1F7FF) |
보충 화살표-C | (1F800–1F8FF) |
보충 기호와 그림문자 | (1F900–1F9FF) |
체스 기호 | (1FA00–1FA6F) |
기호와 그림문자 확장-A | (1FA70–1FAFF) |
Symbols for Legacy Computing | (1FB00–1FBFF) |
2. 3. 보충 상형 문자 평면 (SIP)
보충 상형 문자 평면(SIP)은 2번 평면으로, U+20000부터 U+2FFFF까지의 코드 포인트를 포함한다. BMP에 포함되지 않은 추가적인 한중일 통합 한자가 주로 포함되어 있다. 대한민국에서는 표준국어대사전에 등재된 한자 중 일부가 SIP에 포함되어 있다.SIP에는 총 61,495개의 문자가 할당되어 있다.
일본에서 잘 알려진 SIP에 포함된 한자로는 요시노야의 吉|요시일본어), 𬝱|조일본어 (1024)가 있다.
2. 4. 제3 상형 문자 평면 (TIP)
제3 한자면(TIP)은 유니코드의 3번 평면으로, U+30000부터 U+3FFFF까지의 코드 포인트를 포함한다.[1] 여기에는 추가 한자 면(SIP)에 포함되지 못한 한자 및 고대 한자가 수록되어 있다.[1] 현재 9,136개의 코드 포인트가 할당되어 있으며, 이 중 9,131개에 문자가 할당되어 있다.[1]갑골 문자, 금문, 소전 등 고대 한자 및 추가적인 한중일 통합 한자가 포함될 예정이다. 한국의 고대 문자 연구와 관련된 문자들도 여기에 포함될 가능성이 있다.
2. 5. 특수 목적 보충 평면 (SSP)
특수 목적 보충 평면(Supplementary Special-purpose Plane, SSP영어)은 14번 평면으로, 제어용 문자들을 포함하고 있다. 2010년 현재는 적은 수의 제어용 문자들만이 이 평면에 포함되어 있다.2023년 9월 현재 유니코드 15.1 버전에서 특수 목적 보충 평면(SSP)에 할당된 코드 포인트는 368개, 할당된 문자는 337개이다.[1]
SSP에는 서식 제어 문자가 포함되어 있다.[2] 현재는 언어 태그 및 이형 문자 선택자가 정의되어 있다.[3][4] 언어 태그는 텍스트에 언어 정보를 추가하는 것이며,[5] 이형 문자 선택자는 한자의 경우 SSP에 있는 것을 사용한다.[6]
2. 6. 사용자 영역 평면 (SPUA-A/B)
15번과 16번 두 평면은 사용자 영역으로, 특정 업체나 사용자별로 할당하여 쓰게 되므로 소프트웨어간이나 글꼴간의 호환성이 보장되지 않는다.[1]
유니코드에서는 제15~16면이 (BMP의 E00016-F8FF16 외에도) 당사자 간의 사적인 합의에 의해 문자를 정의할 수 있는 사설 사용 영역으로 지정되어 있다.[1]
2. 7. 미지정 평면
4번부터 13번 평면에는 2015년 현재 아무 문자나 기호도 지정되지 않았다. 이 평면들은 어떤 목적으로 사용할지조차 결정되지 않았으며, 향후 표준화를 위해 보류되어 있다.[1]참조
[1]
웹사이트
Glossary
https://www.unicode.[...]
2021-09-27
[2]
문서
UTF-16 Bit Distribution
https://www.unicode.[...]
Unicode Standard
[3]
문서
UTF-8 Bit Distribution
https://www.unicode.[...]
Unicode Standard
[4]
웹사이트
Roadmaps to Unicode
https://www.unicode.[...]
2021-09-27
[5]
웹사이트
Announcing The Unicode Standard, Version 13.0
http://blog.unicode.[...]
[6]
웹사이트
Proposed New Characters: The Pipeline
https://www.unicode.[...]
[7]
문서
第11面から第15面までは当初[[今昔文字鏡]]の文字が割り当てられていたが、ライセンスの問題で削除されたため現在は欠番扱いになっている。
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com