유니코드 평면

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

유니코드 평면은 유니코드가 문자를 체계적으로 관리하기 위해 사용하는 개념으로, 각 평면은 65,536개의 코드 포인트를 포함한다. 유니코드에서는 현재 0번부터 16번까지의 평면 중 0, 1, 2, 3, 14, 15, 16번 평면을 사용하며, 각 평면은 특정 문자 집합을 담고 있다. 0번 평면인 기본 다국어 평면(BMP)은 가장 기본적인 문자를 포함하며, 1번 평면인 보충 다국어 평면(SMP)은 고대 문자, 음악 기호 등을, 2번 평면인 보충 상형 문자 평면(SIP)은 한중일 통합 한자를 주로 담고 있다. 3번 평면인 제3 상형 문자 평면(TIP)은 고대 한자 등을, 14번 평면인 특수 목적 보충 평면(SSP)은 서식 제어 문자를, 15, 16번 평면은 사설 사용 영역으로 특정 사용자나 업체가 정의하여 사용한다. 4번부터 13번 평면은 현재 미지정 상태이다.

유니코드 평면

유니코드 평면 정보

명칭	유니코드 평면
영어 명칭	Plane (Unicode)
면 (문자 코드) 일본어 명칭	面 (文字コード)
유니코드 평면 한국어 명칭	유니코드 평면

기본 정보

범위	연속된 65536개의 유니코드 코드 포인트 그룹

추가 정보

참고 자료	유니코드 용어집
유니코드 버전	16.0
로드맵	유니코드 로드맵
표시 문제	일부 컴퓨터 및 웹 브라우저에서 특정 문자 표시 불가

📚 더 읽어볼만한 페이지

유니코드에 관한 - UTF-8
유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
언어에 관한 - 네팔어
네팔어는 데바나가리 문자로 표기되며, 산스크리트어와 프라크리트어의 영향을 받았으며, 10세기에서 14세기 사이에 나타나, 20세기 이후 표준화 과정을 거쳐 현대 네팔어로 자리 잡았으며, 인도 내 네팔어 사용자들의 권익 신장에 기여했다.
언어에 관한 - 슬로바키아어
슬로바키아어는 슬로바키아의 공용어이자 약 500만 명이 사용하는 서슬라브어군 언어로, 라틴 문자 기반의 고유한 문자를 사용하며 체코어와 유사하고 폴란드어 등 다른 슬라브어와도 연관성을 가진다.
유니코드 - 이모지
이모지는 1999년 NTT 도코모에서 처음 도입된 그림 문자로, 유니코드 표준 제정 후 전 세계적으로 확산되어 다양한 언어적 기능을 수행하며 대중문화에 영향을 미치지만, 플랫폼별 표현 방식 차이와 의미 해석 논란도 존재한다.
유니코드 - 국제 음성 기호
국제 음성 기호는 국제 음성 협회가 개발한 언어의 음성 표기 문자 기호 체계로, 라틴 문자를 기반으로 자음, 모음, 초분절 기호 등을 포함하여 모든 언어의 음성을 정확하게 표기하는 것을 목표로 한다.

1. 개요
2. 유니코드 평면

2. 유니코드 평면

유니코드는 여러 개의 평면으로 나뉘며, 각 평면은 65,536개의 코드 포인트를 갖는다. 현재까지 정의된 평면은 다음과 같다.

👆

좌우로 밀어서 보기

유니코드 평면별 할당된 코드 포인트 및 문자 수
평면	할당된 코드 포인트	할당된 문자
0 BMP	65,520	55,656
1 SMP	31,424	28,444
2 SIP	61,536	61,495
3 TIP	9,136	9,131
14 SSP	368	337
15 SPUA-A	65,536	0 (정의상)
16 SPUA-B	65,536	0 (정의상)
합계	299,056	155,063

ISO/IEC 10646에서 평면은 UCS-4의 부호 공간을 분할한 것이다. UCS-4에서 문자는 4옥텟(4바이트)로 표시되며, 31비트로 구성되어 그룹 옥텟(7비트), 면 옥텟, 구역 옥텟, 점 옥텟으로 구분된다. 부호 공간은 128개의 그룹, 각 그룹은 256개의 면, 각 면은 256개의 구역, 각 구역은 256개의 점으로 나뉜다. 총 32,768개의 면으로 구성되며, 각 면은 65,536개의 점을 갖는다.

유니코드에서는 제0 그룹의 제0~16면만 사용할 수 있다. 이는 UTF-16으로 표시할 수 있는 부호 위치가 0000₁₆-10FFFF₁₆으로 제한되기 때문이다. 유니코드의 부호 공간을 분할하는 첫 번째 단위는 그룹이 아닌 면이다.

현재 유니코드에서 실제로 사용하고 있는 평면은 다음과 같다.
* 제0면 (Plane 0): 기본 다국어 평면 (Basic Multilingual Plane; BMP)
* 제1면 (Plane 1): 보충 다국어 평면 (Supplementary Multilingual Plane; SMP)
* 제2면 (Plane 2): 보충 상형 문자 평면 (Supplementary Ideographic Plane; SIP)
* 제3면 (Plane 3): 제3 상형 문자 평면 (Tertiary Ideographic Plane; TIP)
* 제14면 (Plane 14): 특수 목적 보충 평면 (Supplementary Special‐purpose Plane; SSP)
* 제15-16면 (Plane 15-16): 사용자 영역 평면 (Private Use Area)

제4-13면은 미지정 평면으로, 어떤 목적으로 사용할지조차 결정되지 않았으며, 향후 표준화를 위해 보류되어 있다.

2.1. 기본 다국어 평면 (BMP)

유니코드의 첫 번째 평면으로, 0000₁₆부터 FFFF₁₆까지의 코드 위치 65,536개로 구성된다. UCS-2의 유일한 평면이자, 유니코드 3.1 이전까지 유일한 평면이었다. UTF-16에서는 서로게이트 쌍(대용 쌍)을 사용하지 않고 2바이트로, UTF-8에서는 3바이트 이내로 나타낼 수 있다.

BMP에는 현대 문자와 특수 기호 대부분이 수록되어 있다. 예를 들어 한글 자모 (1100–11FF), 한글 음절 (AC00–D7AF), 한중일 통합 한자 (4E00–9FFF) 등이 BMP에 속한다. 한글은 초성, 중성, 종성을 조합하여 음절 단위로 표현하며, 현대 한글의 모든 조합 가능한 음절은 BMP에 포함되어 있다. 한자는 한국, 중국, 일본 등에서 사용되는 표의 문자로, BMP에는 가장 빈번하게 사용되는 한자들이 포함되어 있다.

2.2. 보충 다국어 평면 (SMP)

Supplementary Multilingual Plane, SMP^영어은 옛 문자나 음악 기호, 수학 기호 등에 쓰인다.

유니코드 다국어 보충 평면을 그림으로 나타낸 것이다. 각 칸은 문자 256개를 나타낸다.

다국어 보충 평면에는 총 151개 영역이 존재한다.

👆

좌우로 밀어서 보기

영역 종류	유니코드 영역
고졸기 그리스와 기타 좌횡서 문자
우횡서 문자
브라흐미 문자
통합 캐나다 원주민 음절 문자 확장-A	(11AB0–11ABF)
브라흐미 문자
리수 문자 보충	(11FB0–11FBF)
타밀 문자 보충	(11FC0–11FFF)
설형문자	(12000–123FF)
설형문자 숫자와 구두점	(12400–1247F)
초기왕조 설형문자	(12480–1254F)
키프로스-미노아 문자	(12F90–12FFF)
이집트 상형문자	(13000–1342F)
이집트 상형문자 Format Controls	(13430–1345F)
아나톨리아 상형문자	(14400–1467F)
바뭄 문자 보충	(16800–16A3F)
Mro	(16A40–16A6F)
Tangsa	(16A70–16ACF)
Bassa Vah	(16AD0–16AFF)
Pahawh Hmong	(16B00–16B8F)
Medefaidrin	(16E40–16E9F)
Miao	(16F00–16F9F)
Ideographic Symbols and Punctuation	(16FE0–16FFF)
탕구트 문자	(17000–187FF)
Tangut Components	(18800–18AFF)
Khitan Small Script	(18B00–18CFF)
탕구트 문자 보충	(18D00–18D7F)
가나 확장-B	(1AFF0–1AFFF)
가나 보충	(1B000–1B0FF)
가나 확장-A	(1B100–1B12F)
소형 가나 확장	(1B130–1B16F)
여서문자	(1B170–1B2FF)
뒤플루아예 속기	(1BC00–1BC9F)
Shorthand Format Controls	(1BCA0–1BCAF)
기호
서튼 수화문자	(1D800–1DAAF)
로마자 확장-G	(1DF00–1DFFF)
글라골 문자 보충	(1E000–1E02F)
키릴 문자 보충-D	(1E030–1E08F)
냐켕푸아체몽	(1E100–1E14F)
토토 문자	(1E290–1E2BF)
완초 문자	(1E2C0–1E2FF)
문다리 문자	(1E4D0–1E4FF)
에티오피아 문자 확장-B	(1E7E0–1E7FF)
멘데 문자	(1E800–1E8DF)
아들람 문자	(1E900–1E95F)
기호
Enclosed Alphanumeric Supplement	(1F100–1F1FF)
Enclosed Ideographic Supplement	(1F200–1F2FF)
여러 가지 기호와 그림문자	(1F300–1F5FF)
이모티콘	(1F600–1F64F)
장식용 딩뱃	(1F650–1F67F)
교통과 지도 기호	(1F680–1F6FF)
연금술 기호	(1F700–1F77F)
Geometric Shapes Extended	(1F780–1F7FF)
보충 화살표-C	(1F800–1F8FF)
보충 기호와 그림문자	(1F900–1F9FF)
체스 기호	(1FA00–1FA6F)
기호와 그림문자 확장-A	(1FA70–1FAFF)
Symbols for Legacy Computing	(1FB00–1FBFF)

2.3. 보충 상형 문자 평면 (SIP)

보충 상형 문자 평면(SIP)은 2번 평면으로, U+20000부터 U+2FFFF까지의 코드 포인트를 포함한다. BMP에 포함되지 않은 추가적인 한중일 통합 한자가 주로 포함되어 있다. 대한민국에서는 표준국어대사전에 등재된 한자 중 일부가 SIP에 포함되어 있다.

SIP에는 총 61,495개의 문자가 할당되어 있다.

일본에서 잘 알려진 SIP에 포함된 한자로는 요시노야의 吉^일본어), [[wikt:𬝱^일본어 (10²⁴)가 있다.

2.4. 제3 상형 문자 평면 (TIP)

제3 한자면(TIP)은 유니코드의 3번 평면으로, U+30000부터 U+3FFFF까지의 코드 포인트를 포함한다. 여기에는 추가 한자 면(SIP)에 포함되지 못한 한자 및 고대 한자가 수록되어 있다. 현재 9,136개의 코드 포인트가 할당되어 있으며, 이 중 9,131개에 문자가 할당되어 있다.

갑골 문자, 금문, 소전 등 고대 한자 및 추가적인 한중일 통합 한자가 포함될 예정이다. 한국의 고대 문자 연구와 관련된 문자들도 여기에 포함될 가능성이 있다.

2.5. 특수 목적 보충 평면 (SSP)

특수 목적 보충 평면(Supplementary Special-purpose Plane, SSP^영어)은 14번 평면으로, 제어용 문자들을 포함하고 있다. 2010년 현재는 적은 수의 제어용 문자들만이 이 평면에 포함되어 있다.

2023년 9월 현재 유니코드 15.1 버전에서 특수 목적 보충 평면(SSP)에 할당된 코드 포인트는 368개, 할당된 문자는 337개이다.

SSP에는 서식 제어 문자가 포함되어 있다. 현재는 언어 태그 및 이형 문자 선택자가 정의되어 있다. 언어 태그는 텍스트에 언어 정보를 추가하는 것이며, 이형 문자 선택자는 한자의 경우 SSP에 있는 것을 사용한다.

2.6. 사용자 영역 평면 (SPUA-A/B)

15번과 16번 두 평면은 사용자 영역으로, 특정 업체나 사용자별로 할당하여 쓰게 되므로 소프트웨어간이나 글꼴간의 호환성이 보장되지 않는다.

👆

좌우로 밀어서 보기

유니코드 평면별 할당된 코드 포인트 및 문자 수
평면	할당된 코드 포인트	할당된 문자
15 SPUA-A	65,536	0 (정의상)
16 SPUA-B	65,536	0 (정의상)

유니코드에서는 제15~16면이 (BMP의 E000₁₆-F8FF₁₆ 외에도) 당사자 간의 사적인 합의에 의해 문자를 정의할 수 있는 사설 사용 영역으로 지정되어 있다.

2.7. 미지정 평면

4번부터 13번 평면에는 2015년 현재 아무 문자나 기호도 지정되지 않았다. 이 평면들은 어떤 목적으로 사용할지조차 결정되지 않았으며, 향후 표준화를 위해 보류되어 있다.