유니코드 영역
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
유니코드 영역은 문자를 효율적으로 관리하고 확장하기 위해 사용되는 개념으로, 각 문자는 특정 블록에 할당된다. 유니코드 블록은 겹치지 않으며, 시작 코드 포인트와 크기는 16의 배수이다. 각 블록은 고유한 이름을 가지며, 모든 코드 포인트는 "Block" 속성을 갖는다. 각 유니코드 포인트는 일반 범주와 스크립트 속성을 가지며, 이는 블록과 독립적이다. 유니코드 16.0은 338개의 블록을 정의하며, 한글 관련 블록을 포함한 전체 유니코드 영역 목록이 존재한다. 유니코드 안정성 정책에 따라 문자는 이동하거나 제거될 수 없으며, 유니코드 블록 목록은 갱신 시점에 따라 차이가 있을 수 있다. 유니코드는 한국어 정보 처리를 위한 완전성, 국제 표준과의 호환성, 다국어 환경 지원을 제공한다.
더 읽어볼만한 페이지
- 유니코드에 관한 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다. - 유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다. - 유니코드 - 이모지
이모지는 1999년 NTT 도코모에서 처음 도입된 그림 문자로, 유니코드 표준 제정 후 전 세계적으로 확산되어 다양한 언어적 기능을 수행하며 대중문화에 영향을 미치지만, 플랫폼별 표현 방식 차이와 의미 해석 논란도 존재한다. - 유니코드 - 국제 음성 기호
국제 음성 기호는 국제 음성 협회가 개발한 언어의 음성 표기 문자 기호 체계로, 라틴 문자를 기반으로 자음, 모음, 초분절 기호 등을 포함하여 모든 언어의 음성을 정확하게 표기하는 것을 목표로 한다. - 유니코드 영역 - 딩뱃
딩뱃은 장식 문자, 강조 표시, 비텍스트 상징을 포함하는 문자 집합으로, 유니코드 표준의 딩뱃 블록과 장식 딩뱃 블록을 통해 코드 포인트를 제공하며, 장식적 요소 외에도 정치적, 사회적 의미를 담을 수 있다. - 유니코드 영역 - 한중일 호환용 한자
한중일 호환용 한자는 유니코드에서 기존 문자 코드와의 호환성을 위해 추가된 한자 블록으로, 다양한 문자 집합의 한자들이 추가되면서 중복 및 정의 오류, CJK 통합 한자와의 호환 문제 등 기술적 고려 사항이 존재한다.
유니코드 영역 | |
---|---|
유니코드 영역 정보 | |
이름 | 유니코드 영역 |
설명 | 유니코드 코드 공간의 연속된 코드 포인트 범위 |
범위 | U+0000부터 U+10FFFF까지 |
총 코드 포인트 수 | 1,114,112 (16진수: 110000) |
할당된 코드 포인트 수 | 변화 |
미할당 코드 포인트 수 | 변화 |
유니코드 표준 | |
버전 | 유니코드 표준의 특정 버전에 정의됨 |
문자 | 특정 문자 집합을 나타냄 |
스크립트 | 특정 스크립트 또는 스크립트 그룹에 속하는 문자 포함 |
일반 범주 | 영역 내 문자들의 일반적인 속성 (예: 대문자, 숫자, 구두점) |
사용 | |
문자 인코딩 | 영역 내 문자를 컴퓨터에서 표현하는 방식 (예: UTF-8, UTF-16) |
정렬 | 영역 내 문자를 정렬하는 규칙 |
렌더링 | 영역 내 문자를 화면이나 인쇄물에 표시하는 방식 |
보충 영역 A 개인 사용 영역 | |
시작 | U+F0000 |
끝 | U+FFFFD |
코드 포인트 수 | 65,534 |
약칭 | PUA-A |
보충 영역 B 개인 사용 영역 | |
시작 | U+100000 |
끝 | U+10FFFD |
코드 포인트 수 | 65,534 |
약칭 | PUA-B |
추가 정보 | |
관련 문서 | 유니코드 유니코드 문자 목록 기본 다국어 평면 보충 다국어 평면 보충 특수 목적 평면 개인 사용 영역 |
2. 유니코드 블록의 개념 및 설계
유니코드는 문자를 효율적으로 관리하고 확장하기 위해 '블록'이라는 개념을 사용한다.
모든 유니코드 블록은 서로 겹치지 않으며(쌍별로 분리), 각 블록의 시작 코드 포인트와 크기는 항상 16의 배수이다.[1] 따라서 16진수 표기법에서 시작(최소) 포인트는 U+''xxx''0이고 종료(최대) 포인트는 U+''yyy''F이다.[1] 블록의 크기는 최소 16개에서 최대 65,536개의 코드 포인트를 포함할 수 있다.[1]
할당된 모든 코드 포인트는 "Block" 속성을 가지며, 그 값은 해당 포인트를 소유하는 고유한 블록의 이름을 지정하는 문자열이다.[2] 블록에는 할당되지 않은 코드 포인트도 포함될 수 있으며, 이는 향후 추가를 위해 예약되어 있다.[1]
2. 1. 블록의 정의
유니코드 블록은 고유한 이름으로 식별되며, 이는 ASCII 문자만 사용하고 일반적으로 기호의 특성을 설명하며, 영어로 "Tibetan" 또는 "Supplemental Arrows-A"와 같다. 블록 이름을 비교할 때는 대소문자, 공백, 하이픈 및 밑줄을 무시한다.[1]블록은 쌍별로 분리되어 겹치지 않는다. 각 블록의 시작 코드 포인트와 크기(코드 포인트 수)는 항상 16의 배수이다. 따라서 16진수 표기법에서 시작(최소) 포인트는 U+''xxx''0이고 종료(최대) 포인트는 U+''yyy''F이며, 여기서 ''xxx''와 ''yyy''는 3개 이상의 16진수 숫자이다.[1] 블록의 크기는 최소 16에서 최대 65,536 코드 포인트까지 다양할 수 있다.
할당된 모든 코드 포인트는 "Block"이라는 글리프 속성을 가지며, 그 값은 해당 포인트를 소유하는 고유한 블록의 이름을 지정하는 문자열이다.[2] 그러나 블록에는 할당되지 않은 코드 포인트도 포함될 수 있으며, 일반적으로 "논리적으로" 해당 블록에 속해야 하는 문자의 향후 추가를 위해 예약되어 있다. 할당되지 않은 평면 4–13과 같이 이름이 지정된 블록에 속하지 않는 코드 포인트는 block="No_Block" 값을 갖는다.[1]
특정 유니코드 블록에 속한다고 해서 해당 블록에 포함되거나 포함될 것으로 예상되는 문자의 특정 속성이 보장되는 것은 아니다. 문자의 정체성은 유니코드 문자 데이터베이스에 명시된 속성에 의해 결정된다. 예를 들어, 32개의 비문자 코드 포인트 U+FDD0..U+FDEF의 연속 범위는 아랍어 표현 형식-A 블록의 다른 문자와 공통적인 속성을 공유하지 않는다. 즉, 아랍어 스크립트 문자 또는 "오른쪽에서 왼쪽으로의 비문자"가 아니며, 아랍어 호환성 문자가 더 이상 인코딩되지 않기로 합의되었으므로 이 블록에 채우기 문자로 할당된다.[3]
2. 2. 블록의 구조적 특징
모든 유니코드 블록은 서로 겹치지 않으며(쌍별로 분리), 각 블록의 시작 코드 포인트와 크기는 항상 16의 배수이다.[1] 따라서 16진수 표기법에서 시작(최소) 포인트는 U+''xxx''0이고 종료(최대) 포인트는 U+''yyy''F이다.[1] 블록의 크기는 최소 16개에서 최대 65,536개의 코드 포인트를 포함할 수 있다.[1]할당된 모든 코드 포인트는 "Block" 속성을 가지며, 그 값은 해당 포인트를 소유하는 고유한 블록의 이름을 지정하는 문자열이다.[2] 블록에는 할당되지 않은 코드 포인트도 포함될 수 있으며, 이는 향후 추가를 위해 예약되어 있다.[1]
2. 3. 블록과 문자 속성
3. 유니코드 일반 범주 및 스크립트 속성
각 유니코드 포인트는 해당 기호가 시스템에 포함된 언어 또는 응용 프로그램에서의 역할을 설명하려는 "일반 범주"라는 속성을 갖는다. 일반 범주의 예로는 "Lu"(대문자), "Nd"(10진수 숫자), "Pi"(시작 따옴표 구두점) 및 "Mn"(비간격 표시, 즉, 앞선 글리프에 대한 분음 부호)가 있다. 이 구분은 코드 블록과 완전히 독립적이다. 주어진 일반 범주를 가진 코드 포인트는 일반적으로 여러 블록에 걸쳐 있으며, 각 블록 내에서도 연속적일 필요가 없다.[4]
각 코드 포인트는 또한 해당 코드 포인트가 어떤 스크립트를 위해 사용되는지, 또는 여러 스크립트 시스템에서 사용되는지를 지정하는 스크립트 속성을 가지고 있다. 이것 또한 블록과 독립적이다.
유니코드 시스템에 대한 설명에서 블록은 기타 기호 블록의 "체스 기호"와 같이 더 구체적인 하위 그룹으로 세분될 수 있다(별도의 체스 기호 블록과 혼동하지 마십시오). 이러한 하위 그룹은 유니코드 컨소시엄에서 사용되는 기술적 의미의 "블록"이 아니며, 사용자의 편의를 위해 이름이 지정되었다.
3. 1. 일반 범주
각 유니코드 포인트는 해당 기호가 시스템에 포함된 언어 또는 응용 프로그램에서의 역할을 설명하려는 "일반 범주"라는 속성을 갖는다. 일반 범주의 예로는 "Lu"(대문자), "Nd"(10진수 숫자), "Pi"(시작 따옴표 구두점) 및 "Mn"(비간격 표시, 즉, 앞선 글리프에 대한 분음 부호)가 있다. 이 구분은 코드 블록과 완전히 독립적이다. 주어진 일반 범주를 가진 코드 포인트는 일반적으로 여러 블록에 걸쳐 있으며, 각 블록 내에서도 연속적일 필요가 없다.[4]3. 2. 스크립트 속성
각 코드 포인트는 어떤 스크립트를 위해 사용되는지, 또는 여러 스크립트 시스템에서 사용되는지를 지정하는 스크립트 속성을 가지고 있다.[4] 스크립트 속성은 문자가 속한 문자 체계(예: 한글, 라틴 문자, 아랍 문자 등)를 나타낸다. 스크립트 속성 역시 블록과 독립적이다.[4]4. 전체 유니코드 영역 목록
유니코드 버전 16.0는 338개의 블록을 정의하며,[1] 각 블록은 평면별로 분류된다.[1]
4. 1. 한글 관련 유니코드 영역
5. 이전/이동된 블록
유니코드 안정성 정책은 문자가 한번 할당되면 폐기될 수 있을지라도 이동하거나 제거할 수 없도록 요구한다. 이는 유니코드 2.0 및 그 이후의 모든 버전에 적용된다.
유니코드 2.0 이전에는 다음과 같은 블록들이 이동되었다.
블록 범위 | 과거 블록 이름 | 추가된 버전 | 제거된 버전 | 현재 점유 범위 | 블록에 의해 대체됨 | 코드 포인트 | 할당된 문자 | 스크립트 |
---|---|---|---|---|---|---|---|---|
U+1000..U+105F | 티베트 문자 | 1.0.0 | 1.0.1 | 미얀마 문자 | 티베트 문자 | 96 | 71 | 티베트 문자 |
U+3400..U+3D2D | 한글 | 1.0.0 | 2.0 | CJK 통합 한자 확장 A | 한글 음절 | 2350 | 2350 | 한글 |
U+3D2E..U+44B7 | 한글 보충-A | 1.1 | 2.0 | 1930 | 1930 | |||
U+44B8..U+4DFF | 한글 보충-B | CJK 통합 한자 확장 A 및 주역 괘 상징 | 2376 | 2376 |
6. 유니코드 블록 목록의 변화 (일본어판 참고)
유니코드 컨소시엄의 자료와 비교했을 때, 일본어 위키백과의 유니코드 블록 목록은 갱신 시점의 차이로 인해 일부 차이가 존재한다.
유니코드 범위 | 컨소시엄 자료 | 일본어 위키백과 | 비고 |
---|---|---|---|
U+0860..U+086F | Syriac Supplement | 시리아 문자 확장 | 16 |
U+1000..U+109F | Myanmar | 미얀마 문자 | 160 |
U+18B0..U+18FF | Unified Canadian Aboriginal Syllabics Extended | 통합 캐나다 원주민 문자 확장 | 80 |
U+1950..U+197F | Tai Le | 타이 레 문자 | 48 |
U+1980..U+19DF | New Tai Lue | 신 타이 루 문자 | 96 |
U+A9E0..U+A9FF | Myanmar Extended-B | 미얀마 문자 확장 B | 32 |
U+AA60..U+AA7F | Myanmar Extended-A | 미얀마 문자 확장 A | |
U+AA80..U+AADF | Tai Viet | 타이 비엣 문자 | 96 |
U+10280..U+1029F | Lycian | 리키아 문자 | 32 |
U+10920..U+1093F | Lydian | 리디아 문자 | |
U+10B60..U+10B7F | Inscriptional Pahlavi | 비문 파흘라비 문자 | |
U+10B80..U+10BAF | Psalter Pahlavi | 시편 파흘라비 문자 | 48 |
U+10E60..U+10E7F | Rumi Numeral Symbols | 루미 숫자 기호 | 32 |
U+111E0..U+111FF | Sinhala Archaic Numbers | 옛 싱할라 숫자 | |
U+11400..U+1147F | Newa | 네와 문자 | 128 |
U+11B00..U+11B5F | Devanagari Extended-A | 데바나가리 문자 확장 A | 96 |
U+13430..U+1343F | Egyptian Hieroglyph Format Controls | 이집트 상형 문자 서식 제어 기호 | 16 |
U+13430..U+1345F | 48 # 블록이 확장됨 (16 → 48). | ||
U+16A70..U+16ACF | Tangsa | 탕사 문자 | 96 |
U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 냐켕 푸아추 흐몽 문자 | 80 |
U+1E290..U+1E2BF | Toto | 토토 | 48 |
7. 유니코드와 한국어 정보 처리
7. 1. 한글 표현의 완전성
7. 2. 국제 표준과의 호환성
7. 3. 다국어 환경 지원
8. 결론
참조
[1]
웹사이트
Unicode Blocks data file, Unicode version 15.1
https://www.unicode.[...]
Unicode Consortium
2023-09-12
[2]
웹사이트
Glossary
https://www.unicode.[...]
2022-08-07
[3]
웹사이트
Private-Use Characters, Noncharacters & Sentinels FAQ
https://www.unicode.[...]
2023-07-24
[4]
웹사이트
Unicode Core Specification, Chapter 4: Character Properties
http://www.unicode.o[...]
2021-09-15
[5]
웹사이트
3.8: Block-by-Block Charts
https://www.unicode.[...]
Unicode Consortium
[6]
웹사이트
Appendix E: Block Names
https://www.unicode.[...]
Unicode Consortium
[7]
Youtube
Unicode glossary
https://www.unicode.[...]
[8]
문서
Unicode 9.0.0 UCD
http://ftp.unicode.o[...]
[9]
문서
유니코드 용어집 - block
http://www.unicode.o[...]
[10]
문서
유니코드 영역 데이터 파일
http://www.unicode.o[...]
[11]
문서
UAX 24: Unicode Script Property
http://www.unicode.o[...]
[12]
문서
UAX 24: Script data file
http://www.unicode.o[...]
[13]
문서
미등록 코드 포인트(비문자, 예약) 포함
[14]
문서
The script has one or multiple characters in the block, as defined by the Script Property. This is independent of the block name
[15]
문서
"Common" and "Unknown" (Zyyy) and "Inherited" (Zinh or Qaai) refer to Scripts in [[ISO 15924]]
[16]
문서
Called "C0 Controls and Basic Latin" in [[ISO/IEC 10646]]
[17]
문서
Called "C1 Controls and Latin-1 Supplement" in [[ISO/IEC 10646]]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com