국규 9566
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
KPS 9566은 조선민주주의인민공화국(북한)의 문자 인코딩 표준으로, 1993년에 제정되어 여러 차례 개정되었다. 이 표준은 ASCII 문자 집합을 기반으로 하며, 한글, 한자, 특수 문자 등을 포함한다. KPS 9566은 북한의 자모 순서와 특수 문자를 반영하며, 김일성, 김정일, 김정은의 이름을 특수하게 표기하는 문자를 포함하는 등 독자적인 특징을 갖는다. 유니코드와의 호환성 문제와 KPS 10721과 같은 관련 표준에 대한 내용도 다룬다.
더 읽어볼만한 페이지
- 조선민주주의인민공화국의 정보 기술 - 붉은별 (운영 체제)
붉은별 OS는 북한에서 개발된 리눅스 기반 운영 체제로, 내나라 브라우저를 탑재하고 광명망에서 사용되며, macOS와 유사한 디자인을 가진 버전과 서버용으로 사용되는 버전이 있으며 검열 기능을 포함한다. - 한국어 컴퓨팅 - 한글 자판
한글 자판은 한글 입력 방식의 배열을 의미하며, 두벌식, 세벌식, 타자기 자판, 휴대 전화 자판 등 다양한 종류가 있고, 리듬감, 도깨비불 현상, 오타 수정 가능성 등 다양한 논점을 가지고 있다. - 한국어 컴퓨팅 - KS X 1001
KS X 1001은 정보 처리를 위한 문자 집합 및 인코딩 방식을 정의하는 대한민국 산업표준으로, 94x94 문자 집합을 기반으로 한글, 한자, 특수 문자 등을 포함하며 EUC-KR, ISO-2022-KR, Johab 등 다양한 인코딩 방식을 지원한다. - 유니코드 미수록 문자 - 금석문자경
금석문자경은 1997년 발매된 한자 글꼴 및 데이터베이스로, 다양한 버전 업데이트와 웹 데이터베이스 서비스 등을 제공하다가 2018년 사업이 종료되었다. - 유니코드 미수록 문자 - 약자
약자는 한자를 간략하게 줄여 쓴 글자로, 초서 형태 반영, 일부 생략, 간단한 글자 대체 등의 방식으로 만들어지며, 한국에서는 과거 약자 제정 시도가 있었으나 사회적 공감대 부족 등으로 무산되었다.
국규 9566 | |
---|---|
개요 | |
이름 | KPS 9566 |
다른 이름 | ISO-IR-202 (1997년 버전) |
종류 | ISO 2022 호환 DBCS, CJK 인코딩 |
사용 언어 | 한국어, 영어, 러시아어 (부분 지원: 그리스어, 일본어) |
사용 지역 | 조선민주주의인민공화국 |
규격 | |
표준 | KPS 9566 |
인코딩 방식 | UHC 스타일 인코딩, EUC-KP, ISO 2022 |
관련 규격 | |
다른 ISO 2022 조선글 DBCS | KS X 1001, GB 12052 |
다른 ISO 2022 CJK DBCS | JIS X 0208, GB 2312 |
2. 역사적 배경
ASCII 문자 집합은 1963년 미국에서 시작되었으며, 1967년에 현재의 형태로 개정되었다.[2] 같은 해 국제 표준(ECMA-6, ISO/IEC 646)으로도 채택되었다.[3] ASCII는 7비트 단일 바이트 인코딩으로 미국식 영문 텍스트 표현을 위한 기본적인 지원을 제공했다.[2][4]
KPS 9566은 94x94 문자 집합으로, 특수 문자, 한글, 한자 영역 등으로 구성된다. 전체적인 구조는 KS X 1001과 유사하지만, 북한의 사전식 순서 표준에 따라 자모와 음절의 순서가 다르고, 세로쓰기용 문자와 북한 지도자 이름 표기를 위한 특수 문자를 포함하는 등 차이점이 있다.[19][34]
1972년, ISO 646 개정판에서는 코드의 국가별 버전 개념을 도입하여, 각 국가에서 덜 사용되는 코드를 자체적으로 필요한 문자로 대체할 수 있도록 했다. 동시에 ASCII 확장을 정의하는 작업이 진행되어 1973년에 JIS X 0202, ECMA-35, ISO 2022로 발표되었다.[5] ISO 2022는 7비트 및 8비트 환경에서 단일/다중 바이트 문자 집합을 사용하는 메커니즘과 shift 코드 및 이스케이프 시퀀스를 사용하여 표준 방식으로 전환하는 메커니즘을 지정한다.[6]
동아시아 국가들은 한자를 사용하기 때문에 단일 바이트 코드로는 표현 가능한 문자 수가 부족하여, 자체적인 문자 체계를 위해 표준화된 더블 바이트 인코딩(DBCS)을 도입했다. ISO 2022를 준수하는 DBCS에서 모든 문자는 두 개의 ASCII 인쇄 가능 문자 바이트로 표현될 수 있었다.[7] 최초로 등록된 ISO 2022 준수 DBCS이자 국가 표준으로 확립된 최초의 동아시아 DBCS는 1978년에 발행된 JIS X 0208(일본)이었다.[8][9] 이어서 1980년에 GB 2312(중국 본토), 1987년에 완성형 코드(대한민국, 처음에는 KS C 5601-1987)가 나왔다.[10][9] 1984년에 정의된 Big5(대만)는 ISO 2022 구조를 따르지 않았다.[10]
한국어 표기 체계는 자음과 모음에 대한 개별 기호(자모)를 알파벳처럼 사용하지만, 각 음절에 대해 이러한 기호를 블록으로 구성하여 조판한다. 완성형 코드는 각 한국어 음절 블록을 별도로 포함하여 한자와 유사하게 큰 문자 집합으로 취급했다.[14] 이는 대한민국 표준 KS C 5601의 세 번째 판에서 처음 정의되었다. 첫 번째 판에서는 음절 블록을 시퀀스로 인코딩할 수 있는 개별 자모의 인코딩(N바이트 한글)을 정의했지만 널리 채택되지 않았다.[12][13] 완성형 코드는 가능한 모든 현대 한국어 음절을 인코딩하지 않고 가장 일반적인 2350개만 인코딩했지만,[19] 결합 시퀀스를 사용하여 지정할 수 있었고, 이는 종종 지원되지 않았다.[14] Johab이라는 대체 인코딩(또한 한국)도 존재했으며 한동안 완성형 코드와 경쟁했다.[12] 통합 한글 코드(UHC)는 마이크로소프트에서 Windows 95와 함께 도입되었으며, EUC-KR을 확장하여 Johab에서 사용할 수 있는 다른 모든 음절을 나타낼 수 있도록 했다.[14]
대한민국은 한국어를 위한 ISO 2022 DBCS를 개발한 유일한 국가는 아니었다. 중국 본토의 GB 12052가 1989년에 발행되었다. 이는 중국 북동부의 한국 소수 민족이 사용하도록 개발되었다.[19] 조선민주주의인민공화국도 KPS 9566을 개발했다. 조선민주주의인민공화국과 대한민국 모두 주요 표기 체계로 조선글(한글)을 사용하지만, 서로 다른 사전식 순서를 사용한다.[38] 따라서 문자 정렬은 완성형 코드와 KPS 9566 간에 다르다.[34]
KPS 9566은 유니코드와의 호환성 향상 등을 위해 여러 차례 개정되었다(1997년, 2003년 등).[60] 일반적으로 연도를 지정하여 표시한다(예: KPS 9566-97, 9566-2003). 붉은별 OS 3.0이 출시된 현재 판은 KPS 9566-2011로 보이며, 김정은을 지도자 목록에 추가했다.[45] KPS 9566의 1997년 판에 대한 공개적으로 사용 가능한 코드 차트는 ISO 2022 94×94 평면을 보여준다.[30] 조선민주주의인민공화국 외부에서 얻을 수 있는 정보 출처에 따르면, 더 최근 판은 GBK 또는 UHC와 유사하게 EUC 평면 외부의 추가 할당을 정의하는 것으로 보인다.[45]
여러 국가 표준과 플랫폼/글꼴 특정 독점 문자 인코딩 사용으로 인한 상호 운용성 문제 때문에, 유니코드 표준은 표현 가능한 모든 텍스트를 단일 범용 형식으로 교환할 수 있도록 하는 것을 목표로 개발되었다. 유니코드의 첫 번째 판은 1991년과 1992년에 발행되었으며,[15] ISO/IEC 10646은 1993년에 유니코드와 동기화되어 확립되었다.[16] 유니코드 형식은 월드 와이드 웹에서 국제적인 사용을 위해 선호되며, 레거시 문자 인코딩은 매핑 파일을 통해 유니코드의 부분 인코딩으로 처리된다.[17][18]
3. 구성
KPS 9566-2000은 다음과 같이 구성된다.
KPS 9566-2003은 KPS 9566-2000을 확장하여, 다음과 같은 변경 사항이 있다.
KPS 9566-2003의 문자 인코딩은 8비트 문자 인코딩이며, 코드 페이지 949와 유사하다.
KPS 9566-2011은 붉은별 OS 3.0에서 사용되는 126×178 문자 집합으로, 다음과 같은 변경 사항이 있다.
KPS 9566은 김일성, 김정일, 김정은의 이름을 특수하게 표기하는 문자를 포함하여 북한의 정치적 상황을 반영한다.[20][45][1] 이러한 특수 문자 때문에 KPS 9566과 유니코드 간에는 완전한 호환성이 없다.[71]
3. 1. 한글 영역
KPS 9566은 현대 한글 2679자를 북한 자모 차례에 따라 배열한다. KPS 9566-2003은 8493자의 확장 한글을 추가로 지원하며, 이는 코드 페이지 949의 확장 한글 영역과 유사하지만, 첫째 바이트가 다르다.[71]
코드 포인트 16-01부터 44-47까지는 미리 조합된 한글 음절 클러스터가 연속적인 정렬된 블록에 할당되어 있다. 모든 가능한 클러스터에 코드 포인트가 할당되는 것은 아니다.[71] KS X 1001의 서로 다른 순서 및 가용성과 비교된다.
KPS 9566-2003에 대해 문서화된 인코딩 형식은 GR(0xA1-0xFE)에서 KPS 9566 플레인을 인코딩하고, 또한 0x80-0xC2 범위의 선행 바이트와 0x41-0x5A, 0x61-0x7A 및 0x81-0xFE 범위의 후행 바이트를 사용하여 나머지 음절 클러스터를 인코딩한다.[71] 이는 통합 한글 코드와 유사하지만 KPS 9566의 생략된 클러스터와 정렬 순서가 KS X 1001과 다르다.
코드 범위 | 16-01 | 16-02 | 16-03 | 16-04 | 16-05 | 16-06 | 16-07 | 16-08 | 16-09 | 16-10 | 16-11 | 16-12 | 16-13 | 16-14 | 16-15 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
302x/B0Ax | 가|가한국어 | 각|각한국어 | 간|간한국어 | 갇|갇한국어 | 갈|갈한국어 | 갉|갉한국어 | 갊|갊한국어 | 감|감한국어 | 갑|갑한국어 | 값|값한국어 | 갓|갓한국어 | 강|강한국어 | 갖|갖한국어 | 갗|갗한국어 | 같|같한국어 | |
코드 범위 | 16-16 | 16-17 | 16-18 | 16-19 | 16-20 | 16-21 | 16-22 | 16-23 | 16-24 | 16-25 | 16-26 | 16-27 | 16-28 | 16-29 | 16-30 | 16-31 |
303x/B0Bx | 갚|갚한국어 | 갛|갛한국어 | 갔|갔한국어 | 갸|갸한국어 | 갹|갹한국어 | 갼|갼한국어 | 걀|걀한국어 | 걈|걈한국어 | 걋|걋한국어 | 걍|걍한국어 | 거|거한국어 | 걱|걱한국어 | 건|건한국어 | 걷|걷한국어 | 걸|걸한국어 | 걹|걹한국어 |
코드 범위 | 16-32 | 16-33 | 16-34 | 16-35 | 16-36 | 16-37 | 16-38 | 16-39 | 16-40 | 16-41 | 16-42 | 16-43 | 16-44 | 16-45 | 16-46 | 16-47 |
304x/B0Cx | 걺|걺한국어 | 검|검한국어 | 겁|겁한국어 | 것|것한국어 | 겅|겅한국어 | 겆|겆한국어 | 겉|겉한국어 | 겊|겊한국어 | 겋|겋한국어 | 겄|겄한국어 | 겨|겨한국어 | 격|격한국어 | 견|견한국어 | 겯|겯한국어 | 결|결한국어 | 겸|겸한국어 |
코드 범위 | 16-48 | 16-49 | 16-50 | 16-51 | 16-52 | 16-53 | 16-54 | 16-55 | 16-56 | 16-57 | 16-58 | 16-59 | 16-60 | 16-61 | 16-62 | 16-63 |
305x/B0Dx | 겹|겹한국어 | 겻|겻한국어 | 경|경한국어 | 곁|곁한국어 | 겪|겪한국어 | 겼|겼한국어 | 고|고한국어 | 곡|곡한국어 | 곤|곤한국어 | 곧|곧한국어 | 골|골한국어 | 곪|곪한국어 | 곬|곬한국어 | 곯|곯한국어 | 곰|곰한국어 | 곱|곱한국어 |
코드 범위 | 16-64 | 16-65 | 16-66 | 16-67 | 16-68 | 16-69 | 16-70 | 16-71 | 16-72 | 16-73 | 16-74 | 16-75 | 16-76 | 16-77 | 16-78 | 16-79 |
306x/B0Ex | 곳|곳한국어 | 공|공한국어 | 곶|곶한국어 | 곺|곺한국어 | 교|교한국어 | 굔|굔한국어 | 굘|굘한국어 | 굡|굡한국어 | 굣|굣한국어 | 구|구한국어 | 국|국한국어 | 군|군한국어 | 굳|굳한국어 | 굴|굴한국어 | 굵|굵한국어 | 굶|굶한국어 |
코드 범위 | 16-80 | 16-81 | 16-82 | 16-83 | 16-84 | 16-85 | 16-86 | 16-87 | 16-88 | 16-89 | 16-90 | 16-91 | 16-92 | 16-93 | 16-94 | |
307x/B0Fx | 굻|굻한국어 | 굼|굼한국어 | 굽|굽한국어 | 굿|굿한국어 | 궁|궁한국어 | 궂|궂한국어 | 규|규한국어 | 균|균한국어 | 귤|귤한국어 | 귬|귬한국어 | 귱|귱한국어 | 그|그한국어 | 극|극한국어 | 근|근한국어 | 귿|귿한국어 | |
코드 범위 | 17-01 | 17-02 | 17-03 | 17-04 | 17-05 | 17-06 | 17-07 | 17-08 | 17-09 | 17-10 | 17-11 | 17-12 | 17-13 | 17-14 | 17-15 | |
312x/B1Ax | 글|글한국어 | 긁|긁한국어 | 긇|긇한국어 | 금|금한국어 | 급|급한국어 | 긋|긋한국어 | 긍|긍한국어 | 기|기한국어 | 긱|긱한국어 | 긴|긴한국어 | 긷|긷한국어 | 길|길한국어 | 긺|긺한국어 | 김|김한국어 | 깁|깁한국어 | |
코드 범위 | 17-16 | 17-17 | 17-18 | 17-19 | 17-20 | 17-21 | 17-22 | 17-23 | 17-24 | 17-25 | 17-26 | 17-27 | 17-28 | 17-29 | 17-30 | 17-31 |
313x/B1Bx | 깃|깃한국어 | 깅|깅한국어 | 깆|깆한국어 | 깇|깇한국어 | 깉|깉한국어 | 깊|깊한국어 | 개|개한국어 | 객|객한국어 | 갠|갠한국어 | 갤|갤한국어 | 갬|갬한국어 | 갭|갭한국어 | 갯|갯한국어 | 갱|갱한국어 | 갰|갰한국어 | 걔|걔한국어 |
코드 범위 | 17-32 | 17-33 | 17-34 | 17-35 | 17-36 | 17-37 | 17-38 | 17-39 | 17-40 | 17-41 | 17-42 | 17-43 | 17-44 | 17-45 | 17-46 | 17-47 |
314x/B1Cx | 걘|걘한국어 | 걜|걜한국어 | 게|게한국어 | 겍|겍한국어 | 겐|겐한국어 | 겔|겔한국어 | 겜|겜한국어 | 겝|겝한국어 | 겟|겟한국어 | 겡|겡한국어 | 겠|겠한국어 | 계|계한국어 | 곈|곈한국어 | 곌|곌한국어 | 곕|곕한국어 | 곗|곗한국어 |
코드 범위 | 17-48 | 17-49 | 17-50 | 17-51 | 17-52 | 17-53 | 17-54 | 17-55 | 17-56 | 17-57 | 17-58 | 17-59 | 17-60 | 17-61 | 17-62 | 17-63 |
315x/B1Dx | 괴|괴한국어 | 괵|괵한국어 | 괸|괸한국어 | 괼|괼한국어 | 굄|굄한국어 | 굅|굅한국어 | 굇|굇한국어 | 굉|굉한국어 | 굈|굈한국어 | 귀|귀한국어 | 귁|귁한국어 | 귄|귄한국어 | 귈|귈한국어 | 귐|귐한국어 | 귑|귑한국어 | 귓|귓한국어 |
코드 범위 | 17-64 | 17-65 | 17-66 | 17-67 | 17-68 | 17-69 | 17-70 | 17-71 | 17-72 | 17-73 | 17-74 | 17-75 | 17-76 | 17-77 | 17-78 | 17-79 |
316x/B1Ex | 긔|긔한국어 | 과|과한국어 | 곽|곽한국어 | 관|관한국어 | 괃|괃한국어 | 괄|괄한국어 | 괆|괆한국어 | 괌|괌한국어 | 괍|괍한국어 | 괏|괏한국어 | 광|광한국어 | 괐|괐한국어 | 궈|궈한국어 | 궉|궉한국어 | 권|권한국어 | 궐|궐한국어 |
코드 범위 | 17-80 | 17-81 | 17-82 | 17-83 | 17-84 | 17-85 | 17-86 | 17-87 | 17-88 | 17-89 | 17-90 | 17-91 | 17-92 | 17-93 | 17-94 | |
317x/B1Fx | 궘|궘한국어 | 궝|궝한국어 | 궜|궜한국어 | 괘|괘한국어 | 괙|괙한국어 | 괜|괜한국어 | 괠|괠한국어 | 괩|괩한국어 | 괭|괭한국어 | 괬|괬한국어 | 궤|궤한국어 | 궥|궥한국어 | 궷|궷한국어 | 나|나한국어 | 낙|낙한국어 | |
코드 범위 | 18-01 | 18-02 | 18-03 | 18-04 | 18-05 | 18-06 | 18-07 | 18-08 | 18-09 | 18-10 | 18-11 | 18-12 | 18-13 | 18-14 | 18-15 | |
322x/B2Ax | 낛|낛한국어 | 난|난한국어 | 낟|낟한국어 | 날|날한국어 | 낡|낡한국어 | 낢|낢한국어 | 남|남한국어 | 납|납한국어 | 낫|낫한국어 | 낭|낭한국어 | 낮|낮한국어 | 낯|낯한국어 | 낱|낱한국어 | 낳|낳한국어 | 낚|낚한국어 | |
코드 범위 | 18-16 | 18-17 | 18-18 | 18-19 | 18-20 | 18-21 | 18-22 | 18-23 | 18-24 | 18-25 | 18-26 | 18-27 | 18-28 | |||
323x/B2Bx | 났|났한국어 | 냐|냐한국어 | 냑|냑한국어 | 냔|냔한국어 | 냘|냘한국어 | 냠|냠한국어 | 냡|냡한국어 | 냥|냥한국어 | 너|너한국어 | 넉|넉한국어 | 넋|넋한국어 | 넌|넌한국어 | 널|널한국어 |
(표 계속)
3. 2. 한자 영역
69-09 (0xE5A9)의 한자는 문서화된 모든 표에서 U+676E 杮중국어에 매핑된다. 그러나 문자들은 음독에 따라 정렬되어 있어서, U+67FF 柿중국어가 의도된 것으로 보인다.[72]3. 3. 특수 문자 영역
KPS 9566은 문장 부호, 그림 문자, 숫자, 로마자, 그리스 문자, 키릴 문자, 히라가나, 가타카나, 단위 기호, 괘선 문자 등 다양한 특수 문자를 포함한다.[45] 특히, 조선로동당의 상징(망치, 낫, 붓)과 김일성, 김정일, 김정은의 이름을 특수하게 표기하는 문자 등 북한의 특수성을 나타내는 문자들도 포함되어 있다.[45]KPS 9566-2000은 94×94 문자 집합이며, 정렬을 제외한 전체적인 구조는 KS X 1001과 유사하다. 특수 문자 영역은 21(16진) ~ 2C(16진)에 해당하며, 여기에는 다양한 기호, 그림 문자, 한글 자모, 히라가나, 가타카나, 그리스 문자, 키릴 문자 등이 포함된다.
KPS 9566-2000에 할당된 8259자 중 83자는 유니코드에 수록되지 않았는데, 그 중 77자가 특수 기호이고, 나머지 6자는 김일성과 김정일 전용 한글(굵은 글자)이다. 이들은 일반 한글과는 별도로 24(16진)행의 68(16진)열부터 6D(16진)열까지 수록되어 있다.
2011년 판에는 ISO-IR-202 평면 외부에서 인코딩된 몇 가지 추가적인 한자와 기호가 포함되었는데,[45] 이 문자들은 모두 개인 사용 영역에 매핑되어 있으며, 그 목적은 알려져 있지 않다.[45] 다음은 KPS 9566-2011의 비음절, 비한자 섹션으로 주 평면 외부에 대한 표이다.[45]
4. 유니코드와의 관계 및 호환성 문제
KPS 9566은 일부 특수 문자와 지도자 이름의 특수 표기 때문에 유니코드와 완전히 호환되지 않는다. 유니코드 컨소시엄은 북한이 제안한 일부 특수 문자, 특히 정치적 성격의 문자 추가를 거부했다.[76][77] 북한은 유니코드에 "한글" 대신 "조선글자"라는 용어를 사용하고, 남북한의 정렬 순서 차이를 해결할 것을 요구했으나, 유니코드 컨소시엄은 기존 정책과 안정성을 이유로 거부했다.
KPS 9566과 유니코드 간의 완전한 왕복 변환(round trip)은 현재 지원되지 않는 문자를 개인 사용 영역(PUA)에 매핑하지 않는 한 불가능하다.[74][75] KPS 9566-2003 및 KPS 9566-2011은 확장 한글 및 특수 문자를 포함하여 유니코드와의 호환성을 일부 개선했지만, 여전히 완전한 호환성에는 미치지 못한다.
KPS 9566-2003에 할당된 16776자 중 총 22자가 당시 시점에서 유니코드에 포함되어 있지 않았는데, 그 중 16자는 특수 문자이고 나머지 6자는 "김, 일, 성, 김, 정, 일"과 같이 중복된 한글(조선어) 음절이다. 이 문자들은 0x24행 0x68열부터 0x6D열까지 배치되어 있다.[74][75]
유니코드 컨소시엄은 김씨 일가의 이름 및 조선노동당 기호(동그라미 쳐진 것과 쳐지지 않은 것 총 두 개)를 제외한 나머지 특수 문자들을 유니코드에 추가하였다. 그 결과 특수문자 2자와 "김, 일, 성, 김, 정, 일" 6자, 총 8자가 유니코드에 포함되지 않았다. 김정은이 3대 세습을 한 뒤에 김정은의 이름이 국규 9566 코드에 추가되면서, 2014년 현재 시점에서 특수문자 2자, 중복된 한글 9자("김, 일, 성, 김, 정, 일, 김, 정, 은")가 유니코드에 등재되어 있지 않다.
KPS 9566-2000에 할당된 8259자 중 83자가 유니코드에 수록되지 않았다 (일부는 유니코드 4.0에서 추가됨). 그 중 77자가 특수 기호, 나머지 6자가 김일성과 김정일 전용 한글 (굵은 글자, 24(16진)행의 68(16진)열부터 6D(16진)열까지)로, 일반 한글과는 별도로 수록되어 있다.
KPS 9566-2011은 126×178 문자 집합으로, 붉은별 OS 3.0의 글꼴에 사용된다. 북한 측은 이 버전에 대해 아무것도 공표하지 않아 공식적인 버전은 불분명하지만, 해당 글꼴에서 "2011KPS"라는 문자열이 발견되었기 때문에, 연구자들 사이에서는 편의상 "KPS 9566-2011"로 명명하고 있다. KPS 9566-2000과 비교하면 다음과 같은 변경 사항이 있다.
- 유니코드 매핑을 일부 변경했다 (예: 0xA1C1을 U+02BC에서 U+FE10으로 변경).
- 김정은의 굵은 글씨 초성을 추가했다 (0xA4EE ~ 0xA4F0).
- 0xA1A1부터 0xFEFE 범위를 제외한 많은 문자 (나머지 초성의 조합 문자, 한자, 기호)를 추가했다.
5. KPS 10721
KPS 10721은 2000년에 발행된 북한의 보충 한자 집합 코드이다. KPS 9566에 없는 한자를 추가로 포함하며, KPS 9566의 한자도 KPS 10721에 포함되지만, ISO 2022와 관련 없는 다른 인코딩 구조를 사용한다.[19][22]
KPS 10721은 최소 19469개의 한자를 인코딩한다. 2009년 당시에는 이들 모두가 유니코드에 매핑되지는 않았지만, 통합 목록 및 정렬에서 10358자, CJK 통합 표의 문자 확장 A에서 3187자, CJK 호환 표의 문자에서 107자(모두 기본 다국어 평면)를 포함했으며, CJK 통합 표의 문자 확장 B에서 5767자, CJK 호환 표의 문자 보충에서 50자(보충 표의 문자 평면)를 포함했다.[19]
2022년 이전에는 북한 외부에서 KPS 10721 표준에 대해 알려진 바가 거의 없었다.[19][1] 유니코드 컨소시엄에서 사용할 수 있는 적절한 글꼴 데이터가 부족하여 유니코드 코드 차트에서 이러한 한자의 하위 집합에 대해서만 북한 참조 글리프가 제공되었다.[21][22] 그럼에도 불구하고 KPS 9566 또는 KPS 10721 소스를 가진 유니코드 한자 문자는 Unihan 데이터베이스에서 `kIRG_KPSource` 키를 사용하여 KPS 코드에 상호 참조된다. Unihan 소스 코드는 KPS 9566을 "KP0"으로, KPS 10721을 "KP1"으로 참조한다.[23]
2022년에는 KPS-10721-to-유니코드 매핑 데이터의 일부 오류를 수정하고 유니코드 코드 차트에 새로운 북한 참조 글리프를 제공하기 위해 사용된 북한 옥편 안드로이드 앱에서 한자 글꼴이 분리되었다. 이 과정에서 KPS 9566 한자의 KPS 10721로의 매핑도 추론되었다.[22][24] 기존 참조 글리프는 2022년 9월 유니코드 15에서 업데이트되었으며,[25] 유니코드 컨소시엄의 CJK 및 Unihan 그룹은 2022년 11월에 유니코드 기술 위원회가 추가 참조 글리프를 다음 버전의 유니코드에 포함하도록 권장했으며,[26] 이는 2023년 9월 유니코드 15.1에 포함될 예정이다.[27]
6. 대한민국 표준(KS X 1001)과의 비교
KPS 9566과 KS X 1001은 모두 한글, 한자, 특수 문자를 포함하지만, 다음과 같은 차이점이 있다.
- 구조: KPS 9566-2000은 94×94 문자 집합이며, 정렬을 제외한 전체적인 구조는 KS X 1001과 유사하다.
- 21(16진) ~ 2C(16진): 특수 문자 영역 (부호, 그림 문자, 한글 자모, 히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
- 2F(16진): 사용자 정의 영역
- 30(16진) ~ 4C(16진): 한글 영역 (자주 사용되는 2679자를 조선민주주의인민공화국의 자모 배열에 따라 배열)
- 4D(16진) ~ 7E(16진): 한자 영역 (4653자를 한글의 음독 순서에 따라 배열)
- 4C(16진)행과 7E(16진)행의 50(16진)열부터는 각각 사용자 정의 영역 B・C가 된다.
- 유니코드 수록 여부: KPS 9566-2000에 할당된 8259자 중 83자가 유니코드에 수록되지 않았다 (일부는 유니코드 4.0에서 추가됨).
- 김일성, 김정일 전용 한글: 83자 중 77자는 특수 기호, 나머지 6자는 김일성과 김정일 전용 한글 (굵은 글자. 24(16진)행의 68(16진)열부터 6D(16진)열까지)로, 일반 한글과는 별도로 수록되어 있다.
- 특수 문자: KPS 9566은 괄호, 따옴표, 쉼표 등과 같은 일반적인 문장 부호와 세로 쓰기에 사용되는 표현 형식을 포함한다.
- ASCII 문장 부호: ASCII 문장 부호(강조 표시)는 기본 라틴 문자 코드 포인트에 매핑되어 표시되지만, KPS 9566을 ASCII와 결합하는 인코딩(예: 2003년판에서 정의됨)에 사용될 때는 반각 및 전각 형태 블록에 매핑된다.[71]
- 세로 표현 형식 변경(2011): 2003년 매핑과 비교하여 2011년 매핑은 유니코드 4.1에 도입된 세로 형태 블록을 활용하기 위해 세 개의 세로 표현 형식의 유니코드 매핑을 변경했다.[45]
2x/Ax | 3x/Bx | 4x/Cx | 5x/Dx | 6x/Ex | 7x/Fx |
---|---|---|---|---|---|
]] (U+007D) |