국제 문자 세트

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
- 2.1. 유니코드와의 통합 과정
- 2.2. 유니코드와의 관계
3. 인코딩 방식
4. 유니코드와의 차이점
5. 한국어 처리 문제점
6. 관련 ISO 표준
7. 버전별 유니코드 대응
참조

1. 개요

국제 문자 세트는 국제 표준화 기구(ISO)가 개발한 유니버설 문자 집합 표준으로, 다양한 문자를 컴퓨터에서 표현하기 위한 것이다. 1990년 ISO 10646 초안이 발표되었으며, 유니코드 표준과의 통합 과정을 거쳐 현재 유니코드와 동일한 문자 집합과 코드 포인트를 공유한다. ISO/IEC 10646은 UCS-2, UTF-8, UTF-16, UTF-32 등 다양한 인코딩 방식을 정의하며, 유니코드에 비해 정렬 및 텍스트 처리 규칙이 적다. 한국어 처리 과정에서 기존 한글 코드 체계와의 호환성 문제로 인해 문자 깨짐 현상이 발생하기도 한다. ISO 2022, ISO 6429, ISO 14651 등 관련 ISO 표준과 함께 사용되며, 유니코드와 거의 동기화되어 버전별로 대응된다.

더 읽어볼만한 페이지

유니코드에 관한 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다.
유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
유니코드 - 이모지
이모지는 1999년 NTT 도코모에서 처음 도입된 그림 문자로, 유니코드 표준 제정 후 전 세계적으로 확산되어 다양한 언어적 기능을 수행하며 대중문화에 영향을 미치지만, 플랫폼별 표현 방식 차이와 의미 해석 논란도 존재한다.
유니코드 - 국제 음성 기호
국제 음성 기호는 국제 음성 협회가 개발한 언어의 음성 표기 문자 기호 체계로, 라틴 문자를 기반으로 자음, 모음, 초분절 기호 등을 포함하여 모든 언어의 음성을 정확하게 표기하는 것을 목표로 한다.
ISO 표준 - 국제 표준화 기구
국제 표준화 기구(ISO)는 167개국 국가 표준 기구를 회원으로 둔 비정부 기구로서, 상품 및 서비스 관련 국제 표준을 제정하며, 국제전기기술위원회(IEC)와 협력하고 대한민국은 기술표준원을 통해 정회원으로 활동한다.
ISO 표준 - ISO 3166-1
ISO 3166-1은 국가 식별을 위한 국제 표준으로 숫자 코드, 알파벳 두 글자(alpha-2), 세 글자(alpha-3) 코드 시스템을 제공하며, 유엔의 통계적 분류와 정치적 상황을 고려하여 코드가 할당되고 필요에 따라 업데이트된다.

국제 문자 세트
개요
이름	유니버설 코드 문자 세트 (Universal Coded Character Set)
별칭	유니코드 (Unicode), UCS
표준	ISO/IEC 10646
언어	국제
인코딩 방식	UTF-8 UTF-16 GB 18030 덜 일반적: UTF-32 BOCU SCSU UTF-7
확장	ISO/IEC 8859 ISO/IEC 2022 기타
기술 정보
문자 이름	유니코드 표준의 문자 이름은 ISO/IEC 10646 영어판과 일치한다.
정의	ISO/IEC 10646의 UTF-8 정의는 유니코드 인코딩 형식 섹션 3.9의 정의 D92와 동일하다.
UTF-16 정의	ISO/IEC 10646의 UTF-16 정의는 유니코드 인코딩 형식 섹션 3.9의 정의 D91과 동일하다.
문자 집합
기본 다국어 평면	기본 다국어 평면 (Basic Multilingual Plane, BMP)

2. 역사

국제 표준화 기구(ISO)가 1989년 범용 문자 집합 구성을 시작하면서 ISO/IEC 10646 표준의 역사가 시작되었다. 1990년 발표된 ISO 10646 초안은 현재 표준과 달리 4바이트 인코딩을 사용했으며, C0 및 C1 제어 코드와의 충돌을 피하기 위해 특정 바이트 값을 사용하지 않았다.

초기 ISO/IEC 10646 표준의 문자는 다음 세 가지 방식으로 코딩할 수 있었다.

UCS-4: 모든 문자에 4바이트를 사용.
UCS-2: 모든 문자에 2바이트를 사용하며, ISO/IEC 2022 이스케이프 시퀀스로 다른 평면 및 그룹 전환.
UTF-1: 1~5바이트의 가변 길이 시퀀스로 인코딩.

하지만 소프트웨어 회사들은 ISO 표준의 복잡성과 크기에 반대했고, ISO는 유니코드와의 표준 통합을 협상했다. 그 결과 문자 제한(제어 코드 값 금지)이 해제되고, 기본 다국어 평면이 유니코드와 동기화되었다.

이후 유니코드도 UTF-16 서러게이트 메커니즘을 통해 100만 개 이상의 코드 포인트를 지원하게 되면서, ISO/IEC 10646은 UTF-16으로 인코딩 가능한 문자로 제한되었다. UCS-4는 UTF-32로 유니코드에 통합되었으나, 내부 데이터 외에는 거의 사용되지 않는다.

롭 파이크와 켄 톰슨은 ASCII와 하위 호환되는 UTF-8을 고안했고,^[1] 이는 현재 가장 인기 있는 UCS 인코딩이다.

ISO/IEC 10646은 1993년 첫 버전 발표 후 여러 개정을 거쳤다.

발행일	규격 번호	명칭
1993/05/01	ISO/IEC 10646-1: 1993	유니버설 문자 집합(Universal Multiple-Octet Coded Character Set, UCS) -- 파트 1: 아키텍처 및 기본 다국어 평면
1996/03/01	ISO/IEC 10646-1: 1993/Cor.1	ISO/IEC 10646-1:1993에 대한 기술 정정 1
1996/10/15	ISO/IEC 10646-1:1993/Amd.1	16개 평면 그룹 00에 대한 변환 형식(UTF-16)
1996/10/15	ISO/IEC 10646-1:1993/Amd.2	UCS 변환 형식 8(UTF-8)
1996/10/15	ISO/IEC 10646-1:1993/Amd.3	제어 문자에 대한 코드 위치
1996/10/15	ISO/IEC 10646-1:1993/Amd.4	부록 G(UTF-1) 제거
1997/11/15	ISO/IEC 10646-1:1993/Amd.6	티베트 문자
1997/11/15	ISO/IEC 10646-1:1993/Amd.7	33개의 추가 문자
1997/12/15	ISO/IEC 10646-1:1993/Amd.8	ISO/IEC 10646-1:1993에 대한 CJK 표의 문자 관련 새로운 부록
1997/12/15	ISO/IEC 10646-1:1993/Amd.9	문자에 대한 식별자
1998/05/15	ISO/IEC 10646-1:1993/Amd.5	한글(Hangul) 음절
1998/07/15	ISO/IEC 10646-1:1993/Cor.2	ISO/IEC 10646-1:1993에 대한 기술 정정 2
1998/07/15	ISO/IEC 10646-1:1993/Amd.11	통합 캐나다 원주민 음절 문자(Unified Canadian Aboriginal Syllabics)
1998/09/01	ISO/IEC 10646-1:1993/Amd.12	체로키 문자(Cherokee)
1998/10/01	ISO/IEC 10646-1:1993/Amd.10	에티오피아 문자(Ethiopic script)
1998/10/15	ISO/IEC 10646-1:1993/Amd.13	CJK 통합 한자(CJK unified ideographs)
1998/11/01	ISO/IEC 10646-1:1993/Amd.16	점자(Braille Patterns)
1998/11/01	ISO/IEC 10646-1:1993/Amd.19	룬 문자(Runic)
1998/11/01	ISO/IEC 10646-1:1993/Amd.20	오검 문자(Ogham)
1999/05/15	ISO/IEC 10646-1:1993/Amd.23	보포모(Bopomofo) 및 기타 다양한 문자
1999/06/01	ISO/IEC 10646-1:1993/Amd.21	싱할라 문자(Sinhala)
1999/07/15	ISO/IEC 10646-1:1993/Amd.17	CJK 통합 한자 확장
1999/07/15	ISO/IEC 10646-1:1993/Amd.18	기호 및 기타
1999	ISO/IEC 10646-1:1993/Cor.3	ISO/IEC 10646-1:1993에 대한 기술 정정 3
1999	ISO/IEC 10646-1:1993/Amd.14	이 문자(Yi) 음절 및 이 부수
1999	ISO/IEC 10646-1:1993/Amd.22	키보드 기호
1999	ISO/IEC 10646-1:1993/Amd.24	타나 문자(Thaana Script)
1999	ISO/IEC 10646-1:1993/Amd.25	크메르 문자(Khmer Script)
1999	ISO/IEC 10646-1:1993/Amd.26	미얀마 문자(Burmese Script)
1999	ISO/IEC 10646-1:1993/Amd.27	시리아 문자(Syriac Script)
1999	ISO/IEC 10646-1:1993/Amd.29	몽골 문자(Mongolian)
1999	ISO/IEC 10646-1:1993/Amd.30	추가 라틴 및 기타 문자
2000	ISO/IEC 10646-1:1993/Amd.15	부수 및 숫자
2000	ISO/IEC 10646-1:1993/Amd.28	표의 문자 설명 시퀀스
2000	ISO/IEC 10646-1:1993/Amd.31	티베트 문자 확장
2000/09/15	ISO/IEC 10646-1:2000	UCS -- 파트 1: 아키텍처 및 기본 다국어 평면
2001/11/01	ISO/IEC 10646-2:2001	UCS -- 파트 2: 보충 평면
2002/07/16	ISO/IEC 10646-1:2000/Amd.1	수학 기호 및 기타 문자
2003/12/15	ISO/IEC 10646:2003	유니버설 문자 집합(Universal Multiple-Octet Coded Character Set, UCS)
2005/11/15	ISO/IEC 10646:2003/Amd.1	글라골 문자(Glagolitic), 콥트 문자(Coptic), 조지아 문자(Georgian) 및 기타 문자
2006/07/01	ISO/IEC 10646:2003/Amd.2	NKo 문자(NKo), 팍스파 문자(Phags-pa), 페니키아 문자(Phoenician) 및 기타 문자
2008/02/15	ISO/IEC 10646:2003/Amd.3	렙차 문자(Lepcha), 올 치키 문자(Ol Chiki), 사우라슈트라 문자(Saurashtra), 바이 문자(Vai) 및 기타 문자
2008/07/01	ISO/IEC 10646:2003/Amd.4	참 문자(Cham), 게임 타일(Game Tiles) 및 기타 문자
2008/12/01	ISO/IEC 10646:2003/Amd.5	타이 탐 문자(Tai Tham), 타이 비엣 문자(Tai Viet), 아베스타 문자(Avestan), 이집트 상형 문자(Egyptian Hieroglyphs), CJK 통합 한자 확장 C 및 기타 문자
2009/10/15	ISO/IEC 10646:2003/Amd.6	밤움 문자(Bamum), 자바 문자(Javanese), 리스 문자(Lisu), 메이테이 마예크 문자(Meetei Mayek), 사마리아 문자(Samaritan) 및 기타 문자
2010/7/15	ISO/IEC 10646:2003/Amd.7	만다야 문자(Mandaic), 바탁 문자(Batak), 브라흐미 문자(Brahmi) 및 기타 문자
2011/5/2	ISO/IEC 10646:2011	유니버설 코드화 문자 집합(Universal Coded Character Set, UCS)
2012/05/21	ISO/IEC 10646:2012	정보 기술 -- 유니버설 코드화 문자 집합(Universal Coded Character Set, UCS)
2013/04/09	ISO/IEC 10646:2012/Amd 1:2013	선형 A 문자(Linear A), 팔미라 문자(Palmyrene), 마니교 문자(Manichaean), 코지키 문자(Khojki), 쿠다와디 문자(Khudawadi), 바사 바흐 문자(Bassa Vah), 듀플로이 문자(Duployan) 및 기타 문자
2014/08/29	ISO/IEC 10646:2014	정보 기술 -- 유니버설 코드화 문자 집합(Universal Coded Character Set, UCS)
2015	ISO/IEC 10646:2014/Amd 1:2015	체로키 문자(Cherokee) 보충 및 기타 문자
2016	ISO/IEC 10646:2014/Amd 2:2016	바이슈키 문자(Bhaiksuki), 마르첸 문자(Marchen), 탕구트 문자(Tangut) 및 기타 문자
2017/12/22	ISO/IEC 10646:2017	정보 기술 -- 유니버설 코드화 문자 집합(Universal Coded Character Set, UCS)

2. 1. 유니코드와의 통합 과정

1989년 국제 표준화 기구(ISO)는 보편적인 문자 집합을 구성하기 시작하여 1990년에 ISO 10646 초안을 발표했다. 이 작업은 제록스와 애플이 1987년부터 개발해 온 유니코드 표준 개발과는 별개로 진행되었다.^[1]

1991년 6월, 같은 목적의 규격이 2개 만들어지는 것을 피하기 위해 DIS 10646과 유니코드를 통합하는 작업이 진행되었다. 초기 ISO 10646 초안은 4옥테트 구조로, 각 옥테트는 군, 면, 구, 점을 나타냈다. 각 면에는 기존의 컨트롤 영역을 피한 0x20 - 0x7F와 0xA0 - 0xFF 범위에 문자를 할당하여, 기존 코드 체계와의 호환성을 최대한 존중하는 구성을 취했다. 그러나 이 안은 1990년에 국제 표준 직전 단계인 DIS (Draft International Standard)에서 부결되었다.

통합 과정에서 "군·면·구·점"이라는 용어는 유지하면서, 제0군 제0면을 기본 다국어 평면 (BMP)이라 칭하고, BMP에 유니코드를 그대로 넣고 그 외의 군·면은 미사용으로 하는, 실질적으로 2옥테트 부호로 변경되었다.

결국, 유니코드에 흡수되어 제1판과는 전혀 다른 부호가 된 DIS 10646 제2판이 1993년에 국제 표준으로 제정되었다. 이러한 경위로 인해 기존 규격과의 대응이 불명확해져, 코드 변환 시 비슷한 형태의 기호 대응 문제가 발생하여 문자 깨짐 현상이 현재까지도 해결되지 않고 있다. 다만 한자의 경우, 원본이 된 각국 규격의 부호 위치가 명시되어 있어 변환 차이는 발생하지 않는다.

2. 2. 유니코드와의 관계

국제 표준화 기구(ISO)와 IEC는 1991년부터 유니코드 컨소시엄과 협력하여 ''유니코드 표준''(유니코드)과 ISO/IEC 10646을 함께 개발해왔다.^[1] 유니코드 버전 2.0의 문자 집합, 문자 이름 및 코드 포인트는 ISO/IEC 10646-1:1993의 처음 7개 수정 사항과 정확히 일치한다. 2000년 2월 유니코드 3.0이 발표된 후, ISO/IEC 10646-1:2000을 통해 해당 문자 집합이 UCS에 반영되었다. 2003년에는 ISO/IEC 10646의 파트 1과 2가 단일 파트로 통합되었으며, 이후 유니코드 표준과 거의 동기화되어 표준에 문자를 추가하는 여러 수정 사항이 있었다.

ISO/IEC 10646과 유니코드는 동일한 문자 집합과 코드 포인트를 공유하지만, 유니코드는 문자 정렬, 양방향 텍스트 처리 등과 관련된 추가적인 규정을 포함하고 있다. 실질적으로 두 표준은 거의 동기화되어 있으며, 새로운 문자와 기능이 추가될 때마다 서로의 표준에 반영된다.

다음은 유니코드와 ISO/IEC 10646의 버전별 대응 관계를 나타내는 표이다.

ISO/IEC 10646 버전	유니코드 버전
ISO/IEC 10646-1:1993	유니코드 1.1
ISO/IEC 10646-1:1993 및 수정 사항 5~7	유니코드 2.0
ISO/IEC 10646-1:1993 및 수정 사항 5~7	유니코드 2.1 (유로 기호 및 객체 대체 문자 제외, 수정 사항 18에 포함)
ISO/IEC 10646-1:2000	유니코드 3.0
ISO/IEC 10646-1:2000 및 ISO/IEC 10646-2:2001	유니코드 3.1
ISO/IEC 10646-1:2000 및 수정 사항 1 및 ISO/IEC 10646-2:2001	유니코드 3.2
ISO/IEC 10646:2003	유니코드 4.0
ISO/IEC 10646:2003 및 수정 사항 1	유니코드 4.1
ISO/IEC 10646:2003 및 수정 사항 1~2	유니코드 5.0 (데바나가리 문자 GGA, JJA, DDDA 및 BBA 제외, 수정 사항 3에 포함)
ISO/IEC 10646:2003 및 수정 사항 1~4	유니코드 5.1
ISO/IEC 10646:2003 및 수정 사항 1~6	유니코드 5.2
ISO/IEC 10646:2003 및 수정 사항 1~8 = ISO/IEC 10646:2011	유니코드 6.0 (인도 루피 기호 제외)
ISO/IEC 10646:2012	유니코드 6.1
ISO/IEC 10646:2012	유니코드 6.2 (터키 리라 기호 제외, 수정 사항 1에 포함)
ISO/IEC 10646:2012	유니코드 6.3 (터키 리라 기호 제외, 수정 사항 1에 포함, 5개의 양방향 제어 문자 제외, 수정 사항 2에 포함)
ISO/IEC 10646:2012 및 수정 사항 1 및 2	유니코드 7.0 (루블 기호 제외)
ISO/IEC 10646:2014 및 수정 사항 1	유니코드 8.0 (라리 기호, 9개의 CJK 통합 표의 문자, 41개의 이모지 문자 제외)
ISO/IEC 10646:2014 및 수정 사항 1 및 2	유니코드 9.0 (아들람 문자 , 네와 문자, 일본 TV 기호, 74개의 이모지 및 기호 제외)
ISO/IEC 10646:2017	유니코드 10.0 (285개의 변체 가나 문자, 3개의 자나바자르 스퀘어 문자, 56개의 이모지 기호 제외)
ISO/IEC 10646:2017 및 수정 사항 1	유니코드 11.0 (46개의 므타브룰리 조지아 대문자, 5개의 CJK 통합 표의 문자, 66개의 이모지 문자 제외)
ISO/IEC 10646:2017 및 수정 사항 1 및 2	유니코드 12.0 (62개의 추가 문자 제외)
ISO/IEC 10646:2020	유니코드 13.0
ISO/IEC 10646:2020 및 수정 사항 1	유니코드 15.0
ISO/IEC 10646:2020 및 수정 사항 1 및 2	유니코드 16.0

3. 인코딩 방식

ISO/IEC 10646은 다양한 인코딩 방식을 지원하며, 대표적인 인코딩 방식으로는 UCS-2, UTF-8, UTF-16, UTF-32 등이 있다.

초기 ISO/IEC 10646 초안은 128개의 그룹, 256개의 평면, 256개의 행, 256개의 셀로 총 2,147,483,648개의 문자를 표시할 수 있는 것처럼 보였다. 그러나 실제로는 그룹, 평면, 행, 셀을 지정하는 4바이트 중 하나라도 C0 및 C1 제어 코드(16진법 표기에서 0x00 ~ 0x1F 및 0x80 ~ 0x9F)의 바이트 값을 가질 수 없다는 정책 때문에 679,477,248개의 문자만 코딩할 수 있었다.

이 표준의 문자는 세 가지 방법으로 코딩할 수 있었다.

UCS-4: 모든 문자에 대해 4바이트를 사용.
UCS-2: 모든 문자에 대해 2바이트를 사용. ISO/IEC 2022 이스케이프 시퀀스를 사용하여 다른 평면과 그룹으로 전환 가능.
UTF-1: 1~5바이트의 가변 길이 바이트 시퀀스로 모든 문자를 인코딩.

1990년에는 범용 문자 집합에 대한 두 가지 이니셔티브, 즉 유니코드와 ISO/IEC 10646이 있었다. 소프트웨어 회사들은 ISO 표준의 복잡성 때문에 반대했고, ISO는 유니코드와 표준 통합을 협상했다. 이 과정에서 문자 제한(제어 코드 값 금지)이 해제되고, 기본 다국어 평면의 레퍼토리가 유니코드와 동기화되었다.

Unicode의 "UTF"는 "Unicode Transformation Format"을 의미하는 반면, ISO/IEC 10646의 "UTF"는 "UCS Transformation Format"을 의미한다.

;UTF-1

: 초기에 제안되었던 8비트 코드 방식. 거의 사용되지 않고 UTF-8로 대체되었다.

3. 1. UCS-2

UCS-2는 초기 ISO/IEC 10646 표준에서 정의된 인코딩 방식이다. 간단히 줄여서 UCS-2라고도 하며, 각 글자들을 0부터 65535(0xFFFF) 사이의 코드 값으로 매기고, 이 값들을 16비트(2바이트)로 표현한다. UCS-2는 기본 다국어 평면(BMP)의 코드 영역을 표현할 수 있지만, BMP 밖의 영역은 표현할 수 없다는 한계가 있다.^[6] UCS-2를 확장하여 BMP 밖의 영역도 표시할 수 있게 한 인코딩 방식이 UTF-16이다.

시간이 지나면서 유니코드 표준에서도 65,536개의 문자가 부족하다는 것이 밝혀졌고, 버전 2.0부터는 UTF-16 서러게이트 메커니즘을 통해 17개의 평면에서 1,112,064개의 코드 포인트를 인코딩하는 것을 지원하게 되었다. 이러한 이유로 UCS-2는 현재는 거의 사용되지 않으며, 모든 문자를 부호화할 수 있는 UTF-16으로 대체되었다. 2011년 개정에서는 UCS-2가 deprecated (폐지 예정) 되었다.

3. 2. UTF-8

롭 파이크와 켄 톰슨이 7비트 ASCII와 하위 호환되는 새롭고 빠르며 잘 설계된 혼합 폭 인코딩을 고안했는데, 이는 UTF-8이라고 불리게 되었고,^[1] 현재 가장 인기 있는 UCS 인코딩이다.

3. 3. UTF-16

UTF-16은 각 글자를 16비트로 표현하는 UCS-2를 확장하여, 기본 다국어 평면(BMP) 밖의 영역도 표시할 수 있게 한 인코딩 방식이다. UCS-2는 0부터 65535(0xFFFF) 사이의 코드 값을 16비트로 표현하여 BMP의 코드 영역을 표현할 수 있지만, BMP 밖의 영역은 표현할 수 없었다.^[6]

유니코드 버전 2.0부터는 UTF-16 서로게이트 메커니즘을 통해 17개의 평면에서 1,112,064개의 코드 포인트를 인코딩하는 것을 지원한다. 이러한 이유로 ISO/IEC 10646은 UTF-16으로 인코딩할 수 있는 만큼의 문자로 제한되었다. ISO/IEC 10646의 UCS-4 인코딩은 UTF-16 범위로 제한되어 UTF-32라는 이름으로 유니코드 표준에 통합되었지만, 프로그램의 내부 데이터를 제외하고는 거의 사용되지 않는다.^[1]

Unicode의 "UTF"가 "Unicode Transformation Format"을 의미하는 반면, ISO/IEC 10646의 "UTF"는 "UCS Transformation Format"을 의미한다. UTF-16은 Unicode의 UTF-16과 같다.^[5]

3. 4. UTF-32 (UCS-4)

UTF-32는 32비트(4바이트)로 한 글자를 표현하는 방식이다.^[6] UCS-4는 UCS-2보다 더 많은 글자를 표현할 수 있지만, 저장 공간을 2배 더 필요로 한다.^[6]

ISO/IEC 10646의 UCS-4 인코딩은 UTF-16 범위로 제한되어 UTF-32라는 이름으로 유니코드 표준에 통합되었지만, 프로그램 내부 데이터를 제외하고는 거의 사용되지 않는다.

4. 유니코드와의 차이점

ISO/IEC 10646은 단순한 문자 맵인 반면, 유니코드는 정렬, 형태 정규화, 아랍어 및 히브리어와 같은 언어를 위한 양방향 알고리즘 등 더 많은 규칙과 사양을 포함한다.^[1] 유니코드는 각 문자에 대해 양방향 클래스, 결합 방식, 숫자 값 등 다양한 속성을 추가하여 다국어 환경에서의 상호 운용성을 높였다.

5. 한국어 처리 문제점

ISO/IEC 10646 제정 초기에는 기존 한글 코드 체계(예: KS X 1001)와의 호환성 문제가 발생하여 코드 변환 시 글자가 깨지는 현상이 빈번하게 발생했다.^[1] 이는 ISO/IEC 10646이 기존 코드 체계와의 정합성을 고려하지 않고 유니코드에 흡수 통합되는 방식으로 제정되었기 때문이다.^[1] 현대 한글의 경우 유니코드와 ISO/IEC 10646에서 한글 음절을 조합형(완성형) 방식으로 처리하는 방식의 차이로 인하여 한국어 정보 처리 시스템에 문제를 야기할 수 있다.^[1]

6. 관련 ISO 표준

ISO/IEC 10646 표준은 ISO 2022, ISO 6429, ISO 14651 등 다른 ISO 표준들과 관련되어 있으며, 이들과 함께 사용되어 문자 처리 및 정보 교환의 효율성을 높인다.

6. 1. ISO 2022

ISO 2022는 문자 코드의 확장 및 전환을 위한 국제 표준이다. ISO/IEC 10646과 함께 사용되어 다양한 문자 집합을 표현하고 처리할 수 있다.

6. 2. ISO 6429

ISO 6429는 제어 문자에 대한 국제 표준이다. ISO/IEC 10646과 함께 사용되어 텍스트의 서식 및 제어 기능을 처리할 수 있다.

6. 3. ISO 14651

ISO 14651은 문자열 정렬 및 비교를 위한 국제 표준이다. ISO/IEC 10646과 함께 사용되어 다국어 환경에서 문자열을 정확하게 정렬하고 비교할 수 있다.

7. 버전별 유니코드 대응

ISO/IEC 10646은 유니코드 표준과 거의 동기화되어 발전해왔으며, 각 버전별로 특정 유니코드 버전과 대응된다.

ISO/IEC 10646 버전	유니코드 버전
ISO/IEC 10646-1:1993	유니코드 1.1
ISO/IEC 10646-1:1993 및 수정 사항 5~7	유니코드 2.0
ISO/IEC 10646-1:1993 및 수정 사항 5~7	유니코드 2.1 (유로 기호 및 객체 대체 문자 제외, 수정 사항 18에 포함)
ISO/IEC 10646-1:2000	유니코드 3.0
ISO/IEC 10646-1:2000 및 ISO/IEC 10646-2:2001	유니코드 3.1
ISO/IEC 10646-1:2000 및 수정 사항 1 및 ISO/IEC 10646-2:2001	유니코드 3.2
ISO/IEC 10646:2003	유니코드 4.0
ISO/IEC 10646:2003 및 수정 사항 1	유니코드 4.1
ISO/IEC 10646:2003 및 수정 사항 1~2	유니코드 5.0 (데바나가리 문자 GGA, JJA, DDDA 및 BBA 제외, 수정 사항 3에 포함)
ISO/IEC 10646:2003 및 수정 사항 1~4	유니코드 5.1
ISO/IEC 10646:2003 및 수정 사항 1~6	유니코드 5.2
ISO/IEC 10646:2003 및 수정 사항 1~8 = ISO/IEC 10646:2011	유니코드 6.0 (인도 루피 기호 제외)
ISO/IEC 10646:2012	유니코드 6.1
ISO/IEC 10646:2012	유니코드 6.2 (터키 리라 기호 제외, 수정 사항 1에 포함)
ISO/IEC 10646:2012	유니코드 6.3 (터키 리라 기호 제외, 수정 사항 1에 포함, 5개의 양방향 제어 문자(아랍어 문자 표시, 왼쪽에서 오른쪽으로 격리, 오른쪽에서 왼쪽으로 격리, 첫 번째 강한 격리, 방향 격리 제거) 제외, 수정 사항 2에 포함)
ISO/IEC 10646:2012 및 수정 사항 1 및 2	유니코드 7.0 (루블 기호 제외)
ISO/IEC 10646:2014 및 수정 사항 1	유니코드 8.0 (라리 기호, 9개의 CJK 통합 표의 문자, 41개의 이모지 문자 제외)
ISO/IEC 10646:2014 및 수정 사항 1 및 2	유니코드 9.0 (아들람 문자 , 네와 문자, 일본 TV 기호, 74개의 이모지 및 기호 제외)
ISO/IEC 10646:2017	유니코드 10.0 (285개의 변체 가나 문자, 3개의 자나바자르 스퀘어 문자, 56개의 이모지 기호 제외)
ISO/IEC 10646:2017 및 수정 사항 1	유니코드 11.0 (46개의 므타브룰리 조지아 대문자, 5개의 CJK 통합 표의 문자, 66개의 이모지 문자 제외)
ISO/IEC 10646:2017 및 수정 사항 1 및 2	유니코드 12.0 (62개의 추가 문자 제외)
ISO/IEC 10646:2020	유니코드 13.0
ISO/IEC 10646:2020 및 수정 사항 1	유니코드 15.0
ISO/IEC 10646:2020 및 수정 사항 1 및 2	유니코드 16.0

참조

_[1] 웹사이트 UTF-8 history http://www.cl.cam.ac[...] 2003-04-03
_[2] 웹사이트 The Unicode Standard Version 11.0 https://www.unicode.[...] The Unicode Consortium 2018-06-05
_[3] 웹사이트 The Unicode Standard Version 11.0 https://www.unicode.[...] The Unicode Consortium 2018-06-05
_[4] 웹사이트 The Unicode Standard Version 11.0 https://www.unicode.[...] The Unicode Consortium 2018-06-05
_[5] 웹사이트 The Unicode Standard Version 11.0 https://www.unicode.[...] The Unicode Consortium 2018-06-05
_[6] 문서 UCS-4

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com