확장 유닉스 코드

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 인코딩 구조
- 2.1. 고정 길이 형식
3. EUC-KR
- 3.1. 통합형 한글 코드 (UHC)
- 3.2. macOS Korean (HangulTalk)
4. EUC-CN
5. EUC-JP
- 5.1. JIS X 0208 기반
- 5.2. JIS X 0213 기반
6. EUC-TW
7. 과제
참조

1. 개요

확장 유닉스 코드(EUC)는 ISO/IEC 2022 표준을 기반으로 최대 4개의 코드화된 문자 집합을 표현하는 문자 인코딩 방식이다. EUC는 유닉스 시스템의 국제화 및 각국어 지원을 위해 개발되었으며, 각 국가의 언어에 맞는 문자 집합을 포함할 수 있도록 설계되었다. EUC-KR, EUC-CN, EUC-JP, EUC-TW 등 다양한 변종이 존재하며, 각 인코딩은 ASCII를 기본으로 하고, 각 언어의 문자 집합을 추가하여 문자를 표현한다. EUC는 가변 길이 인코딩 방식을 사용하며, 내부 처리를 위해 고정 길이 형식도 지원한다. 하지만 모든 문자를 포함하거나 여러 문자 코드를 전환하는 기능이 부족하다는 한계가 있다.

더 읽어볼만한 페이지

한국어 컴퓨팅 - 한글 자판
한글 자판은 한글 입력 방식의 배열을 의미하며, 두벌식, 세벌식, 타자기 자판, 휴대 전화 자판 등 다양한 종류가 있고, 리듬감, 도깨비불 현상, 오타 수정 가능성 등 다양한 논점을 가지고 있다.
한국어 컴퓨팅 - KS X 1001
KS X 1001은 정보 처리를 위한 문자 집합 및 인코딩 방식을 정의하는 대한민국 산업표준으로, 94x94 문자 집합을 기반으로 한글, 한자, 특수 문자 등을 포함하며 EUC-KR, ISO-2022-KR, Johab 등 다양한 인코딩 방식을 지원한다.
문자 인코딩 - 유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다.
문자 인코딩 - UTF-8
UTF-8은 유니코드 문자를 표현하는 가변 길이 문자 인코딩 방식으로, ASCII 코드와 호환성을 유지하며 다양한 언어의 문자를 표현할 수 있도록 설계되었지만, 보안 문제점과 공간 효율성 측면에서 단점을 가진다.

2. 인코딩 구조

EUC의 구조는 ISO/IEC 2022 표준을 기반으로 하며, 최대 4개의 코드화된 문자 집합(G0, G1, G2, G3)을 표현할 수 있다. G0는 일반적으로 ASCII 또는 ISO/IEC 646 호환 문자 집합으로 설정되며, GL(0x21-0x7E)을 통해 호출된다.^[1] G1, G2, G3는 각 언어별 문자 집합으로 설정되며, GR(0xA1-0xFE)을 통해 호출된다. 코드 집합 2와 3의 문자는 각각 제어 코드 SS2(0x8E) 및 SS3(0x8F)로 시작한다.^[1]

EUC는 "팩 형식"(가변 길이)과 "완전 2바이트 형식"(고정 길이)의 두 가지 형식이 있으며, 전자는 정보 교환용, 후자는 내부 처리용이다. 일반적으로 EUC라고 할 때는 팩 형식을 가리킨다. EUC 팩 형식은 ISO/IEC 2022를 기반으로 G0에 ASCII(주 코드 세트)를, G1-G3에 각 언어의 문자 집합(보조 코드 세트 1-3)을 암묵적으로 지시하며, GL에 G0을, GR에 G1을 암묵적으로 호출한다. G2/G3는 싱글 시프트 2/3에 의해 GR로 호출한다. 보조 코드 세트가 0x80-0xFF의 범위로 표시되므로 주 코드 세트와 충돌하지 않아 Shift_JIS에서 2바이트째가 5C 등이 될 수 있는 문제가 발생하지 않는다는 장점이 있다.

1980년대, 유닉스를 개발하던 AT&T는 미국 이외의 국가에 유닉스를 보급하면서 각국의 고유한 요구 사항에 대응하기 위해 유닉스 시스템을 세계 공통 기능인 국제 기능과 각국 고유의 처리에 필요한 기능인 각국어 기능으로 나누어 정의했다. 이 국제 기능에서 1개의 기본 코드와 3개의 확장 코드로 구성된 4개의 코드 세트를 사용할 수 있는 문자 코드를 Extended UNIX Code (EUC; 확장 유닉스 코드)로 정의했다.

2. 1. 고정 길이 형식

위에 설명된 가변 길이 인코딩은 때때로 "EUC 팩 형식"이라고 불리며, 이는 일반적으로 EUC로 레이블이 지정된 인코딩 형식이다. 그러나 EUC 데이터의 내부 처리는 '''EUC 완전 2바이트 형식'''이라는 고정 길이 변환 형식을 사용할 수 있다. 이는 다음을 나타낸다:^[14]

코드 세트 0: 0x21–0x7E 범위의 2바이트(단, 첫 번째 바이트는 0x00일 수 있음)
코드 세트 1: 0xA0–0xFF 범위의 2바이트(단, 첫 번째 바이트는 0x80일 수 있음)
코드 세트 2: 0x21–0x7E(또는 0x00) 범위의 1바이트 다음에 0xA0–0xFF 범위의 1바이트
코드 세트 3: 0xA0–0xFF(또는 0x80) 범위의 1바이트 다음에 0x21–0x7E 범위의 1바이트

코드 세트가 1바이트만 사용하는 경우 초기 바이트 0x00 및 0x80이 사용된다. 또한 4바이트 고정 길이 형식도 있다.^[14] 이러한 고정 길이 인코딩 형식은 내부 처리에 적합하며 일반적으로 교환 과정에서는 사용되지 않는다.

EUC-JP는 팩 형식으로 "EUC-JP" 또는 "csEUCPkdFmtJapanese"로, 고정 폭 형식으로 "csEUCFixWidJapanese"로 IANA에 두 형식 모두 등록되어 있다.^[2]

3. EUC-KR

'''EUC-KR'''은 KS X 1001(구 KS C 5601)^[29]^[30]와 ISO 646:KR (KS X 1003, 구 KS C 5636) 또는 ASCII의 두 가지 문자 집합을 사용하여 한국어 텍스트를 나타내는 가변 길이 인코딩이다. KS X 2901(구 KS C 5861)은 인코딩을 규정하며, IETF RFC 1557는 이를 EUC-KR로 명명했다.

KS X 1001에서 가져온 문자는 2바이트(0xA1-0xFE)로 인코딩되며, KS X 1003 또는 ASCII 문자는 1바이트(0x21-0x7E)를 차지한다.

EUC-KR은 대한민국에서 "완성"(완성|rr=Wanseong|lit=precomposed^한국어^[31])으로 불린다. IBM은 이중 바이트 구성 요소를 '''코드 페이지 971'''^[32]로, ASCII가 포함된 EUC-KR을 '''코드 페이지 970'''으로 부른다.^[33]^[34]^[35] 이는 Microsoft에서 '''코드 페이지 20949''' ("Korean Wansung")^[37]^[36] 및 '''코드 페이지 51949''' ("EUC Korean")로 구현된다.^[37]

2024년 12월 기준으로 전 세계 웹 페이지의 0.07% 미만이 EUC-KR을 사용한다고 선언했지만,^[38] 대한민국 웹 페이지의 5.2%가 EUC-KR을 사용한다.^[39] 현재는 세 가지 주요 플랫폼 (macOS, 기타 Unix 계열 OS 및 Windows)에서 한국에서 가장 널리 사용되는 레거시 문자 인코딩이지만, 특히 Linux 및 macOS에서 인기가 높아짐에 따라 사용이 UTF-8로 천천히 전환되고 있다.

다른 인코딩과 마찬가지로, UTF-8이 새로운 사용에 선호되며 플랫폼과 공급업체 간의 일관성 문제를 해결한다.

1987년 AT&T 유닉스 퍼시픽에서 출시된 Korean Application Environment Release 1.0(KAE 1.0)에서 규정되었으며, 1992년 한국표준협회에 의해 KS X 2901(구 KS C 5861) '한글 UNIX 환경'으로 표준화되었다. 여기서 `KR`은 대한민국의 국가·지역 코드이며, 한국어의 언어 코드(ko)는 아니다. 단순히 KS C 5601이라고 할 경우에도, 문자 집합으로서의 KS C 5601이 아닌 EUC-KR을 가리키는 경우가 많다.

G0 - ASCII
G1 - KS X 1001 (KS C 5601)
G2 - 없음
G3 - 없음

3. 1. 통합형 한글 코드 (UHC)

통합형 한글 코드(ko 또는 ko)는 EUC-KR의 일반적인 확장으로, 마이크로소프트 윈도우에서 기본 한국어 코드 페이지이다. 마이크로소프트는 이 코드 페이지에 949번을, IBM은 1261^[41] 또는 1363^[42]번을 부여했다. IBM의 코드 페이지 949는 관련이 없는, 다른 EUC-KR 확장이다.

통합형 한글 코드는 EUC 구조에 부합하지 않는 코드를 사용하여 추가 음절 블록을 통합하여 EUC-KR을 확장하고, 조합형 한글 및 유니코드에서 사용 가능한 조합된 음절 블록의 범위를 완성한다. W3C/WHATWG 인코딩 표준은 HTML5에서 사용되며, EUC-KR의 정의에 통합형 한글 코드 확장을 포함하고 있다.^[43]

'''UHC'''(Unified Hangul Code)는 EUC-KR을 확장한 체계이다.

3. 2. macOS Korean (HangulTalk)

클래식 Mac OS의 한국어 현지화 버전인 HangulTalk(MacOS-KH)에서 사용되었으며, EUC-KR을 하위 집합으로 포함하는 다른 인코딩이다.^[10] 이는 당시 대한민국에서 Apple Macintosh 컴퓨터의 공식 유통업체였던 일렉스 컴퓨터에서 개발했다.^[44]^[45]

HangulTalk은 EUC-KR GR 평면 내의 미사용 공간(후행 바이트 0xA1–0xFE)과 그 외의 비-EUC 코드(후행 바이트 0x41–0xA0) 모두에서 0xA1과 0xAD 사이의 선행 바이트를 사용하여 확장 문자를 추가한다. 이러한 문자 중 일부는 글꼴 스타일에 독립적인 스타일의 딩뱃이다.^[45] 이러한 문자 중 다수는 정확한 유니코드 매핑을 가지고 있지 않으며, Apple 소프트웨어는 이러한 경우를 결합 문자로의 결합 시퀀스, 왕복 처리를 위한 수정자 역할을 하는 추가된 개인 사용 영역 문자 또는 개인 사용 문자로의 근사 매핑 등 다양하게 매핑한다.^[46]

Apple은 또한 EUC-KR 평면 외부의 특정 단일 바이트 코드를 추가 문자에 사용한다. 필수 공백에 0x80, 원화 기호(₩)에 0x81, 엔 대시(–)에 0x82, 저작권 기호(©)에 0x83, 넓은 밑줄(＿)에 0x84, 그리고 줄임표(...)에 0xFF를 사용한다.^[46] 이러한 추가적인 단일 바이트 코드 중 어느 것도 일반 EUC-KR의 선행 바이트 범위 내에 있지 않지만(Apple의 EUC-CN 확장과 달리, 위 참조), 일부는 통합 한글 코드의 선행 바이트 범위 내에 있다(특히 0x81, 0x82, 0x83 및 0x84).

4. EUC-CN

EUC-CN은 중국어 간체를 표현하기 위해 GB 2312 표준을 사용하는 일반적인 인코딩 방식이다. 일본어의 경우와 달리 GB2312의 ISO-2022 형식은 일반적으로 사용되지 않지만, HZ라는 변형이 유즈넷에서 종종 사용되었다.^[11]

GB 2312 문자는 0xA1-0xFE 범위의 두 바이트로 표현된다. 아스키 문자는 일반적인 방식으로 표현된다.

EUC-CN은 중국에서 널리 사용되었으며, `CN`은 중국의 국가/지역 코드이다. 간체자의 용자계 코드(`Hans`)나 중국어의 언어 코드(`zh`)가 아니다. 단순히 GB 2312라고 하는 경우에도, 문자 집합으로서의 GB 2312가 아니라 EUC-CN을 가리키는 경우가 많다.

G0 - ASCII
G1 - GB 2312
G2 - 없음
G3 - 없음

4. 1. 748 코드

748 코드는 베이징의 Founder Technology(현재는 최신 FITS 조판 시스템으로 대체됨)에서 개발한 WITS 조판 시스템에서 사용되는 EUC-CN 관련 인코딩이다. 748 코드는 GB 2312를 모두 포함하지만, ISO 2022를 준수하지 않으므로 진정한 EUC 코드는 아니다. 8비트 선행 바이트를 사용하지만, 최상위 비트가 설정된 두 번째 바이트와 최상위 비트가 지워진 두 번째 바이트를 구별하며, 따라서 Big5 및 기타 ISO 2022를 준수하지 않는 DBCS 인코딩 시스템과 구조가 더 유사하다. 748 코드의 비 GB2312 부분에는 신문 조판에 사용되는 전통적인 한자와 홍콩 문자 및 기타 글리프가 포함되어 있다.

4. 2. GBK 및 GB 18030

GBK는 GB 2312의 확장으로, 유니코드 1.1에서 주로 가져온 더 많은 CJK 문자를 표현할 수 있다. 여기에는 번체자와 일본어에만 사용되는 문자가 포함된다. 그러나 GBK는 아스키 바이트가 후행 바이트로 나타날 수 있고, 더 큰 인코딩 공간이 필요하기 때문에 실제 EUC 코드는 아니다.^[4]

GBK의 변형은 Windows 코드 페이지 936 (간체 중국어를 위한 마이크로소프트 윈도우 코드 페이지) 및 IBM의 코드 페이지 1386에서 구현된다.

유니코드 기반 GB 18030 문자 인코딩은 전체 유니코드를 인코딩할 수 있는 GBK의 확장이다. GB 18030으로 인코딩된 유니코드는 최대 문자당 4바이트를 사용할 수 있는 가변 길이 인코딩이다. GBK의 확장으로서 EUC-CN의 상위 집합이지만, 자체적으로는 실제 EUC 코드가 아니다. 유니코드 인코딩이므로 유니코드 변환 형식인 UTF-8과 레퍼토리가 동일하다.

4. 3. x-mac-chinesesimp

클래식 Mac OS 중국어 간체 스크립트 (코드 페이지 10008 또는 `x-mac-chinesesimp`로 알려짐)는 EUC-CN의 변형이며, EUC 메커니즘에서 벗어난다.^[10] 이 스크립트는 움라우트가 있는 U (ü), 두 개의 특수 글꼴 메트릭 문자, 줄 바꿈 방지 공백, 저작권 기호 (©), 상표 기호 (™) 및 줄임표(...)에 각각 0x80, 0x81, 0x82, 0xA0, 0xFD, 0xFE, 0xFF 바이트를 사용한다.^[11] 이는 EUC (0xFD 및 0xFE가 선행 바이트로 정의됨) 및 GBK (0x81, 0x82, 0xFD 및 0xFE가 선행 바이트로 정의됨) 모두에서 단일 바이트 문자와 이중 바이트 문자의 첫 번째 바이트로 간주되는 것과 다르다.

0xA0, 0xFD, 0xFE 및 0xFF의 사용은 애플(Apple Inc.)의 Shift_JIS 변형과 일치한다.

선행 바이트 범위에 대한 이러한 변경 외에도 Mac OS 중국어 간체의 이중 바이트 부분의 또 다른 특징은 6행과 8행의 기본 GB 2312-80 집합에 대한 두 가지 확장을 포함한다는 것이다.^[11] 이것들은 "GB 2312에 대한 표준 확장"으로 간주되며, 둘 다 애플의 전유물은 아니다. 8행 확장은 GB 6345.1에서 가져왔고,^[11] 두 확장 모두 GB/T 12345 (GB 2312의 중국어 번체 변형)에 포함되어 있으며,^[12] 두 확장 모두 GB 18030 (GB 2312의 후속)에 포함되어 있다.^[13]

5. EUC-JP

EUC-JP는 JIS X 0208, JIS X 0212, JIS X 0201의 세 가지 일본어 문자 집합 표준 요소를 표현하는 가변 길이 인코딩이다. Unixized JIS (UJIS) 또는 AT&T JIS라고도 한다.^[14] 유닉스 계열 운영 체제에서 널리 사용되었으며, Shift JIS보다 2바이트 문자 처리 안정성이 높다. EUC-JP는 다음 문자 집합을 인코딩한다.

JIS X 0213을 기반으로 하는 EUC-JIS-2004 (EUC-JISx0213)도 있다.

5. 1. JIS X 0208 기반

일반적으로 일본어 EUC라고 하면 이 버전을 가리킨다. EUC-JP라고도 한다. 여기서 `JP`는 일본을 나타내는 국가/지역 코드이며, 일본어를 나타내는 언어 코드(`ja`)가 아니다.^[50]

1986년에 AT&T에 의해 정의된 이후, 유닉스의 표준적인 일본어 코드로서 널리 사용되어 왔다. 1990년에 JIS X 0212(보조 한자)가 새롭게 제정되었지만, 1992년에 UNIX International이 발행한 『UNIX System V 릴리스 4 (SVR4) 일본어 환경 공통 규약』에서 JIS X 0201 가타카나와 JIS X 0212 보조 한자는 구현이 필수적이지 않다고 되어 있었다. 이 때문에, 특히 JIS X 0212는 구현되지 않는 경우도 많다. 통신 등에서 사용할 경우에는 이 점에 주의할 필요가 있다.

G0 - ASCII
G1 - JIS X 0208
G2 - JIS X 0201 가타카나
G3 - JIS X 0212 보조 한자

G2와 G3을 사용하지 않는 경우에는 JIS X 0208:1997의 "국제 기준판·한자용 8비트 부호"와 동일하다.

5. 2. JIS X 0213 기반

EUC-JIS-2004는 JIS X 0213:2004 부속서 3에 기재되어 있으며, 자유/오픈 소스 소프트웨어 등에서 사용되는 경우가 있다.^[50]

G0 - ASCII
G1 - JIS X 0213 1면
G2 - JIS X 0201 가타카나
G3 - JIS X 0213 2면

6. EUC-TW

EUC-TW는 ASCII와 각 94×94인 CNS 11643의 16개 평면을 지원하는 가변 길이 인코딩이다. 타이완에서 사용되는 번체자 인코딩으로 드물게 사용되며, Big5가 EUC-TW보다 훨씬 더 흔하다. Big5는 CNS 11643 한자의 처음 두 평면만 인코딩하는 반면, UTF-8은 더욱 널리 사용되고 있다.^[1]

G0: ASCII
G1: CNS 11643 제1자면
G2: CNS 11643 제2~제16자면
G3: 없음

G2 문자는 다음 4바이트로 구성된다.^[1]

싱글 시프트 2 (0x8E)
자면을 선택하는 코드 (0xA2-0xB0)
문자의 제1바이트 (0xA1-0xFE)
문자의 제2바이트 (0xA1-0xFE)

7. 과제

EUC는 모든 문자 코드를 포함하거나, 여러 문자 코드를 전환하여 표시하는 기능의 필요성을 부정하는 경향이 있어, 많은 문자를 표시하는 흐름에 뒤처진다는 과제가 있었다.^[1] 이는 문자 코드 자체의 과제가 아니라, EUC를 이용하는 프로그래머나 이용자의 과제이다.^[1]

참조

_[1] 웹사이트 Character Data Representation Architecture (CDRA) https://www.ibm.com/[...] IBM
_[2] 웹사이트 Character Sets https://www.iana.org[...] IANA
_[3] 웹사이트 4.2. Names and labels https://encoding.spe[...] WHATWG
_[4] 웹사이트 S-Ch PC Data mixed (IBM GB) including 1880 UDC, 31 IBM selected characters and 5 SAA SB characters https://www-01.ibm.c[...] IBM
_[5] 웹사이트 IBM Simplified Chinese Graphic Character Set https://public.dhe.i[...] IBM 1993
_[6] 웹사이트 CCSID 1383: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (1382) https://www-01.ibm.c[...] IBM
_[7] 웹사이트 IBM Simplified Chinese Graphic Character Set for Extended UNIX Code (EUC) https://public.dhe.i[...] IBM 1994
_[8] 웹사이트 CCSID 5479: S-Ch EUC G0 set, ASCII G1 set, GB 2312-80 set (5478) https://www-01.ibm.c[...] IBM
_[9] 웹사이트 CCSID 9574: S-Ch DBCS PC GB 2312-80 set, excluding 31 IBM selected and 1360 UDC. Also used in T-Ch 2022-CN TCP. https://www-01.ibm.c[...] IBM
_[10] 웹사이트 Encoding.WindowsCodePage Property – .NET Framework (current version) https://msdn.microso[...] Microsoft
_[11] 웹사이트 Map (external version) from Mac OS Chinese Simplified encoding to Unicode 3.0 and later. https://unicode.org/[...] Apple, Inc
_[12] 서적 Appendix F: GB/T 12345 https://resources.or[...] O'Reilly Media
_[13] 서적 GB 18030-2005: Information Technology—Chinese coded character set https://archive.org/[...] 2005-11-18
_[14] 서적 CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing https://books.google[...] O'Reilly
_[15] 웹사이트 Historical trends in the usage of character encodings for websites https://w3techs.com/[...] W3Techs
_[16] 웹사이트 Distribution of Character Encodings among websites that use Japanese https://w3techs.com/[...] 2023-11-01
_[17] 웹사이트 CCSID 954 information document https://www.ibm.com/[...]
_[18] 간행물 International Components for Unicode (ICU), ibm-954_P101-2007.ucm https://github.com/u[...] 2002-12-03
_[19] 웹사이트 JIS X 0213 Code Mapping Tables https://x0213.org/co[...] x0213.org
_[20] 웹사이트 Ambiguities in conversion from Japanese EUC to Unicode (Non-Normative) https://www.w3.org/T[...] W3C
_[21] 웹사이트 EUC-JP decoder https://encoding.spe[...] WHATWG
_[22] 웹사이트 3.1.1 Details of Problems https://www.opengrou[...] The Open Group Japan 2019-08-14
_[23] 웹사이트 When is a backslash not a backslash? https://archives.mil[...] 2005-09-17
_[24] 웹사이트 4.2 Review Process of Rules for Code Set Conversion Between eucJP-open and UCS https://www.opengrou[...] The Open Group Japan 2019-08-14
_[25] 간행물 Appendix J: Japanese Character Sets https://resources.or[...] 2009-01-13
_[26] 웹사이트 Readme for CJKCodecs https://github.com/p[...] Python Software Foundation 2021-12-08
_[27] 간행물 Appendix F: Vendor Encoding Methods https://resources.or[...] 2009-01-13
_[28] 웹사이트 2: Codesets and Codeset Conversion https://www.itec.sun[...] Digital Equipment Corporation, Compaq
_[29] 웹사이트 KS X 1001:1992 https://examples.ore[...]
_[30] 간행물 KS C 5601:1987 1988-10-01
_[31] 서적 CJKV Information Processing "O'Reilly Media, Inc." 2009
_[32] 웹사이트 IBM Globalization – Coded character set identifiers – CCSID 971 https://www-01.ibm.c[...] 2021-09-03
_[33] 웹사이트 CCSID 970 https://www-01.ibm.c[...] IBM
_[34] 웹사이트 ibm-970_P110_P110-2006_U2 (alias euc-kr) https://icu4c-demos.[...] International Components for Unicode
_[35] 간행물 International Components for Unicode (ICU), ibm-970_P110_P110-2006_U2.ucm https://github.com/u[...] 2002-12-03
_[36] 웹사이트 dump_krwansung_codepage: build Korean Wansung table from the KSX1001 file https://source.wineh[...] Wine Project 2021-03-11
_[37] 웹사이트 Code Page Identifiers https://docs.microso[...] Microsoft 2021-01-07
_[38] 웹사이트 Usage Statistics and Market Share of EUC-KR for Websites, December 2024 https://w3techs.com/[...] 2024-12-10
_[39] 웹사이트 Distribution of Character Encodings among websites that use .kr https://w3techs.com/[...] 2024-12-10
_[40] 웹사이트 한글 코드에 대하여 https://web.archive.[...] W3C 2019-01-07
_[41] 문서 ucnv_lmb.cpp IBM
_[42] 간행물 Coded character set identifiers – CCSID 1363 https://web.archive.[...] IBM
_[43] 간행물 5. Indexes (§ index EUC-KR) https://encoding.spe[...] WHATWG
_[44] 웹사이트 HangulTalk: De facto standard Hangul environment for Mac http://hojin.freeser[...]
_[45] 서적 Appendix E: Vendor Character Set Standards https://resources.or[...] O'Reilly
_[46] 웹사이트 Map (external version) from Mac OS Korean encoding to Unicode 3.2 and later https://unicode.org/[...] Unicode Consortium 2005-04-05
_[47] 웹사이트 3-way cross-reference tables – KS X 1001, KPS 9566, and UCS https://unicode.org/[...] 2002-11-30
_[48] 웹사이트 Information on the most recent version of KPS 9566 (KPS 9566-2011?) https://www.unicode.[...] 2018-01-05
_[49] 웹사이트 solaris-eucTH-2.7 https://github.com/u[...] Unicode Consortium/International Components for Unicode 2001-05-07
_[50] URL http://w3techs.com/t[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

확장 유닉스 코드
명칭
이름	확장 유닉스 코드
영문명	Extended Unix Code
개요
종류	문자 인코딩
설계	ISO/IEC 2022
사용 언어	다국어, 특히 동아시아 문화권 언어 지원
인코딩 방식	가변 길이 인코딩
문자 집합	ISO/IEC 646, GB 2312, KS X 1001, JIS X 0208 등
기술적 세부 사항
구조	7비트 및 8비트 환경 모두에서 사용 가능
시프트 코드	단일 시프트 2, 단일 시프트 3 등의 시프트 코드 사용
호환성	기존 ASCII 기반 시스템과의 호환성을 유지하면서 확장된 문자 집합 지원
특징
다국어 지원	여러 동아시아 문화권 언어를 동시에 표현 가능
확장성	새로운 문자 집합을 추가하여 지속적인 확장 가능
유연성	다양한 환경에 적용 가능하도록 설계됨