코드 페이지 949
1. 개요
코드 페이지 949는 EUC-KR의 확장으로, IBM과 마이크로소프트에서 다르게 정의되어 사용된다. IBM의 코드 페이지 949는 "cp949", "949", "ibm-949"로 불리며, 마이크로소프트는 "ms949" 또는 "windows-949"로 UHC(통합 한글 코드)를 지칭하며, "ks_c_5601-1987" 레이블을 할당한다. 코드 페이지 1363(IBM-1363)은 UHC를 위한 IBM의 코드 페이지로, 싱글바이트 코드 페이지 1126과 더블바이트 코드 페이지 1362의 조합이다. 파이썬은 "cp949", "949", "ms949", "uhc"를 UHC 레이블로 인식하지만 IBM-949 코덱은 포함하지 않으며, WHATWG는 "windows-949"만 인식한다.
| 이름 | 통합형 한글 코드 |
|---|---|
| 다른 이름 | 윈도우 코드 페이지 949 IBM 코드 페이지 1363 |
| 언어 | 한국어 |
| 확장 | EUC-KR |
| 표준 | WHATWG 인코딩 표준 ( "EUC-KR"로 지정) |
| 분류 | 확장 아스키 가변 폭 인코딩 CJK 문자 인코딩 |
| 관련 항목 | KPS 9566-2003 KPS 9566-2011 |
이미지 준비중입니다.
-
윈도우 코드 페이지 -
Windows-1252
Windows-1252는 마이크로소프트 윈도우에서 ANSI 코드 페이지로 불렸으나 ANSI 표준은 아니며, 윈도우 1.0부터 사용되어 윈도우 98에서 최종 버전이 도입되었고, HTML5 사양에서 미선언된 문자 집합으로 간주되며, 다양한 운영체제 및 환경에서 관련된 인코딩 방식들이 존재한다. -
윈도우 코드 페이지 -
코드 페이지 950
코드 페이지 950은 윈도우 운영체제에서 사용되는 Big5 인코딩 기반의 문자 인코딩 방식이며, 마이크로소프트와 IBM에서 다양한 변형과 확장을 거쳐 사용된다. -
한국어 컴퓨팅 -
한글 자판
한글 자판은 한글 입력 방식의 배열을 의미하며, 두벌식, 세벌식, 타자기 자판, 휴대 전화 자판 등 다양한 종류가 있고, 리듬감, 도깨비불 현상, 오타 수정 가능성 등 다양한 논점을 가지고 있다. -
한국어 컴퓨팅 -
KS X 1001
KS X 1001은 정보 처리를 위한 문자 집합 및 인코딩 방식을 정의하는 대한민국 산업표준으로, 94x94 문자 집합을 기반으로 한글, 한자, 특수 문자 등을 포함하며 EUC-KR, ISO-2022-KR, Johab 등 다양한 인코딩 방식을 지원한다. -
문자 인코딩 -
유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다. -
문자 인코딩 -
UTF-8
2. 용어
통합 한글 코드(UHC)는 IANA에 인터넷을 통해 정보를 교환하는 표준으로 등록되어 있지 않다. 대안으로는 UTF-8이 있다. 하지만 W3C/WHATWG 인코딩 표준은 HTML5에서 사용되며, 통합 한글 코드 확장을 "EUC-KR" 정의에 통합한다.
마이크로소프트는 Windows-949에 "ks_c_5601-1987" 레이블을 할당하며, 이는 KS X 1001 자체에 적절하게 적용된다. WHATWG는 "ks_c_5601-1987" 레이블을 "EUC-KR"과 상호 교환 가능하게 취급하며 "배포된 콘텐츠와 호환"하는 것을 목표로 한다. 유니코드 협회의 철회된 매핑 모음인 "OBSOLETE/EASTASIA"는 통합 한글 코드에 대한 매핑을 "KSC5601.TXT"로 포함했으며, 7비트 KS X 1001에 대한 자동 파생 매핑을 "KSX1001.TXT"로 포함했다.
IBM의 코드 페이지 949는 EUC-KR의 또 다른 관련 없는 확장이다. 국제 유니코드 구성 요소 (ICU)는 해당 IBM 코드 페이지를 참조하기 위해 "cp949", "949" 또는 "ibm-949"를 사용하며, UHC의 Windows 매핑을 참조하기 위해 "ms949" 또는 "windows-949"(또는 "ks_c_5601-1987"의 여러 변형)를 사용한다. 반면에 파이썬은 "cp949", "949", "ms949" 및 "uhc"를 UHC의 레이블로 인식하며 IBM-949 코덱을 포함하지 않는다. 코드 페이지 번호를 포함하는 레이블 중에서 WHATWG는 "windows-949"만 인식한다.
3. 싱글바이트 코드
IBM의 코드 페이지 1363 (IBM-1363)은 통합 한글 코드를 위한 것으로, 싱글바이트(SBCS) 코드 페이지 1126과 더블바이트(DBCS) 코드 페이지 1362의 조합이다. 코드 페이지 1126은 코드 페이지 437과 유사하지만, 0x5C에 ₩를 할당하는 등 일부 차이가 있다. 마이크로소프트는 0x5C를 \로 매핑하지만, 글꼴에 따라 원 기호로 표시될 수 있다.
코드 페이지 1126의 싱글바이트 부분은 다음과 같다.
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0x | NUL | ┌ | ┐ | └ | ┘ | │ | ─ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ |
| 1x | ┼ | ◄ | ↕ | ‼ | ¶ | ┴ | ┬ | ┤ | ↑ | ├ | → | ← | ∟ | ↔ | ▲ | ▼ |
| 2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
| 3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
| 4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
| 5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | ₩ | ] | ^ | _ |
| 6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
| 7x | p | q | r | s | t | u | v | w | x | y | z | { | {{pipe}} | [[중괄호 (구두점)|} | ]] || ~ || ⌂