Big5
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
Big5는 각 문자를 두 바이트로 표현하는 더블 바이트 문자 집합으로, 주로 대만, 홍콩 등 중화권에서 사용되었다. Big5는 ISO 2022 표준을 따르지 않지만, Shift JIS 인코딩과 유사한 구조를 가진다. Big5는 문자의 부족으로 인해 여러 벤더와 정부 기관에서 확장을 개발했으며, ETen, 코드 페이지 950, HKSCS 등이 대표적이다. 현재는 유니코드의 보급으로 사용 빈도가 줄어들고 있다.
더 읽어볼만한 페이지
- 중국어 컴퓨팅 - 중국어 입력기
중국어 입력기는 디지털 기기에서 중국어를 입력하는 다양한 방식과 소프트웨어를 아우르며, 자형 기반에서 발음 기반으로 발전하여 창힐 입력법, 병음 입력 방식 등이 사용되고, 스마트폰 보급 후 터치스크린 및 음성 인식 방식과 다양한 소프트웨어가 제공되면서 지역별 선호 방식이 존재한다. - 중국어 컴퓨팅 - 코드 페이지 950
코드 페이지 950은 윈도우 운영체제에서 사용되는 Big5 인코딩 기반의 문자 인코딩 방식이며, 마이크로소프트와 IBM에서 다양한 변형과 확장을 거쳐 사용된다. - 문자 집합 - 점자
점자는 루이 브라이유가 개발한 시각 장애인용 촉각 문자 체계로, 6점 점자를 사용하여 133개 이상의 언어에 적용되었으며, 교육, 정보 접근, 사회 참여에 필수적인 역할을 수행하지만 문해력 저하와 교육의 어려움이라는 과제도 안고 있다. - 문자 집합 - ISO/IEC 646
ISO/IEC 646는 ASCII 기반의 7비트 문자 인코딩 표준으로, 국가별 변형이 존재했으나, 최종 개정판은 ASCII와 호환되도록 정의되었고, 현재는 ITU-T 권고 T.50 IRA가 현행 표준으로 유지되고 있다.
| Big5 | |
|---|---|
| 개요 | |
| 이름 | Big5 |
| 다른 이름 | Big-5, 大五碼 (다섯 개의 큰 코드) |
| 개발 | 정보산업연구소(Institute for Information Industry) |
| 언어 | 정체자(Traditional Chinese), 영어(English) |
| 부분 지원 | 간체자(Simplified Chinese), 그리스어(Greek), 일본어(Japanese), 러시아어(Russian), 불가리아어(Bulgarian), 일부 국제음성기호(International Phonetic Alphabet) 문자 (음성 표기용) |
| 확장 | ASCII |
| 확장 | Windows-950, 홍콩 추가 문자 집합(Hong Kong Supplementary Character Set, Big5-HKSCS), 기타 다수 |
| 분류 | 확장 ASCII(Extended ASCII), 가변 너비 인코딩(variable-width encoding), 더블 바이트 문자 집합(double-byte character set, DBCS), CJK 문자(CJK characters) 인코딩 |
| 관련 항목 | CNS 11643 |
| 추가 정보 | |
2. 구조
Big5는 더블 바이트 문자 집합(DBCS)으로, 각 문자는 두 개의 바이트로 표현된다. 첫 번째 바이트(리드 바이트)는 0x81 ~ 0xfe (사용자 정의 문자가 아닌 경우 0xa1 ~ 0xf9), 두 번째 바이트는 0x40 ~ 0x7e, 0xa1 ~ 0xfe 범위에 속한다.[3]
Big5 문자 집합은 사용 빈도, 획수, 강희자전 부수 순으로 정렬되어 있으며, ISO 2022 표준을 준수하지 않지만, Shift JIS 인코딩과 어느 정도 유사하다.
2. 1. 상세 구조
의 구조는 ISO 2022 표준을 준수하지 않으며, Shift JIS 인코딩과 어느 정도 유사하다. 다음은 더블 바이트 문자 집합(DBCS)의 구조이다.| 첫 바이트 ("리드 바이트") | 두 번째 바이트 |
|---|---|
| 0x81 ~ 0xfe (사용자 정의에 속하지 않은 문자들의 경우 0xa1 ~ 0xf9) | 0x40 ~ 0x7e, 0xa1 ~ 0xfe |
(앞의 0x는 16진수를 의미한다)
원래의 Big5에서 인코딩은 다음과 같은 구역으로 나뉜다.
| 범위 | 설명 |
|---|---|
| 0x8140 ~ 0xA0FE | 사용자가 정의한 문자(造字)를 위해 예약됨 |
| 0xA140 ~ 0xA3BF | "그래픽 문자"(圖形碼) |
| 0xA3C0 ~ 0xA3FE | 예약됨, 사용자가 정의한 문자가 아님 |
| 0xA440 ~ 0xC67E | 자주 사용되는 문자(常用字) |
| 0xC6A1 ~ 0xC8FE | 사용자가 정의한 문자를 위해 예약됨 |
| 0xC940 ~ 0xF9D5 | 덜 자주 사용되는 문자(次常用字) |
| 0xF9D6 ~ 0xFEFE | 사용자가 정의한 문자를 위해 예약됨 |
초기 Big5 문자 집합에는 일반적으로 사용되는 문자가 많이 부족했다. 이 문제를 해결하기 위해 여러 벤더 및 대만 정부 기관에서 자체 확장을 개발했다. ETen 확장은 인기를 얻어 현재 Big5 표준의 일부가 되었다.
"그래픽 문자"는 실제로 구두점, 부분 구두점(예: 대시의 절반, 줄임표의 절반), 딩뱃, 외국 문자 및 기타 특수 문자(예: 표현 "전폭" 형태, 쑤저우 숫자의 숫자, 주음 부호 등)로 구성된다.
대부분의 공급업체 확장에서 확장 문자는 사용자가 정의한 문자를 위해 예약된 다양한 영역에 배치되며, 각 영역은 일반적으로 이전 영역과 연관된 것으로 간주된다. 예를 들어, 추가 "그래픽 문자"(예: 구두점)는 0xA3C0 ~ 0xA3FE 범위에 배치될 것으로 예상되며, 추가 표의 문자는 0xC6A1 ~ 0xC8FE 또는 0xF9D6 ~ 0xFEFE 범위에 배치될 것으로 예상된다. 때로는 추가해야 할 확장 문자가 많아서 이것이 불가능한 경우도 있다. 예를 들어, 키릴 문자와 일본어 가나는 "자주 사용되는 문자"와 관련된 영역에 배치되었다.
2바이트로 약 1만 3000자를 수용하며, 첫 번째 바이트는 0xA1~0xC6 및 0xC9~0xF9, 두 번째 바이트는 0x40~0x7E 및 0xA1~0xFE의 범위를 갖는다. 크게 비한자, 상용 한자, 차상용 한자의 3개 블록으로 구성되며, 한자는 총 획수 순, 다음으로 부수 순으로 배열되어 있다. 이는 JIS X 0208이나 GB 2312의 제2수준의 "부수·획수 순"과는 반대이다. 또한 일부 중복된 한자나 배열 오류가 있다.
부호 공간이 시프트 JIS와 유사하며, 두 번째 바이트에 0x5C가 포함되어 있어 시프트 JIS가 안고 있는 엔화 기호 문제와 유사한 문제를 안고 있다. 다만, 시프트 JIS는 JIS X 0208 문자 집합의 인코딩 방식 중 하나인 데 반해, Big5는 문자 집합과 인코딩 방식이 일체화되어 있으며, 일반적으로 이 외의 인코딩 방식으로 사용되지 않는다는 점이 크게 다르다.
3. 확장
Big5는 ISO 2022 표준을 따르지 않지만, Shift JIS 인코딩과 어느 정도 유사한 구조를 가진다. 2바이트 문자 집합 (DBCS)으로, 다음과 같은 구조를 가진다.
Big5 코드의 숫자 값은 두 바이트가 16비트 숫자의 빅 엔디안 표현인 것처럼 두 바이트를 설명하는 4자리 16진수 숫자로 나타낸다. 예를 들어, 전각 공백의 Big5 코드(바이트 )는 또는 A140으로 쓰인다.
Big5 인코딩에는 DBCS 문자만 포함되어 있지만, 실제로는 ASCII 또는 코드 페이지 437과 같은 1바이트 문자 집합 (SBCS)과 함께 사용되어 2바이트 문자와 1바이트 문자가 혼합되어 있다.
원래의 Big5는 표준 자형 목록에 있는 중국, 일본, 한국 공통 문자와 덜 흔한 공통 문자만 포함하고 있었으며, 사람 이름, 지명, 방언, 화학, 생물학, 일본 가나 문자는 포함하지 않았다. Big5 지원 소프트웨어는 이러한 문제를 해결하기 위해 확장을 포함하기도 한다.
UTF-8과 같은 다른 현대적인 코드 페이지가 등장했지만, Big5에 대한 다양한 확장들은 계속 이루어지고 있다.
3. 1. 벤더 확장
여러 벤더에서 자체 확장을 개발하여 부족한 문자를 추가하였다.
ETen 확장은 인기를 통해 현재 Big5 표준의 일부가 되었다.
Big5에 대해서는 지금까지 다양한 확장들이 이루어지고 있다. 대표적인 것들을 아래에 열거한다.
민간의 독자적인 확장으로는, Windows 95 이전에 가장 널리 사용되었던 중국어 시스템인 이천 중문 시스템이 오래전부터 알려져 있다. ""의 7자(이천 확장 문자) 외에도, 선 요소, 키릴 문자, 원 숫자 등이 채용되었다. 또한 이천의 확장에는 가나가 포함되어, Big5 기반의 시스템에서 일본어를 표현하는 방법으로 널리 사용되었다. 이 확장은 때때로 "Big5-Eten"이라고도 불리며, 독자적인 확장 중 가장 중요한 것 중 하나라고 할 수 있다.
Microsoft Windows에서 사용되는 번체자 문자 집합인 "코드 페이지 950"은, 오리지널 Big5에 이천 확장 문자 7자와 선 요소를 통합한 것이다. Windows ME부터는, 유로 기호가 추가되었다.
3. 2. 공식 확장
대만 교육부(臺灣教育部)는 내부 사용을 위해 자체 글꼴인 타이완 교육부 글꼴(臺灣教育部造字檔)을 제공했다.[30] 중화민국 행정원 중화민국 행정원 농업위원회는 부수 195(물고기 부수)에서 84자, 부수 196(새 부수)에서 7자를 포함하는 133자의 사용자 정의 글꼴인 대만 농업위원회 글꼴(臺灣農委會常用中文外字集)을 도입했다.[30]
중국 디지털 기술 재단(中文數位化技術推廣委員會)은 1997년에 빅5+(Big5+)를 도입했는데, 이 방식은 유니코드 1.1의 모든 CJK 표의 문자를 포함하기 위해 20,000개 이상의 코드 포인트를 사용했다.[30] 그러나 추가된 코드 포인트가 원래의 빅5 정의를 초과하여(빅5+는 상위 바이트 값 81-FE와 하위 바이트 값 40-7E 및 80-FE를 사용) 새로운 코드 페이지 파일 없이는 마이크로소프트 윈도우에 설치하는 것을 불가능하게 했다.[30]
윈도우 사용자가 사용자 정의 글꼴을 사용할 수 있도록 하기 위해, 중국 디지털 기술 재단은 Big-5E를 도입했는데, 이는 3954개의 문자(세 블록의 코드 포인트: 8E40-A0FE, 8140-86DF, 86E0-875C)를 추가하고 ETEN 확장에서 일본어 가나를 제거했다.[30] Big-5+와 달리, Big5E는 원래 정의 내에서 Big-5를 확장한다.[30] Mac OS X 10.3 및 이후 버전은 LiHei Pro (儷黑 Pro.ttf) 및 LiSong Pro (儷宋 Pro.ttf) 글꼴에서 Big-5E를 지원한다.[30]
중국 디지털 기술 재단은 Big5 정의를 만들고 이를 주석 형태로 CNS 11643에 포함시켜 대만의 공식 표준의 일부로 만들었다.[30]
Big5-2003은 1984년 ETEN 확장에서 도입된 모든 Big-5 문자(코드 포인트 A3C0-A3E0, C6A1-C7F2, F9D6-F9FE)와 유로 기호를 통합했다.[30] 권한 측에서 CNS 11643에 그러한 문자가 포함되지 않았다고 주장했기 때문에 키릴 문자는 포함되지 않았다.[30]
홍콩은 문자 인코딩으로 빅5도 채택했다. 그러나 광동어는 일반 빅5 문자 집합에 없는 고유 문자를 가지고 있다.[30] 이 문제를 해결하기 위해 홍콩 정부는 1995년에 빅5 확장인 정부 중국어 문자 집합(GCCS)과 1999년에 홍콩 보충 문자 집합을 만들었다.[30]
4. 가나 및 키릴 문자
Big5에는 가나, 러시아 키릴 문자 및 목록 마커를 인코딩하기 위한 두 가지 주요 확장 레이아웃(BIG5.TXT 레이아웃, ETEN 레이아웃)이 있으며, 이들은 서로 호환되지 않는다.[32]
5. 중복 문자
Big5는 "兀"(0xA461, 0xC94A)과 "嗀"(0xDCD1, 0xDDFC) 두 개의 중복된 문자를 인코딩했다.
참조
[1]
웹사이트
Big5 (Traditional Chinese) character code table
https://web.archive.[...]
2007-08-23
[2]
웹사이트
Character Sets
http://chinesemac.or[...]
2021-08-31
[3]
간행물
Map (external version) from Mac OS Chinese Traditional encoding to Unicode 3.0 and later.
https://unicode.org/[...]
Unicode Consortium
2005-04-04
[4]
웹사이트
Unicode CP950 mapping file
https://unicode.org/[...]
Unicode Consortium
2023-05-11
[5]
웹사이트
Unicode Big5 mapping file
https://unicode.org/[...]
Unicode Consortium
2023-05-11
[6]
웹사이트
Mozilla 系列與 Big5 中文字碼(Big5-2003)
https://moztw.org/do[...]
2020-07-01
[7]
웹사이트
Mozilla 系列與 Big5 中文字碼(ETEN)
https://moztw.org/do[...]
2020-07-01
[8]
웹사이트
狗爺語錄 » Blog Archive » What is Code Page 951 (CP951)?
https://web.archive.[...]
2006-09-27
[9]
웹사이트
CCSID 950 information document
http://www-01.ibm.co[...]
[10]
웹사이트
CCSID 1114 information document
http://www-01.ibm.co[...]
[11]
웹사이트
CCSID 947 information document
http://www-01.ibm.co[...]
[12]
웹사이트
Lead byte A3: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[13]
간행물
Chinese Character Encoding for Internet Messages
https://tools.ietf.o[...]
IETF
1996
[14]
웹사이트
Lead byte C6: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[15]
웹사이트
Lead byte C7: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[16]
웹사이트
Lead byte C8: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[17]
웹사이트
Lead byte F9: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[18]
웹사이트
IBM Traditional Chinese Graphic Character Set for IBM BIG-5 Code
https://public.dhe.i[...]
IBM
2022-01-01
[19]
웹사이트
CCSID 1370 information document
http://www-01.ibm.co[...]
[20]
웹사이트
CCSID 5210 information document
http://www-01.ibm.co[...]
[21]
웹사이트
CCSID 21427 information document
http://www-01.ibm.co[...]
[22]
웹사이트
CPGID 01372: MS T-Chinese Big-5 (Special for DB2)
https://web.archive.[...]
[23]
웹사이트
ibm-1373_P100-2002
http://icu-project.o[...]
International Components for Unicode
2022-01-01
[24]
웹사이트
CCSID 5471: Mixed Big-5 ext for HKSCS-2001
https://web.archive.[...]
IBM
[25]
Citation
International Components for Unicode (ICU), ibm-5471_P100-2006.ucm
https://github.com/u[...]
2007-05-09
[26]
웹사이트
CCSID 9567: Mixed Big-5 ext for HKSCS-2004
https://web.archive.[...]
IBM
[27]
웹사이트
CCSID 13663: Mixed Big-5 ext for HKSCS-2008
https://web.archive.[...]
IBM
[28]
웹사이트
CCSID 1375: Mixed Big-5 ext for HKSCS
https://web.archive.[...]
IBM
[29]
웹사이트
Chinasea 1.0 中國海字集
https://web.archive.[...]
ISU FTP
2016-12-05
[30]
웹사이트
Submission of Macao's Vertical Extension (UNC Characters), Horizontal Extension, and IVSes Registration for MSCS
https://appsrv.cse.c[...]
2020-06-11
[31]
웹사이트
Submission of Characters from Macao Information Systems Character Set
https://web.archive.[...]
2009-06-12
[32]
간행물
CJK.INF Version 2.1
http://users.monash.[...]
1996-07-12
[33]
웹사이트
Big5HKSCS-2004
https://moztw.org/do[...]
Mozilla Taiwan
2020-07-01
[34]
웹사이트
big5
https://encoding.spe[...]
WHATWG
2020-03-15
[35]
웹사이트
UAO 2.41 b2u
https://moztw.org/do[...]
Mozilla Taiwan
2020-07-01
[36]
웹사이트
Lead byte C6: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[37]
웹사이트
Lead byte C7: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[38]
웹사이트
Lead byte C8: ibm-950_P110-1999
https://demo.icu-pro[...]
International Components for Unicode
[39]
웹사이트
Big5-2003 b2u
https://moztw.org/do[...]
Mozilla Taiwan
2020-07-01
[40]
웹사이트
windows-950-2000
https://opensource.a[...]
2002-12-03
[41]
웹사이트
Script showing output of cp950 codec for lead bytes 0xC6 and 0xC7
https://onlinegdb.co[...]
2022-10-18
[42]
간행물
BIG5 to Unicode table (complete)
https://www.unicode.[...]
2015-12-02
[43]
웹사이트
Big5-ETen vs Unicode mapping table
https://moztw.org/do[...]
Mozilla Taiwan
2002-02-24
[44]
웹인용
chinese mac Character Sets
http://chinesemac.or[...]
2017-05-25
[45]
문서
Historical trends in the usage of character encodings, December 2016
http://w3techs.com/t[...]
[46]
문서
Frequenty Asked Questions
http://w3techs.com/f[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com