맨위로가기

JIS X 0208

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

JIS X 0208은 일본 산업 표준(JIS)으로, 정보 교환을 위한 6,800개 이상의 문자를 포함하는 문자 집합이다. 1978년에 처음 제정되었으며, 여러 차례 개정을 거쳐 1997년 최종 개정판이 발표되었다. 이 표준은 한자, 히라가나, 가타카나, 로마자, 숫자, 기호 등을 포함하며, 7비트 또는 8비트 2바이트 인코딩 방식을 사용한다. JIS X 0208은 다양한 운영체제 및 환경에서 구현되었으며, 유니코드의 한자 통합에도 영향을 미쳤다. 하지만, 표준 제정 과정에서 출처가 불분명한 ‘유령 문자’가 포함되었고, 인코딩 방식에 따라 문자 매핑이 일치하지 않는 경우도 있다.

더 읽어볼만한 페이지

  • JIS 표준 - JIS X 0212
    JIS X 0212는 1990년 일본 규격 협회에서 발표한 정보 교환용 한자 부호 표준으로, JIS X 0208 문자 집합의 확장 및 적용 범위 부족을 해결하기 위해 6,067개의 문자를 지정하였으며, 유니코드 제정 시 원규격 중 하나로 사용되었으나 현재는 사실상 사장되었고 JIS X 0213에 통합되었다.
  • JIS 표준 - JIS X 0201
    JIS X 0201은 7비트 및 8비트 문자 집합을 포함하는 일본의 문자 인코딩 방식으로, ASCII 기반 로마자, 가타카나, 문장 부호로 구성되며, ASCII의 일부 문자가 엔화 기호나 윗줄로 대체된 특징을 가진다.
  • 일본어 컴퓨팅 - Shift JIS
    Shift JIS는 JIS X 0201을 기반으로 JIS X 0208을 할당하여 일본어 문자를 인코딩하는 방식으로, 이스케이프 시퀀스 없이 문자 집합을 혼용하여 파일 크기를 절약하고 처리 시간을 단축하며, MS-DOS에서 "MS 한자 코드"로 채택된 후 사실상 표준으로 자리 잡았다.
  • 일본어 컴퓨팅 - JIS X 0212
    JIS X 0212는 1990년 일본 규격 협회에서 발표한 정보 교환용 한자 부호 표준으로, JIS X 0208 문자 집합의 확장 및 적용 범위 부족을 해결하기 위해 6,067개의 문자를 지정하였으며, 유니코드 제정 시 원규격 중 하나로 사용되었으나 현재는 사실상 사장되었고 JIS X 0213에 통합되었다.
  • 문자 집합 - 점자
    점자는 루이 브라이유가 개발한 시각 장애인용 촉각 문자 체계로, 6점 점자를 사용하여 133개 이상의 언어에 적용되었으며, 교육, 정보 접근, 사회 참여에 필수적인 역할을 수행하지만 문해력 저하와 교육의 어려움이라는 과제도 안고 있다.
  • 문자 집합 - ISO/IEC 646
    ISO/IEC 646는 ASCII 기반의 7비트 문자 인코딩 표준으로, 국가별 변형이 존재했으나, 최종 개정판은 ASCII와 호환되도록 정의되었고, 현재는 ITU-T 권고 T.50 IRA가 현행 표준으로 유지되고 있다.
JIS X 0208
JIS X 0208 정보
이름7비트 및 8비트의 2바이트 정보 교환용 부호화 한자 집합
로마자 표기Nana-Bitto Oyobi Hachi-Bitto no Ni-Baito Jōhō Kōkan'yō Fugōka Kanji Shūgō
다른 이름JIS C 6226
표준JIS X 0208:1978 ~ 1997
언어 지원일본어
영어
러시아어
불가리아어
부분적 지원그리스어
중국어
인코딩Shift JIS ("SJIS")
ISO-2022-JP ("JIS")
EUC-JP ("UJIS")
확장 집합ARIB STD B24 한자
NEC PC98 DBCS
JIS X 0213 평면 1
이전 표준JIS X 0201
다음 표준JIS X 0213
관련 표준관련 보충: 다른 ISO 2022 CJK DBCS:
분류ISO 2022
DBCS
CJK 인코딩

2. 구성

JIS X 0208은 94×94 문자 집합이며, 각 행들은 다음과 같이 구성되어 있다.


  • 0x21 ~ 0x28: 한자가 아닌 문자들 (문장 부호, 그림 문자, 히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
  • 0x30 ~ 0x4F: 제1수준 한자 영역 (발음 순서대로, 가장 많이 사용되는 2965자를 추림)
  • 0x50 ~ 0x74: 제2수준 한자 영역 (발음 순서대로, 그 다음 많이 사용되는 3390자를 추림)


본래 JIS X 0208에는 사용자 정의 영역이 없지만, 몇몇 구현들은 이를 무시하고 0x75행 이후의 빈 영역을 확장해서 사용하기도 한다. 예를 들어 CP932에서는 행 0x79부터 0x7C까지에 일부 문자를 더 추가해서 쓴다.

JIS X 0208에 수록된 한자 중 20여 자는 실제로 사용되지 않는 문자로 일명 ‘유령 문자(幽霊文字일본어)’라 불린다. 이는 표준을 제정할 때 한자의 명확한 출처를 밝히지 않아서 잘못된 획이 추가되거나 한자의 의미가 잘못 쓰이는 등 일부 오류가 제대로 고쳐지지 않았기 때문에 생긴 것으로, 이후에 나온 표준들은 이런 문제를 피하기 위해 한자의 명확한 출처를 밝히게 되었다.

일부 공급업체는 다른 유니코드 매핑을 이 집합에 사용한다. 예를 들어, 마이크로소프트는 kuten 1-29 (JIS 0x213D)를 U+2015 (수평선)로 매핑하는 반면,[3] 애플(Apple Inc.)은 U+2014 (Em Dash)로 매핑한다.[4] 마찬가지로, 마이크로소프트는 kuten 1-61 (JIS 0x215D)을 U+FF0D[3] (U+002D 하이픈 마이너스의 전각 형태)로 매핑하고, 애플은 U+2212 (마이너스 기호)로 매핑한다.[4] 물결표의 유니코드 매핑도 공급업체마다 다르다.



| 1-50 〈

| 1-51 〉

| 1-52 《

| 1-53 》

| 1-54 「

| 1-55 」

| 1-56 『

| 1-57 』

| 1-58 【

| 1-59 】

| 1-60 +

| 1-61 −

| 1-62 ±

| 1-63 ×

|-

! 6x

| 1-64 ÷

| 1-65 =

| 1-66 ≠

| 1-67 <

| 1-68 >

| 1-69 ≦

| 1-70 ≧

| 1-71

| 1-72 ∴

| 1-74

| 1-73

| 1-75 °

| 1-76 ′

| 1-77 ″

| 1-78 ℃

| 1-79 ¥

|-

! 7x

| 1-80 $

| 1-81 ¢

| 1-82 £

| 1-83 %

| 1-84 #

| 1-85 &

| 1-86 *

| 1-87 @

| 1-88 §

| 1-89 ☆

| 1-90 ★

| 1-91 ○

| 1-92 ●

| 1-93 ◎

| 1-94 ◇

|

|}

JIS X 0208 (0x21로 시작)
2x1-1 IDSP1-2 、1-3 。1-4 ,1-5 .1-6 ・1-7 :1-8 ;1-9 ?1-10 !1-11 ゛1-12 ゜1-13 ´1-14 `1-15 ¨
3x1-16 ^1-17 ‾1-18 _1-19 ヽ1-20 ヾ1-21 ゝ1-22 ゞ1-23 〃1-24 仝1-25 々1-26 〆1-27 〇1-28 ー1-29 —1-30 ‐1-31 /
4x1-32 \1-33 〜1-34 ‖1-35 |1-36 …일본어1-37 ‥일본어1-38 ‘1-39 ’1-40 “1-41 ”1-42 (1-43 )1-44 〔1-45 〕1-46 []
5x1-48 {1-49 }
2x2-1 ◆2-2 □2-3 ■2-4 △2-5 ▲2-6 ▽2-7 ▼2-8 ※2-9 〒2-10 →2-11 ←2-12 ↑2-13 ↓2-14 〓
3x2-26 ∈2-27 ∋2-28 ⊆2-29 ⊇2-30 ⊂2-31 ⊃
4x2-32 ∪2-33 ∩2-42 ∧2-43 ∨2-44 ¬2-45 ⇒2-46 ⇔2-47 ∀
5x2-48 ∃2-60 ∠2-61 ⊥2-62 ⌒2-63
6x2-64 ∇2-65 ≡2-66 ≒2-67 ≪2-68 ≫2-69 √일본어2-70 ∽일본어2-71 ∝2-72 ∵2-73 ∫2-74 ∬
7x2-82 Å2-83 ‰2-84 ♯2-85 ♭2-86 ♪2-87 †2-88 ‡2-89 ¶2-94 ◯



2x
3x3-16 03-17 13-18 23-19 33-20 43-21 53-22 63-23 73-24 83-25 9
4x3-33 A3-34 B3-35 C3-36 D3-37 E3-38 F3-39 G3-40 H3-41 I3-42 J3-43 K3-44 L3-45 M3-46 N3-47 O
5x3-48 P3-49 Q3-50 R3-51 S3-52 T3-53 U3-54 V3-55 W3-56 X3-57 Y3-58 Z
6x3-65 a3-66 b3-67 c3-68 d3-69 e3-70 f3-71 g3-72 h3-73 i3-74 j3-75 k3-76 l3-77 m3-78 n3-79 o
7x3-80 p3-81 q3-82 r3-83 s3-84 t3-85 u3-86 v3-87 w3-88 x3-89 y3-90 z



2x4-1 ぁ4-2 4-3 ぃ4-4 4-5 ぅ4-6 4-7 ぇ4-8 え4-9 ぉ4-10 4-11 4-12 が4-13 4-14 ぎ4-15
3x4-16 ぐ4-17 4-18 げ4-19 4-20 ご4-21 4-22 ざ4-23 4-24 じ4-25 4-26 ず4-27 4-28 ぜ4-29 4-30 ぞ4-31
4x4-32 だ4-33 4-34 ぢ4-35 っ4-36 4-37 づ4-38 4-39 で4-40 4-41 ど4-42 4-43 4-44 4-45 4-46 4-47
5x4-48 ば4-49 ぱ4-50 4-51 び4-52 ぴ4-53 4-54 ぶ4-55 ぷ4-56 4-57 べ4-58 ぺ4-59 4-60 ぼ4-61 ぽ4-62 4-63
6x4-64 4-65 4-66 4-67 ゃ4-68 4-69 ゅ4-70 4-71 ょ4-72 4-73 4-74 4-75 4-76 4-77 4-78 ゎ4-79
7x4-80 4-81 4-82 4-83



2x5-1 ァ5-2 ア5-3 ィ5-4 イ5-5 ゥ5-6 ウ5-7 ェ5-8 エ5-9 ォ5-10 オ5-11 カ5-12 ガ5-13 キ5-14 ギ5-15 ク
3x5-16 グ5-17 ケ5-18 ゲ5-19 コ5-20 ゴ5-21 サ5-22 ザ5-23 シ5-24 ジ5-25 ス5-26 ズ5-27 セ5-28 ゼ5-29 ソ5-30 ゾ5-31 タ
4x5-32 ダ5-33 チ5-34 ヂ5-35 ッ5-36 ツ5-37 ヅ5-38 テ5-39 デ5-40 ト5-41 ド5-42 ナ5-43 ニ5-44 ヌ5-45 ネ5-46 ノ5-47 ハ
5x5-48 バ5-49 パ5-50 ヒ5-51 ビ5-52 ピ5-53 フ5-54 ブ5-55 プ5-56 ヘ5-57 ベ5-58 ペ5-59 ホ5-60 ボ5-61 ポ5-62 マ5-63 ミ
6x5-64 ム5-65 メ5-66 モ5-67 ャ5-68 ヤ5-69 ュ5-70 ユ5-71 ョ5-72 ヨ5-73 ラ5-74 リ5-75 ル5-76 レ5-77 ロ5-78 ヮ5-79 ワ
7x5-80 ヰ5-81 ヱ5-82 ヲ5-83 ン5-84 5-85 5-86



2x6-1 Α6-2 Β6-3 Γ6-4 Δ6-5 Ε6-6 Ζ6-7 Η6-8 Θ6-9 Ι6-10 Κ6-11 Λ6-12 Μ6-13 Ν6-14 Ξ6-15 Ο
3x6-16 Π6-17 Ρ6-18 Σ6-19 Τ6-20 Υ6-21 Φ6-22 Χ6-23 Ψ6-24 Ω
4x6-33 α6-34 β6-35 γ6-36 δ6-37 ε6-38 ζ6-39 η6-40 θ6-41 ι6-42 κ6-43 λ6-44 μ6-45 ν6-46 ξ6-47 ο
5x6-48 π6-49 ρ6-50 σ6-51 τ6-52 υ6-53 φ6-54 χ6-55 ψ6-56 ω
6x
7x



2x7-1 А7-2 Б7-3 В7-4 Г7-5 Д7-6 Е7-7 Ё7-8 Ж7-9 З7-10 И7-11 Й7-12 К7-13 Л7-14 М7-15 Н
3x7-16 О7-17 П7-18 Р7-19 С7-20 Т7-21 У7-22 Ф7-23 Х7-24 Ц7-25 Ч7-26 Ш7-27 Щ7-28 Ъ7-29 Ы7-30 Ь7-31 Э
4x7-32 Ю7-33 Я
5x7-49 а7-50 б7-51 в7-52 г7-53 д7-54 е7-55 ё7-56 ж7-57 з7-58 и7-59 й7-60 к7-61 л7-62 м7-63 н
6x7-64 о7-65 п7-66 р7-67 с7-68 т7-69 у7-70 ф7-71 х7-72 ц7-73 ч7-74 ш7-75 щ7-76 ъ7-77 ы7-78 ь7-79 э
7x7-80 ю7-81 я



2x8-1 │8-2 ─8-3 ┐8-4 ┌8-5 └8-6 ┘8-7 ┤8-8 ┬8-9 ├8-10 ┴8-11 ┼8-12 ━8-13 ┃8-14 ┏8-15 ┓
3x8-16 ┗8-17 ┛8-18 ┫8-19 ┳8-20 ┣8-21 ┻8-22 ╋8-23 ┠8-24 ┯8-25 ┨8-26 ┷8-27 ┿8-28 ┝8-29 ┰8-30 ┥8-31 ┷
4x8-32 ╂
5x
6x
7x



JIS X 0208 표준의 9행부터 15행까지는 비어 있다.

2. 1. 유령 문자

JIS X 0208에는 표준 제정 당시 출처가 불분명하여 잘못 포함된 '유령 문자'가 20여 자 존재한다. 이는 표준 제정 과정의 한계를 보여주는 사례로, 이후 표준에서는 이러한 문제를 방지하기 위해 노력하고 있다.

다지마 가즈오는 1979년에 신자원이나 대한화사전에서 찾을 수 없는 63개의 한자를 확인하고, 이러한 한자들이 확실한 출처에서 선택되기를 바란다고 언급했다. 이러한 한자들은 유레이 모지/幽霊文字일본어 또는 유레이 간지/幽霊漢字일본어 등으로 알려지게 되었다.

제4차 규격 원안 작성 위원회는 출처 불명의 한자 문제를 해결하기 위해 조사를 진행했다. 그 결과, 초안 위원회가 "대응 분석 결과"에 크게 의존하여 한자를 수집했으며, "일본 인격 등록 이름 한자" 및 "국가 행정 구역 목록 한자" 목록에서 유래한 한자들이 포함되었음을 확인했다. "일본 인격 등록 이름 한자"의 원본은 존재하지 않았지만, "국가 행정 구역 목록"과 NTT 전화번호부 데이터베이스, 고대 문헌 등을 조사하여 출처를 확인할 수 없는 한자를 12개로 줄였다.

JIS X 0208:1997 부록 7에서 출처가 불분명하거나 알 수 없거나 식별할 수 없는 한자
쿠텐기호분류
52-55알 수 없음
52-63알 수 없음
54-12출처 불분명
55-27식별 불가
57-43출처 불분명
58-83출처 불분명
59-91출처 불분명
60-57출처 불분명
74-12출처 불분명
74-57출처 불분명
79-64출처 불분명
81-50출처 불분명



이 중 妛는 인쇄공이 山과 女를 잘라 붙여 𡚴를 만들려다 그림자가 선으로 잘못 해석되어 만들어진 것으로 추정된다.

3. 적용 범위 및 적합성

JIS X 0208에서 규정하는 문자 집합은 주로 데이터 처리 시스템과 이에 연결된 장치 간, 또는 데이터 통신 시스템 간의 '''정보 교환'''을 목적으로 한다.[1] 이 문자 집합은 데이터 처리 및 텍스트 처리에 사용할 수 있다.

문자 집합의 부분적인 구현은 호환 가능한 것으로 간주되지 않는다.[1] 초기 표준에서는 비한자 및 제1수준 한자만의 구현이 고려되었으나, 호환 가능한 것으로 지정된 적은 없다.[1]

과거에는 JIS X 0208:1997이 적합성 인증 또는 자기 적합 선언의 대상이 아니라고 생각되었으나,[2] 2009년 현재 경제산업성 및 JISC는 "국가가 JIS 마크 표시 제도의 대상이 되는 상품 등을 한정하는 지정 상품제를 폐지하고, 인증 가능한 JIS 제품 규격이 있는 제품이 대상이 됩니다"라고 명언하고 있기 때문에,[23][24] 적합성 규정이 있는 JIS X 0208:1997도 '''적합성 인증 또는 자기 적합 선언의 대상이 될 수 있다'''고 해석된다.

4. 부호 구조

JIS X 0208의 부호는 기본적으로 7비트 2바이트 부호 또는 8비트 2바이트 부호이다. 단, '''도형 문자''' 중 "SPACE" 및 모든 '''제어 문자'''는 1바이트로 표현된다. 부호 위치를 표현하기 위해 "열 번호/행 번호" 및 "구점 번호"가 사용된다.

4. 1. 열 번호/행 번호

JIS X 0208에서 1바이트 부호의 비트 조합(bit combination)을 표현하기 위해 열 번호/행 번호가 사용된다. 이는 1바이트의 16진수 표기(00부터 FF)의 위쪽 자리와 아래쪽 자리에 해당한다. 7비트의 상위 3비트 또는 8비트의 상위 4비트를 10진수 정수 0부터 7 또는 0부터 15에 대응시키고, 이 숫자를 열 번호로 한다. 그리고 하위 4비트를 10진수 정수 0부터 15에 대응시키고, 이 숫자를 행 번호로 한다.

예를 들어, SPACE에 대응하는 비트 조합은, 7비트 부호에서 010 0000, 8비트 부호에서 0010 0000이다. 이는 열 번호/행 번호에 의해 2/0으로 표현된다.

JIS X 0208의 거의 모든 그래픽 문자 코드는 각각 7비트 이상인 2바이트로 표현되지만, 모든 제어 문자와 일반 공백 문자 (전각 공백은 제외)는 1바이트 코드로 표현된다.

JIS X 0208 (선행 바이트)
colspan="15" |
2xSP1-_ (구두점)2-_ (기호)3-_ (영숫자)4-_ (히라가나)5-_ (가타카나)6-_ (그리스 문자)7-_ (키릴 문자)8-_ (상자)9-_10-_11-_12-_13-_14-_15-_
3x16-_ (한자 L1)17-_ (한자 L1)18-_ (한자 L1)19-_ (한자 L1)20-_ (한자 L1)21-_ (한자 L1)22-_ (한자 L1)23-_ (한자 L1)24-_ (한자 L1)25-_ (한자 L1)26-_ (한자 L1)27-_ (한자 L1)28-_ (한자 L1)29-_ (한자 L1)30-_ (한자 L1)31-_ (한자 L1)
4x32-_ (한자 L1)33-_ (한자 L1)34-_ (한자 L1)35-_ (한자 L1)36-_ (한자 L1)37-_ (한자 L1)38-_ (한자 L1)39-_ (한자 L1)40-_ (한자 L1)41-_ (한자 L1)42-_ (한자 L1)43-_ (한자 L1)44-_ (한자 L1)45-_ (한자 L1)46-_ (한자 L1)47-_ (한자 L1)
5x48-_ (한자 L2)49-_ (한자 L2)50-_ (한자 L2)51-_ (한자 L2)52-_ (한자 L2)53-_ (한자 L2)54-_ (한자 L2)55-_ (한자 L2)56-_ (한자 L2)57-_ (한자 L2)58-_ (한자 L2)59-_ (한자 L2)60-_ (한자 L2)61-_ (한자 L2)62-_ (한자 L2)63-_ (한자 L2)
6x64-_ (한자 L2)65-_ (한자 L2)66-_ (한자 L2)67-_ (한자 L2)68-_ (한자 L2)69-_ (한자 L2)70-_ (한자 L2)71-_ (한자 L2)72-_ (한자 L2)73-_ (한자 L2)74-_ (한자 L2)75-_ (한자 L2)76-_ (한자 L2)77-_ (한자 L2)78-_ (한자 L2)79-_ (한자 L2)
7x80-_ (한자 L2)81-_ (한자 L2)82-_ (한자 L2)83-_ (한자 L2)84-_ (한자 L2)85-_86-_87-_88-_89-_90-_91-_92-_93-_94-_DEL


4. 2. 구점 번호

JIS X 0208에서 구점 번호는 2바이트 부호에서 각 문자의 위치를 나타내는 데 사용된다.[7] 94개의 구(row)와 각 구당 94개의 점(cell)으로 구성되며,[7] "몇 구 몇 점" 또는 "구 번호-점 번호" 형식으로 표현된다.[7] 예를 들어, 문자 "亜"는 16구 1점이므로,16-01로 표현한다.[7]

JIS X 0208는 7비트 환경에서 (JIS X 0202 / ISO-2022-JP에서 전환 가능) 두 바이트가 모두 0x21에서 0x7E사이의 94가지 값으로 표현될수 있다. 이 값들은 공백을 제외하고 7비트 ASCII 인쇄문자에 사용되는 범위와 일치한다. 인코딩된 바이트는 각 숫자에 0x20 (32)를 더하여 얻는다.[7] 예를 들어 16-01 ("亜")는 바이트`0x30 0x21` 로 표시된다.[7] 8비트 EUC-JP는 0xA1에서 0xFE 범위를 사용하고(최상위 비트를 1로 설정) Shift JIS와 같은 다른 인코딩은 JIS X 0208에 필요한 인코딩 공간보다 더 많은 인코딩 공간을 포함하여 더 복잡한 변화를 사용한다. JIS X 0208에 대한 일부 Shift JIS 특정 확장은 94보다 큰 행 번호를 사용한다.[8]

이러한 구조는 중국 본토의 GB 2312,[9] 대한민국의 KS C 5601(현재 KS X 1001)에서도 사용된다.[9]

4. 3. 공백 영역

2바이트 코드 중 9구부터 15구, 85구부터 94구는 문자가 할당되지 않은 공백 영역이다. 즉, 문자가 규정되지 않은 구점 위치이다. 그 외의 구에서도 일부 점은 공백 영역이다.

공백 영역은 기본적으로 사용해서는 안 되는 구점 위치이다. 정보 교환 당사자의 합의가 있을 때를 제외하고, 공백 영역에 외자를 할당하여 정보 교환을 해서는 안 된다.

공백 영역에 문자를 할당할 때에도, 규격에 정해진 도형 문자를 공백 영역에도 할당하거나, 공백 영역의 복수의 구점 위치에 같은 문자를 할당해서는 안 된다. 중복 부호화를 피하기 위해서이다.

또한, 공백 영역에 문자를 할당할 때에는, 한자의 포섭 기준에 주의해야 한다. 예를 들어 25구 66점에는 口高일본어 및 はしご高일본어가 포섭되어 대응하고 있다. 따라서, 25구 66점의 문자를 口高일본어에 한정하여 해석하고, はしご高일본어를 공백 영역에 할당하는 것은 규격 위반이 된다.

하지만 실제로는 Windows-932, MacJapanese 등 여러 공급업체별 Shift JIS 변형은 JIS X 0208의 인코딩 공간의 할당되지 않은 행에 공급업체 확장을 인코딩한다. 또한, JIS X 0208에서 미할당된 코드의 대부분은 더 새로운 JIS X 0213 표준에 의해 할당된다.

4. 4. 문자 이름

JIS X 0208의 각 문자에는 '''이름'''이 부여되어 있어, 부호에 의존하지 않고 문자를 식별할 수 있다. 문자의 이름은 다른 부호화 문자 집합의 규격과 일치하도록 정해져 있으며, 특히 유니버설 코드 문자 집합(UCS/유니코드)과의 조정이 이루어져, 유니코드와 같은 문자 집합에 대한 문자 매핑의 가능한 소스 중 하나가 된다. 예를 들어 ISO/IEC 646 국제 참조 버전(US-ASCII) 열 4 행 1의 문자와 JIS X 0208 행 3 셀 33의 문자는 모두 "LATIN CAPITAL LETTER A"라는 이름을 가지고 있어 동일한 문자로 간주될 수 있다.

한자를 제외한 문자의 이름은 라틴 문자 대문자, 공백, 하이픈으로 구성된다. 또한, 이 부여되지만, 이는 참고 사항일 뿐 규정의 일부는 아니다.

한자의 이름은 대응하는 국제 부호화 문자 집합(UCS)의 16진 표기 부호화 표현에 "CJK UNIFIED IDEOGRAPH-"를 붙여 기계적으로 생성된다. 예를 들어, 16구 1점(亜일본어)은 UCS의 U+4E9C에 해당하므로, 그 이름은 "CJK UNIFIED IDEOGRAPH-4E9C"가 된다. 한자에는 일본어 통용 명칭이 부여되지 않는다.

5. 한자 집합

JIS X 0208은 6355자의 한자와 524자의 비한자를 포함하는 한자 집합을 규정한다. 이 집합은 94×94 문자 집합으로 구성되어 있으며, 각 행은 다음과 같이 나뉜다.


  • 0x21 ~ 0x28 (1구 ~ 2구): 한자가 아닌 문자들 (문장 부호, 그림 문자, 히라가나, 가타카나, 그리스 문자, 키릴 문자 등)
  • 0x30 ~ 0x4F (16구 ~ 47구): 제1수준 한자 영역 (발음 순서대로, 가장 많이 사용되는 2965자를 추림)
  • 0x50 ~ 0x74 (48구 ~ 84구): 제2수준 한자 영역 (발음 순서대로, 그 다음 많이 사용되는 3390자를 추림)


JIS X 0208에 수록된 한자 중 20여 자는 실제로 사용되지 않는 문자로 ‘유령 문자(유레이모지/幽霊文字일본어)'라 불린다. 이는 표준 제정 시 한자의 명확한 출처를 밝히지 않아 생긴 오류 때문이다.

비한자는 특수 문자, 숫자, 로마자, 히라가나, 가타카나, 그리스 문자, 키릴 문자, 괘선 소편으로 구성된다. 특수 문자는 와지 간격, 구두점과 마침표 등의 기술 기호, 탁점반탁점 등의 분음 부호, 반복 기호 등의 가나 또는 한자에 준하는 것, 괄호 기호, 통화 기호와 우편 마크를 포함한 단위 기호 등으로 구성된다.

5. 1. 개요

5. 2. 특수 문자, 숫자 및 라틴 문자

JIS X 0208의 숫자와 라틴 문자는 전각으로 취급되며, ISO/IEC 646 국제 기준 버전(IRV)의 문자와는 다른 해석이 가능하다.[10] 이는 JIS X 0208이 ISO/IEC 646과 완벽하게 호환되지 않음을 의미하며, 이 표준의 약점 중 하나로 지적된다.

마이크로소프트애플(Apple Inc.) 등 일부 공급업체는 JIS X 0208의 특수 문자, 숫자, 라틴 문자에 대해 서로 다른 유니코드 매핑을 사용한다. 예를 들어, 마이크로소프트는 kuten 1-29 (JIS 0x213D)를 U+2015 (수평선)로 매핑하는 반면,[3] 애플은 U+2014 (Em Dash)로 매핑한다.[4] 마찬가지로, 마이크로소프트는 kuten 1-61 (JIS 0x215D)을 U+FF0D[3] (U+002D 하이픈 마이너스의 전각 형태)로 매핑하고, 애플은 U+2212 (마이너스 기호)로 매핑한다.[4] 물결표의 유니코드 매핑도 공급업체마다 다르다.

Shift JIS, EUC-JP, ISO 2022-JP와 같이 JIS X 0208을 ASCII 또는 JIS X 0201과 결합하는 인코딩에서는, ASCII 및 JISCII 구두점(표에서 노란색 배경)에 대해 전각 반각 양식 블록에 대한 대체 매핑을 사용할 수 있다.

JIS X 0208 특수 문자 (일부)
유니코드문자설명비고
129U+2014Em 대시JIS 및 애플: U+2014.
유니코드: U+2015.
133U+301C물결표 대시마이크로소프트 및 WHATWG: U+FF5E.
유니코드, JIS 및 애플: U+301C.
161U+2212마이너스 기호마이크로소프트: U+FF0D.
유니코드, JIS 및 애플: U+2212.



JIS X 0208은 ISO 646의 배열을 따르지 않아, 숫자와 라틴 문자가 1구(구두점)와 3구(문자와 숫자)에 분산되어 있다. 3구는 62개의 문자 및 숫자만 ISO 646 배열을 따른다.

ISO/IEC 646:1991 IRV (ASCII)와 JIS X 0208 간의 비 엄격한 대응
ISO/IEC 646:1991 IRVJIS X 0208
열/행x0213MicrosoftSymbolNameKutenSymbolName
2/21-2-1692-94
115-24
"QUOTATION MARK1-15¨DIAERESIS
1-40LEFT DOUBLE QUOTATION MARK
1-41RIGHT DOUBLE QUOTATION MARK
1-77DOUBLE PRIME
2/71-2-1592-93
115-23
'APOSTROPHE1-13´ACUTE ACCENT
1-38LEFT SINGLE QUOTATION MARK
1-39RIGHT SINGLE QUOTATION MARK
1-76PRIME
2/131-2-171-61-HYPHEN-MINUS1-30HYPHEN
1-61MINUS SIGN
7/141-2-181-33~TILDE(해당 문자 없음)
(해당 문자 없음)1-33WAVE DASH



초기 표준부터 괄호 숫자, 합자, 로마 숫자 등은 문자 합성을 통해 표현 가능하다고 여겨졌으나, 독립된 코드 포인트는 주어지지 않았다. 1997년 제4차 표준에서는 모든 문자가 스페이싱 문자로 명확히 정의되었고, 문자 합성은 금지되었다.

5. 3. 히라가나 및 가타카나

JIS X 0208의 히라가나가타카나JIS X 0201과 달리 탁점반탁점 표기를 문자 자체의 일부로 포함한다. 또한 JIS X 0201에는 없는 가타카나 , (둘 다 현대 일본어에서는 사용하지 않음), 도 포함한다.

JIS X 0208의 가나 배열은 JIS X 0201의 가타카나 배열과 다르다. JIS X 0201에서는 음절이 로 시작하고, 그 뒤에 ''50음도'' 순서로 정렬된 작은 가나가 오고, 그 뒤에 ''50음도'' 순서로 정렬된 전체 크기 가나가 온다(ヲァィゥェォャュョッーアイウエオ......ラリルレロワン일본어). 반면에 JIS X 0208에서는 가나가 먼저 ''50음도'' 순서로 정렬된 다음, "작은 가나, 전체 크기 가나, 탁점이 있는 가나, 반탁점이 있는 가나" 순으로 정렬되어 동일한 기본 가나가 파생형과 함께 그룹화된다(ぁあぃいぅうぇえぉお......っつづ......はばぱひびぴふぶぷへべぺほぼぽ......ゎわゐゑをん일본어). 이러한 정렬 순서는 가나 기반 사전 검색을 더 쉽게 하기 위해 선택되었다.

JIS X 0208에는 JIS X 0201의 가타카나 배열이 적용되지 않았다. JIS X 0201 가타카나를 반각 가나로 하여 JIS X 0208의 가타카나와 구별하는 구현이 발생한 원인은 이러한 비호환성에 있다고 여겨진다.

5. 4. 한자

정보 처리 학회 한자 코드 위원회가 1971년에 편찬한 표준 코드용 한자표 (시안)/標準コード用漢字表 (試案)일본어 (일본 정보 처리 학회 한자 코드 위원회가 1971년에 이 목록을 작성했다. 아래의 "대응 분석 결과"에서 6086자로 나타난다.) , 행정 관리청이 1975년에 선정한 행정 정보 처리용 기본 한자/行政情報処理用基本漢字일본어(2,817자로 구성), 일본생명 수용 인명 한자/日本生命収容人名漢字일본어('대응 분석 결과'를 구성하는 한자표 중 하나로, 3,044자로 구성되며, 일본생명이 계약자의 성명에서 추출한 한자로 추정되지만, 제1차 규격의 원안 작성 위원회 시점에서 원전이 존재하지 않아 '대응 분석 결과'에 전재되었다.), 국토 행정 구획 총람 사용 한자/国土行政区画総覧使用漢字일본어('대응 분석 결과'를 구성하는 한자표 중 하나로, 3,251자로 구성되며, 국토지리협회가 편집하고 있는 일본 전국의 자까지의 행정 지명 목록표 '국토 행정 구획 총람'에 사용되었던 한자이다. 원안 작성 위원회는 '국토 행정 구획 총람' 자체를 조사하지 않고, 그것에 사용된 한자는 '대응 분석 결과'를 통해 규격에 반영되었다.)를 참고하여 선정되었다.

제2차 규격 및 제3차 규격에서 각각 4자 및 2자의 제2수준 한자가 추가되어 한자는 6,355자가 되었다. 제2차 규격에서는 자형의 변경 및 수준 간 한자의 교체가 이루어졌으며, 제3차 규격에서도 자형의 변경이 이루어졌다.

5. 4. 1. 수준 구분

2,965개의 제1수준 한자는 16열부터 47열까지, 3,390개의 제2수준 한자는 48열부터 84열까지 배치되어 있다.

제1수준의 경우, 여러 한자 글자 목록에 공통으로 사용되는 문자를 선택했으며, 도요 한자(당용 한자), 도요 한자 수정 초안, 인명용 한자를 기반으로 했다. 또한, JIS C 6260("도도부현(현) 식별 코드"; 현재 JIS X 0401)와 JIS C 6261("시정촌 식별 코드"; 현재 JIS X 0402)을 참조하여 거의 모든 일본의 도도부현, 시, 구, 정, 촌 등의 한자를 의도적으로 제1수준에 배치했다. 하지만 야스오카(2001a)에 따르면 작업 누락이 있었던 것 같으며, 야스오카는 인바군, 인바촌의 "旛"(58-57) 및 시스이정의 "泗"(61-89)가 제1수준에 포함되지 않은 것을 지적하고 있다. 또한 전문가의 수정 사항이 추가되었다.

제2수준에는, 상기의 주요 4 한자표에 나타나 제1수준에서 누락된 한자가 수록되었다. 제1수준은 한자의 음훈에 기초하여 배열되었으므로, 음훈을 알기 어려운 한자 중에는 제1수준에서 제2수준으로 넘어간 것도 있다(니시무라 1978).

일반적으로 제1수준은 사용 빈도가 높은 한자, 제2수준은 사용 빈도가 낮은 한자로 여겨지지만, 수준 구분은 물론 JIS 한자 제정 당시의 기준이므로, 시대의 흐름에 따라 오늘날에는 "翔"이나 "煌"과 같이 제2수준이지만 자주 사용하게 된 한자, 반대로 "糎"나 "粍"와 같이 제1수준이지만 그다지 사용하지 않게 된 한자도 다수 존재한다. 인명용 한자 별표에는 JIS 한자 제정 후에 추가된 것 중에는 제2수준의 것도 몇 개 존재한다.

1990년대 이후에는 대부분의 시스템에서 제2수준 한자까지 사용할 수 있게 되었고, 문자 코드도 Unicode로 이행하고 있기 때문에, 사용하고 싶은 한자가 제1수준인지 제2수준인지 신경 쓸 필요는 거의 없어졌다. 그러나 수천 자나 되는 한자 폰트를 제작하려면 상당한 수고와 시간이 들기 때문에, 프리 폰트 등에서는 일부 한자만 수록하는 경우가 있다. 그 때, 수준을 기준으로 수록할지 말지를 결정하는 경우도 있다(제1수준만 수록하고 있는 폰트도 있다).

5. 4. 2. 배열

JIS X 0208의 제1수준 한자는 이 규격 고유의 '''대표 음훈''', 즉 각 한자에 대해 각각 하나씩 정한 음 또는 훈의 순으로 배열되었다. 원칙적으로 음이 대표 음훈으로 지정되었으며, 음이 여러 개 있는 (이표기의 한음, 오음, 당음 등) 한자에 대해서는 "사용 빈도가 우세"하다고 판단된 음이 대표 음훈으로 채택되었다. 음이 존재하지 않거나 일반적이지 않은 한자에 대해서는 훈이 대표 음훈으로 지정되었다. 동사의 훈을 대표 음훈으로 할 때는 종지형이 아닌 연용형이 대표 음훈으로 지정되었다.

예를 들어, 16구 1점에서 41점까지 대표 음훈이 "あ(아)"로 시작하는 41자가 배열되어 있다. 이 중 "葵(해바라기 퀴, あおい, 16-10)", "粟(좁쌀 족, 粟(좁쌀), 아와, 16-32)" 등 22자는 훈을 대표 음훈으로 하고 있다. "逢(봉, 아, 16-09)", "扱(급, 아츠카이, 16-23)" 등은 동사의 연용형이 대표 음훈으로 지정된 예이다.

대표 음훈이 같은 한자 중에서는 음을 대표 음훈으로 하는 한자가 먼저, 훈을 대표 음훈으로 하는 한자가 나중에 배열되었으며, 음 또는 훈이 같은 한자 중에서는 부수 및 획순으로 배열되었다.

제1수준에 있든 제2수준에 있든, 이체자는 기본적으로 친자의 바로 뒤에 함께 배열되었다. 예를 들어, 제2수준에서 49구 88점의 "劍"의 바로 뒤에는 원칙인 획순을 어기고 "劔", "劒" 및 "剱"이 배열되어 있다.

제2수준 한자 집합은 부수 및 획순으로 배열되었다. 부수 및 획수를 같이 하는 한자 중에서는 50음 순으로 배열되었다.

5. 4. 3. 출처 불명의 한자

JIS X 0208에는 종합적인 한자 사전에서 찾을 수 없고 출처가 불분명한 한자(유령 문자)가 존재한다. 제4차 규격에서는 이러한 한자의 출처를 조사하여 그 수를 줄였으나, 여전히 다음 12자의 출처가 불분명하다.

}

|알 수 없음

|-

|52-63

|

|알 수 없음

|-

|54-12

|

|출처 불분명

|-

|55-27

|

|식별 불가

|-

|57-43

|

|출처 불분명

|-

|58-83

|

|출처 불분명

|-

|59-91

|

|출처 불분명

|-

|60-57

|

|출처 불분명

|-

|74-12

|

|출처 불분명

|-

|74-57

|

|출처 불분명

|-

|79-64

|

|출처 불분명

|-

|81-50

|

|출처 불분명

|}

이 중 妛는 인쇄공이 山과 女를 잘라 붙여 𡚴를 만들려고 했을 때 만들어졌을 것으로 추정된다. 그 과정의 그림자가 선으로 잘못 해석되어 妛가 되었다.

5. 4. 4. 한자 변형의 통합

JIS X 0208에서는 서로 다른 문자 형태를 구별하지 않고 동일한 코드 포인트를 부여하는 '통합' 개념을 적용한다. 이는 유니코드의 "한자 통합"과 유사한 개념이다. 통합 범위는 해당 코드 포인트의 예시 글리프와 적용 가능한 통합 기준에 따라 결정된다. 통합 기준은 일반적으로 사용되는 한자에만 적용되며, 표준에서는 일반적으로 사용되지 않는 한자를 생성하지 않도록 권고한다.

예를 들어, 33-46의 예시 글리프(僧일본어)는 부수 9 (亻일본어)와 曽일본어 (소일본어 가나의 파생 한자)로 구성된다. 통합 기준 101에는 曽일본어, 曾일본어 (첫 두 획이 부수 12 (八)) 및 (부수 12가 반전)의 세 가지 변형이 제시되어 있다. 따라서 僧일본어, 僧일본어, 모두 33행 46열의 코드 포인트에 적용된다.

제4판에는 186개의 통합 기준이 있으며, 초판의 정오표 중 하나를 포함한다. 코드 포인트의 예시 글리프가 여러 부분 글리프로 구성된 경우, 통합 기준은 각 부분에 적용될 수 있다. 단, 한 부분에 통합 기준이 적용된 후에는 더 이상 적용할 수 없으며, 결과 글리프가 다른 코드 포인트의 글리프와 일치하는 경우에도 적용할 수 없다.

예시 글리프는 해당 코드 포인트의 예시일 뿐이며, 표준에서 "승인"한 글리프가 아니다. 한자 집합의 한자는 통합 기준에 따라 완전히 일관되게 선택되지 않았다. 예를 들어, 41-7은 彥일본어와 彦일본어에 해당하지만(통합 기준 72), 20-73은 顔일본어에만, 80-90은 顏일본어에만 해당한다.

"통합", "통합 기준", "예시 글리프"라는 용어는 제4판에서 채택되었다. 제1판부터 제3판까지는 한자 간의 관계를 "독립", "호환", "동등"으로 분류했으며, "동등"으로 인식되는 문자는 "단 하나의 지점으로 통합"된다고 설명했다. "동등성"에는 동일한 모양의 한자 외에도 스타일 차이로 인한 한자와 문자 형태의 차이가 작은 한자가 포함되었다.

제1판에서는 "이 표준은 ... 문자 형태의 세부 사항을 설정하지 않는다"(3.1절)라고 규정했으며, "문자 형태의 디자인 등은 그 범위를 벗어난다"고 명시했다. 제2판과 제3판에서도 문자 형태의 구체적인 디자인이 그 범위를 벗어난다는 내용이 있었다. 제4판에서도 "이 표준은 그래픽 문자와 비트 패턴을 규제하며, 개별 문자의 사용, 구체적인 디자인 등은 이 표준의 범위에 포함되지 않는다"고 규정하고 있다.

6. 문자 인코딩

6. 1. JIS X 0208에 규정된 인코딩 방식

JIS X 0208:1997에서는 부록 1과 2가 결합된 제7조를 통해 총 8가지 인코딩 방식을 정의한다.[11]

규격표 본체에는 다음과 같은 인코딩 방식이 정의되어 있다.

  • 한자를 위한 7비트 인코딩: JIS X 0208 2바이트 세트가 GL 영역에 할당된다. CL 영역에는 JIS X 0211 (ISO/IEC 6429와 일치)의 C0 제어 문자가 할당된다.
  • 한자를 위한 8비트 인코딩: 7비트 인코딩과 동일하지만 8비트 바이트를 기준으로 정의된다. CR 영역은 사용되지 않거나 JIS X 0211의 C1 제어 문자를 인코딩할 수 있다. GR 영역은 사용되지 않는다.
  • 국제 참조 버전 + 한자를 위한 7비트 인코딩: 시프트 인 제어 문자는 ISO/IEC 646:1991 IRV (국제 참조 버전, US-ASCII와 동일)를 GL 영역으로 지정하고, 시프트 아웃은 동일한 영역에 JIS X 0208 2바이트 세트를 지정한다.
  • 라틴 문자 + 한자를 위한 7비트 인코딩: IRV+7비트와 같지만 ISO/IEC 646:IRV를 ISO/IEC 646:JP (JIS X 0201의 로마자 집합)로 대체했다.
  • 국제 참조 버전 + 한자를 위한 8비트 인코딩: ISO/IEC 646:IRV는 GL 영역에, JIS X 0208은 GR 영역에 할당된다. 이는 EUC-JP의 하위 집합으로, JIS X 0201에서 반각 가타카나와 JIS X 0212에서 보충 한자를 제외한다.
  • 라틴 문자 + 한자를 위한 8비트 인코딩: IRV+8비트와 같지만 ISO/IEC 646:IRV를 ISO/IEC 646:JP로 대체했다.


부속서에는 다음과 같은 인코딩 방식이 정의되어 있다.

  • 시프트 코딩 문자 집합: 부록 1에 규정되어 있으며, Shift JIS의 권위 있는 정의이다.[26]
  • RFC 1468-코딩 문자 집합: 부록 2에 규정되어 있으며, ISO-2022-JP와 유사하지만 8비트 바이트를 기준으로 정의된다.


이 중 "Shift" 코딩 문자 집합 (Shift JIS) 만이 IANA에 등록되어 있다.[11] 그러나 다른 일부는 EUC-JP 및 ISO-2022-JP와 같이 IANA에 등록된 인코딩과 밀접한 관련이 있다.

모든 코드에서 2/0에는 그래픽 문자 "SPACE"가 할당되고 7/15에는 제어 문자 "DELETE"가 할당된다.

6. 2. JIS X 0202 / ISO 2022 이스케이프 시퀀스

JIS X 0208은 ISO 2022/JIS X 0202(ISO-2022-JP의 부분 집합) 내에서 사용될 수 있다. JIS X 0208을 네 가지 ISO 2022 코드 세트 각각에 지정하는 이스케이프 시퀀스는 아래와 같다. 여기서 "ESC"는 제어 문자 "이스케이프"(0x1B 또는 1/11)를 나타낸다.

JIS X 0208:1997 부록 7에서 출처가 불분명하거나 알 수 없거나 식별할 수 없는 한자
쿠텐기호분류
52-55{{llang|ja|墸|}
JIS C 6226 및 JIS X 0208을 선택하기 위한 ISO 2022 이스케이프 시퀀스
표준G0G1G2G3
78ESC 2/4 4/0ESC 2/4 2/9 4/0ESC 2/4 2/10 4/0ESC 2/4 2/11 4/0
83ESC 2/4 4/2ESC 2/4 2/9 4/2ESC 2/4 2/10 4/2ESC 2/4 2/11 4/2
90 이후ESC 2/6 4/0 ESC 2/4 4/2ESC 2/6 4/0 ESC 2/4 2/9 4/2ESC 2/6 4/0 ESC 2/4 2/10 4/2ESC 2/6 4/0 ESC 2/4 2/11 4/2



ESC 2/4로 시작하는 이스케이프 시퀀스는 멀티바이트 문자 집합을 선택한다. ESC 2/6으로 시작하는 이스케이프 시퀀스는 향후 문자 집합 선택의 개정을 지정한다. JIS C 6226:1978은 멀티바이트-94-세트 식별자 바이트 4/0(ASCII @에 해당)으로 식별된다. JIS C 6226:1983 / JIS X 0208:1983은 멀티바이트-94-세트 식별자 바이트 4/2(B)로 식별된다. JIS X 0208:1990 또한 94-세트 식별자 바이트 4/2로 식별되지만, 개정 식별자 4/0(@)으로 구별할 수 있다.

漢字 집합을 부호 확장법 하에서 사용할 수도 있다. 각 G 버퍼에 한자 집합을 지시하기 위한 이스케이프 시퀀스는 다음과 같다. 여기서, ESC는 제어 문자 ESCAPE이다.

JIS C 6226 및 JIS X 0208을 지시하기 위한 이스케이프 시퀀스
규격G0G1G2G3
78JISESC 2/4 4/0ESC 2/4 2/9 4/0ESC 2/4 2/10 4/0ESC 2/4 2/11 4/0
83JISESC 2/4 4/2ESC 2/4 2/9 4/2ESC 2/4 2/10 4/2ESC 2/4 2/11 4/2
90JIS 이후ESC 2/6 4/0 ESC 2/4 4/2ESC 2/6 4/0 ESC 2/4 2/9 4/2ESC 2/6 4/0 ESC 2/4 2/10 4/2ESC 2/6 4/0 ESC 2/4 2/11 4/2


6. 3. ASCII 및 JIS X 0201 중복 인코딩

JIS X 0208을 ASCII 또는 JIS X 0201의 라틴 문자(JIS-로마자)와 함께 사용할 때, 두 집합에 공통된 문자의 처리가 문제가 된다. 특별한 조치를 취하지 않으면, 두 집합에 포함된 문자는 일대일로 매핑되지 않아 중복 인코딩이 발생할 수 있다.

JIS X 0208:1997에서는 문자가 두 집합에 공통될 때, 기본적으로 한자 집합의 코드 포인트 사용을 금지하여 중복 인코딩을 제거한다. 예를 들어, ASCII의 "A"와 한자 집합의 "A"는 동일하게 취급되지만, 한자 집합의 코드 포인트(10/3 12/1)는 사용이 금지된다.

하지만, 한자 집합의 코드 포인트를 전각으로 처리하는 구현과의 하위 호환성을 위해, 한자 집합 코드 포인트 사용이 허용되는 경우가 있다.

표준을 엄격히 준수하더라도, 하이픈, 마이너스 기호, 따옴표 등 일부 문자는 고유한 인코딩이 보장되지 않는다. 예를 들어, 하이픈은 ASCII의 "HYPHEN-MINUS"(2/13)와 한자 집합의 "HYPHEN"(10/1 11/14) 두 가지 방식으로 표현될 수 있다.

또한, 전각 공백 (1구 1점)과 반각 공백 (2/0)이 공존하여, 이 둘의 차이가 명확하지 않다는 문제도 있다. 그러나 JIS X 4051에서는 2/0의 문자를 영문 단어 간격에, 1구 1점의 문자를 와지 간격에 사용하는 것으로 규정하였다.

7. 다른 표준과의 관계

7. 1. ISO/IEC 646 IRV 및 ASCII

앞서 언급했듯이, JIS X 0208 한자 집합은 ISO/IEC 646:1991 IRV(ASCII) 그래픽 문자 집합과 상호 호환되지 않는다. 한자 집합과 IRV 그래픽 문자 집합은 JIS X 0208에 지정된 대로 함께 사용할 수 있다. (IRV + 한자에 대한 7비트 코드 및 IRV + 한자에 대한 8비트 코드). 또한 EUC-JP에서도 함께 사용할 수 있다.

7. 2. JIS X 0201

JIS X 0208 한자 집합은 JIS X 0201 라틴 문자 집합의 일부 문자를 포함하지 않는다. 구체적으로, 인용 부호(QUOTATION MARK, 2/2), 아포스트로피(APOSTROPHE, 2/7), 하이픈-마이너스(HYPHEN-MINUS, 2/13)가 JIS X 0208 한자 집합에 누락되어 있다. 반면, JIS X 0201 가타카나 문자 집합의 모든 문자는 포함한다.

두 집합은 JIS X 0208 또는 Shift JIS에 지정된 대로 함께 사용할 수 있다. EUC-JP에서도 한자 집합과 가타카나 문자 집합을 함께 사용할 수 있다.

7. 3. JIS X 0212

JIS X 0212(보조 한자)는 JIS X 0208에 없는 문자를 위한 추가 문자 집합이다. JIS X 0208 한자 집합 내에 문자를 할당하는 대신, 보충 문자를 포함하는 두 번째 94x94 한자 집합을 정의한다.[17]

JIS X 0212는 EUC-JP에서 JIS X 0208과 함께 사용될 수 있다. 또한 JIS X 0208과 JIS X 0212는 모두 UCS/유니코드의 한자 통합의 소스 표준이며, 이는 두 세트의 한자가 하나의 유니코드 형식 문서에 포함될 수 있음을 의미한다.

JIS X 0208의 두 번째 버전이 변경한 코드 포인트 중 JIS X 0212의 28개 코드 포인트는 변경 전의 문자 형태를 반영한다. 또한 JIS X 0212는 JIS X 0208이 비 한자로 할당했던 "마감 기호" (시메/〆일본어)를 한자 (시메/乄일본어)로 재할당한다. JIS X 0212는 이들을 제외하고 JIS X 0208과 공통된 문자가 없다. 따라서 자체적으로 일반적인 용도로 사용하기에 적합하지 않다.

그러나 JIS X 0208:1997에서는 JIS X 0212와의 연결을 명시적으로 정의하지 않았다. 이는 JIS X 0208의 제4차 규격의 원안 작성 위원회에 JIS X 0212의 문자 선정 방법 및 동일 방법론에 비판적인 의견이 있었기 때문으로 생각된다.[18] 문자 의미와 선택 근거가 제대로 문서화되지 않아 원하는 한자가 해당 레퍼토리에 있는지 식별하기 어려웠다.[19] 제4차 규격 텍스트는 JIS X 0212의 문자 선택의 문제점을 지적하면서 "문자 선택이 불가능할 뿐만 아니라 함께 사용하는 것도 불가능하다고 생각되며, JIS X 0212와의 연결은 전혀 정의되지 않았다."(3.3.1절)라고 명시하고 있다.

7. 4. JIS X 0213

JIS X 0213(확장 한자)은 JIS X 0208 한자 집합을 확장한 것으로, "JIS X 0208이 처음부터 의도했던 현대 일본어의 인코딩 목적에 충분한 문자 집합을 제공하는 것"을 목표로 설계되었다.[16] JIS X 0213은 JIS X 0208에서 표현 가능한 모든 문자를 포함하며, 총 11,233개의 문자(비한자 1,183개, 한자 10,050개)를 94x94 평면 2개 내에서 정의한다.

JIS X 0213 제정 이후 2000년부터 채택은 더디게 진행되었다. 2004년 JIS X 0213:2004 초안 작성 위원회는 "대부분의 정보 시스템이 공통적으로 사용할 수 있는 것은 여전히 JIS X 0208뿐인 상태가 계속되고 있다"라고 언급했다. 마이크로소프트 윈도우는 Windows Vista(2006년 출시)부터, Mac OS X는 10.1 버전(2001년 출시)부터 JIS X 0213을 지원한다. 리눅스 등 많은 유닉스 계열 운영 체제도 선택적으로 지원 가능하다.

JIS X 0208과 JIS X 0213은 병용되지 않는다. JIS X 0213은 JIS X 0208의 상위 호환으로 보이지만, 일부 코드 포인트에서 '''포섭 분리'''가 발생하여 엄밀히 말하면 상위 호환이 아니다.[21] 예를 들어, JIS X 0208의 33구 46점(僧)은 "사람 인 변에 曾" 글자체, "사람 인 변에 曾(첫 번째 획과 두 번째 획은 '八')" 글자체 및 "사람 인 변에 (첫 번째 획과 두 번째 획은 'ソ')" 글자체가 포섭되어 있었으나, JIS X 0213에서는 1면 33구 46점에 "사람 인 변에 曽" 및 "사람 인 변에 (첫 번째 획과 두 번째 획은 'ソ')"를 포섭하고, 1면 14구 41점을 "사람 인 변에 曾(첫 번째 획과 두 번째 획은 '八')"로 분리했다. 따라서 JIS X 0208의 33구 46점을 JIS X 0213으로 변환할 때 기계적으로 결정할 수 없다.

하지만 현실에서는 JIS X 0208의 ''m''구 ''n''점과 JIS X 0213의 1면 ''m''구 ''n''점을 일대일로 대응시키고 있으며, 큰 혼란은 발생하지 않고 있다. 이는 대부분의 서체가 JIS X 0208의 예시 글자체를 따르고, 많은 사용자가 포섭 기준을 의식하지 못하기 때문이다.

오일러 다이어그램은 JIS X 0208, JIS X 0212, JIS X 0213, Windows-31J, 마이크로소프트 표준 문자 집합 및 유니코드의 문자 집합을 비교한다.

7. 5. ISO/IEC 10646 및 유니코드

JIS X 0208의 한자 집합은 ISO/IEC 10646(UCS) 및 유니코드의 한자 통합을 위한 최초의 원본 표준 중 하나이다. JIS X 0208의 모든 한자는 UCS/유니코드의 기본 다국어 평면(BMP)에서 고유한 코드 포인트에 해당한다.

JIS X 0208의 비한자 문자도 BMP에서 자체 코드 포인트에 해당한다. 그러나 일부 특수 문자의 경우, 일부 시스템은 UCS/유니코드의 해당 문자(JIS X 0208:1997에 주어진 문자 이름을 기반으로 함)와 다른 대응을 구현한다.

8. 역사

1978년 1월 1일, 통상산업대신에 의해 '''JIS C 6226-1978''' 정보 교환용 한자 부호계/情報交換用漢字符号系일본어 (약칭 '''78JIS''')가 제정되었다.[12] 공업기술원의 위탁을 받아 JIPDEC 한자 코드 표준화 연구 위원회가 초안을 작성했으며, 위원장은 모리구치 시게이치였다. 이 코드는 453개의 비한자 (히라가나, 가타카나, 로마자, 그리스 문자, 키릴 문자, 구두점 포함)와 6349개의 한자 (레벨 1 한자 2965자, 레벨 2 한자 3384자)를 포함하여 총 6802개의 문자를 포함했다.[12] 상자 그림 문자는 포함되지 않았으며, 표준 자체는 샤켄의 이시이 명조체로 설정되었다.

1983년 9월 1일에는 '''JIS C 6226-1983''' 정보 교환용 한자 부호계/情報交換用漢字符号系일본어 (약칭 '''83JIS''')가 제정되어 78JIS를 개정했다.[12] 공업기술원의 위탁을 받아 JIPDEC 한자 코드 관련 JIS 위원회가 초안을 작성했으며, 위원장은 모토오카 토오루였다. 83JIS에서는 상자 그림 문자 32개가 추가되었고, 특수 문자에 39개의 문자가 추가되었다.[12] 또한, 22개 이체 쌍의 코드 포인트가 교환되었고,[12][13] 레벨 2 한자가 추가되었으며, 약 300개의 한자 문자 형태가 수정되었다.[15] 이 중 많은 한자 글리프가 강희자전 스타일에서 더 간략화된 형태(략자 및 확장 신자체)로 변경되었다. 예를 들어, 18행 10열(鷗일본어→鴎일본어), 38행 34열(瀆일본어→涜일본어)과 같이 크게 변경된 경우도 있었다.

1987년 3월 1일, JIS에 새로운 "X" 카테고리가 도입되면서 JIS C 6226-1983은 '''JIS X 0208-1983'''으로 명칭이 변경되었다.[12]

1990년 9월 1일에는 '''JIS X 0208-1990''' 정보 교환용 한자 부호/情報交換用漢字符号일본어 (약칭 '''90JIS''')가 제정되었다. 산업기술종합연구소(AIST)의 위임을 받아 일본규격협회의 JIS X 0208 개정 위원회가 초안을 작성했으며, 위원장은 다지마 가즈오였다. 90JIS에서는 225개의 한자 글리프가 변경되었고, 레벨 2에 두 개의 문자(凜일본어, 熙일본어)가 추가되었다.[12] 표준 자체는 헤이세이 명조체로 설정되었다.

1997년 1월 20일에는 '''JIS X 0208:1997''' 7비트 및 8비트의 2바이트 정보 교환용 부호화 한자 집합/7ビット及び8ビットの2バイト情報交換用符号化漢字集合일본어 (약칭 '''97JIS''')가 제정되었다. AIST에서 위탁받은 부호화된 문자 집합의 연구 및 조사를 위한 JSA 위원회가 초안을 작성했으며, 위원장은 시바노 코지였다. 97JIS에서는 문자 집합을 변경하지 않고, 모호한 조항을 명확히 하는 데 중점을 두었다. 인코딩 방법을 정의하고, 공백 영역 사용을 금지했으며, 중복 인코딩을 제거했다. 또한, 강희자전대한화사전에 모두 없는 한자의 출처를 조사하고, 한자 통합 기준을 정의했으며, Shift JIS와 ISO-2022-JP와 같은 사실상의 표준을 포함했다.

2012년 2월 20일에는 '''JIS X 0208:1997/AMENDMENT 1:2012''' 7비트 및 8비트 2바이트 정보 교환용 부호화 한자 집합 (추보 1)/7ビット及び8ビットの2バイト情報交換用符号化漢字集合 (추보 1)일본어가 제정되었다. 2010년 11월 30일의 상용한자표 개정에 따라 변경 사항이 반영되었다.[27]

9. 구현

JIS X 0208 / JIS C 6226은 엄격하게 정의된 문자 인코딩이 아닌 주로 문자 집합이기 때문에, 여러 회사에서 해당 문자 집합을 자체적으로 인코딩하여 구현했다.


  • 애플: MacJapanese (Shift_JIS 기반)
  • 후지쯔: JEF 한자 코드 (EBCDIC 기반)
  • 히타치: KEIS (EBCDIC 기반)
  • IBM: IBM-932 및 IBM-942를 포함한 다양한 인코딩 (둘 다 Shift_JIS 기반)
  • MS: Windows-932 (Shift JIS 기반)
  • NEC: JIPS


이러한 구현 중 일부는 표준에서 할당되지 않은 영역을 벤더별 문자 할당으로 대체한다. 여기에는 Windows-932, MacJapanese뿐만 아니라 NEC의 PC98 문자 인코딩도 포함된다. IBM-932 및 IBM-942도 벤더 할당을 포함하지만, JIS X 0208에 사용된 영역 밖에서 포함한다.

10. 추가 설명

참조

[1] 웹사이트 Why Japan didn't create the iPod http://blog.gatunka.[...] 2008-05-05
[2] 문서 JIS X 0208 was not one of the standards included in the list of applicable target systems for display of the new JIS mark announced by the Ministry of Economy, Trade and Industry on 17 January 2007. https://web.archive.[...]
[3] 웹사이트 CP932.TXT: cp932 to Unicode table https://www.unicode.[...] Microsoft 1998-04-15
[4] 웹사이트 Map (external version) from Mac OS Japanese encoding to Unicode 2.1 and later. https://unicode.org/[...] Apple
[5] 웹사이트 A Brief History of Japan's Era Name Ligatures https://blogs.adobe.[...] Adobe Inc 2019-03-21
[6] 간행물 Japanese Graphic Character Set for Information Interchange, Plane 1 (Update of ISO-IR 228)
[7] 웹사이트 JIS X 0208 (1990) to Unicode https://www.unicode.[...] 2011-10-14
[8] 웹사이트 Index jis0208 https://encoding.spe[...] WHATWG
[9] 웹사이트 KSX1001.TXT: KS X 1001 to Unicode table https://www.unicode.[...] Unicode, Inc 2011-10-14
[10] 문서 JIS C 6225-1979 (control character codes for the purpose of the Japanese graphic character set for information interchange) provided control characters for the beginning and end of composition. JIS C 6225 was re-termed JIS X 0207 in 1987, and was withdrawn in 1997.
[11] 문서 In the IANA character sets, Shift JIS is defined by referring to JIS X 0208:1997 Appendix 1. https://www.iana.org[...]
[12] 문서 IBM Japanese Graphic Character Set for Extended UNIX Code (EUC) IBM 2017-12-08
[13] 웹사이트 Appendix Q § 78-vs-83-3 https://resources.or[...] O'Reilly
[14] 웹사이트 Appendix Q § 78-vs-83-2 https://resources.or[...] O'Reilly
[15] 문서 According to Nomura (1984), the number of character forms changed, including moves between code points, is 294. According to Shibano (1997a) and the text of the fourth standard, the number is of character forms changed is 300.
[16] 문서 Original Japanese: 「JIS X 0208が当初符号化を意図していた現代日本語を符号化するために十分な文字集合を提供することを目的として設計された」
[17] 웹사이트 Appendix Q § TJ2 https://resources.or[...] O'Reilly
[18] 문서 For example, Shibano Kōji (1997a), who served as the chairman of the drafting committee for the fourth standard, stated these about the selection method: "It is based on a superficial understanding of JIS X 0208's character set selection; it is a mistaken understanding" (original Japanese: 「JIS X 0208の文字集合選定の表層的理解に基づくものであり、間違った理解である」) and "There is a big problem in investigating all of a character set that exceeds 10000 characters." (original Japanese: 「1万字を越える水準の文字集合の検討としては、大きな問題がある」)
[19] 웹사이트 JIS Character Sets – JIS X 0212:1990 http://www.io.com/~k[...]
[20] 웹사이트 Readme for CJKCodecs https://github.com/p[...] Python Software Foundation 2021-10-31
[21] 문서 JIS X 0213:2000 section 5.3.2, JIS X 0213:2000 Appendix 1:2004 section 3.2.2
[22] 웹사이트 新JISマーク表示制度の対象となり得るJISリスト http://www.jisc.go.j[...] 経済産業省 2007-02-07
[23] 문서 日本工業標準調査会:新JIS制度-新JIS制度について http://www.jisc.go.j[...]
[24] 문서 新JISマーク制度について(METI Chubu/経済産業省中部経済産業局) http://www.chubu.met[...]
[25] 웹사이트 名字・名前と漢字 第9回 WEB国語教室 https://web.archive.[...] 大修館書店 2019-11-17
[26] 문서 Character sets http://www.iana.org/[...]
[27] 문서 『JIS X 0208:2012』解説
[28] 문서 目録情報の基準 第4版 http://www.nii.ac.jp[...]
[29] 서적 漢字と社会 朝倉書店 2005



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com