UTF-EBCDIC

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

UTF-EBCDIC는 UTF-8보다 많은 160개의 문자를 표현하는 단일 바이트 인코딩 방식이다. 코드 페이지 레이아웃은 제어 문자, 구두점, 특수 문자, 숫자, 알파벳(대문자 및 소문자) 등으로 구성되어 있다. 이 인코딩은 IBM-1047과 유사하며, CCSID 37과는 일부 문자의 위치가 다르다. 오라클 UTFE는 오라클 데이터베이스에서 사용되는 UTF-8 변형으로, 보조 문자를 처리하며 EBCDIC 플랫폼에서 사용된다.

UTF-EBCDIC

📚 더 읽어볼만한 페이지

유니코드 변환 형식 - UTF-8
유니코드 변환 형식 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
유니코드에 관한 - UTF-8
유니코드에 관한 - UTF-1
UTF-1은 유니코드 초기 버전을 인코딩하기 위해 1992년에 설계된 가변 길이 문자 인코딩 방식으로, ASCII 호환성을 유지하고 ISO 2022 및 MIME과의 호환성을 고려했지만, "모듈로 190" 산술을 사용하는 특징과 현대 유니코드 표준과의 차이점을 가진다.
문자 인코딩 - 유니코드
유니코드는 세계의 모든 문자를 하나의 컴퓨터 인코딩 표준으로 통합하기 위해 설계되었으며, 유니코드 컨소시엄에 의해 관리되고 UTF-8, UTF-16, UTF-32 등의 부호화 형식을 제공하지만, 일부 문자 표현 문제, 버전 간 비호환성, 레거시 인코딩과의 호환성 문제 등의 과제를 안고 있다.
문자 인코딩 - UTF-8

1. 개요
2. 코드 페이지 레이아웃
3. Oracle UTFE

2. 코드 페이지 레이아웃

UTF-EBCDIC는 싱글 바이트 인코딩으로 160개 문자를 표현하며(UTF-8의 경우 128개), 이는 IBM-1047과 유사하다. 코드 페이지 레이아웃은 아래 표와 같다.

👆

좌우로 밀어서 보기

]]
|J
|K
|L
|M
|N
|O
|P
|Q
|R
|
|
|
|
|
|
|-
! Ex
|\
|
|S
|T
|U
|V
|W
|X
|Y
|Z
|
|
|
|
|
|
|-
! Fx
|0
|1
|2
|3
|4
|5
|6
|7
|8
|9
|
|
|
|
|
|APC
|}

각 코드에 대한 자세한 내용은 다음과 같다.

* 제어 문자: 0x00 ~ 0x3F, 0x7F, 0x80 ~ 0x9F 범위에 있으며, 제어 문자 섹션에 자세히 설명되어 있다.
* 구두점 및 특수 문자: 0x40 ~ 0x7E 범위에 있으며, 구두점 및 특수 문자 섹션에 자세히 설명되어 있다.
* 숫자: 0xF0 ~ 0xF9 범위에 있으며, 숫자 섹션에 자세히 설명되어 있다.
* 알파벳 (대문자 및 소문자): 대문자는 0xC1 ~ 0xC9, 0xD1 ~ 0xD9, 0xE2 ~ 0xE9 범위에, 소문자는 0x81 ~ 0x89, 0x91 ~ 0x99, 0xA2 ~ 0xA9 범위에 있으며, 알파벳 섹션에 자세히 설명되어 있다.

2.1. 제어 문자

UTF-EBCDIC에는 0x00 ~ 0x3F, 0x7F, 0x80 ~ 0x9F 범위에 다양한 제어 문자들이 포함되어 있다. 주요 제어 문자는 다음과 같다.

👆

좌우로 밀어서 보기

UTF-EBCDIC 코드 페이지 레이아웃
0x	\| 1 \|\| 2 \|\| 3 \|\| 4 \|\| 5 \|\| 6 \|\| 7 \|\| 8 \|\| 9 \|\| A \|\| B \|\| C \|\| D \|\| E \|\| F
0x	NUL	SOH	STX	ETX	ST	HT	SSA	DEL	EPA	RI	SS2	VT	FF	CR	SO	SI
1x	DLE	DC1	DC2	DC3	OSC	LF	BS	ESA	CAN	EM	PU2	SS3	FS	GS	RS	US
2x	PAD	HOP	BPH	NBH	IND	NEL	ETB	ESC	HTS	HTJ	VTS	PLD	PLU	ENQ	ACK	BEL
3x	DCS	PU1	SYN	STS	CCH	MW	SPA	EOT	SOS	SGCI	SCI	CSI	DC4	NAK	PM	SUB
4x	SP											.	<	(	+	\|
5x	&											!	$	*	)	;	^
6x	-	/											,	%	_	>	?
7x											`	:	#	@	'	=	"
8x		a	b	c	d	e	f	g	h	i
9x		j	k	l	m	n	o	p	q	r
Ax		~	s	t	u	v	w	x	y	z				[
Bx														]
Cx	{	A	B	C	D	E	F	G	H	I
Dx	[[괄호\|}

코드	이름	설명
0x00	NUL	널 문자
0x01	SOH	헤더 시작
0x02	STX	텍스트 시작
0x03	ETX	텍스트 종료
0x04	EOT	전송 종료
0x05	ENQ	탐구
0x06	ACK	응답
0x07	BEL	경고음
0x08	BS	백스페이스
0x09	HT	수평 탭
0x0A	LF	라인 피드
0x0B	VT	수직 탭
0x0C	FF	폼 피드
0x0D	CR	캐리지 리턴
0x0E	SO	시프트 아웃
0x0F	SI	시프트 인
0x10	DLE	데이터 링크 이스케이프
0x11	DC1	장치 제어 1
0x12	DC2	장치 제어 2
0x13	DC3	장치 제어 3
0x14	DC4	장치 제어 4
0x15	NAK	부정 응답
0x16	SYN	동기화 유휴
0x17	ETB	전송 블록 종료
0x18	CAN	취소
0x19	EM	매체 종료
0x1A	SUB	대체
0x1B	ESC	이스케이프
0x1C	FS	파일 구분
0x1D	GS	그룹 구분
0x1E	RS	레코드 구분
0x1F	US	단위 구분
0x7F	DEL	삭제
0x80	PAD	패딩
0x81	HOP	하이 옥텟 프리셋
0x82	BPH	여기에서 줄 바꿈 허용
0x83	NBH	여기에서 줄 바꿈 금지
0x84	IND	인덱스
0x85	NEL	다음 줄
0x86	SSA	선택 영역 시작
0x87	ESA	선택 영역 종료
0x88	HTS	문자 탭 설정
0x89	HTJ	정렬된 문자 탭
0x8A	VTS	라인 탭 설정
0x8B	PLD	부분 줄 앞으로
0x8C	PLU	부분 줄 뒤로
0x8D	RI	역 캐리지 리턴
0x8E	SS2	단일 시프트 2
0x8F	SS3	단일 시프트 3
0x90	DCS	장치 제어 문자열
0x91	PU1	개인 사용 1
0x92	PU2	개인 사용 2
0x93	STS	전송 상태 설정
0x94	CCH	취소 문자
0x95	MW	메시지 대기
0x96	SPA	보호 영역 시작
0x97	EPA	보호 영역 종료
0x98	SOS	문자열 시작
0x99	SGCI	단일 그래픽 문자 도입자
0x9A	SCI	단일 문자 도입자
0x9B	CSI	제어 시퀀스 도입자
0x9C	ST	문자열 종료
0x9D	OSC	운영 체제 명령
0x9E	PM	프라이버시 메시지
0x9F	APC	응용 프로그램 명령

2.2. 구두점 및 특수 문자

UTF-EBCDIC에서 0x40부터 0x7E 범위에는 다음과 같은 구두점 및 특수 문자들이 포함되어 있다.

👆

좌우로 밀어서 보기

]]
|-
| || || 0xE0 || \
|}

2.3. 숫자

UTF-EBCDIC에서 숫자 0부터 9까지는 0xF0부터 0xF9 범위에 할당되어 있다. 각 숫자에 해당하는 코드는 다음과 같다.

👆

좌우로 밀어서 보기

\| 문자	\| 문자
0x40	공백	0x60	-
0x4A	마침표	0x61	/
0x4B	<	0x6A	,
0x4C	(	0x6B	%
0x4D	+	0x6C	_
0x4E		0x6D	>
0x50	&	0x6E	?
0x5A	!	0x79	`
0x5B	$	0x7A	:
0x5C	*	0x7B	#
0x5D	)	0x7C	@
0x5E	;	0x7D	'
0x5F	^	0x7E
		0x7F	"
		0xA1	~
		0xAA	[[괄호\|
		0xB9	[]]
		0xC0	{
		0xD0	[[괄호\|}

숫자	코드
0	0xF0
1	0xF1
2	0xF2
3	0xF3
4	0xF4
5	0xF5
6	0xF6
7	0xF7
8	0xF8
9	0xF9

2.4. 알파벳 (대문자 및 소문자)

UTF-EBCDIC에서 알파벳 대문자는 0xC1 ~ 0xC9, 0xD1 ~ 0xD9, 0xE2 ~ 0xE9 범위에, 소문자는 0x81 ~ 0x89, 0x91 ~ 0x99, 0xA2 ~ 0xA9 범위에 있다. 각 코드 범위와 해당 문자는 다음과 같다.

👆

좌우로 밀어서 보기

코드 범위	문자	코드 범위	문자
0xC1	A	0x81	a
0xC2	B	0x82	b
0xC3	C	0x83	c
0xC4	D	0x84	d
0xC5	E	0x85	e
0xC6	F	0x86	f
0xC7	G	0x87	g
0xC8	H	0x88	h
0xC9	I	0x89	i
0xD1	J	0x91	j
0xD2	K	0x92	k
0xD3	L	0x93	l
0xD4	M	0x94	m
0xD5	N	0x95	n
0xD6	O	0x96	o
0xD7	P	0x97	p
0xD8	Q	0x98	q
0xD9	R	0x99	r
0xE2	S	0xA2	s
0xE3	T	0xA3	t
0xE4	U	0xA4	u
0xE5	V	0xA5	v
0xE6	W	0xA6	w
0xE7	X	0xA7	x
0xE8	Y	0xA8	y
0xE9	Z	0xA9	z

3. Oracle UTFE

오라클 UTFE는 유니코드 3.0 UTF-8 오라클 데이터베이스 변형으로, CESU-8과 유사하게 보조 문자를 단일 4바이트 또는 5바이트 문자가 아닌 두 개의 4바이트 문자로 인코딩한다. 이는 EBCDIC 플랫폼에서만 사용된다.