빈도분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

빈도분석은 언어별 글자, 단어 등의 출현 빈도를 분석하는 방법이다. 언어의 문법적 특징을 반영하며, 영어의 경우 e, t, a, o, i, n 등이 자주 나타나고, j, k, q, x, z 등은 드물게 나타난다. 이러한 분석은 암호 해독, 특히 단일 환자식 암호 해독에 활용되며, 컴퓨터 자판 배열 설계에도 적용되어 각 손가락의 사용 빈도를 고려하거나 특정 언어에 특화된 배열을 만들 때 사용된다.

빈도분석

📚 더 읽어볼만한 페이지

문자 - 가로쓰기와 세로쓰기
가로쓰기와 세로쓰기는 글자를 배열하는 방식의 차이를 말하며, 역사적으로 세로쓰기가 표준이었으나 현대에는 가로쓰기가 일반적이고, 글자 배열, 구두점 및 기호, 루비 문자 등에서 차이를 보인다.
문자 - 십자
십자는 두 선의 교차점으로, 기독교에서는 예수의 십자가형 상징이자 다양한 문화권과 분야에서 활용되는 기호 또는 도형이다.

1. 개요
2. 언어별 빈도분석
- 2.1. 영어
- 2.2. 한국어
3. 암호 해독
- 3.1. 빈도분석의 한계
4. 컴퓨터 과학
- 4.1. 영어 자판 배열
- 4.2. 한글 자판 배열

2. 언어별 빈도분석

언어마다 주로 사용되는 글자나 단어의 빈도는 다르며, 이는 해당 언어가 가진 고유한 문법적 특징과 밀접한 관련이 있다. 예를 들어, 영어에서는 일반적으로 특정 알파벳이 자주 등장하는 반면, 다른 특정 알파벳은 사용 빈도가 낮은 경향을 보인다. 단어 수준에서는 관사나 전치사와 같은 특정 문법 요소가 빈번하게 사용된다. 이는 한국어에서도 마찬가지로, 문법적 특성에 따라 자주 사용되는 조사나 어미 등이 존재한다.

이러한 문자 빈도 분석은 이슬람 황금 시대의 학자 알킨디가 코란을 연구하면서 시작된 것으로 알려져 있다.

다만 이러한 분석 결과는 통계적인 경향성을 나타낼 뿐이며, 모든 경우에 적용되는 것은 아니다. 예를 들어, 어니스트 빈센트 라이트의 소설 『개츠비』나 조르주 페렉의 소설 『La Disparition^프랑스어』처럼 특정 문자를 의도적으로 배제하고 쓰인 극단적인 문장도 존재한다.

2.1. 영어

영어에서는 평문에서 보통 e, t, a, o, i, n의 순서로 글자가 자주 나타난다고 알려져 있다. 반대로 j, k, q, x, z 등은 자주 사용되지 않는 경향이 있다.

아래는 구체적인 분석 예시로, 영어판 위키백과의 대문을 분석한 결과이다. (2007년 3월 7일 15:00 UTC 기준, 총 7,577,772 문자 대상) 분석 시 이미지에 포함된 문자와 HTML 태그 등은 제외했으며, 대문자와 소문자는 구분하지 않았다. 백분율은 유효숫자 소수점 이하 두 자릿수까지 표기했다.

👆

좌우로 밀어서 보기

**영어 위키백과 대문 빈도 분석 결과** (7,577,772 문자 중)
문자	출현 횟수	출현율 (%)	순위	문자	출현 횟수	출현율 (%)	순위
a	543	9.30	3	n	437	7.48	5
b	70	1.19	22	o	398	6.82	7
c	212	3.63	11	p	134	2.29	15
d	217	3.71	10	q	10	0.17	23
e	666	11.41	1	r	386	6.61	8
f	118	2.02	16	s	410	7.02	6
g	110	1.88	17	t	474	8.12	4
h	189	3.23	12	u	179	3.06	13
i	550	9.42	2	v	77	1.31	21
j	10	0.17	23	w	85	1.45	19
k	81	1.38	20	x	8	0.13	25
l	233	3.99	9	y	89	1.52	18
m	145	2.48	14	z	4	0.06	26

위 표를 통해 홀소리(모음)는 비교적 자주 나타나는 경향이 있으며, 특정 닿소리(자음)는 거의 등장하지 않는 것을 확인할 수 있다.

단어 수준에서 보면, a나 the와 같은 관사나 of, to, in 등의 전치사가 자주 등장한다. 이러한 문법적 요소의 높은 사용 빈도는 한국어에서도 유사하게 발견된다.

그러나 이러한 빈도 분석 결과는 어디까지나 통계적인 경향일 뿐이며, 예외도 존재한다. 예를 들어, 의도적으로 특정 문자 'e'를 전혀 사용하지 않고 쓰인 어니스트 빈센트 라이트의 소설 『개츠비』나 조르주 페렉이 프랑스어로 쓴 소설 『La Disparition^프랑스어』 (영어판 제목: A Void) 같은 극단적인 사례도 있다.

2.2. 한국어

영어에서는 모음이 자주 사용되고 특정 자음의 사용 빈도가 낮은 경향이 있으며, 관사나 전치사와 같은 특정 문법 요소가 포함된 단어가 자주 등장하는 특징이 있다. 이러한 문법적 요소의 빈번한 등장은 한국어에서도 유사하게 나타나는데, 예를 들어 한국어는 문법적 특성상 조사나 어미 등이 빈번하게 사용된다.

3. 암호 해독

빈도분석은 암호 해독, 특히 단일 치환 암호를 해독하는 데 유용하게 사용된다. 암호문에서 나타나는 글자의 빈도를 분석하여 원래 평문의 글자와 대응시키는 방식으로 해독할 수 있다. 이러한 분석 기법은 알킨디가 코란을 연구하면서 사용한 것에서 시작되었다고 알려져 있다.

예를 들어, 영어에서는 일반적으로 e, t, a, o, i, n 등의 문자가 자주 사용되고, j, k, q, x, z 등은 잘 사용되지 않는 경향이 있다. 모음은 자주 등장하는 경향이 있으며, 자주 사용되지 않는 자음은 등장 빈도가 낮다. 단어 수준에서 보면, 'a', 'the'와 같은 관사나 'of', 'to', 'in'과 같은 전치사가 빈번하게 나타난다. 이러한 언어의 통계적, 문법적 특성은 암호 해독 과정에서 중요한 단서가 된다.

아래는 영어 위키백과 대문의 텍스트(이미지 제외, HTML 태그 제외, 대소문자 구분 없음)를 분석한 결과이다.

👆

좌우로 밀어서 보기

영어 빈도 분석 결과 (5835자 중 )
문자	출현 횟수	출현율
\| style="text-align:right" \| 543 \|\| style="text-align:right" \| 9.30%
\| style="text-align:right" \| 70 \|\| style="text-align:right" \| 1.19%
\| style="text-align:right" \| 212 \|\| style="text-align:right" \| 3.63%
\| style="text-align:right" \| 217 \|\| style="text-align:right" \| 3.71%
\| style="text-align:right" \| 666 \|\| style="text-align:right" \| 11.41%
\| style="text-align:right" \| 118 \|\| style="text-align:right" \| 2.02%
\| style="text-align:right" \| 110 \|\| style="text-align:right" \| 1.88%
\| style="text-align:right" \| 189 \|\| style="text-align:right" \| 3.23%
\| style="text-align:right" \| 550 \|\| style="text-align:right" \| 9.42%
\| style="text-align:right" \| 10 \|\| style="text-align:right" \| 0.17%
\| style="text-align:right" \| 81 \|\| style="text-align:right" \| 1.38%
\| style="text-align:right" \| 233 \|\| style="text-align:right" \| 3.99%
\| style="text-align:right" \| 145 \|\| style="text-align:right" \| 2.48%
\| style="text-align:right" \| 437 \|\| style="text-align:right" \| 7.48%
\| style="text-align:right" \| 398 \|\| style="text-align:right" \| 6.82%
\| style="text-align:right" \| 134 \|\| style="text-align:right" \| 2.29%
\| style="text-align:right" \| 10 \|\| style="text-align:right" \| 0.17%
\| style="text-align:right" \| 386 \|\| style="text-align:right" \| 6.61%
\| style="text-align:right" \| 410 \|\| style="text-align:right" \| 7.02%
\| style="text-align:right" \| 474 \|\| style="text-align:right" \| 8.12%
\| style="text-align:right" \| 179 \|\| style="text-align:right" \| 3.06%
\| style="text-align:right" \| 77 \|\| style="text-align:right" \| 1.31%
\| style="text-align:right" \| 85 \|\| style="text-align:right" \| 1.45%
\| style="text-align:right" \| 8 \|\| style="text-align:right" \| 0.13%
\| style="text-align:right" \| 89 \|\| style="text-align:right" \| 1.52%
\| style="text-align:right" \| 4 \|\| style="text-align:right" \| 0.06%

단일 치환 암호는 이러한 빈도 분석을 통해 비교적 쉽게 해독될 수 있으며, 더 복잡한 암호의 경우에도 빈도 분석은 중요한 암호 해독의 단서가 된다. 암호 해독 과정에서는 단순히 문자 빈도뿐만 아니라, 빈번하게 등장하거나 거의 등장하지 않는 문자의 문법적 특성 등을 종합적으로 고려하여 분석한다.

3.1. 빈도분석의 한계

빈도분석은 통계적인 방법에 기반하기 때문에 한계가 있다. 단일 치환 암호와 같은 암호를 해독할 때 빈도 분석이 유용하지만, 암호문을 만드는 사람이 의도적으로 특정 문자의 사용 빈도를 조작하거나 특정 문자를 전혀 사용하지 않는다면, 빈도분석만으로는 암호 해독이 어려워질 수 있다. 예를 들어, 조르주 페렉이 쓴 소설 『실종』은 약 200페이지 분량이지만, 프랑스어에서 가장 빈번하게 사용되는 모음 'e'를 단 한 번도 사용하지 않고 쓰였다. 이러한 경우는 빈도분석의 통계적 가정을 벗어나므로 해독에 어려움을 겪을 수 있다.

4. 컴퓨터 과학

컴퓨터 과학 분야에서 빈도분석은 키보드 자판 배열 설계에 중요한 기초 자료로 활용된다. 각 언어에서 사용되는 문자의 출현 빈도를 통계적으로 분석하여, 사용자가 더 빠르고 효율적으로 타이핑하고 손가락의 피로도를 줄일 수 있는 자판 배열을 만드는 데 도움을 준다. 예를 들어, 자주 사용하는 문자는 검지나 중지 등 힘 있고 접근하기 쉬운 손가락 위치에 배치하고, 사용 빈도가 낮은 문자는 새끼손가락이나 상대적으로 누르기 어려운 위치에 배치하는 방식으로 설계할 수 있다. 이를 통해 특정 손가락에 타건 부담이 집중되는 것을 막고 전반적인 입력 효율을 높일 수 있다. 이러한 원리는 다양한 언어의 자판 배열 개발에 적용되어 왔다.

4.1. 영어 자판 배열

키보드 배열을 결정할 때 각 언어의 문자의 출현 빈도를 분석하여 각 손가락으로 타건 빈도가 극단적으로 변하지 않도록 하거나, 새끼손가락 쪽에 출현 빈도가 낮은 문자를 배치하는 등 손가락의 부담을 고려한 배열을 만들 수 있다.

드보락 배열은 영어 알파벳의 출현 빈도와 상관성을 분석하여 영문 입력에 특화되어 설계된 대표적인 예시이다.

4.2. 한글 자판 배열

키보드 배열을 정할 때는 각 언어 문자의 출현 빈도를 분석하는 것이 효율성 향상에 도움이 된다. 문자 빈도 분석을 통해 각 손가락의 타건 부담을 분산시키거나, 자주 쓰이지 않는 문자를 새끼손가락 영역에 배치하는 등 합리적인 배열 설계가 가능하다.

실제로 영어권의 드보락 배열은 알파벳 출현 빈도와 연관성을 고려하여 설계되었으며, 일본어의 신 JIS 배열이나 엄지 시프트 자판 역시 일본어의 특성과 문자 빈도를 반영하여 개발되었다.

현재 한국 표준 한글 자판인 두벌식 자판의 경우, 이러한 빈도 분석에 기반한 설계가 세벌식 자판 등에 비해 상대적으로 덜 고려되었다는 평가가 있다. 정보화 시대에 한글 입력 효율성을 높이기 위해, 빈도 분석을 활용한 새로운 자판 배열에 대한 연구와 논의가 필요하다는 의견이 제기된다.

문자	출현 횟수	출현율
\| style="text-align:right" \| 543 \|\| style="text-align:right" \| 9.30%
\| style="text-align:right" \| 70 \|\| style="text-align:right" \| 1.19%
\| style="text-align:right" \| 212 \|\| style="text-align:right" \| 3.63%
\| style="text-align:right" \| 217 \|\| style="text-align:right" \| 3.71%
\| style="text-align:right" \| 666 \|\| style="text-align:right" \| 11.41%
\| style="text-align:right" \| 118 \|\| style="text-align:right" \| 2.02%
\| style="text-align:right" \| 110 \|\| style="text-align:right" \| 1.88%
\| style="text-align:right" \| 189 \|\| style="text-align:right" \| 3.23%
\| style="text-align:right" \| 550 \|\| style="text-align:right" \| 9.42%
\| style="text-align:right" \| 10 \|\| style="text-align:right" \| 0.17%
\| style="text-align:right" \| 81 \|\| style="text-align:right" \| 1.38%
\| style="text-align:right" \| 233 \|\| style="text-align:right" \| 3.99%
\| style="text-align:right" \| 145 \|\| style="text-align:right" \| 2.48%
\| style="text-align:right" \| 437 \|\| style="text-align:right" \| 7.48%
\| style="text-align:right" \| 398 \|\| style="text-align:right" \| 6.82%
\| style="text-align:right" \| 134 \|\| style="text-align:right" \| 2.29%
\| style="text-align:right" \| 10 \|\| style="text-align:right" \| 0.17%
\| style="text-align:right" \| 386 \|\| style="text-align:right" \| 6.61%
\| style="text-align:right" \| 410 \|\| style="text-align:right" \| 7.02%
\| style="text-align:right" \| 474 \|\| style="text-align:right" \| 8.12%
\| style="text-align:right" \| 179 \|\| style="text-align:right" \| 3.06%
\| style="text-align:right" \| 77 \|\| style="text-align:right" \| 1.31%
\| style="text-align:right" \| 85 \|\| style="text-align:right" \| 1.45%
\| style="text-align:right" \| 8 \|\| style="text-align:right" \| 0.13%
\| style="text-align:right" \| 89 \|\| style="text-align:right" \| 1.52%
\| style="text-align:right" \| 4 \|\| style="text-align:right" \| 0.06%