음소문자의 순서

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

음소문자의 순서는 문자를 정렬하는 방식으로, 역사적으로 다양한 시대와 문화에서 사용되어 왔다. 최초의 음소문자 순서는 기원전 1,000년경 북서 셈족의 필사에서 사용되었으며, 이후 성경의 기록과 알렉산드리아 대도서관의 목록 작성에도 활용되었다. 현재는 로마자를 기반으로 하는 다양한 언어에서 고유한 알파벳 순서 규칙을 가지며, 정렬 알고리즘을 통해 컴퓨터 프로그래밍에서도 활용된다. 또한, 알파벳을 사용하지 않는 언어에서도 유사한 정렬 방식이 적용될 수 있으며, 일본 서적의 색인에서도 알파벳순 정렬이 사용된다.

더 읽어볼만한 페이지

순서 - 필순
한자 획순은 글자를 쓰는 순서에 대한 규칙으로, 경제적인 획 사용을 통해 필기 속도, 정확성, 가독성을 높이고 학습과 기억에 도움을 주며, 시대, 지역, 서체에 따라 차이가 있을 수 있지만 여러 국가에서 표준화된 획순을 교육한다.
순서 - 열거
열거는 수학에서 집합의 원소를 순서대로 나열하는 것을 의미하며, 가산 집합과 비가산 집합을 분류하고 계산 가능한 함수를 사용하여 집합을 열거하는 개념이다.
음소 문자 - 룬 문자
룬 문자는 고대 게르만어를 표기하기 위해 사용되었던 문자 체계로, 그리스 문자와 라틴 문자의 영향을 받았으며, 주로 나무나 돌에 새겨졌고, 여러 변형이 존재하며, 유니코드에도 포함되어 있다.
음소 문자 - 에트루리아 문자
에트루리아 문자는 기원전 8세기경 서방 그리스 문자를 바탕으로 에트루리아 지역에서 사용되었으며, 26자에서 시작하여 에트루리아어에 맞게 변형되었고, 라틴 문자를 비롯한 여러 고대 이탈리아 문자에 영향을 미쳤다.

음소문자의 순서

2. 역사

음소문자의 순서는 기원전 1,000년 경 북서 셈족 서기관들이 아브자드 체계를 사용하면서 처음 등장했다.^[17]^[1] 그러나 자료를 분류하고 정렬하는 데에는 지리적 순서, 연대순, 계층적 순서, 범주화 등 다양한 방식이 수 세기 동안 음소문자 순서보다 더 선호되었다.^[4]

성경의 일부는 기원전 7~6세기로 거슬러 올라가는데, 예레미야서에서는 예언자가 음소문자 순서에 기반한 아타바시 대치 암호를 사용한 예가 나타난다. 또한, 성경 저자들은 정렬된 히브리어 알파벳을 활용한 두운시를 사용하기도 했다.^[2]

학자들 사이에서 목록 작성 도구로서 음소문자 순서가 효과적으로 사용된 것은 기원전 300년경 설립된 알렉산드리아 대도서관이 처음으로 여겨진다.^[3] 이곳에서 활동한 시인이자 학자인 칼리마코스는 저자 이름의 첫 글자 순서대로 책을 정리한 세계 최초의 도서관 목록인 피나케스를 만들었다고 알려져 있다.^[4]

기원전 1세기에는 로마 작가 바로가 작가와 제목을 알파벳 순서로 정리한 목록을 작성했다.^[5] 서기 2세기에는 섹스투스 폼페이우스 페스투스가 베리우스 플라쿠스의 저작인 De verborum significatu의 백과사전적 요약본을 알파벳순으로 만들었다.^[6] 서기 3세기에는 하포크라티온이 모든 단어를 알파벳순으로 정렬한 호메로스 어휘집을 편찬했다.^[7]

10세기에는 그리스어(''수다''), 아랍어(이븐 파리스의 ''al-Mujmal fī al-Lugha''), 성경 히브리어(메나헴 벤 사루크의 ''Mahberet'') 등 주요 언어의 알파벳순 어휘집들이 등장했다. 11세기 이탈리아에서는 참조의 편의성을 높이는 알파벳 순서 배열 방식이 활발히 사용되어, 라틴어(파피아스의 ''Elementarium'')와 탈무드 아람어(나단 벤 예히엘의 ''Arukh'') 관련 저작들이 알파벳순으로 정리되었다.

12세기 후반, 기독교 설교자들은 성경 어휘 분석을 위해 알파벳 순서 도구를 도입했다. 이는 13세기 파리의 도미니코회 수도사들이 휴 드 생셰르의 지도 아래 성경의 알파벳 일치표를 편찬하는 결과로 이어졌다. 성 제롬의 ''히브리 이름의 해석''과 같은 이전의 참고 자료들도 쉽게 찾아볼 수 있도록 알파벳순으로 정렬되었다. 하지만 음소문자 순서의 사용은 초기에 학자들의 저항에 부딪혔다. 학자들은 학생들이 각자의 연구 분야를 그 분야 고유의 합리적인 구조에 따라 익히기를 기대했기 때문이다. 이러한 저항에도 불구하고, 로버트 킬워드비가 성 아우구스티누스의 저작에 대한 색인을 만드는 등 알파벳 순서를 활용한 도구들이 등장하면서 점차 확산되었다. 이는 독자들이 12세기 스콜라 철학에서 중요해진 발췌 모음에 의존하기보다 원문 전체에 더 쉽게 접근하도록 도왔다. 알파벳 순서의 채택은 지식 전달 방식이 기억에 의존하던 것에서 문헌 자체를 중시하는 방향으로 변화하는 과정의 일부였다.^[8] 12세기와 13세기의 백과사전 편찬자들 역시 알파벳 순서로 정보를 배열하는 것에 반대했는데, 이들은 자료를 신학적 순서, 즉 신의 창조 순서에 따라 'Deus'(신)부터 시작하여 배열하는 것을 선호했다.^[4]

1604년, 로버트 코드리는 최초의 단일 언어 영어 사전인 ''Table Alphabeticall''에서 "찾고 싶은 단어가 (a)로 시작하면 이 표의 시작 부분을 보고, (v)로 시작하면 끝 부분을 보시오."라고 알파벳 순서 사용법을 명시적으로 설명해야 할 정도였다.^[9] 1803년에도 사무엘 테일러 콜리지는 "첫 글자의 우연성에 의해 결정되는 배열"을 가진 백과사전을 비판했지만,^[10] 오늘날에는 많은 목록이 이러한 알파벳 순서 원칙에 따라 작성된다.

책의 색인은 일반적으로 라틴 알파벳 순서로 배열된다. 일본어 서적의 경우, 색인을 50음순으로 배열하는 것이 일반적이지만, 과학 서적 등에서는 일본어 표기 단어도 라틴 알파벳 순서로 배열하는 경우가 있다. 전문 용어에 외래어가 많은 경우 이러한 방식이 유용하며, 일본어 용어는 로마자 표기 시 알파벳순에 포함될 수 있다. 다만, 일본어 로마자 표기에는 훈령식, 헵번식, 장모음 표기법 등 여러 방식이 있어 복잡해질 수 있다.

알파벳 순서는 기본적으로 문자열의 첫 글자를 비교하여 순서를 정한다. 첫 글자가 같으면 두 번째 글자를 비교하고, 이런 식으로 계속 비교해 나간다. 비교하는 위치에 한쪽에 글자가 없으면(즉, 더 짧은 문자열이면) 그 문자열이 앞에 온다. (자세한 내용은 사전식 순서 참조)

3. 로마자의 순서

책에 색인이 있는 경우, 내용을 라틴 알파벳 순서로 배열하는 것이 일반적이다. 일본어 서적에서는 색인을 50음순으로 배열하는 경우가 많지만, 과학 서적 등에서는 일본어로 표기된 단어도 라틴 알파벳 순서로 배열하기도 한다. 전문 용어에 외래어가 많은 경우 이런 방식이 유용하며, 일본어 용어는 로마자로 표기하여 알파벳순으로 포함시킬 수 있다. 다만, 일본어 로마자 표기에는 훈령식, 헵번식, 장모음 표기법 등 여러 방식이 있어 복잡해질 수 있다.

3. 1. 기본적인 순서와 예

현대 ISO 기본 라틴 문자의 표준 순서는 다음과 같다.

:'''A-B-C-D-E-F-G-H-I-J-K-L-M-N-O-P-Q-R-S-T-U-V-W-X-Y-Z'''

알파벳 순서로 단어를 정렬할 때는 먼저 각 단어의 첫 번째 글자를 비교하여, 해당 문자의 알파벳 순서가 앞서는 단어를 먼저 배치한다. 만약 첫 번째 글자가 같다면, 두 번째 글자를 비교하여 순서를 결정한다. 이 과정에서 어느 한쪽 단어가 다른 쪽 단어보다 짧아 비교할 다음 글자가 없다면, 글자 수가 더 적은 단어가 앞에 온다. 두 번째 글자도 같다면 세 번째 글자를, 세 번째 글자도 같다면 네 번째 글자를 비교하는 방식으로 계속 진행하여 순서를 결정한다. 이는 사전식 순서의 원리와 같다.

직관적인 알파벳 순서의 예는 다음과 같다.

'''''As; Aster; Astrolabe; Astronomy; Astrophysics; At; Ataman; Attack; Baa'''''

위 단어들은 알파벳 순서로 정렬되어 있다. 예를 들어, ''As''는 ''Aster'' 앞에 온다. 이는 두 단어의 첫 두 글자 'As'가 같지만, ''As''는 더 이상 이어지는 글자가 없고 ''Aster''는 뒤에 't'가 이어지기 때문이다. ''Astrolabe'', ''Astronomy'', ''Astrophysics''는 네 번째 글자('r')가 ''Aster''의 네 번째 글자('e')보다 알파벳 순서상 뒤에 오므로 ''Aster'' 뒤에 위치한다. 이 세 단어는 각각 여섯 번째 글자('l', 'n', 'p')를 기준으로 순서가 정해진다. 그 다음으로 오는 ''At''는 두 번째 글자 't'가 앞선 단어들의 's'보다 뒤에 오므로 그 뒤에 위치한다. ''Ataman''은 ''At''보다 글자가 더 길기 때문에 뒤에 오며(이는 ''As''와 ''Aster''의 관계와 같다), ''Attack''는 세 번째 글자('t')가 ''Ataman''의 세 번째 글자('a')보다 뒤에 오므로 그 다음에 온다. 마지막으로 ''Baa''는 첫 글자 'B'가 다른 모든 단어의 첫 글자 'A'보다 뒤에 오므로 가장 마지막에 위치한다.

다른 예시는 다음과 같다.

'''''Barnacle; Be; Been; Benefit; Bent'''''

이 단어들도 위에서 설명한 것과 같은 원리로 정렬된다.

3. 2. 여러 단어로 구성된 문자열

음소문자 순서로 정렬할 문자열 중 일부가 여러 단어로 구성되어 공백이나 하이픈 같은 구분 기호가 포함된 경우, 두 가지 기본 접근 방식을 사용할 수 있다.

첫 번째 접근 방식은 모든 문자열을 첫 단어를 기준으로 먼저 정렬하는 것이다. 예를 들면 다음과 같다.

''Oak; Oak Hill; Oak Ridge; Oakley Park; Oakley River''
: 이 방식에서는 'Oak'라는 개별 단어로 시작하는 모든 문자열이, 알파벳 순서상 'Oak'가 'Oakley'보다 앞에 오기 때문에 'Oakley'로 시작하는 모든 문자열보다 먼저 온다.

두 번째 접근 방식은 공백을 무시하고 문자열 전체를 하나의 단위처럼 알파벳순으로 정렬하는 것이다. 이 경우 다음과 같은 순서가 된다.

''Oak; Oak Hill; Oakley Park; Oakley River; Oak Ridge''
: 여기서 'Oak Ridge'는 마치 "Oakridge"라고 쓰인 것처럼 'Oakley'로 시작하는 문자열들 뒤에 위치하게 된다.

두 번째 접근 방식은 일반적으로 사전에 사용되며, 따라서 출판업계에서는 이를 종종 ''사전 순서''라고 부른다. 첫 번째 접근 방식은 도서 색인에서 자주 사용되었으나, 각 출판사는 전통적으로 어떤 방식을 사용할지 자체 기준을 설정해왔다. 1975년 이전에는 도서 색인에 대한 ISO 999 표준이 없었다.

3. 3. 특수한 경우

일반적인 알파벳순 정렬 규칙 외에도 문자열을 정렬할 때 고려해야 하는 여러 특수한 경우가 존재한다. 예를 들어, 분음 부호가 포함된 문자의 처리 방식, 성씨를 기준으로 이름을 정렬하는 방법, 'The', 'A'와 같은 관사의 취급, 특정 접두사('Mac', 'Mc', 'St')나 합자(Æ, Œ 등)의 정렬 기준, 그리고 문자열 내 숫자의 처리 방식 등 다양한 예외적인 상황들이 있다. 이러한 특수한 경우들은 언어, 문화, 그리고 사용되는 맥락에 따라 각기 다른 정렬 규칙을 적용받는다.^[11]^[12]

3. 3. 1. 변형된 문자

프랑스어에서 분음 부호가 붙는 등 변형된 문자는 알파벳 순서로 정렬할 때 기본 문자와 동일하게 취급한다. 예를 들어, ''rôle''은 ''rock''과 ''rose'' 사이에 오는데, 이는 ''role''처럼 처리되기 때문이다. 하지만 이렇게 변형된 문자를 체계적으로 사용하는 다른 언어들은 보통 자체적인 정렬 규칙을 가지고 있다.

3. 3. 2. 성씨 정렬

대부분의 문화권에서 성씨가 이름 뒤에 쓰이지만, 전화번호부와 같이 이름 목록을 성씨를 기준으로 정렬하는 것이 일반적이다. 이 경우, 정확한 정렬을 위해 이름을 재배열해야 한다. 예를 들어, Juan Hernandes와 Brian O'Leary는 원래 표기 방식과 관계없이 "Hernandes, Juan"과 "O'Leary, Brian"으로 정렬되어야 한다. 컴퓨터 정렬 알고리즘에 이 규칙을 적용하는 것은 복잡해서 간단한 방법으로는 실패하기 쉽다. 예를 들어, 컴퓨터가 수많은 성씨 목록을 가지고 있지 않다면, 'Gillian Lucille van der Waal'이라는 이름을 'van der Waal, Gillian Lucille'로 정렬해야 할지, 'Waal, Gillian Lucille van der'로 해야 할지, 아니면 'Lucille van der Waal, Gillian'으로 해야 할지 판단하기 어렵다.

성씨별 정렬은 학문적인 맥락에서도 자주 사용된다. 여러 저자가 참여한 논문에서, 저자를 선임 순서의 역순이나 논문에 대한 기여도와 같은 다른 방법 대신 성씨의 알파벳순으로 정렬하는 것은 비슷한 기여를 인정하거나 협력 그룹 내의 불화를 피하는 방법으로 여겨진다.^[11] 특정 분야에서는 인용 목록을 참고 문헌에서 저자의 성씨 순으로 정렬하는 관행이 있는데, 이는 알파벳순으로 앞쪽에 오는 성씨를 가진 저자에게 유리하게 작용하는 편향을 만들 수 있다는 연구 결과가 있다. 반면, 참고 문헌을 연대순으로 정렬하는 분야에서는 이러한 효과가 나타나지 않는다.^[12]

3. 3. 3. 관사 (The, A, An)

구문이 "the", "a" 또는 "an"과 같이 매우 흔한 단어(문법에서 관사라고 부름)로 시작하는 경우, 정렬할 때 해당 단어를 무시하거나 구문의 끝으로 옮기기도 한다. 예를 들어, 책 제목 샤이닝(The Shining)은 관사 'The'를 제외하고 '샤이닝'으로 취급하거나, 관사를 뒤로 보내 '샤이닝, The'로 취급하여 책 제목 '썸머 오브 샘' 앞에 올 수 있다. 그러나 단순히 'The Shining'으로 취급하여 사전식 정렬에 따라 '썸머 오브 샘' 뒤에 올 수도 있다. 마찬가지로, '시간의 주름'은 '시간의 주름', '시간의 주름, A' 또는 그대로 'A Wrinkle in Time'으로 취급될 수 있다. 이 세 가지 정렬 방식 모두 알고리즘으로 비교적 쉽게 구현 가능하지만, 많은 프로그램은 간단한 사전식 정렬 방식을 따른다.

3. 3. 4. Mac/Mc 접두사

아일랜드와 스코틀랜드 성씨에서 접두사 M과 Mc는 Mac의 약자이다. 때로는 이 접두사들을 원래 형태인 Mac으로 간주하여 알파벳순 정렬을 하기도 한다. 예를 들어, McKinley라는 성씨를 마치 MacKinley인 것처럼 취급하여 Mackintosh보다 앞에 배치하는 식이다. 컴퓨터를 이용한 정렬 방식이 보편화되면서 이러한 정렬 방식은 예전보다 덜 사용되고 있지만, 영국 전화번호부 등에서는 여전히 찾아볼 수 있다.

3. 3. 5. St 접두사

접두사 'St' 또는 'St.'는 Saint의 약자이다. 전통적으로는 이 접두사를 'Saint'로 간주하여 알파벳순으로 정렬했다. 예를 들어 지명 사전에서는 'St John's'가 'Salem' 앞에 올 수 있는데, 이는 'St John's'를 'Saint John's'로 보고 정렬하기 때문이다. 컴퓨터를 이용한 정렬이 보편화된 이후에는 이러한 방식의 정렬이 줄어들었지만, 여전히 사용되는 경우가 있다.

3. 3. 6. 합자 (Ligatures)

합자는 두 개 이상의 문자가 하나의 기호로 합쳐진 것을 말한다. 영어의 Æ나 Œ 등이 대표적인 예시다. 합자는 일반적으로 별개의 문자로 취급하지 않고, 원래의 문자들이 분리된 것으로 간주하여 정렬한다. 예를 들어, 'æther'라는 단어는 'aether'와 동일한 순서로 정렬된다. 이러한 규칙은 합자가 단순히 모양을 위해 사용된 경우뿐만 아니라, 차용어나 브랜드 이름에 포함된 경우에도 동일하게 적용된다.

다만, 두 문자가 합자로 결합되었는지 여부에 따라 문자열을 정렬하기 위해 특별한 규칙이 필요할 수도 있다.

3. 3. 7. 숫자 포함 문자열

문자열에 숫자가 포함된 경우, 정렬하는 방식은 여러 가지가 있다.

때로는 숫자를 모든 문자 앞이나 뒤에 오는 것으로 간주하여 처리하는 방법이 있다. 다른 방법으로는 숫자를 읽는 방식 그대로 철자를 풀어서 알파벳 순서로 정렬하는 것이다. 예를 들어, 영화 ''1776''은 'seventeen seventy-six'로 읽는 것처럼 정렬하고, 24 heures du Mans|뱅카트르 외르 뒤 망^프랑스어은 프랑스어로 'vingt-quatre...'('24')로 읽는 것처럼 정렬한다. 숫자가 ''1337''처럼 리트 표기나 영화 ''Seven''('Se7en'으로 표기)처럼 문자와 비슷한 모양으로 쓰인 경우에는 해당 문자처럼 정렬하기도 한다. 자연 정렬 순서는 문자열을 기본적으로 알파벳순으로 정렬하지만, 여러 자리 숫자는 하나의 단위로 취급하여 그 숫자 값의 크기에 따라 정렬하는 방식이다.

군주나 교황의 이름 뒤에 붙는 숫자는 로마 숫자로 표기되어 문자처럼 보이지만, 보통 숫자 순서대로 정렬한다. 예를 들어, V가 I보다 뒤에 오는 문자임에도 불구하고 덴마크의 왕 크리스티안 9세는 그의 전임자인 크리스티안 8세 다음에 온다.

4. 한글의 순서

현대에 쓰이는 한글의 기본적인 순서는 다음과 같다.

초성: ㄱ, ㄴ, ㄷ, ㄹ

5. 다양한 언어의 알파벳 순서

알파벳 순서는 기본적으로 문자열의 첫 글자부터 비교하여 순서를 정하는 사전식 순서 원칙을 따른다. 첫 글자가 같으면 두 번째 글자를, 두 번째 글자도 같으면 세 번째 글자를 비교하는 방식으로 진행하며, 어느 한쪽의 글자 수가 먼저 끝나면 해당 문자열이 앞에 온다.

그러나 모든 언어가 동일한 알파벳 순서 체계를 따르는 것은 아니다. 예를 들어, 일본어 서적의 색인은 주로 50음순으로 정렬되지만, 과학 서적처럼 외래어 전문 용어가 많은 경우에는 일본어 단어도 로마자 표기를 기준으로 알파벳순으로 정렬하기도 한다. 다만, 일본어 로마자 표기법에는 훈령식, 헵번식, 장모음 표기법 등 여러 방식이 있어 정렬이 복잡해질 수 있다.

또한, 확장 라틴 문자를 사용하는 많은 언어는 추가된 문자나 특정 이중자를 정렬할 때 고유한 규칙을 적용한다.

5. 1. 주요 언어별 규칙

확장 라틴 문자를 사용하는 언어는 일반적으로 추가 문자의 처리에 대한 자체 규칙을 가지고 있다. 또한 일부 언어에서는 특정 이중자가 정렬 목적으로 단일 문자로 취급된다. 예를 들어, 스페인어 알파벳은 ''ñ''을 ''n'' 다음에 오는 기본 문자로 취급하며, 이전에는 이중자 ''ch''와 ''ll''을 각각 ''c''와 ''l'' 다음에 오는 기본 문자로 취급했다. 현재 ''ch''와 ''ll''은 두 글자 조합으로 알파벳순으로 정렬된다. 새로운 알파벳순 규칙은 1994년 왕립 스페인 학술원에서 발표했다. 이 이중자는 여전히 공식적으로 문자로 지정되었지만 2010년 이후로는 그렇지 않다. 반면에 이중자 ''rr''은 예상대로 ''rqu'' 다음에 오고 (1994년 알파벳순 규칙 이전에도 그랬음), 예각 악센트가 있는 모음 (''á, é, í, ó, ú'')은 항상 기본 문자와 병렬로 정렬되었으며, 문자 ''ü''도 마찬가지였다.

아랍어 및 키오와어와 같은 몇몇 경우에는 알파벳이 완전히 재정렬되었다.

다양한 언어에 적용되는 알파벳 정렬 규칙은 아래와 같다.

아랍어: 오늘날 사용되는 28개의 문자 알파벳에는 두 가지 주요 순서가 있다.
히자이(hijāʾī) 순서: 표준이자 가장 일반적으로 사용되는 순서로, 초기 아랍 언어학자 나스르 이븐 아심 알-라이티가 만들었다. 문자가 모양을 기준으로 정렬되는 시각적 정렬 방식이다. 예를 들어 ''bāʾ''(ب), ''tāʾ''(ت), ''thāʾ''(ث)는 동일한 기본 모양(rasm, ٮ)을 가지므로 그룹화되며, ''iʻjām''(자음 구별점)만으로 구분된다.
압자디(ʾabjadī) 순서: 다른 셈어족 언어 및 라틴어와 음성적으로 유사한 원래 순서로, 오늘날에도 여전히 사용되지만 주로 문서의 목록 정렬이나 로마 숫자와 유사한 번호 매기기에 제한적으로 사용된다. 번호 매기기에 사용될 때는 문자가 단어에 사용된 문자 및 숫자와 구별하기 위해 수정된 형태로 작성된다. 예를 들어, 동아라비아 숫자 1(١)과 동일하게 보이는 ''ʾalif''(ا)는 문자의 하단에서 시계 방향으로 작은 타원형 고리가 확장되고 짧은 꼬리(𞺀)가 이어진다. 이러한 문자는 디지털 방식으로는 거의 사용되지 않지만 아랍 수학 알파벳 기호 아래의 유니코드에 인코딩되어 있다.^[13]
사우티(ṣawtī) 순서: 덜 일반적인 순서로, 음성학적으로 정렬되며 알-할릴 이븐 아흐마드 알-파라히디가 만들었다.
아제르바이잔어: 표준 라틴 알파벳에 8개의 추가 문자가 있다. 모음 5개(i, ı, ö, ü, ə)와 자음 3개(ç, ş, ğ)이다. 알파벳은 터키어와 거의 동일하며, 터키어에 없는 소리를 위한 세 개의 추가 문자(q, x, ə)가 있다. 모든 "터키어 문자"는 터키어와 동일하게 정렬되지만, 추가된 세 문자는 소리가 비슷한 문자의 뒤에 임의로 정렬된다. 즉, q는 k 바로 뒤에, x(독일어 ''ch''처럼 발음)는 h 바로 뒤에, ə(영어 단모음 ''a''와 비슷하게 발음)는 e 바로 뒤에 정렬된다.
브르타뉴어: "c", "q", "x"가 없지만 "ch"와 "c'h"라는 이중자가 있으며, 이는 "b"와 "d" 사이에 정렬된다. 예: «buzhugenn, chug, c'hoar, daeraouenn» (지렁이, 주스, 자매, 눈물 방울).
체코어 및 슬로바키아어: 액센트가 있는 모음(체코어: Á, É, Ě, Í, Ó, Ú, Ů, Ý; 슬로바키아어: Á, Ä, É, Í, Ó, Ô, Ú, Ý)은 2차 정렬 가중치를 가진다. 즉, 다른 문자와 비교할 때는 액센트 없는 형태로 처리되지만, 동일한 기본 문자를 가진 단어들 사이에서는 액센트 없는 문자 뒤에 정렬된다. (예: 체코어: baa, baá, báa, báá, bab...; 슬로바키아어: baa, baá, baä, báa, báá, báä, bäa...). 액센트가 있는 자음은 1차 정렬 가중치를 가지며 액센트 없는 해당 문자 바로 뒤에 정렬된다. CH는 별도의 문자로 간주되어 H와 I 사이에 온다. 슬로바키아어에서는 DZ와 DŽ도 별도의 문자로 간주되어 Ď와 E 사이에 위치한다.
덴마크어 및 노르웨이어: 스웨덴어와 동일한 추가 모음이 있지만 순서와 글리프가 다르다 (..., X, Y, Z, Æ, Ø, Å). 또한 "Aa"는 "Å"와 동일하게 정렬된다. 덴마크어 알파벳은 전통적으로 "W"를 "V"의 변형으로 보았지만, 오늘날 "W"는 별도의 문자로 간주된다.
네덜란드어: IJ 조합은 이전에 Y로 정렬되거나(Y < IJ < Z) 때로는 별도의 문자로 취급되었지만, 현재는 대부분 두 개의 문자(I + J)로 정렬된다(II < IJ < IK). 전화번호부에서는 예외적으로 IJ를 Y로 정렬하는 경우가 있는데, 이는 네덜란드 성씨 중 다수가 현대 철자법에서 IJ가 필요한 자리에 Y를 사용하기 때문이다. 대문자 I로 시작하는 단어가 ij로 시작하면 J도 대문자로 쓴다(예: IJmuiden 마을, IJssel 강).
에스페란토어: 변화 기호 악센트가 있는 자음(ĉ, ĝ, ĥ, ĵ, ŝ)과 ŭ(브레베가 있는 u)는 별도의 문자로 간주되어 각각의 기본 문자 다음에 정렬된다(c, ĉ, d, e, f, g, ĝ, h, ĥ, i, j, ĵ ... s, ŝ, t, u, ŭ, v, z).
에스토니아어: õ, ä, ö, ü는 별도의 문자로 간주되어 w 뒤에 정렬된다. 문자 š, z, ž는 외래어 및 외국 고유 명사에만 나타나며, 에스토니아어 알파벳에서 기본 라틴 알파벳의 s 뒤에 정렬된다.
페로어: 덴마크어, 노르웨이어, 스웨덴어의 추가 문자인 Æ와 Ø를 사용한다. 또한, 아이슬란드어의 에스(Ð)를 D 다음에 사용한다. 여섯 개의 모음 A, I, O, U, Y는 악센트를 받을 수 있으며, 악센트가 붙으면 별도의 문자로 간주된다. 자음 C, Q, X, W, Z는 없다. 따라서 처음 다섯 글자는 A, Á, B, D, Ð이고, 마지막 다섯 글자는 V, Y, Ý, Æ, Ø이다.
필리핀어 (타갈로그어) 및 기타 필리핀어: 문자 Ng는 별도의 문자로 취급된다(예: ''sing'', ''ping-pong''의 발음). 그 자체로는 ''nang''으로 발음되지만, 필리핀어 철자법에서는 일반적으로 두 개의 별도 문자(n과 g)로 표기된다. 또한, 문자 파생어(예: Ñ)는 기본 문자를 즉시 따른다. 필리핀어는 구두점도 사용하지만 물결표를 제외하고는 사용이 매우 드물다.
핀란드어: 정렬 규칙은 스웨덴어와 동일하다.
프랑스어: 주어진 단어의 ''마지막'' 악센트가 순서를 결정한다.^[14] 예를 들어, 프랑스어에서 다음 네 단어는 ''cote'' < ''côte'' < ''coté'' < ''côté'' 순서로 정렬된다. 문자 e는 e, é, è, ê, ë 순서로 정렬되며, œ는 oe로 간주된다. o는 o, ô, ö 순서로 정렬된다.
독일어: 움라우트가 있는 문자(Ä, Ö, Ü)는 일반적으로 움라우트가 없는 버전과 동일하게 취급된다. ß는 항상 ss로 정렬된다. 예: Arbeit, Arg, Ärgerlich, Argument, Arm, Assistant, Aßlar, Assoziation. 전화번호부 및 유사한 이름 목록에서는 움라우트를 "ae", "oe", "ue"와 같은 문자 조합으로 정렬해야 하는 경우가 있다. 이는 여러 독일 성이 움라우트와 "e"가 없는 형태로 모두 나타나기 때문이다(예: Müller/Mueller). 예: Udet, Übelacker, Uell, Ülle, Ueve, Üxküll, Uffenbach.
헝가리어: 모음은 악센트, 움라우트, 이중 악센트를 가질 수 있으며, 자음은 단일, 이중(이중자), 삼중(삼중자) 문자로 쓰인다. 정렬 시, 악센트가 있는 모음은 악센트 없는 해당 문자와 동일하게 취급되며, 이중 및 삼중 문자는 단일 원본 문자를 따른다. 헝가리어 알파벳 순서는 A=Á, B, C, Cs, D, Dz, Dzs, E=É, F, G, Gy, H, I=Í, J, K, L, Ly, M, N, Ny, O=Ó, Ö=Ő, P, Q, R, S, Sz, T, Ty, U=Ú, Ü=Ű, V, W, X, Y, Z, Zs이다. (1984년 이전에는 ''dz''와 ''dzs''가 정렬 시 단일 문자가 아닌 두 개의 문자 d+z와 d+zs로 간주되었다.) 예를 들어, ''nádcukor''는 ''nádcsomó''보다 먼저 오는데, 이는 정렬에서 ''c''가 ''cs''보다 먼저 오기 때문이다(''s''가 일반적으로 ''u''보다 먼저 오더라도). 모음 길이의 차이는 두 단어가 다른 모든 면에서 동일할 때만 고려해야 한다(예: ''egér, éger''). 구문 내의 공백과 하이픈은 정렬 시 무시된다. ''Ch''도 특정 단어에서 이중자로 나타나지만 정렬 시 자체적인 문자로 간주되지 않는다.
헝가리어 정렬의 특징은 이중 이중자 및 삼중자의 축약된 형태(예: ''gy + gy''에서 ''ggy'' 또는 ''dzs + dzs''에서 ''ddzs'')가 축약되지 않은 전체 형태로 쓰인 것처럼 정렬되어야 한다는 것이다. 예를 들어, ''kaszinó''는 ''kassza''보다 먼저 와야 하는데, 이는 ''kassza''의 네 번째 "문자"(그래피메)가 두 번째 ''sz''로 간주되기 때문이다(''ssz''를 ''sz + sz''로 분해). 이 ''sz''는 ''kaszinó''의 네 번째 문자인 ''i''보다 뒤에 온다.
아이슬란드어: Þ가 추가되고, D는 Ð를 따른다. 각 모음(A, E, I, O, U, Y)은 예각이 붙은 해당 문자(Á, É, Í, Ó, Ú, Ý)를 따른다. Z가 없으므로 알파벳은 ... X, Y, Ý, Þ, Æ, Ö로 끝난다.
Þ(thorn)와 Ð(eth)는 모두 앵글로색슨족 필사본에서 사용되었으며, /w/를 나타내기 위해 룬 문자 Wynn도 사용했다. Þ는 룬 문자이고, Ð는 획이 추가된 문자 D이다.
키오와어: 역사적인 라틴어 순서가 아닌 브라흐미 문자와 같은 음성 원칙에 따라 정렬된다. 모음이 먼저 오고, 입의 앞쪽에서 뒤쪽으로 정렬된 파열 자음, 음성 개시 시간의 음수에서 양수로 정렬된 파열음, 그 다음에는 파찰음, 마찰음, 유음, 비음 순서이다: A, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, H, M, N.
리투아니아어: 리투아니아어 고유 문자는 라틴어 원본 문자 뒤에 온다. 또 다른 변경 사항은 Y가 J 바로 앞에 온다는 것이다: ... G, H, I, Į, Y, J, K...
폴란드어: 라틴 알파벳에서 파생된 폴란드어 고유 문자는 원본 문자 뒤에 정렬된다: A, Ą, B, C, Ć, D, E, Ę, ..., L, Ł, M, N, Ń, O, Ó, P, ..., S, Ś, T, ..., Z, Ź, Ż. 정렬 목적으로 이중자는 두 개의 별도 문자로 취급된다.
병음: 단어가 병음에서 동일한 기본 문자를 가지고 수정 구두점으로만 다른 경우, 수정되지 않은 문자가 수정된 문자보다 먼저 온다. 예를 들어, ''e''는 ''ê'' (額 ''è'' 앞의 欸 ''ê̄'') 앞에 오고, ''u''는 ''ü'' (路 ''lù'' 앞의 驢 ''lǘ'' 와 努 ''nǔ'' 앞의 女 ''nǚ'') 앞에 온다. 동일한 병음 문자를 가진 문자(수정된 문자 ''ê'' 및 ''ü'' 포함)는 성조에 따라 "1성(평성), 2성(상성), 3성(하강-상승성), 4성(하강성), 5성(경성)" 순서로 정렬된다. 예: "媽 (''mā''), 麻 (''má''), 馬 (''mǎ''), 罵 (''mà''), 嗎 (''ma'')".
포르투갈어: 정렬 순서는 영어와 동일하다: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. 이중자 및 구두점이 있는 문자는 알파벳에 포함되지 않는다.
루마니아어: 라틴 알파벳에서 파생된 특수 문자는 원본 문자 뒤에 정렬된다: A, Ă, Â, ..., I, Î, ..., S, Ș, T, Ț, ..., Z.
세르보크로아트어 및 기타 관련 남슬라브어: 5개의 악센트 문자와 3개의 결합된 문자는 원본 문자 뒤에 정렬된다: ..., C, Č, Ć, D, DŽ, Đ, E, ..., L, LJ, M, N, NJ, O, ..., S, Š, T, ..., Z, Ž.
스페인어: 1994년까지 "CH"와 "LL"을 단일 문자로 취급하여 ''cinco, credo, chispa'' 및 ''lomo, luz, llama'' 순서였으나, 1994년 RAE가 전통적인 사용법을 채택하면서 더 이상 유효하지 않다. 이제 LL은 LK와 LM 사이에, CH는 CG와 CI 사이에 정렬된다. 구두점이 있는 6개의 문자 Á, É, Í, Ó, Ú, Ü는 원래 문자 A, E, I, O, U로 취급된다. 예: ''radio, ráfaga, rana, rápido, rastrillo''. 스페인어 고유의 정렬 규칙은 N 다음에 정렬되는 별도의 문자로서의 Ñ(eñe)이다.
스웨덴어: 덴마크어 및 노르웨이어 알파벳과 유사하게 세 개의 추가 모음(Å, Ä, Ö)이 있으며, 다른 글리프와 다른 정렬 순서(..., X, Y, Z, Å, Ä, Ö)를 가진다. "W" 문자는 오랫동안 "V"의 변형으로 취급되었지만, 스웨덴 학술원 사전의 13판(2006)부터 "W"는 별도의 문자로 간주된다.
터키어: ç, ğ, ı, ö, ş, ü의 여섯 개의 추가 문자가 있다(q, w, x는 없음). 이들은 각각 c 다음에 ç, g 다음에 ğ, i ''앞에'' ı, o 다음에 ö, s 다음에 ş, u 다음에 ü로 정렬된다. 원래 1928년 알파벳 도입 시에는 ı가 i 뒤에 정렬되었으나, 나중에 점, 세디유 등 장식 표시

6. 자동화

정렬 알고리즘은 컴퓨터 프로그래밍에서 문자열을 사전순으로 정렬하는 데 사용된다. 대표적인 예로 유니코드 정렬 알고리즘이 있으며, 이는 모든 유니코드 기호를 포함하는 문자열을 확장된 사전순으로 정렬할 수 있다.^[14] 이 알고리즘은 기본 정렬 테이블을 조정하여 다양한 언어별 정렬 규칙을 따르도록 만들 수 있는데, 이러한 조정 규칙들은 공통 로케일 데이터 저장소(CLDR)에 수집되어 있다.

컴퓨터에서의 알파벳순 정렬은 기본적으로 사전식 순서 원리를 따른다. 먼저 문자열의 첫 번째 글자를 비교하여 순서를 결정하고, 첫 글자가 같으면 두 번째 글자를 비교한다. 만약 비교 대상 문자열 중 하나가 다른 하나보다 짧아서 비교할 다음 글자가 없다면, 짧은 문자열이 앞에 온다. 이 과정을 문자열 끝까지 반복하여 전체 순서를 결정한다.

7. 유사한 정렬

알파벳 정렬의 원리는 엄밀히 말해 알파벳을 사용하지 않는 언어에서도 적용될 수 있다. 예를 들어 음절 문자나 아부기다와 같이 사용되는 기호에 확립된 순서가 있다면, 해당 순서를 기준으로 정렬하는 것이 가능하다.

표어 문자 체계를 사용하는 경우, 예를 들어 중국의 한자나 일본의 가나에서는 부수별 획순 정렬 방식이 기호의 순서를 정의하는 데 자주 사용된다. 일본어의 경우, 발음 순서에 따른 정렬 방식을 사용하기도 하는데, 가장 흔하게는 오십음도 순서를 따르며 때로는 더 오래된 이로하 순서를 사용하기도 한다. 책의 색인을 만들 때 일본 서적에서는 50음순 정렬이 일반적이지만, 과학 서적 등 전문 분야에서는 일본어 용어도 로마자로 표기하여 알파벳순으로 정렬하는 경우도 있다. 다만, 일본어 로마자 표기법에는 훈령식, 헵번식, 장모음 표기 등 다양한 방식의 변동이 있기 때문에 복잡해지는 경우도 있다.

수학에서는 사전식 순서(Lexicographical order)라는 정렬 방식을 사용하는데, 이는 알파벳 순서를 정하는 방식과 유사하게 문자열이나 시퀀스의 순서를 결정하는 방법이다.^[16] 기본적으로 문자열의 첫 문자부터 비교하여 순서를 정하고, 첫 문자가 같으면 두 번째 문자를 비교하는 식으로 진행한다. 비교 중 어느 한쪽에 두 번째 글자가 없으면(1글자 문자열이면) 그쪽이 먼저가 된다. 두 번째 글자도 같으면 마찬가지로 세 번째 글자를, 세 번째 글자도 같으면 네 번째 글자를 비교하여 순서를 결정한다.

컴퓨터 응용 프로그램에서는 문자의 ASCII 또는 유니코드 코드값을 기반으로 하는 단순화된 알파벳 정렬 알고리즘을 사용하기도 한다. 이 방식은 모든 대문자를 소문자 앞에 배치하는 등 표준적인 알파벳 순서와는 다른 결과를 낳을 수 있다. (ASCII 정렬 참조)

운율 사전과 같이 특수한 목적을 가진 정렬 방식도 있다. 운율 사전은 단어의 마지막 문자에서 첫 번째 문자 순으로, 즉 역순 알파벳으로 단어를 정렬하여 같은 운율을 가진 단어를 찾기 쉽게 한다.

8. 일본 서적의 색인

일본어 서적의 색인은 일반적으로 50음순(あいうえお 순)으로 배열한다. 하지만 과학 서적 등에서는 일본어 표기 단어라도 라틴 알파벳순으로 색인을 만들기도 한다. 전문 용어에 외래어가 많을 때 이 방식이 유용하며, 일본어 용어는 로마자로 표기하여 알파벳순 색인에 포함할 수 있다. 다만, 일본어 로마자 표기에는 훈령식, 헵번식, 장모음 표기법 등 여러 방식이 있어 복잡해지기도 한다.

알파벳순 정렬은 기본적으로 사전식 순서를 따른다. 문자열의 첫 글자부터 차례대로 비교하여 순서를 정하며, 글자가 다르면 해당 문자의 알파벳 순서로 문자열 순서를 결정한다. 만약 한 문자열이 다른 문자열의 시작 부분과 같고 더 짧으면, 짧은 문자열이 앞에 온다.

참조

_[1] 간행물 "27-30-22-26. How Many Letters Needs an Alphabet? The Case of Semitic" Brill 2012
_[2] 문서 e.g. Psalms 25, 34, 37, 111, 112, 119 and 145 of the Hebrew Bible
_[3] 서적 Contributions to the History of Alphabetization in Antiquity and the Middle Ages Brussels 1967
_[4] 웹사이트 From A to Z - the surprising history of alphabetical order https://www.abc.net.[...] Australian Broadcasting Corporation 2020-06-10
_[5] 논문 Messapus, Cycnus, and the Alphabetical Order of Vergil's Catalogue of Italian Heroes
_[6] 서적 LIVRE XI – texte latin – traduction + commentaires http://remacle.org/b[...] 2012-05-08
_[7] 서적 Interpreting a classic: Demosthenes and his ancient commentators
_[8] 간행물 Authentic Witnesses: Approaches to Medieval Texts and Manuscripts University of Notre Dame Press
_[9] 서적 A Table Alphabeticall
_[10] 서적 Coleridge's Letters, No.507 https://www.inamidst[...]
_[11] 논문 Author Sequence and Credit for Contributions in Multiauthored Publications 2007-01
_[12] 논문 Order Matters: Alphabetizing In-Text Citations Biases Citation Rates 2018-11-10
_[12] 웹인용 The Case Against Alphabetical Naming of Authors https://www.insidehi[...] 2018-10-22
_[13] 웹사이트 Arabic Mathematical Alphabetic Symbols https://www.unicode.[...] THE Unicode Standard 2022-11-26
_[14] 웹사이트 Unicode Technical Standard #10: Unicode collation algorithm https://unicode.org/[...] Unicode, Inc. (unicode.org) 2008-03-20
_[15] 웹사이트 Volapük to English dictionary http://volap%C3%BCk.[...] 2019-09-24
_[16] 서적 Term Rewriting and All That Cambridge University Press
_[17] 간행물 "27-30-22-26. How Many Letters Needs an Alphabet? The Case of Semitic" Brill 2012

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com