Clustal

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

Clustal은 1988년 데스몬드 G. 히긴스가 개발한 다중 시퀀스 정렬 프로그램으로, 아미노산 또는 뉴클레오티드 서열을 정렬하는 데 사용된다. Clustal은 여러 버전으로 발전해 왔으며, ClustalW, ClustalX, Clustal2, Clustal Omega 등이 있다. Clustal Omega는 현재 버전으로, 빠르고 확장성이 뛰어나며 정확도가 높다. Clustal은 다중 시퀀스 정렬을 위한 다양한 알고리즘과 기능을 제공하며, 생물정보학 연구에 널리 활용된다.

Clustal - [IT 관련 정보]에 관한 문서

프로그램 정보

이름	CLUSTAL
개발자	데스몬드 G. 히긴스 Fabian Sievers 데이비드 디닌 안드레아스 윌름 (모두 UCD 콘웨이 연구소 소속)
최신 버전	1.2.2
최신 릴리스 날짜	2016년 7월 1일
운영체제	유닉스 리눅스 MacOS 윈도우 FreeBSD 데비안
프로그래밍 언어	C++
장르	생물정보학 도구
라이선스	GNU 일반 공중 사용 허가서, 버전 2
웹사이트	CLUSTAL Omega 웹사이트

📚 더 읽어볼만한 페이지

생물정보학 소프트웨어 - 알파폴드
알파폴드는 딥마인드에서 개발한 단백질 구조 예측 인공지능 시스템으로, 아미노산 서열로부터 3차원 구조를 예측하며 높은 정확도로 신약 개발과 질병 연구에 기여할 가능성이 있지만, 단백질 복합체 및 무질서 단백질 영역 예측에는 한계가 있다.
생물정보학 소프트웨어 - Rosetta@home
Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다.
생물정보학 - Rosetta@home
Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다.
생물정보학 - 발현체학

1. 개요
2. 역사
- 2.1. 버전 역사
- 2.2. 이름의 유래
3. 기능
4. ClustalW
- 4.1. 알고리즘
5. Clustal Omega
- 5.1. 알고리즘
- 5.2. 정확도 및 결과
6. Clustal2 (ClustalW/ClustalX)
7. 계통 분석
8. 기타

2. 역사

Clustal 소프트웨어는 1988년 개인용 컴퓨터에서 다중 시퀀스 정렬을 생성하기 위한 계산 방법으로 처음 개발되었다. 1992년에 출시된 ClustalV는 기존 소프트웨어를 C 언어로 완전히 다시 작성하고, 몇 가지 주요 기능을 추가 및 변경하여 크게 개선하였다.

이후 Clustal은 여러 버전을 거치며 발전해왔다.
* 1994년 ClustalW는 클러스터링 방법을 최근린 결합법으로 변경하고, 다중 정렬에 배열별 가중치를 부여하는 등 다양한 개선을 이루었다.
* 1997년에는 GUI 버전인 ClustalX가 공개되었으며, X 윈도 시스템, 매킨토시, 마이크로소프트 윈도우에서 사용할 수 있게 되었다.
* 2007년에는 ClustalW 및 ClustalX의 버전 2.0이 공개되었다. C++로 다시 작성되었으며, ClustalX는 툴킷으로 Qt를 이용하도록 변경되었다.

2.1. 버전 역사

* Clustal (1988): 데스몬드 G. 히긴스가 개발한 최초의 다중 시퀀스 정렬 소프트웨어이다. 아미노산 또는 뉴클레오티드의 쌍을 이루는 시퀀스로부터 가이드 트리를 도출하는 방식을 기반으로 한다. 일본어판에서는 3개의 프로그램(Clustal1, Clustal2, Clustal3)으로 구성된 패키지였으며, 비가중 결합법을 사용했다.
* Clustal4 (1989): Clustal3의 개량판으로, 메모리 효율성을 개선하여 유사성이 낮은 배열도 정렬할 수 있도록 했다.
* ClustalV (1992): 계통수 재구축 기능 및 인접 결합 방법을 사용한 트리 생성 옵션을 도입했다. C언어로 재작성되었으며, VAX/VMS, 유닉스, 매킨토시, MS-DOS에서 이용 가능했다.
* ClustalW (1994): 유사성 (기하학) 및 분기 (통계)를 기반으로 하는 서열 가중치 옵션을 포함하여 점진적 정렬 알고리즘을 개선하고, 명령줄 인터페이스에서 일괄 처리 모드로 실행하는 옵션을 추가했다. 일본어판에서는 클러스터링이 최근린 결합법으로 변경되었다.
* ClustalX (1997): 그래픽 사용자 인터페이스(GUI)를 최초로 도입한 버전이다. NCBI의 vibrant toolbox를 GUI 툴킷으로 사용하며, X 윈도 시스템, 매킨토시, 마이크로소프트 윈도우에서 이용 가능했다.
* ClustalW/ClustalX 2 (2007): ClustalW와 ClustalX를 모두 업데이트하여 정확성과 효율성을 높였다. C++로 재작성되었으며, ClustalX는 툴킷으로 Qt를 이용하도록 변경되었다.
* ClustalΩ (오메가) (2011): 현재 버전이다.

2.2. 이름의 유래

Clustal 초창기 버전의 가이드 트리는 쌍별 정렬의 UPGMA 클러스터 분석을 통해 구성되었으며, 이것이 CLUSTAL이라는 이름의 유래이다. Clustal의 처음 네 버전은 아라비아 숫자를 사용하여 번호가 매겨졌으며(1~4), 다섯 번째 버전은 로마 숫자 V를 사용했다. 다음 두 버전은 도입된 변경 사항을 나타내기 위해 가중치를 의미하는 W와 X 윈도를 의미하는 X를 사용하여 라틴 알파벳순으로 진행되었다. Omega라는 이름은 이전 버전과의 변화를 나타내기 위해 선택되었다.

3. 기능

Clustal은 휴리스틱 알고리즘을 사용하여 다중 서열 정렬을 수행한다. 다중 서열 정렬을 생성하기 위해 다음 세 가지 주요 단계를 거친다.

# 점진적 정렬 방법을 사용하여 시퀀스 정렬을 완료한다.
# 분자 계통학 가이드 트리를 생성한다(또는 사용자가 정의한 트리를 사용한다).
# 가이드 트리를 사용하여 다중 정렬을 수행한다.

이 단계들은 "Do Complete Alignment(전체 정렬 수행)" 기능으로 자동 수행된다. 다른 옵션으로는 "Do Alignment from guide tree and phylogeny(가이드 트리 및 계통 발생에서 정렬 수행)" 및 "Produce guide tree only(가이드 트리만 생성)"가 있다.

Clustal은 NBRF/PIR, FASTA, EMBL/스위스-프로트, Clustal, GCC/MSF, GCG9 RSF, GDE 등 다양한 입력 형식을 지원한다. 출력 형식은 Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS 중 하나 이상일 수 있다.

다중 서열 정렬 출력 결과는 아래와 같은 기호로 표시된다.

👆

좌우로 밀어서 보기

다중 서열 정렬 출력 기호
기호	정의	의미
*	별표	단일하고 완전히 보존된 잔기가 있는 위치
:	콜론	PAM 250 행렬에서 점수 > 0.5, 강력하게 유사한 특성 그룹 간 보존
.	마침표	PAM 250 행렬에서 점수 ≤ 0.5, 약하게 유사한 특성 그룹 간 보존
	공백	비보존됨

DNA/RNA 정렬과 단백질 정렬 모두에 동일한 기호가 표시되지만, * (별표) 기호만 두 정렬 모두에 유효하며, 다른 기호는 DNA/RNA 정렬에서 무시해야 한다.

사용자는 갭 생성 및 갭 확장 페널티 매개변수를 조정할 수 있다.

3.1. 알고리즘

Clustal은 휴리스틱을 사용하여 반복법으로 일련의 쌍별 정렬에서 다중 서열 정렬을 점진적으로 구축하여 서열을 정렬한다. 이 방법은 서열을 전체적으로 분석하고 UPGMA/neighbor-joining 방법을 사용하여 거리 행렬을 생성하여 작동한다. 가이드 트리는 행렬의 서열 점수로부터 계산된 다음, 유사성 순서로 서열을 점진적으로 정렬하여 다중 서열 정렬을 구축하는 데 사용된다.

Clustal은 다음 세 단계를 통해 다중 서열 정렬을 생성한다.

# 시퀀스 정렬을 완료한다. (쌍별 정렬)
# 분자 계통학 가이드 트리를 생성한다. (또는 사용자가 정의한 트리를 사용한다.)
# 가이드 트리를 사용하여 다중 정렬을 수행한다.

이러한 과정은 "Do Complete Alignment(전체 정렬 수행)" 기능을 통해 자동으로 수행된다.

더 자세한 과정은 다음과 같다.

# 1:1 정렬(쌍별 정렬)을 수행한다.
## 1:1 정렬을 무작위로 수행하고 배열 일치도 행렬을 생성한다.
# 배열 일치도를 기반으로 가이드 트리를 얻는다.
## 배열 일치도를 거리 척도로 사용하여 계층적 데이터 클러스터링을 수행한다. 이때 알고리즘은 인접 결합법 (또는 비가중 결합법)이 사용된다.
# 가이드 트리에 따라 배열을 추가하면서 정렬을 수행한다.
## 가장 일치도가 높은 배열 쌍부터 시작하여 가이드 트리에 따라 배열을 하나씩 추가하면서 정렬하여 효율적으로 다중 정렬을 얻는다.

이러한 과정은 자동으로 수행되지만, 가이드 트리만 계산하거나, 가이드 트리를 지정하여 다중 정렬만 수행할 수도 있다.

3.2. 입력/출력

Clustal은 NBRF/PIR, FASTA, EMBL/스위스-프로트, Clustal, GCC/MSF, GCG9 RSF, GDE를 포함한 다양한 입력 형식을 지원한다. 출력 형식은 Clustal, NBRF/PIR, GCG/MSF, PHYLIP, GDE, NEXUS 중 하나 이상일 수 있다.

👆

좌우로 밀어서 보기

다중 서열 정렬 출력 읽기
기호	정의	의미
*	별표	단일하고 완전히 보존된 잔기가 있는 위치
:	콜론	보존됨: 강력하게 유사한 특성 그룹 간의 보존 (PAM 250 행렬에서 점수 > 0.5)
.	마침표	반 보존됨: 약하게 유사한 특성 그룹 간의 보존 (PAM 250 행렬에서 점수 ≤ 0.5)
	공백	비보존됨

동일한 기호가 DNA/RNA 정렬과 단백질 정렬 모두에 표시되므로 * (별표) 기호는 둘 다에 유용하지만, 다른 합의 기호는 DNA/RNA 정렬에서는 무시해야 한다.

3.3. 설정

사용자는 갭 생성(gap opening) 및 갭 확장(gap extension) 페널티 매개변수를 조정할 수 있다.

4. ClustalW

ClustalW는 점진적 정렬 방식을 사용하는 행렬 기반 알고리즘이다.

4.1. 알고리즘

Clustal 알고리즘은 다음 세 단계를 거친다.

👆

좌우로 밀어서 보기

단계	설명
1. 1:1 정렬 (페어와이즈 정렬) 수행
2. 배열 일치도를 기반으로 가이드 트리 획득
3. 가이드 트리에 따라 배열을 추가하면서 정렬 수행

이러한 과정은 자동으로 수행되지만, 가이드 트리만 계산하거나, 가이드 트리를 지정하여 다중 정렬만 수행할 수도 있다.

두 버전 모두 시퀀스 간의 유사성 점수를 계산하기 위해 동일한 빠르고 근사적인 근사 알고리즘을 사용하며, 이는 다시 쌍별 정렬을 생성한다. 이 알고리즘은 두 시퀀스 간의 튜플 일치 수를 계산하고 갭에 대한 벌점을 설정하여 작동한다. 시퀀스가 유사할수록 점수가 높아진다. 시퀀스 점수가 매겨지면 UPGMA를 통해 덴드로그램이 생성되어 다중 시퀀스 정렬의 순서를 생성한다. 시퀀스는 설정된 순서대로 내림차순으로 정렬된다. 이 알고리즘은 매우 큰 데이터 세트를 허용하고 빠르다. 그러나 속도는 특정 시퀀스 유형에 대해 선택된 k-튜플 일치 범위에 따라 달라진다.

ClustalV에서 가장 주목할 만한 추가 기능 중 일부는 프로파일 정렬과 전체 명령줄 인터페이스 옵션이다. 프로파일 정렬을 사용하면 사용자는 두 개 이상의 이전 정렬 또는 시퀀스를 새 정렬에 맞춰 정렬하고 정렬이 잘못된 시퀀스(점수가 낮은 시퀀스)를 정렬 순서의 더 아래로 이동할 수 있다. 이렇게 하면 사용자는 기본 옵션보다 더 많은 제어 기능을 갖춘 다중 시퀀스 정렬을 점진적이고 체계적으로 생성할 수 있다.

5. Clustal Omega

Clustal Omega는 은닉 마르코프 모델(HMM)을 사용하는 빠르고 확장성이 뛰어난 다중 서열 정렬 프로그램이다.

5.1. 알고리즘

ClustalW는 점진적 정렬 알고리즘을 사용한다. 이 알고리즘에서는 서열들을 가장 높은 정렬 점수에서 가장 낮은 정렬 점수 순으로 정렬한다. 이러한 휴리스틱은 시간 복잡도 및 공간 복잡도를 제한하여 최댓값과 최솟값을 갖는 전역 최적 해를 찾는 데 필요하다.

먼저, 알고리즘은 모든 서열 쌍 간의 쌍별 거리 행렬을 계산한다(쌍별 서열 정렬). 다음으로, 이웃 결합법은 중간점 뿌리내림을 사용하여 전체 가이드 트리를 생성한다. 마지막으로, 가이드 트리는 전체 정렬을 생성하기 위한 근사적 템플릿으로 사용된다.

ClustalW는 다음 세 단계를 거친다.

1. 1:1 정렬(페어와이즈 정렬)을 수행한다.
* 1:1 정렬을 무작위로 수행하고 배열 일치도 행렬을 생성한다.
2. 배열 일치도를 기반으로 가이드 트리를 얻는다.
* 배열 일치도를 거리 척도로 사용하여 계층적 데이터 클러스터링을 수행한다. 이때 알고리즘은 인접 결합법 (또는 비가중 결합법)이 사용된다.
3. 가이드 트리에 따라 배열을 추가하면서 정렬을 수행한다.
* 가장 일치도가 높은 배열 쌍부터 시작하여 가이드 트리에 따라 배열을 하나씩 추가하면서 정렬하여 효율적으로 다중 정렬을 얻는다.

이러한 과정은 자동으로 수행되지만, 가이드 트리만 계산하거나, 가이드 트리를 지정하여 다중 정렬만 수행할 수도 있다.

5.2. 정확도 및 결과

ClustalW는 이웃 결합 방법을 사용하기 때문에 시간 복잡도가 $O(N^2)$ 이다.

ClustalW2는 UPGMA를 사용하여 대규모 입력을 더 빠르게 처리할 수 있는 옵션을 추가했다. 예를 들어 10,000개의 시퀀스를 입력하는 경우, 이웃 결합 방식은 한 시간 넘게 걸리지만 UPGMA는 1분 이내에 완료된다.

ClustalW2는 반복 정렬 정확도 옵션도 추가했다. 이 옵션은 효율성을 증가시키지는 않지만 정렬 정확도를 높일 수 있다. 이는 특히 작은 데이터 세트에 유용할 수 있다.

6. Clustal2 (ClustalW/ClustalX)

ClustalW가 사용하는 알고리즘은 거의 최적에 가깝다. 이는 분산도가 큰 데이터 세트에 가장 효과적이다. 이러한 데이터 세트에서 가이드 트리를 생성하는 과정은 노이즈에 덜 민감하다. ClustalW는 속도를 높이기 위해 쌍별 정렬과 전역 정렬을 결합한 최초의 다중 시퀀스 정렬 알고리즘 중 하나였지만, 이러한 결정은 결과 정확도를 감소시킨다.

2014년에 다중 시퀀스 정렬 알고리즘을 비교했을 때 ClustalW는 원하는 수준의 정확도로 결과를 생성할 수 있는 가장 빠른 알고리즘 중 하나였다. 그러나 T-Coffee와 같은 일관성 기반 경쟁자만큼 정확하지는 않았다. MAFFT, T-Coffee, Clustal Omega 중에서 ClustalW는 전체 길이 시퀀스에 대해 가장 낮은 정확도를 보이지만, 여전히 허용 가능한 수준으로 간주된다. 또한 ClustalW는 연구된 알고리즘 중에서 가장 메모리 효율적인 알고리즘이었다. 소프트웨어의 지속적인 업데이트를 통해 ClustalW2는 속도를 유지하면서 정확도를 높였다.

7. 계통 분석

Clustal은 분자 계통 분석에도 사용될 수 있지만, 근린 결합법을 사용한 매우 단순한 분석에 한정된다. 다중 정렬 시 생성되는 수형도(.dnd)는 계통수가 아니라는 점에 주의해야 한다.

8. 기타

SGI를 비롯한 여러 병렬화 버전이 개발되었다. FPGA 기반의 Clustal W를 빠르게 실행하기 위한 전용 하드웨어가 [http://www.progeniq.com Progeniq]사에 의해 개발되었다.