BLOSUM
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
BLOSUM은 단백질 서열 정렬에 사용되는 치환 행렬이다. 단백질의 기능은 구조에 크게 의존하며, 단백질 내 아미노산의 변화는 세포 기능에 심각한 영향을 미칠 수 있다. BLOSUM 행렬은 아미노산의 치환 빈도를 기반으로 점수를 계산하여 서열 정렬의 유사성을 평가한다. BLOSUM 행렬은 다양한 정렬 데이터베이스를 기반으로 여러 종류가 있으며, 숫자가 높을수록 밀접하게 관련된 서열 비교에 적합하다. BLOSUM은 PAM 행렬의 한계를 극복하고 정렬 및 관련 단백질 검색에서 성능을 향상시켰으며, BLAST를 포함한 다양한 정렬 소프트웨어에서 활용된다.
더 읽어볼만한 페이지
- 분자유전학 - RNA 간섭
RNA 간섭은 이중가닥 RNA에 의해 유전자 발현이 억제되는 과정으로, 다이서 효소에 의해 생성된 작은 간섭 RNA가 RNA 유도 침묵 복합체와 결합하여 표적 mRNA를 분해하거나 번역을 억제하며, 바이러스 방어, 발생 조절, 유전체 안정성 유지 등 다양한 기능과 응용 분야를 가진다. - 분자유전학 - 염색체
염색체는 유전자를 포함하는 DNA 가닥으로, 진핵생물에서는 단백질과 결합해 염색질을 형성하고 세포 분열 시 응축된 막대 모양을 나타내며, 원핵생물은 진핵생물보다 단순한 구조를 가지고 종에 따라 수와 구조가 다양하며, 이상이 생기면 유전 질환을 유발할 수 있어 유전 연구에 중요한 역할을 한다. - 생물정보학 - Rosetta@home
Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다. - 생물정보학 - 발현체학
- 행렬 - 스핀 (물리학)
스핀은 양자역학적 각운동량으로, 양자화된 값을 가지며 자기 쌍극자 모멘트를 유발하여 다양한 분야에 응용되고 스핀트로닉스 기술 발전에 기여하지만, 전자의 스핀 기원은 아직 완전히 밝혀지지 않았다. - 행렬 - 파울리 행렬
파울리 행렬은 양자역학에서 스핀을 나타내는 데 사용되는 에르미트 행렬이자 유니타리 행렬로, 행렬식은 -1이고 대각합은 0이며, 리 대수의 생성원이자 파울리 벡터로 정의되어 다양한 물리학 분야에서 활용된다.
| BLOSUM | |
|---|---|
| 단백질 블록으로부터의 아미노산 치환 행렬 | |
| 일반 정보 | |
| 유형 | 생물정보학 도구 |
| 설명 | 아미노산 서열의 진화적 관계를 평가하는 데 사용되는 치환 행렬 |
| 개발 | 스티븐 헤니코프, 조안 G. 헤니코프 |
| 발표 연도 | 1992년 |
| 참고 문헌 | Henikoff, S.; Henikoff, J. G. (1992). "Amino acid substitution matrices from protein blocks". PNAS. 89 (22): 10915–10919. |
| PMID | 1438297 |
| PMC | 50453 |
| DOI | 10.1073/pnas.89.22.10915 |
2. 생물학적 배경
살아있는 유기체의 세포는 유전 정보를 DNA에 담고 있다.[2] 세포가 생명 활동을 유지하고 세포 분열을 통해 증식하는 과정에서 DNA 정보는 전사되고 복제되는데, 이 과정에서 오류가 발생하여 DNA 서열이 변할 수 있다.[2][3] 이를 돌연변이라고 부른다. 다행히 세포 내에는 DNA 복제 전에 발생하는 오류 대부분을 수정하는 정교한 조절 시스템이 존재한다.[3][4]
단백질의 고유한 기능은 그 3차원 구조에 크게 의존한다.[5] 따라서 단백질을 구성하는 아미노산 서열에 단 하나의 변화만 생겨도 단백질의 기능이 저하되거나 완전히 다른 기능을 갖게 될 수 있다.[3] 이러한 변화는 세포의 핵심 기능에 심각한 영향을 미쳐 세포 사멸이나 개체 사망으로 이어질 수도 있다.[6] 반대로, 돌연변이가 생존에 유리한 새로운 기능을 부여하고 이것이 자손에게 유전된다면, 해당 돌연변이는 집단 내에 퍼져 진화의 원동력이 될 수도 있다.
유전 코드에 의해 지정되는 20가지 아미노산은 각기 다른 물리적, 화학적 특성을 가진다.[5] 하지만 이들을 유사한 특성을 가진 그룹으로 묶을 수 있는데,[5] 같은 그룹 내의 아미노산으로 치환되는 경우, 단백질의 구조와 기능에 미치는 영향이 다른 그룹의 아미노산으로 치환될 때보다 상대적으로 적은 경향이 있다.
2. 1. 서열 정렬 (Sequence Alignment)
서열 정렬은 현대 생물학의 기본적인 연구 방법이다. 단백질에 대한 가장 일반적인 서열 정렬은 기능을 추론하거나 진화적 관계를 확립하기 위해 서로 다른 서열 간의 유사성을 찾는 것이다. 이는 연구자들이 상동성과 보존된 서열의 특성을 통해 유전자의 기원과 기능을 더 잘 이해하는 데 도움이 된다. 치환 행렬은 서로 다른 단백질 서열의 유사성을 계산하는 알고리즘에 활용된다. 그러나 데이호프 PAM 행렬의 유용성은 85% 이상의 유사성을 가진 서열의 필요성으로 인해 시간이 지남에 따라 감소했다. 이러한 격차를 메우기 위해 스티븐 헤니코프와 헤니코프는 BLOSUM(BLOcks SUbstitution Matrix) 행렬을 도입하여 정렬 및 관련 단백질 각 그룹의 쿼리를 사용한 검색에서 현저한 개선을 이끌었다.[1]3. BLOSUM (블록 치환 행렬)
BLOSUM(eng)은 단백질의 서열 정렬에 사용되는 대표적인 치환 행렬 중 하나이다.[7] 이는 아미노산 치환 빈도를 통계적으로 분석하여 점수를 매기는 방식으로 생성된다.
일반적으로 BLOSUM 행렬은 특정 조건(예: 60% 이상의 서열 동일성 블록 기반)에서 기존의 PAM 행렬보다 더 나은 성능을 보이는 것으로 알려져 있다. BLOSUM 행렬에는 여러 종류가 있으며, 비교 대상 서열 간의 관계에 따라 적합한 행렬이 선택된다.
3. 1. BLOSUM 행렬 종류
BLOSUM(eng)은 단백질의 서열 정렬에 사용되는 치환 행렬의 한 종류이다. 서열 정렬 결과를 평가하고 그 생물학적 의미를 파악하기 위해서는 점수 행렬이 필요한데, BLOSUM 행렬은 단백질 서열의 국부 정렬 블록(block)에서 관찰되는 아미노산 치환 빈도를 통계적으로 계산하여 점수를 매긴다.[7]BLOSUM 행렬은 구축 기반이 된 정렬 데이터베이스와 유사성 기준에 따라 여러 종류가 있으며, 이름 뒤에 붙는 숫자로 구분된다.
- BLOSUM r: 이름 뒤의 숫자 'r'은 해당 행렬이 r% 미만의 서열 유사성을 가진 블록들로부터 구축되었음을 의미한다. 예를 들어, BLOSUM62는 62% 미만의 유사성을 공유하는 서열 블록들을 사용하여 만들어진 행렬이다. 행렬 생성 과정에서 특정 기준(예: 62%) 이상의 높은 동일성을 보이는 서열들은 하나의 그룹으로 묶어(클러스터링) 처리함으로써, 매우 유사한 서열들의 영향을 줄인다.[1]
BLOSUM 행렬의 숫자는 비교 대상 서열 간의 진화적 거리에 따라 선택된다.
- 높은 숫자 (예: BLOSUM80): 숫자가 높을수록 밀접하게 관련된 서열 (유사성이 높은 서열) 비교에 적합하다.
- 낮은 숫자 (예: BLOSUM45): 숫자가 낮을수록 진화적으로 거리가 먼 서열 (유사성이 낮은 서열) 비교에 적합하다.
여러 BLOSUM 행렬 중 BLOSUM62는 단백질 BLAST 검색에서 기본값으로 널리 사용된다. 다양한 실험을 통해 BLOSUM62가 약한 단백질 유사성까지도 효과적으로 탐지하는 데 가장 적합한 행렬 중 하나로 평가받고 있기 때문이다.[1]
3. 2. BLOSUM 행렬 계산 방법
BLOSUM 행렬은 서로 유사한 아미노산 서열들의 정렬된 블록(block)을 데이터로 사용하여 통계적인 방법을 통해 유사성 점수를 계산한다.[8] 이 계산 과정은 여러 단계를 거치며, 각 단계는 하위 섹션에서 자세히 설명한다.다양한 BLOSUM 행렬 중 특정 수준 이상의 서열 동일성을 가진 블록을 기반으로 만들어진 행렬이 자주 사용된다. 예를 들어, 흔히 사용되는 BLOSUM62 행렬은 62% 이상의 동일성을 가진 서열 블록을 기반으로 계산된다. 일반적으로 BLOSUM 행렬은 기존의 PAM 행렬(Point Accepted Mutation matrix)보다 실제 서열 정렬이나 상동성 검색에서 더 나은 성능을 보이는 것으로 알려져 있다.
행렬의 각 값은 특정 아미노산 치환이 우연히 발생할 확률보다 얼마나 더 자주 관찰되는지를 나타내는 로그 오즈 비율을 기반으로 결정된다.
3. 2. 1. 시퀀스 제거
특정 임계값 이상으로 동일한 서열을 제거하여 중복성을 줄이는 과정이다. 서열을 제거하는 방법에는 두 가지가 있다. 첫 번째는 블록에서 직접 서열을 제거하는 방식이고, 두 번째는 유사한 서열들을 찾아 그룹화(클러스터링)한 뒤, 이를 대표하는 새로운 서열로 대체하는 방식이다. 이러한 제거 작업은 정해진 기준치보다 더 유사한 단백질 서열들을 없애기 위해 수행된다.3. 2. 2. 빈도 및 확률 계산
단백질 계열에서 매우 유사하여 잘 보존된 영역의 서열들을 정렬한 '블록(BLOCKS)' 데이터베이스를 활용한다. 이 데이터베이스는 BLOSUM 행렬을 만드는 데 기초 자료로 사용되며, 구축 시 서열 간의 유사성(정체성 비율)이 특정 기준치 이하인 서열들만을 선별하여 사용한다.블록 내 다중 서열 정렬 정보, 특히 각 열(column)의 정보를 이용하여 아미노산 쌍이 얼마나 자주 나타나는지 그 빈도를 계산한다. 예를 들어, 정렬된 서열들의 특정 위치(열)에서 어떤 아미노산 쌍(예: 알라닌과 글리신)이 함께 관찰되는 횟수를 세는 방식이다.
3. 2. 3. 로그 오즈 비율 (Log Odds Ratio)
로그 오즈 비율은 특정 아미노산 쌍이 관찰될 확률()과, 각 아미노산의 배경 확률을 고려했을 때 해당 쌍이 발생할 것으로 예상되는 확률() 사이의 비율을 로그 값으로 나타낸 것이다. 계산 공식은 다음과 같다.여기서 는 해당 아미노산 쌍이 관찰된 확률이고, 는 각 아미노산의 배경 확률을 고려했을 때 해당 쌍이 발생할 것으로 예상되는 확률이다. 이렇게 계산된 값은 반올림되어 치환 행렬에 사용된다.
3. 2. 4. BLOSUM 행렬 생성
BLOSUM 행렬 값은 특정 아미노산 치환이 우연히 발생할 확률보다 얼마나 더 자주 관찰되는지를 나타내는 로그 오즈 비율(log-odds ratio)을 기반으로 계산된다.[1] 이 값은 다음 공식을 통해 얻어진다.위 공식에서 는 아미노산 와 가 정렬된 서열 블록 내에서 서로 치환되어 나타날 관찰 확률을 의미한다. 와 는 각각 아미노산 와 가 해당 블록에 나타날 기대 확률(배경 확률)을 나타낸다. 는 전체 점수 분포의 비트(bit) 단위를 조정하기 위한 정규화 상수이다.[1]
이렇게 계산된 로그 오즈 비율 값을 정수로 반올림하여 최종적인 BLOSUM 행렬의 각 셀() 값을 결정한다.[1] 여러 종류의 BLOSUM 행렬 중, 특정 수준(예: 60%) 이상의 서열 동일성을 가진 블록을 기반으로 만들어진 행렬이 자주 사용된다. 특히 BLOSUM62 행렬은 기존의 PAM 행렬보다 실제 상동성 검색에서 더 나은 성능을 보이는 것으로 알려져 널리 활용된다.[1]
4. BLOSUM 행렬의 점수
서열 정렬의 중요성을 평가하기 위해서는 아미노산이나 뉴클레오타이드 잔기 쌍이 정렬에서 생물학적으로 의미 있게 나타날 확률을 설명하는 점수 행렬이 필요하다.[9] 특히 단백질의 경우, 아미노산 치환은 단순히 동일 여부만 따지는 것보다 복잡하다. 특정 아미노산이 다른 아미노산으로 치환되는 빈도는 여러 요인에 영향을 받으며, 기능적으로 덜 중요한 치환은 자연선택에 의해 배제될 수 있다.[7]
BLOSUM 행렬의 점수는 로그 오즈 점수(log-odds score)로 계산된다. 이는 특정 두 아미노산 쌍이 상동성을 가진 서열, 즉 생물학적 의미를 가지고 정렬될 확률()과, 이 두 아미노산이 단순히 우연히 함께 나타날 확률()의 비율을 로그 변환한 값이다.[12] 구체적인 계산 공식은 다음과 같다.
:
여기서 는 아미노산 와 가 서로 대체될 확률, 와 는 각각 아미노산 와 가 전체 단백질 서열에서 발견될 배경 확률을 의미한다. 는 점수를 쉽게 계산 가능한 정수 값으로 만들기 위한 스케일링 인자이다.
이 점수를 통해 특정 아미노산 치환의 가능성을 평가할 수 있다. 양수 점수는 해당 치환이 우연보다 더 자주 발생함을, 음수 점수는 덜 자주 발생함을 의미한다.[13] 0점은 관찰된 빈도가 우연히 발생할 것으로 예상되는 빈도와 같음을 나타낸다.
4. 1. BLOSUM62
`BLOSUM62`는 62% 미만의 유사성을 가진 서열 정렬들을 사용하여 구축된 치환 행렬이다. 이는 62% 이상의 동일성을 가진 서열들은 하나의 클러스터로 묶어서 처리했다는 의미이다.[7] `BLOSUM62`는 단백질 BLAST의 기본 행렬로 널리 사용되며, 실험 결과 대부분의 약한 단백질 유사성을 감지하는 데 가장 효과적인 행렬 중 하나로 평가받는다.[1]BLOSUM 행렬은 숫자에 따라 용도가 다른데, 숫자가 높은 `BLOSUM80`은 밀접하게 관련된 서열 비교에, `BLOSUM62`는 중간 정도 관련성의 서열 비교에, 숫자가 낮은 `BLOSUM45`는 상대적으로 거리가 먼 관련 서열 비교에 주로 사용된다.
네이처 바이오테크놀로지에 발표된 연구에 따르면, 오랫동안 표준으로 사용되어 온 `BLOSUM62` 행렬이 실제로는 Henikoff 등이 제시한 원래 알고리즘대로 정확하게 계산되지 않았다는 사실이 밝혀졌다.[14][1] 흥미롭게도, 이렇게 잘못 계산된 `BLOSUM62` 행렬이 오히려 검색 성능을 향상시키는 결과를 보였다.[14]
`BLOSUM62` 행렬의 각 값은 특정 아미노산 쌍이 BLOCKS 데이터베이스(62% 수준으로 클러스터링된)에서 함께 나타나는 빈도를, 이 두 아미노산이 우연히 정렬될 확률로 나눈 값에 기반한다. 이 비율 값에 로그를 취하여 로그 오즈 점수로 변환하며, 보통 반비트(half-bit) 단위로 조정된다. 점수가 0이면 해당 아미노산 쌍의 정렬 빈도가 우연히 발생할 확률과 같음을 의미한다. 양수 점수는 우연보다 더 자주 발견됨을, 음수 점수는 우연보다 덜 자주 발견됨을 나타낸다.
5. 생명정보학에서의 활용
BLOSUM 행렬은 생명정보학 분야에서 DNA 서열이나 단백질 서열을 비교하고, 그 정렬의 품질을 평가하는 데 중요한 도구로 사용된다. 이는 다양한 생명정보학 연구 및 서열 분석 도구에서 핵심적인 역할을 수행한다.
5. 1. 연구 응용
BLOSUM 점수는 B형 간염 바이러스 보균자[6] 및 T 세포 에피토프[6] 간의 표면 유전자 변이를 예측하고 이해하는 데 사용되었다.한 연구에서는 HBsAg의 DNA 염기 서열을 180명의 환자로부터 얻어 분석했다. 이 중 51명은 만성 HBV 보균자였고 129명은 새로 진단받은 환자였다. 연구진은 이 염기 서열들을 GenBank에서 가져온 168개의 HBV 염기 서열로 구축한 컨센서스 서열과 비교했다. 문헌 검토와 BLOSUM 점수를 활용하여 잠재적으로 항원성이 변경되었을 가능성을 정의했다.[15]
또한, 희소 인코딩, BLOSUM 인코딩, 그리고 은닉 마르코프 모델에서 파생된 입력을 조합하여 새로운 입력 표현 방식이 개발되었다. 이 방법은 C형 간염 바이러스 유전자에 대한 T 세포 에피토프를 예측하는 데 사용되며, 이러한 예측 방법은 합리적인 백신 설계 과정을 안내하는 데 응용될 수 있다.[16]
5. 2. BLAST에서의 사용
BLOSUM 행렬은 DNA 서열 또는 단백질 서열을 비교하여 정렬의 품질을 평가할 때 점수 행렬로도 사용된다. 이러한 형태의 점수 시스템은 BLAST를 포함한 광범위한 서열 정렬 소프트웨어에서 활용된다.[17]6. PAM 행렬과의 비교
BLOSUM 행렬 외에도 이전에 개발된 점수 행렬인 PAM(Point Accepted Mutation) 행렬이 있다. 데이호프가 개발한 PAM 행렬은 단백질 서열 정렬에 사용되었지만, 85% 이상의 높은 유사성을 가진 서열 분석에 주로 유용하다는 한계가 있었다. 시간이 지남에 따라 이러한 제약으로 인해 다양한 서열 분석에서의 활용도가 감소했다.[1]
이러한 PAM 행렬의 한계를 극복하기 위해 헤니코프와 헤니코프는 BLOSUM(BLOcks SUbstitution Matrix) 행렬을 개발했다. BLOSUM 행렬은 더 넓은 범위의 서열 유사성을 다룰 수 있어, 정렬 및 관련 단백질 그룹 검색에서 성능 향상을 가져왔다.[1] 특히, 일반적으로 사용되는 BLOSUM62 행렬(62% 유사성 기반)은 기존의 PAM 행렬보다 더 나은 성능을 보이는 것으로 알려져 있다.
두 행렬은 단백질 서열 간의 아미노산 치환 점수를 나타낸다는 점은 같지만, 점수를 계산하는 방식에서 차이가 있다. PAM 행렬은 밀접하게 관련된 서열들을 바탕으로 진화적 모델을 추정하여 계산하는 반면, BLOSUM 행렬은 실제로 관찰된 아미노산 치환 빈도를 기반으로, 즉 관련 서열 블록(block) 내의 모티프에서 직접 돌연변이를 관찰하여 계산한다.[1]
이처럼 계산 방법이 다르기 때문에, 같은 숫자를 가지더라도 PAM 행렬과 BLOSUM 행렬은 다른 의미를 가진다. 예를 들어, PAM100과 BLOSUM100은 동일한 값이 아니다.[18] 두 행렬 간의 대략적인 상응 관계는 다음과 같다.
| PAM | BLOSUM |
|---|---|
| PAM100 | BLOSUM90 |
| PAM120 | BLOSUM80 |
| PAM160 | BLOSUM62 |
| PAM200 | BLOSUM50 |
| PAM250 | BLOSUM45 |
참조
[1]
논문
Amino Acid Substitution Matrices from Protein Blocks
[2]
서적
Biology: Australian Version
Pearson Education Australia
[3]
서적
Biology: Australian Version
Pearson Education Australia
[4]
서적
Fundamentals of Molecular Biology
https://archive.org/[...]
Oxford University Press
[5]
서적
Biology: Australian Version
Pearson Education Australia
[6]
논문
Mendelian Ratios and Lethal Genes
http://www.nature.co[...]
2013-10-19
[7]
논문
Having a BLAST with bioinformatics (and avoiding BLASTphemy)
2001-09
[8]
웹사이트
BLOSSUM MATRICES: Introduction to BIOINFORMATICS
http://web.utm.my/ai[...]
2014-09-09
[9]
웹사이트
CS#594 - Group 13 (Tools and softwares)
http://www.cs.uic.ed[...]
2014-09-09
[10]
서적
Atlas of Protein Sequence and Structure
National Biomedical Research Foundation
1978
[11]
논문
Improved sensitivity of nucleic acid database searches using application-specific scoring matrices.
[12]
서적
Handbook of Nature-Inspired And Innovative Computing
https://books.google[...]
Springer
[13]
NIH
Scoring Systems
https://www.ncbi.nlm[...]
[14]
논문
BLOSUM62 miscalculations improve search performance
[15]
논문
Viral and clinical factors associated with surface gene variants among hepatitis B virus carriers.
[16]
논문
Reliable prediction of T‐cell epitopes using neural networks with novel sequence representations
http://tools.immunee[...]
[17]
웹사이트
The Statistics of Sequence Similarity Scores
https://www.ncbi.nlm[...]
2013-10-20
[18]
웹사이트
PAM and BLOSUM Substitution Matrices
http://www.birec.org[...]
2013-10-20
[19]
웹사이트
The art of aligning protein sequences Part 1 Matrices
http://www.ctu.edu.v[...]
2014-09-07
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com