보존 서열

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

보존 서열은 게놈 내에서 무작위적인 돌연변이에도 불구하고 여러 세대에 걸쳐 유지되는 핵산 서열을 의미한다. 분자 생물학의 발전과 함께 DNA의 역할이 밝혀지면서, 단백질, DNA-DNA 혼성화 등을 통해 생물 간의 유사성을 측정하는 연구가 진행되었다. 보존은 코딩 및 비코딩 DNA 서열에서 발생하며, 기능적 가치를 가지는 것으로 여겨진다. 보존 서열은 상동성 검색, 다중 서열 정렬, 게놈 정렬, 점수 시스템 등 다양한 생물정보학적 방법을 통해 식별된다. 이러한 서열은 계통수 생성, 유전 질환 연구, 기능 주석 등에 활용되며, 극단적으로 보존된 요소는 생명체의 기원과 분류 연구에 중요한 정보를 제공한다.

보존 서열

서열 보존

정의	진화적으로 보존된 유사한 DNA, RNA 또는 단백질 서열
중요성	생물학적 기능 유지에 중요

종류

DNA	게놈 내 또는 종 간 유사한 DNA 서열
RNA	게놈 내 또는 종 간 유사한 RNA 서열
단백질	게놈 내 또는 종 간 유사한 단백질 서열

특징

서열 유사성	유사한 DNA, RNA 또는 단백질 서열
진화적 보존	진화적으로 보존됨
생물학적 중요성	생물학적 기능 유지에 중요

예시

박스 C/D 및 H/ACA 요소	스플라이싱을 안내하는 작은 핵 리보핵단백질(snRNP)에 있는 rRNA의 메틸화 및 유사우리딘화 부위
스템-루프 구조	전령 RNA(mRNA)의 3' 비번역 영역(UTR)에서 발견되는 중요한 RNA 구조
리보자임	일부 리보자임의 촉매 코어에서 발견되는 보존된 서열 요소

📚 더 읽어볼만한 페이지

진화발생생물학 - 전사인자
전사 인자는 DNA 특정 서열에 결합하여 유전자 발현을 조절하는 단백질로서, RNA 중합효소와 함께 전사를 조절하여 유전 정보 전달에 핵심적인 역할을 하며, 발생, 신호 전달, 환경 반응, 세포 주기 조절 등 다양한 생물학적 과정에 관여한다.
진화발생생물학 - 서열 정렬
서열 정렬은 유전체 연구 및 생명과학에서 서열 간 진화적 관계를 밝히는 방법으로, 전역, 지역, 쌍별 정렬 등의 방법을 통해 계통수 분석, 유의성 및 신뢰도 평가 등에 활용되며, ClustalW2, BLAST, FASTA3x 등의 소프트웨어 도구로 수행된다.
핵산 - 염기쌍
염기쌍은 DNA나 RNA에서 아데닌(A)이 티민(T) 또는 우라실(U)과, 구아닌(G)이 사이토신(C)과 수소 결합으로 연결된 뉴클레오염기 쌍을 의미하며, DNA 이중 나선 구조 안정성과 유전 정보 복제 및 전사에 필수적이고, 유전자나 DNA 조각의 크기를 나타내는 단위로 사용된다.
핵산 - RNA
RNA는 DNA와 함께 생명체의 유전 물질을 구성하는 핵심 분자로서, DNA의 유전 정보를 바탕으로 단백질 합성, 유전자 발현 조절, 촉매 작용 등 다양한 기능을 수행하며, mRNA 백신 개발에 기여하였다.
집단유전학 - 근친교배
근친교배는 유전적으로 가까운 개체 간의 교배를 의미하며, 유전 질환 발현 가능성을 높이는 등 생물학적 영향과 품종 개량 및 연구에 활용된다.
집단유전학 - 유전적 부동
유전적 부동은 집단 내 대립형질 빈도가 무작위로 변하는 현상으로, 집단 크기가 작을수록 영향이 커지며 자연 선택과 함께 작용하여 진화에 영향을 미친다.

1. 개요
2. 역사
3. 메커니즘
- 3.1. 코딩 서열 보존
- 3.2. 비코딩 서열 보존
4. 식별 방법
5. 극단적 보존
6. 응용
- 6.1. 의학 연구
- 6.2. 기능 주석

2. 역사

유전에서 DNA의 역할이 발견되고, 1949년 프레데릭 생어가 동물 인슐린 간의 변이를 관찰하면서, 초기 분자 생물학자들은 분자적 관점에서 분류학을 연구하게 되었다. 1960년대의 연구에서는 DNA-DNA 혼성화와 단백질 교차 반응 기술을 사용하여 상동 단백질, 예를 들어 헤모글로빈과 사이토크롬 c 간의 유사성을 측정했다. 1965년 에밀 주커캔들과 라이너스 폴링은 분자 시계 개념을 도입하여, 아미노산 치환의 일정한 속도를 사용하여 두 생물이 분화된 이후의 시간을 추정할 수 있다고 제안했다. 초기 계통 발생도는 화석 기록과 밀접하게 일치했지만, 일부 유전자가 서로 다른 속도로 진화하는 것처럼 보이는 관찰 결과는 분자 진화 이론의 발전을 이끌었다. 마가렛 오클리 데이호프는 1966년 페레독신 서열을 비교하여 자연 선택이 생명에 필수적인 단백질 서열을 보존하고 최적화하는 데 작용할 것임을 보여주었다.

3. 메커니즘

여러 세대에 걸쳐 게놈 내의 핵산 서열은 무작위 돌연변이와 결실로 인해 점진적으로 변화할 수 있다. 또한 서열은 염색체 재배열로 인해 재조합되거나 삭제될 수 있다. 보존된 서열은 이러한 변화에 대한 저항성을 가지며, 배경 돌연변이율보다 더 느린 돌연변이율을 보인다.

보존은 코딩 및 비코딩 핵산 서열 모두에서 발생할 수 있다. 고도로 보존된 DNA 서열은 기능적 가치를 갖는 것으로 여겨지지만, 많은 고도로 보존된 비코딩 DNA 서열의 역할은 잘 알려져 있지 않다. 서열 보존 정도는 다양한 진화 압력, 돌연변이에 대한 강건성, 집단 크기, 유전적 부동에 의해 영향을 받을 수 있다. 많은 기능적 서열은 모듈형이며, 단백질 도메인과 같이 독립적인 진화 압력의 영향을 받을 수 있는 영역을 포함한다.

3.1. 코딩 서열 보존

유전 암호의 퇴화는 동의어 치환을 통해 단백질 서열 변화 없이 핵산 서열 변화를 허용한다. 단백질 구조 및 기능 유지를 위해 아미노산 서열이 보존될 수 있다. 보수적 돌연변이는 생화학적 특성이 유사한 아미노산으로 치환하여 기능 변화를 최소화한다. 서열 내에서 단백질 접힘에 중요하거나, 구조적 안정성을 가지거나, 결합 부위를 형성하는 아미노산은 더 높게 보존될 수 있다.

단백질 코딩 유전자의 핵산 서열은 다른 선택적 압력에 의해서도 보존될 수 있다. 일부 유기체의 코돈 사용 편향은 서열 내의 동의어 돌연변이 유형을 제한할 수 있다. 코딩 유전자의 mRNA에서 핵산 이차 구조를 유발하는 핵산 서열은 일부 구조가 번역에 부정적인 영향을 미칠 수 있으므로 선택되지 않거나, mRNA가 기능성 비코딩 RNA로도 작용하는 경우 보존될 수 있다.

3.2. 비코딩 서열 보존

유전자 조절에 중요한 비부호화 서열, 예를 들어 리보솜 결합 부위 및 전사 인자의 결합 또는 인식 부위는 게놈 내에서 보존될 수 있다. 예를 들어, 보존된 유전자 또는 오페론의 프로모터도 보존될 수 있다. 단백질과 마찬가지로, 비부호화 RNA(ncRNA)의 구조와 기능에 중요한 핵산도 보존될 수 있다. 그러나 ncRNA의 서열 보존은 단백질 부호화 서열에 비해 일반적으로 낮으며, 구조 또는 기능에 기여하는 염기쌍이 대신 보존되는 경우가 많다.

4. 식별 방법

보존 서열은 생물정보학적 접근법을 통해 유사성 정렬을 기반으로 식별한다. 2000년대 초반 이후 고처리량 DNA 염기서열 분석과 단백질 질량 분석법의 발전으로 단백질 서열 및 전체 유전체의 비교 가능성이 크게 증가했다.

4.1. 상동성 검색

BLAST, HMMER, Infernal 등의 도구를 사용한 상동성 검색을 통해 보존 서열을 식별할 수 있다. 상동성 검색 도구는 개별 핵산 또는 단백질 서열을 입력으로 사용하거나, 알려진 관련 서열의 다중 서열 정렬에서 생성된 통계 모델을 사용할 수 있다. 프로파일-HMM과 구조적 정보를 포함하는 RNA 공분산 모델과 같은 통계 모델은 더 멀리 관련된 서열을 검색할 때 도움이 될 수 있다. 입력 서열은 관련 개체 또는 다른 종의 서열 데이터베이스에 맞춰 정렬된다. 결과 정렬은 일치하는 아미노산 또는 염기 수와 정렬에 의해 생성된 갭 또는 삭제 수를 기준으로 점수를 매긴다. PAM 및 BLOSUM과 같은 치환 행렬을 사용하여 허용 가능한 보존적 치환을 식별할 수 있다. 점수가 높은 정렬은 상동 서열에서 온 것으로 간주된다. 광범위한 계통 발생 범위에서 매우 유사한 상동체 감지를 통해 서열의 보존을 추론할 수 있다.

4.2. 다중 서열 정렬

다중 서열 정렬은 보존 서열을 시각화하는 데 사용될 수 있다. Clustal 형식은 정렬의 보존된 열에 주석을 달기 위한 일반 텍스트 키를 포함하며, 보존된 서열(*), 보수적 변이(:), 반 보수적 변이(.), 비보수적 변이( )를 나타낸다. 시퀀스 로고는 정렬의 각 지점에서 문자의 비율을 높이로 나타내어 보존된 서열을 보여줄 수도 있다.

4.3. 게놈 정렬

전체 게놈 정렬(WGA)은 종 간 고도로 보존된 영역을 식별하는 데 사용될 수 있다. 현재 WGA 도구의 정확성과 확장성은 재배열, 반복 영역 및 많은 진핵생물 게놈의 큰 크기를 처리하는 계산 복잡성으로 인해 여전히 제한적이다. 그러나 30개 이상의 밀접하게 관련된 박테리아(원핵생물)의 WGA는 점점 더 실현 가능하다.

4.4. 점수 시스템

GERP (Genomic Evolutionary Rate Profiling, 게놈 진화율 프로파일링)는 종 전체의 유전자 서열 보존 점수를 매기는 방법이다. 이 접근 방식은 다중 서열 정렬에서 일련의 종에서 중립적 돌연변이율을 추정하고, 예상보다 적은 돌연변이를 보이는 서열 영역을 식별한다. 이러한 영역은 관찰된 돌연변이율과 예상 배경 돌연변이율의 차이에 따라 점수가 할당된다. 따라서 높은 GERP 점수는 고도로 보존된 서열을 나타낸다.

LIST (Local Identity and Shared Taxa, 지역 정체성 및 공유 분류군)는 인간과 밀접하게 관련된 종에서 관찰된 변이가 멀리 관련된 종의 변이와 비교할 때 보존 평가 시 더 중요하다는 가정을 기반으로 한다. LIST는 각 위치 주변의 지역 정체성을 사용하여 다중 서열 정렬(MSA)에서 관련 서열을 식별한 다음 이러한 서열의 인간에 대한 분류학적 거리를 기반으로 보존을 추정한다. 다른 도구와 달리 LIST는 MSA에서 변이의 횟수/빈도를 무시한다.

아미노드는 여러 정렬을 계통 발생 분석과 결합하여 상동 단백질의 변화를 분석하고 국소적인 진화적 변화율을 나타내는 플롯을 생성한다. 이 접근 방식은 단백질에서 정화 선택의 대상이 되며 일반적으로 정상적인 단백질 기능에 중요한 세그먼트인 진화적으로 제한된 영역을 식별한다.

PhyloP 및 PhyloHMM과 같은 다른 접근 방식은 통계적 계통 발생학 방법을 통합하여 치환율의 확률 분포를 비교하여 보존 및 가속 돌연변이 모두를 감지할 수 있다. 먼저, 계통 발생 트리를 기반으로 다중 서열 정렬에서 열에 대해 발생할 것으로 예상되는 치환 횟수의 배경 확률 분포가 생성된다. 관심 있는 종 간의 추정된 진화적 관계는 모든 치환의 중요성을 계산하는 데 사용된다(즉, 밀접하게 관련된 두 종 간의 치환은 멀리 관련된 종보다 발생할 가능성이 낮으므로 더 중요합니다). 보존을 감지하기 위해 다중 서열 정렬의 하위 집합에 대한 확률 분포가 계산되고 우도비 검정 또는 점수 검정과 같은 통계적 검정을 사용하여 배경 분포와 비교된다. 두 분포를 비교하여 생성된 P-값은 보존된 영역을 식별하는 데 사용된다. PhyloHMM은 은닉 마르코프 모델을 사용하여 확률 분포를 생성한다. PhyloP 소프트웨어 패키지는 우도비 검정 또는 점수 검정을 사용하여 확률 분포를 비교할 뿐만 아니라 GERP와 유사한 채점 시스템을 사용한다.

5. 극단적 보존

초보존 요소(UCE)는 여러 분류군에 걸쳐 매우 유사하거나 동일한 서열이다. 이는 처음 척추동물에서 발견되었으며, 이후 광범위하게 다른 분류군 내에서도 확인되었다. UCE의 기원과 기능은 잘 알려져 있지 않지만, 양막류, 곤충, 그리고 동물과 식물 사이의 오랜 시간의 분기를 연구하는 데 사용되어 왔다.

가장 고도로 보존된 유전자는 모든 생물체에서 발견될 수 있는 유전자이다. 여기에는 모든 생명의 최후 보편 공통 조상으로부터 보존된 것으로 추정되는 전사와 번역에 필요한 주로 ncRNA와 단백질이 포함된다.

보편적으로 보존된 것으로 밝혀진 유전자 또는 유전자 계열에는 GTP 결합 신장 인자, 메티오닌 아미노펩티다제 2, 세린 하이드록시메틸트랜스퍼라제 및 ATP 수송체가 있다. 또한 RNA 중합 효소와 헬리케이스와 같은 전사 기구의 구성 요소와 리보솜 RNA, tRNA 및 리보솜 단백질과 같은 번역 기구의 구성 요소도 보편적으로 보존된다.

6. 응용

보존 서열은 계통수 작성 및 분류학 연구에 활용된다. 유사한 서열을 가진 유기체가 밀접하게 관련되어 있다고 가정할 수 있기 때문이다. 연구의 분류학적 범위에 따라 서열 선택이 달라질 수 있다. 예를 들어 16S rRNA 및 기타 리보솜 서열과 같이 가장 보존된 유전자는 심층적인 계통 발생 관계를 재구성하는 데 유용하다. 하우스키핑 유전자처럼 분지군 내에서 보존되지만 일부 돌연변이를 겪는 서열은 종 간의 관계를 연구하는 데 사용될 수 있다. 내부 전사 스페이서 (ITS) 영역은 보존된 rRNA 유전자 사이에 존재하며 빠른 진화를 겪으므로, 균류와 빠르게 진화하는 박테리아의 균주를 분류하는 데 사용된다.

6.1. 의학 연구

보존 서열은 중요한 생물학적 기능을 갖는 경우가 많으므로, 유전 질환의 원인을 식별하는 데 유용할 수 있다. 많은 선천성 대사 이상 및 리소좀 축적 질환은 개별 보존 유전자의 변화로 인해 발생하며, 이는 질병 증상의 근본적인 원인인 효소의 결핍 또는 기능 부전을 초래한다. 유전 질환은 인간과 실험쥐, 또는 초파리와 같은 실험실 유기체 사이에서 보존된 서열을 식별하고 이러한 유전자의 유전자 녹아웃 효과를 연구하여 예측할 수 있다. 전장 유전체 연관 연구는 질병 또는 건강 결과와 관련된 보존 서열의 변이를 식별하는 데에도 사용될 수 있다.

6.2. 기능 주석

보존 서열은 유전자와 같은 기능적 서열을 발견하고 예측하는 데 사용된다. 알려진 기능을 가진 단백질 도메인과 같은 보존 서열은 서열의 기능을 예측하는 데에도 사용된다. Pfam 및 보존 도메인 데이터베이스와 같은 보존 단백질 도메인 데이터베이스는 예측된 단백질 코딩 유전자에서 기능적 도메인을 주석 처리하는 데 사용된다.