맨위로가기

대치법 (유전학)

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

대치법(유전학)은 유전 역학 및 양적 유전학 연구에서 개체 간 변이와 관련된 유전체 위치를 식별하기 위해 사용되는 방법이다. 전체 게놈 염기서열 분석 비용을 절감하기 위해, 단일 염기 다형성(SNP)과 같이 변동성이 높은 유전적 변이의 하위 집합을 분석하고, 더 많은 변이에 대한 유전자형 정보를 얻기 위해 참조 패널을 사용하여 유전자형을 추정한다. 대치법은 SNP 마이크로어레이 및 저커버리지 전체 게놈 염기서열 분석(WGS)의 정확도를 높이는 데 활용되며, 1000 Genomes Project 등의 데이터를 참조 패널로 사용하여 소프트웨어 도구를 통해 유전자형을 추정한다. 정확한 통계 모델 설계는 활발히 연구되고 있으며, 현재는 은닉 마르코프 모델 구조에 기반한 페이징 및 임퓨테이션 소프트웨어가 주로 사용된다.

더 읽어볼만한 페이지

  • 통계유전학 - 양적 형질 위치
    양적 형질 위치(QTL)는 다유전자 효과로 나타나는 특정 표현형 형질과 연관된 DNA 영역을 의미하며, 연속적인 변이를 보이는 형질의 유전적 기초를 설명하고 후보 유전자를 식별하는 데 활용된다.
  • 통계유전학 - 하디-바인베르크 원리
    하디-바인베르크 원리는 특정 조건을 만족하는 멘델 집단에서 대립 유전자의 빈도가 세대를 거듭해도 변하지 않는 평형 상태를 설명하며, 유전자형 빈도와 대립 유전자 빈도 사이의 관계를 나타내고 진화 연구 등에 활용된다.
대치법 (유전학)
개요
정의유전학에서 대치법(imputation)은 유전체 전체 연관 연구(GWAS)에서 누락된 유전자형을 통계적으로 추론하는 과정이다.
목표희귀 변이와 흔한 변이 모두에서 유전적 연관성을 조사하는 데 필요한 통계적 검정력을 높이는 것
방법대규모 참조 패널의 유전자형 데이터를 활용하여 연구 대상 집단의 유전자형을 추정
배경
유전체 전체 연관 연구(GWAS)수십만 명의 개인의 유전체를 분석하여 질병이나 형질과 관련된 유전적 변이를 식별하는 데 사용
기술적인 한계로 인해 모든 유전적 변이를 직접적으로 유전자형 분석할 수 없음
대치법의 필요성직접 유전자형 분석되지 않은 변이에 대한 정보를 추론하여 GWAS 연구의 범위를 확장
연구 대상 집단의 유전자형 데이터와 대규모 참조 패널의 유전자형 데이터를 비교하여 누락된 유전자형을 통계적으로 추정
방법
기본 원리연관 불균형(linkage disequilibrium, LD)을 기반으로 함
연관 불균형 (LD)유전체 내에서 서로 가까이 위치한 유전적 변이들이 함께 유전되는 경향
참조 패널에서 LD 패턴을 학습하고, 이를 통해 연구 대상 집단의 누락된 유전자형을 예측
주요 대치법 알고리즘MaCH
IMPUTE2
BEAGLE
참조 패널
중요성대치 정확도에 큰 영향
일반적인 참조 패널1000 Genomes Project, HapMap
문제점연구 대상 집단과 유전적 배경이 다른 참조 패널을 사용하는 경우 대치 정확도가 감소할 수 있음
특정 집단에 특이적인 희귀 변이의 경우 대치가 어려울 수 있음
활용
질병 유전체 연구유전체 전체 연관 연구(GWAS)의 통계적 검정력 향상
질병과 관련된 새로운 유전적 변이 발견
약물 유전체학약물 반응에 영향을 미치는 유전적 변이 식별
정밀 의학개인의 유전적 특성에 맞는 맞춤형 치료법 개발
참고 문헌
Scheet & Stephens (2006)A Fast and Flexible Statistical Model for Large-Scale Population Genotype Data: Applications to Inferring Missing Genotypes and Haplotypic Phase
Marchini & Howie (2010)Genotype imputation for genome-wide association studies

2. 배경

대치법은 유전체 연구에서 비용 효율적인 방법으로 활용된다. 전체 게놈을 염기서열 분석하는 대신, 단일 염기 다형성(SNP)과 같이 변이가 많은 유전체 위치를 선별하여 분석하는 방식이다.

전체 유전체 연관성 연구(GWAS)에서는 태깅 SNP를 기반으로 유전자형 분석 어레이를 사용하는데, 이는 게놈의 모든 변이를 직접 분석하지 않는다. 하지만 참조 패널을 활용하여 유전자형을 대입하면 더 넓은 범위의 유전적 변이를 확인할 수 있다. 특히, 서로 다른 어레이에서 얻은 데이터 세트의 메타 분석을 용이하게 하여 분석 가능한 변이의 폭을 넓힌다.

최근 전체 게놈 염기서열 분석(WGS) 비용이 낮아지면서, 대치법은 낮은 신뢰도를 가진 영역을 보완하여 WGS 판독의 정확성을 높이는 데 활용된다. 이는 SNP 어레이보다 더 높은 정확도를 제공하며, 특히 아프리카인이 아닌 고대 인간 게놈의 경우 0.5× 커버리지까지 상당히 정확한 결과를 얻을 수 있다.[3][4]

2. 1. 유전 역학 및 양적 유전학

유전 역학 및 양적 유전학 분야의 연구자들은 개체 간 변이가 관심 형질의 변이와 관련된 유전체 위치를 식별하는 것을 목표로 한다. 따라서 이러한 연구는 일련의 개인의 유전적 구성을 파악해야 한다. 연구에 참여한 각 개인의 전체 게놈을 염기서열 분석하는 것은 비용이 많이 들기 때문에, 게놈의 하위 집합만 측정할 수 있다. 이는 종종 첫째, 단일 염기 다형성 (SNP)만 고려하고 복제수 변이는 무시하며, 둘째, 해당 개체군에서 충분히 변동적이라고 알려진 SNP만 측정하여 고려 중인 개체 집단에서도 변동적일 가능성이 높다는 것을 의미한다. 가장 유익한 SNP 하위 집합은 HapMap 또는 인간의 1000 게놈 프로젝트에서 생성된 것과 같이 게놈 전체에 걸쳐 흔한 유전적 변이의 분포를 기반으로 선택된다. 그런 다음 이러한 SNP를 사용하여 마이크로어레이를 구축함으로써 연구의 각 개인이 이러한 모든 SNP에 대해 동시에 유전자형 분석을 할 수 있다.

전체 유전체 연관성 연구(GWAS)에 사용되는 유전자형 분석 어레이는 태깅 SNP를 기반으로 하므로 게놈의 모든 변이를 직접적으로 유전자형 분석하지는 않는다. 더 많은 변이에 대해 유전자형 분석이 수행된 참조 패널로 유전자형을 대입하면 원래 유전자형을 넘어선 유전적 변이의 범위를 확대할 수 있다. 결과적으로, 원래 마이크로어레이에 있는 것보다 더 많은 SNP의 영향을 평가할 수 있다. 중요하게도, 대입은 어레이 간 분석에 사용할 수 있는 변이의 중첩을 증가시킴으로써 다른 어레이에서 유전자형 분석된 데이터 세트의 메타 분석을 용이하게 했다.

전체 게놈 염기서열 분석(WGS)의 비용이 저렴해짐에 따라 대입은 또 다른 사용 사례, 즉 갭과 낮은 신뢰 영역을 채워 저커버리지 WGS 판독을 개선하는 데 활용된다. 이 사용 사례에서 대입은 SNP 어레이에 비해 더 높은 정확도를 제공한다.[3] 저커버리지 WGS에 대한 대입은 0.5× 커버리지까지 아프리카인이 아닌 고대 인간 게놈에 대해 상당히 정확하다.[4]

2. 2. SNP 마이크로어레이와 유전자형 임퓨테이션

유전 역학 및 양적 유전학 분야 연구자들은 개체 간 변이가 개체 간 관심 형질의 변이와 관련된 유전체 위치를 식별하는 것을 목표로 한다. 따라서 이러한 연구는 일련의 개인의 유전적 구성을 파악해야 한다. 연구에 참여한 각 개인의 전체 게놈을 염기서열 분석하는 것은 비용이 많이 들기 때문에, 게놈의 하위 집합만 측정할 수 있다. 이는 종종 첫째, 단일 염기 다형성 (SNP)만 고려하고 복제수 변이를 무시하며, 둘째, 해당 개체군에서 충분히 변동적이라고 알려진 SNP만 측정하여 고려 중인 개체 집단에서도 변동적일 가능성이 높다는 것을 의미한다. 가장 유익한 SNP 하위 집합은 HapMap 또는 인간 1000 게놈 프로젝트에서 생성된 것과 같이 게놈 전체에 걸쳐 흔한 유전적 변이의 분포를 기반으로 선택된다. 그런 다음 이러한 SNP를 사용하여 마이크로어레이를 구축함으로써 연구의 각 개인이 이러한 모든 SNP에 대해 동시에 유전자형 분석을 할 수 있다.

전체 유전체 연관성 연구(GWAS)에 사용되는 유전자형 분석 어레이는 태깅 SNP를 기반으로 하므로 게놈의 모든 변이를 직접 유전자형 분석하지는 않는다. 더 많은 변이에 대해 유전자형 분석이 수행된 참조 패널로 유전자형을 대입하면 원래 유전자형을 넘어선 유전적 변이의 범위를 확대할 수 있다. 결과적으로, 원래 마이크로어레이에 있는 것보다 더 많은 SNP의 영향을 평가할 수 있다. 중요하게도, 대입은 어레이 간 분석에 사용할 수 있는 변이의 중첩을 증가시킴으로써 다른 어레이에서 유전자형 분석된 데이터 세트의 메타 분석을 용이하게 했다.

전체 게놈 염기서열 분석(WGS)의 비용이 저렴해짐에 따라 대입은 또 다른 사용 사례, 즉 갭과 낮은 신뢰 영역을 채워 저커버리지 WGS 판독을 개선하는 데 활용된다. 이 사용 사례에서 대입은 SNP 어레이에 비해 더 높은 정확도를 제공한다.[3] 저커버리지 WGS에 대한 대입은 0.5× 커버리지까지 아프리카인이 아닌 고대 인간 게놈에 대해 상당히 정확하다.[4]

2. 3. 전체 게놈 염기서열 분석(WGS)과 유전자형 임퓨테이션

유전 역학 및 양적 유전학 분야 연구자들은 개체 간 변이가 개체 간 관심 형질의 변이와 관련된 유전체 위치를 식별하는 것을 목표로 한다. 따라서 이러한 연구는 일련의 개인의 유전적 구성을 파악해야 한다. 연구에 참여한 각 개인의 전체 게놈을 염기서열 분석하는 것은 비용이 많이 들기 때문에, 게놈의 하위 집합만 측정할 수 있다. 이는 종종 첫째, 단일 염기 다형성 (SNP)만 고려하고 복제수 변이를 무시하는 것을 의미하며, 둘째, 해당 개체군에서 충분히 변동적이라고 알려진 SNP만 측정하여 고려 중인 개체 집단에서도 변동적일 가능성이 높다는 것을 의미한다. 가장 유익한 SNP 하위 집합은 HapMap 또는 인간의 1000 게놈 프로젝트에서 생성된 것과 같이 게놈 전체에 걸쳐 흔한 유전적 변이의 분포를 기반으로 선택된다. 그런 다음 이러한 SNP를 사용하여 마이크로어레이를 구축함으로써 연구의 각 개인이 이러한 모든 SNP에 대해 동시에 유전자형 분석을 할 수 있다.

전체 유전체 연관성 연구(GWAS)에 사용되는 유전자형 분석 어레이는 태깅 SNP를 기반으로 하므로 게놈의 모든 변이를 직접적으로 유전자형 분석하지는 않는다. 더 많은 변이에 대해 유전자형 분석이 수행된 참조 패널로 유전자형을 대입하면 원래 유전자형을 넘어선 유전적 변이의 범위를 확대할 수 있다. 결과적으로, 원래 마이크로어레이에 있는 것보다 더 많은 SNP의 영향을 평가할 수 있다. 중요하게도, 대입은 어레이 간의 분석에 사용할 수 있는 변이의 중첩을 증가시킴으로써 다른 어레이에서 유전자형 분석된 데이터 세트의 메타 분석을 용이하게 했다.

전체 게놈 염기서열 분석(WGS)의 비용이 저렴해짐에 따라 대입은 또 다른 사용 사례를 찾는다. 즉, 갭과 낮은 신뢰 영역을 채워 저커버리지 WGS 판독을 개선할 수 있다. 이 사용 사례에서 대입은 SNP 어레이에 비해 더 높은 정확도를 제공한다.[3] 저커버리지 WGS에 대한 대입은 0.5× 커버리지까지 아프리카인이 아닌 고대 인간 게놈에 대해 상당히 정확하다.[4]

3. 도구

유전자형 배열에서 1000 게놈 프로젝트(1000 Genomes Project)의 단일염색체 배형(haplotype)과 같은 참조 패널을 이용하여 유전자형을 추정하는 여러 소프트웨어 패키지가 있다. MaCH[5], Minimac, IMPUTE2[6], Beagle[7] 등이 있으며, 각 도구는 속도와 정확성 측면에서 장단점을 가진다.[8] SHAPEIT2[9]와 같은 추가 위상(phasing) 도구를 사용하면 추정 정확도와 계산 성능을 향상시킬 수 있다.

초기에는 HapMap 집단의 단일염색체 배형이 참조 패널로 사용되었으나, 더 많은 샘플과 다양한 집단을 포함하고 더 높은 유전자 표지 밀도를 가진 1000 게놈 프로젝트[10]의 단일염색체 배형이 사용되면서 대체되었다. 2014년 중반 기준으로, 전 세계 26개 집단에서 온 2535명의 개인에 대한 전체 게놈 시퀀스 데이터가 1000 게놈 프로젝트 웹사이트[11]에서 공개적으로 제공된다.

3. 1. 주요 소프트웨어 도구

유전자형 배열에서 1000 게놈 프로젝트(1000 Genomes Project)의 단일염색체 배형(haplotype)과 같은 참조 패널로 유전자형을 추정하는 데 사용할 수 있는 여러 소프트웨어 패키지가 있다. 이러한 도구에는 MaCH[5], Minimac, IMPUTE2[6] 및 Beagle[7]이 있다. 각 도구는 속도와 정확성 측면에서 특정 장단점을 제공한다.[8] SHAPEIT2[9]와 같은 추가 위상(phasing) 도구를 사용하면 추정 정확도와 계산 성능을 향상시키기 위해 입력 단일염색체 배형을 사전 위상 처리할 수 있다.

초기 추정 사용에서 HapMap 집단의 단일염색체 배형이 참조 패널로 사용되었지만, 이는 더 많은 샘플과 다양한 집단을 아우르며 더 높은 유전자 표지 밀도를 가진 1000 게놈 프로젝트[10]의 단일염색체 배형을 참조 패널로 사용할 수 있게 되면서 대체되었다. 2014년 중반 기준으로, 전 세계 26개의 서로 다른 집단에서 온 2535명의 개인에 대한 전체 게놈 시퀀스 데이터가 1000 게놈 프로젝트 웹사이트[11]에서 공개적으로 제공된다.

3. 2. 참조 패널

유전자형 배열에서 1000 게놈 프로젝트(1000 Genomes Project)의 단일염색체 배형(haplotype)과 같은 참조 패널로 유전자형을 추정하는 데 사용할 수 있는 여러 소프트웨어 패키지가 있다. 이러한 도구에는 MaCH[5], Minimac, IMPUTE2[6] 및 Beagle[7]이 있다. 각 도구는 속도와 정확성 측면에서 특정 장단점을 제공한다.[8] SHAPEIT2[9]와 같은 추가 위상(phasing) 도구를 사용하면 추정 정확도와 계산 성능을 향상시키기 위해 입력 단일염색체 배형을 사전 위상 처리할 수 있다.

초기 추정 사용에서 HapMap 집단의 단일염색체 배형이 참조 패널로 사용되었지만, 이는 더 많은 샘플과 다양한 집단을 아우르며 더 높은 유전자 표지 밀도를 가진 1000 게놈 프로젝트[10]의 단일염색체 배형을 참조 패널로 사용할 수 있게 되면서 대체되었다. 2014년 중반 기준으로, 전 세계 26개의 서로 다른 집단에서 온 2535명의 개인에 대한 전체 게놈 시퀀스 데이터가 1000 게놈 프로젝트 웹사이트[11]에서 공개적으로 제공된다.

4. 통계 모델

상동염색체 위상 결정(페이징) 문제와 매우 관련이 있는 유전자형 임퓨테이션을 위한 정확한 통계 모델을 설계하는 것은 활발하게 연구가 진행되는 분야이다.[12] 임퓨테이션은 거의 항상 페이징 단계를 거친다.[1][3]

4. 1. 은닉 마르코프 모델

상동염색체 위상 결정(페이징) 문제와 매우 관련이 있는 유전자형 임퓨테이션을 위한 정확한 통계 모델을 설계하는 것은 활발하게 연구가 진행되는 분야이다.[12] 임퓨테이션은 거의 항상 페이징 단계를 거친다.[1][3] 2022년 현재, 모든 최신 페이징 및 임퓨테이션 소프트웨어는 Li & Stevens의 은닉 마르코프 모델 구조에 기반하고 있다.[13]

참조

[1] 논문 A Fast and Flexible Statistical Model for Large-Scale Population Genotype Data: Applications to Inferring Missing Genotypes and Haplotypic Phase
[2] 논문 Genotype imputation for genome-wide association studies
[3] 논문 Comparison of Genotype Imputation for SNP Array and Low-Coverage Whole-Genome Sequencing Data. 2021
[4] 논문 Imputation of ancient human genomes 2023-06-20
[5] 논문 MaCH: using sequence and genotype data to estimate haplotypes and unobserved genotypes. 2010-12
[6] 논문 Fast and accurate genotype imputation in genome-wide association studies through pre-phasing. 2012-07-22
[7] 논문 A Unified Approach to Genotype Imputation and Haplotype-Phase Inference for Large Data Sets of Trios and Unrelated Individuals 2009
[8] 논문 Fast and accurate genotype imputation in genome-wide association studies through pre-phasing 2012-07-22
[9] 논문 A linear complexity phasing method for thousands of genomes 2011-12-04
[10] 논문 A map of human genome variation from population-scale sequencing 2010-10-28
[11] 웹사이트 1000 Genomes - A Deep Catalog of Human Genetic Variation http://www.1000genom[...] 2014-07-17
[12] 논문 A Flexible and Accurate Genotype Imputation Method for the Next Generation of Genome-Wide Association Studies
[13] 논문 A comparative analysis of current phasing and imputation software. 2022



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com