맨위로가기

범유전체

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

범유전체는 특정 종의 모든 유전자를 포함하는 개념으로, 세균에서 시작하여 진핵생물, 바이러스까지 연구가 확장되고 있다. 범유전체는 핵심 유전체, 쉘 유전체, 클라우드 유전체로 구성되며, 열린 범유전체와 닫힌 범유전체로 분류된다. 원핵생물, 진핵생물, 바이러스 등 다양한 생물 종의 범유전체 연구가 진행되고 있으며, 특히 인간과 식물의 범유전체 연구는 질병 연구 및 육종 분야에 기여할 것으로 기대된다. 범유전체 데이터 분석을 위한 다양한 소프트웨어 도구가 개발되었으며, 데이터 구조로 범유전체 그래프가 사용된다.

더 읽어볼만한 페이지

  • 유전체학 - 발현체학
  • 유전체학 - 유전형 분석
    유전자형 분석은 DNA 염기 서열 분석, RFLP, PCR, DNA 마이크로어레이 등 다양한 기술을 통해 유전형을 파악하는 방법으로 질병 진단, 품종 개량 등 여러 분야에 활용되며 윤리적 문제와 사회적 영향을 동반하지만, 혁신적인 변화를 가져올 것으로 예상되는 기술이다.
  • 유전자 발현 - RNA 간섭
    RNA 간섭은 이중가닥 RNA에 의해 유전자 발현이 억제되는 과정으로, 다이서 효소에 의해 생성된 작은 간섭 RNA가 RNA 유도 침묵 복합체와 결합하여 표적 mRNA를 분해하거나 번역을 억제하며, 바이러스 방어, 발생 조절, 유전체 안정성 유지 등 다양한 기능과 응용 분야를 가진다.
  • 유전자 발현 - 유전자 재조합
    유전자 재조합은 유성 생식 생물의 염색체 유전자 교차를 통한 유전자 재배열 현상으로, 유전적 변이를 증가시키고 유전학적 지도 작성에 활용되며, 생명공학 등 다양한 분야에서 기술로 이용된다.
범유전체
개요
정의일종의 유전체로, 같은 종(보통 세균) 내에서 보존되는 핵심 유전체와 선택적으로 존재하는 가변 유전체로 구성됨.
설명특정 종의 모든 균주에 존재하는 유전자의 집합체.
구성 요소
핵심 유전체 (Core genome)종의 모든 (또는 대부분의) 균주에서 발견되는 유전자.
가변 유전체 (Dispensable/Accessory genome)종의 일부 균주에서만 발견되는 유전자.
고유 유전자 (Unique genes)단일 균주에만 특이적으로 존재하는 유전자.
범유전체 분석
목적특정 종 내 유전적 다양성, 진화, 적응 메커니즘 이해.
방법다수 균주 유전체 해독 후 비교.
유전자 존재/부재 패턴 분석.
계통발생학적 분석.
소프트웨어Anvi'o
GET_HOMOLOGUES
활용 분야
미생물학병원성, 항생제 내성 연구.
식물학작물 개량, 품종 다양성 연구.
진화생물학종 분화, 유전자 수평 전달 연구.
역사
초기 연구2005년 Streptococcus agalactiae 연구에서 처음 개념화됨.
Tettelin H, et al. (2005)
발전다양한 종으로 확장, 분석 방법론 발전.
Medini D, et al. (2005)
Vernikos G, et al. (2015)
참고 문헌

2. 역사

'범유전체'(pangenome)라는 용어는 2005년 테텔린(Tettelin) 연구팀이 현재와 같은 의미로 처음 정의했다.[2] 이 용어는 '전체' 또는 '모든 것'을 의미하는 그리스어 '판'(παν, pan)과 생물의 완전한 유전 정보를 뜻하는 게놈(genome)을 합쳐 만들어졌다. 테텔린 연구팀은 특히 세균의 범유전체를 설명하면서, 모든 균주가 공통으로 가지는 핵심 유전체(core genome)와 일부 균주에만 존재하거나 특정 균주에 고유한 가변 유전체(variable genome)로 구성된다고 정의했다.[2] 이러한 개념은 연구팀이 8종의 ''Streptococcus agalactiae'' 분리주 유전체를 분석한 연구 결과를 바탕으로 개발되었다.[2]

2. 1. 범유전체 (Pangenome)

'범유전체'라는 용어는 2005년 테텔린(Tettelin) 등이 현재의 의미로 정의했다.[2] 이 용어는 '전체' 또는 '모든 것'을 의미하는 그리스어 '판'(παν, pan)과 생물의 완전한 유전 물질을 뜻하는 게놈(Genome)에서 유래했다. 테텔린 등은 이 용어를 특히 세균에 적용했는데, 세균의 범유전체는 "모든 균주에 존재하는 유전자를 포함하는 핵심 유전체(core genome)와, 일부 균주에만 존재하거나 각 균주에 고유한 유전자로 구성된 가변 유전체(variable genome)를 포함한다"고 설명했다.[2]

초기 범유전체 개념은 테텔린 등이 8개의 ''Streptococcus agalactiae'' 분리주의 유전체를 분석하면서 개발되었다.[2] 분석 결과, 모든 분리주가 공유하는 핵심 유전체는 단일 유전체의 약 80%를 차지했으며, 부분적으로 공유되거나 균주 특이적인 유전자로 이루어진 가변 유전체가 존재함을 확인했다. 이를 통해 ''S. agalactiae'' 범유전체 내 유전자 저장소는 매우 방대하며, 수백 개의 유전체를 시퀀싱하더라도 계속해서 새로운 고유 유전자가 발견될 것이라고 추론했다.[2] 범유전체는 특정 미생물 종의 시퀀싱된 유전체에서 발견된 모든 유전자를 포함하며, 새로운 유전체가 시퀀싱되어 분석에 포함될 때마다 그 내용이 변경될 수 있다.

슈퍼유전자체는 특정 종에 접근 가능한 모든 유전자로 정의되며, 범유전체는 한 종의 모든 유전자체 시퀀싱이 가능할 경우에 해당한다. 메타범유전체는 메타유전체 샘플에 적용된 범유전체 분석으로, 주어진 서식지에서 여러 종의 유전자 결합을 평가한다.


유전체 계통의 범유전체는 해당 계통 내 유전자 내용의 다양성을 설명한다. 범유전체는 유전자 중복, 유전자 획득 및 손실, 그리고 선택과 부동에 의해 형성되는 이동성 요소와의 상호작용을 통해 진화한다.[26] 일부 연구에서는 원핵생물의 범유전체가 단순히 중립적인 진화의 결과가 아니라, 종이 새로운 환경(틈새)으로 이동하고 적응하는 능력을 부여하는 중요한 요인이라고 주장하기도 한다.[27]
슈퍼게놈(Supergenome)은 한 종의 모든 유전체가 시퀀싱되었을 때 도달할 수 있는 이론적인 범유전체의 크기를 의미하며,[28] 특정 종이 잠재적으로 획득할 수 있는 모든 유전자의 집합으로 정의된다. 슈퍼게놈의 실제 크기는 직접 계산할 수 없지만, 현재까지 확보된 유전체 데이터를 바탕으로 계산된 범유전체 크기를 통해 추정할 수 있다. 희귀 유전자나 특정 유전체의 출현 빈도에 따라 클라우드 게놈(cloud genome, 매우 드물게 나타나는 유전자 집합)의 크기를 정확히 추정하는 것은 어려울 수 있다. 2011년에는 시퀀싱된 분리체 그룹 간 유전자 수준의 유사성을 측정하는 지표로 게놈 유동성(Genome fluidity)이라는 개념이 제안되었다.[29] 일부 계통, 특히 세균 도메인에서는 슈퍼게놈이 사실상 "무한"한 크기를 가질 수 있는 것으로 여겨진다.[30][31]

2. 2. 슈퍼유전체 (Supergenome)



슈퍼유전체(Supergenome)는 한 종의 모든 유전체가 시퀀싱되었을 때의 실제 범유전체 크기로 생각할 수 있다.[28] 이는 특정 종이 획득할 수 있는 모든 유전자로 정의된다. 슈퍼유전체는 직접 계산할 수는 없지만, 이용 가능한 유전체 데이터로부터 계산된 범유전체 크기를 통해 그 크기를 추정할 수 있다. 희귀 유전자와 유전체의 발생 때문에 클라우드 유전체(cloud genome)의 크기를 추정하는 것은 어려울 수 있다. 2011년에는 시퀀싱된 분리체 그룹 간 유전자 수준의 유사성을 분류하는 척도로 유전체 유동성(genome fluidity)이 제안되었다.[29] 일부 계통에서는 슈퍼유전체가 "무한"한 것으로 나타났으며,[30] 세균 도메인이 그 예이다.[31]

2. 3. 메타범유전체 (Metapangenome)



'메타범유전체'는 샷건 메타게놈을 통해 얻어진 유전자 클러스터와 유전체의 풍부도 및 유병률 정보와 이것들이 회수된 환경 정보를 결합하여 범유전체 분석을 수행한 결과로 정의된다.[32] 메타게놈과 범유전체를 결합하는 이러한 접근법은 "메타범유전체학"이라고도 불리며, 특정 서식지 환경에 따라 범유전체 유전자 풀이 어떻게 필터링되는지에 대한 개체군 수준의 통찰력을 제공한다.[33]

일부 연구자들은 메타범유전체학이 기존의 범유전체 개념을 확장하는 것으로 본다. 이는 배양되지 않은 미생물로부터 메타게놈 접근법을 통해 얻은 유전자 염기 서열 정보를 통합하기 때문이다. 따라서 메타범유전체는 메타게놈 조립 유전체(MAGs)와 배양된 미생물에서 얻은 유전체 서열을 모두 포함할 수 있다.[34] 메타범유전체학은 미생물 군집의 다양성, 특정 환경 틈새에 대한 미생물의 적응, 미생물 진화, 군집 내 기능적 활동 및 상호작용 네트워크를 평가하는 데 활용되고 있다.[35] Anvi'o와 같은 분석 플랫폼은 범유전체를 생성하고 이를 메타게놈 데이터와 함께 연구하여 메타범유전체를 분석하고 시각화하는 통합 워크플로우를 제공한다.[32]

3. 구성 요소

'범유전체'라는 용어는 2005년 Tettelin 연구팀이 현재의 의미로 정의했다.[2] 이 용어는 '전체' 또는 '모든 것'을 의미하는 그리스어 παν|판grc(pan)과 생물의 완전한 유전 물질을 의미하는 유전체를 합쳐 만들어졌다. Tettelin 연구팀은 특히 세균의 범유전체를 설명하며, 이를 "모든 균주에 존재하는 유전자를 포함하는 핵심 유전체(core genome)와, 일부 균주에만 존재하거나 특정 균주에 고유한 유전자들로 구성된 가변 유전체(dispensable/accessory genome)를 포함한다"고 정의했다.[2]

범유전체는 일반적으로 핵심 유전체, 쉘 유전체, 클라우드 유전체의 세 부분으로 나눌 수 있다. 핵심 유전체는 분석된 모든 유전체에 존재하며, 쉘 유전체는 대부분의 유전체에 존재하고, 클라우드 유전체는 소수의 유전체 또는 단일 유전체에만 존재한다.


보다 세분화하여, 범유전체는 일반적으로 다음 세 가지 주요 부분으로 구성된다고 설명된다.

  • 핵심 유전체: 분석 대상이 되는 모든 유전체에서 공통으로 발견되는 유전자 집합이다.
  • 쉘 유전체: 분석 대상 유전체 중 상당수(다수)에서 공유되는 유전자 집합이다.
  • 클라우드 유전체: 소수의 유전체 또는 단일 유전체에만 존재하는 유전자 집합이다.


이러한 구분 기준(예: 각 구성 요소에 속하는 유전자가 전체 유전체 중 몇 퍼센트에 존재하는지)은 연구에 따라 다소 차이가 있을 수 있다.[16] 예를 들어, 일부 연구에서는 쉘 유전체와 클라우드 유전체를 합쳐 부속 유전체(accessory genome) 또는 가변 유전체(dispensable genome)라고 통칭하기도 한다.

3. 1. 핵심 유전체 (Core genome)

핵심 유전체는 분석 대상이 되는 모든 유전체에서 공통으로 발견되는 유전자들의 집합이다. 일부 연구자들은 핵심 유전체를 하드 코어(hard core)와 소프트 코어(soft core)로 나누기도 한다.[15] 하드 코어는 분석 대상인 모든 유전체(100%)에 최소 하나 이상 존재하는 상동 유전자 패밀리를 의미하며, 소프트 코어 또는 확장 코어는 특정 비율(예: 90%) 이상의 유전체에서 발견되는 유전자 패밀리를 가리킨다. 국제우주정거장에서 분리된 균주를 포함하여 ''세레우스 바실루스''와 ''황색포도상구균''의 범유전체를 분석한 한 연구에서는 유전자 패밀리가 존재하는 유전체의 비율에 따라 범유전체를 "클라우드"(<10%), "쉘"(10–95%), "코어"(>95%)로 구분하기도 했다.[16]

핵심 유전체의 크기 및 전체 범유전체에서 차지하는 비율은 여러 요인에 따라 달라지는데, 특히 분석 대상 유전체들 간의 계통 발생적 유사성이 중요한 영향을 미친다. 예를 들어, 완전히 동일한 두 유전체의 핵심 유전체는 그 자체로 전체 범유전체와 같다. 반면, 특정 (genus)에 속하는 종들의 핵심 유전체는 해당 속 내의 한 (species)만을 대상으로 할 때보다 항상 작다.

핵심 유전체에 속하는 유전자들은 주로 생명 유지에 필수적인 하우스키핑 기능이나 1차 대사 경로에 관여하는 경우가 많다. 하지만 특정 종을 같은 속의 다른 종들과 구별짓는 유전자, 예를 들어 특정 환경(틈새)에 적응하거나 병원성과 관련된 유전자들도 핵심 유전체에 포함될 수 있다.[17]

3. 2. 쉘 유전체 (Shell genome)

쉘 유전체는 범유전체에서 대부분의 게놈이 공유하는 유전자 집합을 의미한다.[18] 쉘 유전체를 정의하는 보편적으로 받아들여지는 기준은 없으며, 일부 연구에서는 유전자군이 범유전체 내 게놈의 50% 이상에서 공유될 경우 쉘 유전체의 일부로 간주한다.[19]

다른 연구 사례로, 국제 우주 정거장에서 분리된 균주를 포함하여 ''세레우스 바실루스''와 ''황색포도상구균''의 범유전체를 분석한 연구에서는 유전자 패밀리가 전체 게놈의 10%에서 95% 사이에 존재할 경우 "쉘"로 분류하였다. 이 연구에서는 유전자 패밀리가 10% 미만의 게놈에 존재하면 "클라우드", 95%를 초과하는 게놈에 존재하면 "코어"로 구분했다.[16]

유전자군이 쉘 유전체의 일부가 되는 데에는 여러 진화적 과정이 관여한다. 예를 들어, 과거에는 핵심 유전체(core genome)의 일부였던 유전자가 특정 계통에서 소실되는 경우가 있다. 이는 ''악티노마이세스''(Actinomyces) 속 세균에서 트립토판 오페론 관련 효소 유전자가 사라진 사례에서 관찰된다.[20] 반대로, 이전에는 부속 유전체(accessory genome)의 일부였던 유전자가 특정 계통 내에서 널리 퍼지고 고정되는 경우도 있다. 여러 ''코리네박테리움''(Corynebacterium) 종에서 발견되는 ''trpF'' 유전자가 이러한 유전자 획득 및 고정의 예시에 해당한다.[21]

3. 3. 클라우드 유전체 (Cloud genome)

클라우드 유전체는 범유전체 내 유전체들의 최소 부분집합에 의해 공유되는 유전자 집합으로 구성되며, 단일 유전자 또는 유전체 중 하나에만 존재하는 유전자를 포함한다.[22] 이는 주변 유전체 또는 부속 유전체라고도 알려져 있다. 이 범주에 속하는 유전자 집합은 종종 생태적 적응과 관련이 있다. 일부 연구에서는 유전체의 10% 미만에 존재하는 유전자 패밀리를 클라우드 유전체로 분류하기도 한다.[16]

4. 분류

a) 닫힌 범유전체는 큰 핵심 유전자체와 작은 부속 유전자체의 특징을 갖는다. b) 열린 범유전체는 작은 핵심 유전자체와 큰 부속 유전자체를 갖는 경향이 있다. c) 열린 범유전체의 크기는 새로운 유전체가 추가될 때마다 증가하는 경향이 있는 반면, 닫힌 범유전체의 크기는 더 많은 유전체를 추가해도 점근선에 가까워지는 경향이 있다. 이러한 특성 때문에 닫힌 범유전체의 전체 범유전체 크기를 예측할 수 있다.


범유전체는 힙의 법칙(Heaps' law)의 알파(\alpha) 값에 따라 열린 범유전체(open pangenome)와 닫힌 범유전체(closed pangenome)로 분류할 수 있다.[23][15] 힙의 법칙은 다음과 같은 수식으로 표현된다:

N=kn^{-\alpha}

이 식에서 각 문자는 다음을 의미한다:

  • N : 유전자 가족(gene family)의 수
  • n : 분석된 유전체(genome)의 수
  • k : 비례 상수
  • \alpha : 새로운 유전체가 추가될 때 유전자 가족 수 변화 곡선을 설명하기 위해 계산된 지수


계산된 지수 \alpha 값에 따라 다음과 같이 분류된다:

  • \alpha \le 1 이면, 범유전체는 열린 것(open)으로 간주된다. 이는 새로운 유전체를 분석할 때마다 새로운 유전자가 계속해서 발견될 가능성이 높은 경우이다.
  • \alpha > 1 이면, 범유전체는 닫힌 것(closed)으로 간주된다. 이는 새로운 유전체를 분석해도 발견되는 새로운 유전자의 수가 점차 줄어들어 전체 유전자 수가 특정 값에 수렴하는 경향을 보이는 경우이다.


일반적으로 범유전체 분석 소프트웨어는 주어진 데이터의 경향을 가장 잘 설명하는 힙 법칙의 매개변수(k, \alpha)를 계산할 수 있다.

4. 1. 열린 범유전체 (Open pangenome)



열린 범유전체(Open pangenome)는 한 분류군 내에서 새로운 유전체가 분석에 추가될 때마다 새로운 유전자 집합의 수가 점근선에 도달하지 않고 계속 증가하는 경우를 말한다. 즉, 해당 분류군의 유전자 다양성이 매우 커서 새로운 개체의 유전체를 분석할 때마다 이전에는 발견되지 않았던 새로운 유전자들이 계속 발견되는 것이다. 열린 범유전체는 일반적으로 작은 핵심 유전자체(core genome)와 큰 부속 유전자체(accessory genome)를 갖는 특징이 있다.

범유전체는 힙의 법칙(Heaps' law)을 이용하여 수학적으로 분류될 수 있다. 힙의 법칙은 다음과 같은 수식으로 표현된다:[23][15]

N=kn^{-\alpha}

  • N : 유전자 가족(gene family)의 수
  • n : 분석된 유전체의 수
  • k : 비례 상수
  • \alpha : 새로운 유전체가 추가될 때 유전자 가족 수 변화 곡선을 설명하는 지수


이 식에서 계산된 지수 \alpha 값이 1 이하 ( \alpha \le 1)이면 해당 범유전체는 열린 것으로 간주된다. 이는 새로운 유전체를 추가해도 유전자 가족의 수가 계속해서 유의미하게 증가하는 경향을 나타낸다.

열린 범유전체의 대표적인 예는 ''대장균''(Escherichia coli)이다. 개별 ''대장균'' 유전체는 약 4,000~5,000개의 유전자를 가지고 있지만, 약 2,000개의 ''대장균'' 유전체를 분석한 결과, 이 종의 범유전체는 약 89,000개의 서로 다른 유전자 집합으로 구성되는 것으로 나타났다.[24] 이는 ''대장균'' 집단 내에 매우 큰 유전적 다양성이 존재하며, 새로운 균주가 발견될 때마다 새로운 유전자가 계속 추가될 가능성이 높다는 것을 의미한다. 세균(Bacteria) 도메인 전체의 범유전체 또한 열린 것으로 간주된다.

4. 2. 닫힌 범유전체 (Closed pangenome)



새로운 유전체가 범유전체 분석에 통합될 때 소수의 유전자 집합만 추가되고, 범유전체 내 전체 유전자 집합의 수가 특정 숫자로 점근선에 수렴하는 경향을 보이는 경우, 해당 계통은 닫힌 범유전체(Closed pangenome)를 가진다고 한다. 이는 일반적으로 큰 핵심 유전자체와 작은 부속 유전자체를 특징으로 하며, 더 많은 유전체를 분석해도 전체 범유전체의 크기가 특정 값에 가까워지므로 그 크기를 예측할 수 있다.

범유전체는 힙의 법칙의 알파(\alpha) 값에 따라 열린 범유전체 또는 닫힌 범유전체로 분류될 수 있다: N=kn^{-\alpha} [23][15]

  • N 유전자 가족의 수.
  • n 유전자체의 수.
  • k 비례 상수.
  • \alpha 새로운 유전자체에 대한 유전자 가족의 수 곡선을 조정하기 위해 계산된 지수.


만약 \alpha > 1 이면 범유전체는 닫힌 것으로 간주된다.

기생 관계에 있거나 일부 특정 지위에 특화된 종은 닫힌 범유전체를 갖는 경향이 있다. 공생 세균인 ''황색포도알균 루그두넨시스''(Staphylococcus lugdunensis)는 닫힌 범유전체를 가진 대표적인 예이다.[25]

5. 활용 분야 및 예시

범유전체 개념은 2005년 테텔린(Tettelin) 등이 8개의 ''Streptococcus agalactiae'' 분리주 유전체를 분석하면서 처음 제시되었다. 이 연구는 모든 분리주가 공유하는 핵심 유전체(core genome)와 일부만 공유되거나 특정 균주에만 존재하는 부속 유전체(accessory genome)를 구분했다. 연구진은 ''S. agalactiae''의 범유전체 크기가 매우 크며, 수백 개의 유전체를 추가로 분석하더라도 계속해서 새로운 유전자가 발견될 것이라고 예측했다.[2] 이처럼 범유전체는 특정 종이 가진 모든 유전자를 포함하며, 새로운 유전체가 시퀀싱되어 분석에 통합될 때마다 그 정보가 갱신될 수 있다.

유전체 계통의 범유전체는 해당 계통 내 유전자 구성의 다양성을 설명한다. 범유전체는 유전자 중복, 외부로부터의 유전자 획득 및 기존 유전자의 소실, 그리고 선택압과 유전적 부동에 의해 형성되는 이동성 유전 요소와의 상호작용 등을 통해 진화한다.[26] 일부 연구에 따르면 원핵생물 범유전체의 진화는 단순히 중립적인 과정이 아니라, 해당 종이 새로운 환경적 틈새로 이동하고 적응하는 능력을 부여하는 적응적 진화의 결과일 수 있다.[27]

5. 1. 원핵생물 범유전체 (Prokaryote pangenome)

345px


2018년 기준으로 사용 가능한 전체 유전체 서열 중 87%가 세균에 해당했기 때문에, 연구자들은 다양한 분류 수준에서 원핵생물의 범유전체를 계산하는 데 많은 관심을 기울였다.[48]

2015년에 발표된 44개 폐렴구균(''Streptococcus pneumoniae'') 균주의 범유전체 연구는 새로운 유전체가 시퀀싱될 때마다 발견되는 새로운 유전자의 수가 점차 줄어든다는 것을 보여주었다(오른쪽 그림 참조). 실제로 분석된 유전체 수가 50개를 넘어서자 새롭게 발견될 것으로 예측되는 유전자의 수가 0에 가까워졌다. 이는 모든 종에서 나타나는 현상은 아니지만, ''S. pneumoniae''가 '닫힌 범유전체(closed pangenome)'를 가지고 있음을 시사한다.[37] ''S. pneumoniae''에서 새로운 유전자가 유입되는 주요 경로는 수평 유전자 이동이었으며, 주로 스트렙토코쿠스 미티스(''Streptococcus mitis'')로부터 유전자가 옮겨온 것으로 밝혀졌다. ''S. pneumoniae''의 범유전체 크기는 분석된 균주의 수가 늘어남에 따라 로그 함수 형태로 증가했고, 샘플링된 유전체 내 다형성 부위의 수에는 선형적으로 비례하여 증가했다. 이는 획득된 유전자가 해당 클론(clone)이 분화된 시간과 비례하여 축적된다는 것을 의미한다.[36]

원핵생물 범유전체의 또 다른 예로는 프로클로로코쿠스(''Prochlorococcus'')가 있다. 이 세균의 경우, 모든 개체가 공통으로 가지는 핵심 유전자 세트의 크기는 다양한 생태형(ecotype)에서 발견되는 전체 유전자 집합인 범유전체보다 훨씬 작다.[38]

반대로 '열린 범유전체(open pangenome)'는 새로운 개체의 유전체를 분석할 때마다 새로운 유전자가 계속해서 발견되는 경우를 말한다. 이러한 열린 범유전체는 알칼리게네스(''Alcaligenes'') 속[39]이나 세라티아(''Serratia'') 속[40]과 같이 환경에서 분리되어 공생하는 생활 방식을 보이는 세균들에서 관찰되었다. 하지만 열린 범유전체가 자유 생활을 하는 미생물에만 국한되는 것은 아니다. 2015년 인간에게서 분리된 프레보텔라(''Prevotella'') 세균에 대한 연구에서는 인간의 다양한 신체 부위에서 유래한 균주들의 유전자 레퍼토리를 비교했는데, 이들 역시 매우 다양한 유전자 풀을 가지는 열린 범유전체를 보였다.[41]

고세균(Archaea)에 대한 범유전체 연구도 일부 진행되었다. 예를 들어, 할로박테리아(''Halobacteria'')의 범유전체는 핵심 유전자(300개), 소프트코어 유전자(998개), 클라우드 유전자(36,531개), 쉘 유전자(11,784개)와 같은 다양한 유전자 패밀리로 구성되어 있음이 밝혀졌다.[42]

5. 2. 진핵생물 범유전체 (Eukaryote pangenome)

진핵생물인 균류, 동물식물 또한 범유전체의 증거를 보여주었다.

범유전체가 연구된 4종의 균류에서는 유전자 모델의 80~90%가 핵심 유전자로 밝혀졌고, 나머지 부속 유전자는 주로 병원성 및 항균제 내성과 관련이 있는 것으로 나타났다.[43]

동물 중에서는 인간 범유전체가 연구되고 있다. 2010년 연구에 따르면, 완전한 인간 범유전체는 기존의 참조 인간 게놈에는 존재하지 않는 약 19–40 메가베이스의 새로운 서열을 포함할 것으로 추정되었다.[44] [https://humanpangenome.org/about-us/consortium-organization/ 인간 범유전체 컨소시엄]은 인간 게놈의 다양성을 포괄적으로 반영하는 것을 목표로 활동하고 있다. 2023년에는 다양한 민족적 배경을 가진 47명의 이배체 게놈 정보를 기반으로 한 초안 인간 범유전체 참조가 발표되었다.[45] 현재 더 넓은 범위의 표본으로부터 더 많은 생물 다양성을 포착할 수 있는 개선된 참조 게놈 구축 계획이 진행 중이다.[45]

식물 분야에서는 모델 식물 종, 이배체[9]배수체 작물[10] 등 다양한 식물을 대상으로 범유전체 연구의 예가 있으며, 연구 대상 작물의 목록은 계속 늘어나고 있다.[46][47] 범유전체 연구는 구조적 변이나 참조 게놈에 없는 단일 염기 다형성(SNP) 정보를 설명하여 실종 유전력 문제 해결에 도움을 주면서 식물 육종의 도구로서 유망함을 보여주었다. 실종 유전력 문제는 전장 유전체 연관 연구(GWAS)에서 지속적으로 나타나는 문제이다.[48] 떠오르는 식물 기반 개념은 pan-NLRome인데, 이는 병원체 단백질을 인식하고 질병 저항성을 부여하는 세포 내 면역 수용체인 뉴클레오티드 결합 류신이 풍부한 반복(NLR) 단백질의 레퍼토리이다.[49]

5. 3. 바이러스 범유전체 (Virus pangenome)

바이러스세균16S 리보솜 RNA와 같이 계통에 의해 광범위하게 공유되는 유전자를 반드시 가지고 있는 것은 아니므로, 전체 바이러스 도메인의 핵심 유전체는 비어 있다. 그럼에도 불구하고, 여러 연구에서 일부 바이러스 계통의 범유전체를 계산했다. 판도라바이러스 6종의 핵심 유전체는 범유전체의 4.7%에 불과한 352개의 유전자 패밀리로 구성되어 있어 열린 범유전체를 갖는다.[50]

6. 데이터 구조 및 소프트웨어 도구

시퀀싱된 게놈의 수가 지속적으로 증가함에 따라, 이러한 방대한 게놈 데이터를 효과적으로 분석하고 활용하기 위한 새로운 접근 방식의 필요성이 커지고 있다.[51] 이에 따라 범유전체를 효율적으로 표현하고 리드( read|리드eng )를 매핑하기 위한 범유전체 그래프와 같은 새로운 데이터 구조가 제안되었으며[52], 범유전체 분석을 위한 다양한 소프트웨어 도구들이 개발되고 있다.[55]

6. 1. 데이터 구조

시퀀싱된 게놈의 수는 지속적으로 증가하고 있으며, 기존의 바이오인포매틱스 처리 방식만으로는 이러한 풍부한 게놈 데이터 세트의 잠재력을 완전히 활용하기 어려워지고 있다.[51] 범유전체 그래프는 범유전체를 표현하고 리드(readeng)를 효율적으로 매핑하도록 설계된 새로운 데이터 구조이다. 이에 대한 자세한 내용은 Eizenga 등이 검토한 바 있다.[52]

6. 2. 소프트웨어 도구

307x307px


범유전체에 대한 관심이 높아짐에 따라 이런 종류의 데이터를 분석하는 데 도움이 되는 몇 가지 소프트웨어 도구가 개발되었다. 범유전체 분석을 시작하려면 먼저 게놈 주석을 균질화해야 한다.[23] GeneMark[53] 또는 RAST[54]와 같이 사용된 모든 게놈에 주석을 달기 위해 동일한 소프트웨어를 사용해야 한다. 2015년에 한 그룹은 연구자가 사용할 수 있는 다양한 종류의 분석 및 도구를 검토했다.[55] 범유전체를 분석하기 위해 개발된 소프트웨어는 다음과 같이 7가지 종류가 있다: 상동 유전자를 클러스터링하는 데 전념하는 소프트웨어, SNP를 식별하는 소프트웨어, 범유전체 프로파일을 플롯하는 소프트웨어, 유전자/균주/분리주의 계통 발생 관계를 구축하는 소프트웨어, 기능 기반 검색 소프트웨어, 주석 및/또는 큐레이션 소프트웨어, 시각화 소프트웨어 등이다.[55]

2014년 말에 범유전체 분석을 위해 가장 많이 인용된 두 가지 소프트웨어 도구는 Panseq[56]와 pan-genomes analysis pipeline(PGAP)이었다.[57] 다른 옵션으로는 BPGA – A Pan-Genome Analysis Pipeline for prokaryotic genomes,[58] GET_HOMOLOGUES,[59] Roary[60] 및 PanDelos가 있다.[61] 2015년에는 원핵생물 범유전체에 초점을 맞춘 리뷰[62]와 식물 범유전체에 대한 다른 리뷰가 발표되었다.[63] 식물 범유전체를 위해 설계된 최초의 소프트웨어 패키지 중에는 PanTools[64]와 GET_HOMOLOGUES-EST가 있었다.[11][59] 2018년에는 유전자 집단의 진화 역사를 검사할 수 있는 대화형 웹 도구인 panX가 출시되었다.[65] panX는 게놈의 정렬, 계통 발생 트리, 돌연변이 매핑 및 코어 게놈 계통 발생에 대한 유전자 집단의 획득 및 손실에 대한 추론을 표시할 수 있다. 2019년 OrthoVenn 2.0[66]을 통해 최대 12개의 게놈에서 벤 다이어그램으로 상동 유전자 집단을 비교하여 시각화할 수 있었다. 2023년에는 [https://bridgecereal.scinet.usda.gov/ BRIDGEcereal]가 유전자 모델 ID를 통해 범유전체에서 삽입-결실 기반 단일 염색체형을 조사하고 그래프로 표시하기 위해 개발되었다.[67]

3,117 Acinetobacter baumannii genomes의 범유전체 그래프. 에지는 게놈 공통 위치에 해당하고 노드는 유전자에 해당한다. 에지의 두께는 해당 링크를 공유하는 게놈 수에 비례한다. 영구(코어 유전자와 유사), 쉘 및 클라우드 노드 간의 에지는 각각 주황색, 녹색 및 파란색으로 칠해져 있다.
PPanGGOLiN 소프트웨어로 생성된 3,117개의 ''Acinetobacter baumannii'' 게놈의 범유전체 그래프. 에지는 게놈 공통 위치에 해당하고 노드는 유전자에 해당한다. 에지의 두께는 해당 링크를 공유하는 게놈 수에 비례한다. 영구(코어 유전자와 유사), 쉘 및 클라우드 노드 간의 에지는 각각 주황색, 녹색 및 파란색으로 칠해져 있다.


2020년에는 범유전체 및 메타범유전체 분석과 시각화 워크플로우를 포함하는 다중 오믹스 플랫폼인 Anvi'o[1]가 출시되었다. Anvi'o에서 게놈은 동심원으로 표시되며 각 반경은 유전자 집단을 나타내며, 대화형 시각화를 통해 100개 이상의 게놈을 비교할 수 있다. 2020년에는 유전자 기반 범유전체 내용(GET_HOMOLOGUES, PanDelos, Roary 등)을 추출하기 위한 도구에 대한 계산 비교가 발표되었다.[68] 도구는 방법론적 관점에서 비교되었으며, 특정 방법론이 다른 도구보다 성능이 뛰어난 원인을 분석했다. 이 분석은 진화 매개변수를 변경하여 합성적으로 생성된 서로 다른 박테리아 집단을 고려하여 수행되었다. 결과는 입력 게놈의 구성에 따라 각 도구의 성능이 차별화됨을 보여준다. 또한 2020년에는 여러 도구가 유전자의 연속성을 보여주는 범유전체의 그래픽 표현을 도입했다(PPanGGOLiN,[46] Panaroo[65]).

범유전체에 대한 다른 소프트웨어 도구로는 Prodigal, Prokka, PanVis, PanTools, Pangenome Graph Builder(PGGB), PanX, Pagoo 및 pgr-tk가 있다.[69]

611x611px

참조

[1] 논문 Community-led, integrated, reproducible multi-omics with anvi'o 2021-01
[2] 논문 Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial "pan-genome" 2005-09-27
[3] 논문 The microbial pan-genome 2005-12
[4] 논문 Ten years of pan-genome analyses 2015-02
[5] 논문 Structural variation and genome complexity: is dispensable really dispensable? 2014-04
[6] 논문 Updated clusters of orthologous genes for Archaea: a complex ancestor of the Archaea and the byways of horizontal gene transfer 2012-12
[7] 논문 The bacterial pan-genome:a new paradigm in microbiology https://pubmed.ncbi.[...] 2010
[8] 논문 Transposable elements and the plant pan-genomes 2007-04
[9] 논문 Extensive gene content variation in the Brachypodium distachyon pan-genome correlates with population structure 2017-12
[10] 논문 Gradual polyploid genome evolution revealed by pan-genomic analysis of Brachypodium hybridum and its diploid progenitors 2020-07
[11] 논문 Analysis of Plant Pan-Genomes and Transcriptomes with GET_HOMOLOGUES-EST, a Clustering Solution for Sequences of the Same Species 2017-02
[12] 논문 Biogeography of the Sulfolobus islandicus pan-genome 2009-05
[13] 논문 De novo assembly using low-coverage short read sequence data from the rice pathogen Pseudomonas syringae pv. oryzae 2009-02
[14] 서적 The Pangenome http://library.oapen[...] 2020
[15] 논문 Calculating orthologs in bacteria and Archaea: a divide and conquer approach 2011
[16] 논문 Pangenomic Approach To Understanding Microbial Adaptations within a Model Built Environment, the International Space Station, Relative to Human Hosts and Soil 2019
[17] 논문 Pangenome-wide and molecular evolution analyses of the Pseudomonas aeruginosa species 2016-01
[18] 논문 Standard operating procedure for computing pangenome trees 2010-01
[19] 논문 EvoMining reveals the origin and fate of natural product biosynthetic enzymes 2019-12
[20] 논문 Evolution of substrate specificity in a retained enzyme driven by gene loss 2017-03
[21] 논문 Evolution of substrate specificity in a recipient's enzyme following horizontal gene transfer 2013-09
[22] 서적 The Pangenome 2020
[23] 논문 First Steps in the Analysis of Prokaryotic Pan-Genomes 2020
[24] 논문 Insights from 20 years of bacterial genome sequencing 2015-03
[25] 논문 Comparative genomic analysis of Staphylococcus lugdunensis shows a closed pan-genome and multiple barriers to horizontal gene transfer 2018-08
[26] 논문 The Ecology and Evolution of Pangenomes 2019-10
[27] 논문 Why prokaryotes have pangenomes http://eprints.white[...] 2017-03
[28] 논문 The Turbulent Network Dynamics of Microbial Evolution and the Statistical Tree of Life 2015-06
[29] 논문 Genomic fluidity: an integrative view of gene diversity within microbial populations 2011-01
[30] 논문 Genomes in turmoil: quantification of genome dynamics in prokaryote supergenomes 2014-08
[31] 논문 Estimating the size of the bacterial pan-genome 2009-03
[32] 논문 Linking pangenomes and metagenomes: the ''Prochlorococcus'' metapangenome. 2018
[33] 논문 Metapangenomics of the oral microbiome provides insights into habitat adaptation and cultivar diversity 2020-12-16
[34] 서적 The Pangenome: Diversity, Dynamics and Evolution of Genomes https://www.ncbi.nlm[...] Springer 2020
[35] 논문 Integrating pan-genome with metagenome for microbial community profiling 2021
[36] 논문 Structure and dynamics of the pan-genome of Streptococcus pneumoniae and closely related species
[37] 논문 The bacterial pangenome as a new tool for analysing pathogenic bacteria 2015-09
[38] 논문 Patterns and implications of gene gain and loss in the evolution of Prochlorococcus 2007-12
[39] 논문 Genome sequencing and analysis of Alcaligenes faecalis subsp. phenolicus MB207 2018
[40] arXiv Pan-genome Analysis of the Genus Serratia
[41] 논문 Divergences in gene repertoire among the reference Prevotella genomes derived from distinct body sites of human 2015-03
[42] 논문 Pan-genome analysis and ancestral state reconstruction of class halobacteria: probability of a new super-order 2020-12
[43] 논문 Pan-genome analyses of model fungal species 2019-02
[44] 논문 Building the sequence map of the human pan-genome https://www.nature.c[...] 2010
[45] 논문 A draft human pangenome reference 2023-05
[46] 논문 The tomato pan-genome uncovers new genes and a rare allele regulating fruit flavor 2019-05
[47] 논문 The barley pan-genome reveals the hidden legacy of mutation breeding 2020-11
[48] 논문 Graph pangenome captures missing heritability and empowers tomato breeding 2022-07-08
[49] 논문 A Species-Wide Inventory of NLR Genes and Alleles in Arabidopsis thaliana 2019-08
[50] 논문 A Large Open Pangenome and a Small Core Genome for Giant Pandoraviruses 2018
[51] 논문 Computational pan-genomics: status, promises and challenges 2018-01
[52] 논문 Pangenome Graphs 2020-08
[53] 논문 GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions 2001-06
[54] 논문 The RAST Server: rapid annotations using subsystems technology 2008-02
[55] 논문 A brief review of software tools for pangenomics 2015-02
[56] 논문 Pan-genome sequence analysis using Panseq: an online tool for the rapid analysis of core and accessory genomic regions 2010-09
[57] 논문 PGAP: pan-genomes analysis pipeline 2012-02
[58] 논문 BPGA- an ultra-fast pan-genome analysis pipeline 2016-04
[59] 논문 GET_HOMOLOGUES, a versatile software package for scalable and robust microbial pangenome analysis 2013-12
[60] 논문 Roary: rapid large-scale prokaryote pan genome analysis 2015-11
[61] 논문 PanDelos: a dictionary-based method for pan-genome content discovery 2018-11
[62] 논문 Inside the Pan-genome - Methods and Software Overview 2015-08
[63] 논문 Towards plant pangenomics http://espace.librar[...] 2016-04
[64] 논문 PanTools: Representation, Storage and Exploration of Pan-Genomic Data 2016-09
[65] 논문 panX: pan-genome analysis and exploration 2018-01
[66] 논문 OrthoVenn2: a web server for whole-genome comparison and annotation of orthologous clusters across multiple species 2019-07
[67] 논문 Streamline unsupervised machine learning to survey and graph indel-based haplotypes from pan-genomes 2023
[68] 논문 Challenges in gene-oriented approaches for pangenome content discovery
[69] 논문 Seven quick tips for gene-focused computational pangenomic analysis 2024-09-03



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com