유전체 (생명과학)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
유전체(Genome)는 생명체의 유전 정보를 담고 있는 DNA 또는 RNA의 총량을 의미하며, 1920년 한스 빈클러에 의해 유전자와 염색체의 합성어로 명명되었다. 유전체는 염색체와 세포 소기관 DNA로 구성되며, 진핵생물의 경우 선형 DNA 염색체로, 원핵생물의 경우 원형 DNA로 존재한다. 인간 유전체는 약 30억 쌍의 DNA 염기 서열로 구성되어 있으며, 게놈 크기는 종에 따라 다르다. 게놈 분석 및 서열 분석 기술 발전을 통해 유전체 정보에 대한 이해가 깊어지고 있으며, 게놈 합성 기술을 통해 인공적으로 게놈을 제작하는 연구도 진행되고 있다. 유전자 중복, 수평 유전자 이동, 전이 인자 등은 게놈 진화에 중요한 역할을 한다.
더 읽어볼만한 페이지
- 유전자 지도 제작 - 후성유전학
후성유전학은 DNA 염기서열 변화 없이 유전자 발현에 영향을 주는 유전적 변화를 연구하는 학문으로, 세포 분화, 진화, 질병 등 다양한 생물학적 현상에 관여하며 DNA 메틸화, 히스톤 변형 등의 메커니즘을 통해 유전자 발현을 조절한다. - 유전자 지도 제작 - CDNA 말단의 급속 증폭
CDNA 말단의 급속 증폭(RACE)은 RNA 분자의 미지 부분, 특히 5' 또는 3' 말단을 증폭하는 분자 생물학 기술로, 역전사 반응과 PCR을 통해 cDNA의 특정 말단을 증폭하며, Deep-RACE, RACE-sequencing 등의 기술로 발전하여 유전자 발현 연구 및 다양한 분야에 응용된다. - 염색체 - 종분화
종분화는 하나의 종이 두 개 이상의 별개 종으로 갈라지는 진화 과정으로, 유성생식, 이소적·주변적·측지적·동소적 종분화 메커니즘, 생태적·성 선택, 강화, 다배수체 형성, 잡종 종분화, 인위적 종분화 등 다양한 요인과 과정을 통해 발생하며, 점진적 진화와 단속평형설이라는 속도에 대한 논쟁이 존재한다. - 염색체 - 감수분열
감수분열은 유성생식을 하는 생물에서 배우자를 형성하는 세포분열 과정으로, 염색체 수를 줄여 유전적 다양성을 확보하며, 감수분열 I과 II 두 단계로 구성되어 상동염색체 및 자매염색분체 분리, 독립적 분리 및 교차를 통해 유전적 다양성을 증가시키지만, 염색체 비분리 오류는 염색체 이상 질환을 유발할 수 있고 진핵생물 유성생식과 진화에 필수적인 과정이다. - 독일어계 외래어 - 이념
이념은 1796년에 앙투안 데스튀트 드 트라시가 고안한 용어로, 현실에 대한 기본적인 가정을 바탕으로 한 일관된 사상 체계이며 사회 통합 또는 불평등 정당화를 포함한 다양한 사회적 기능을 수행하며 다양한 학문 분야에서 연구가 이루어진다. - 독일어계 외래어 - 카이저
카이저는 로마 황제 칭호 카이사르에서 유래한 독일어 단어로 황제를 의미하며, 신성 로마 제국, 오스트리아 제국, 독일 제국 군주의 칭호로 사용되었고, 오스트리아에서는 최고 수준을 나타내는 접두사로, 일본 천황 지칭, 제왕절개의 어원으로도 쓰인다.
유전체 (생명과학) |
---|
2. 정의
"게놈(Genome)"이라는 용어는 1920년 독일 함부르크 대학교의 식물학 교수인 한스 빈클러(Hans Winkler)가 만들었다.[8] 옥스퍼드 사전(Oxford Dictionaries) 웹사이트와 온라인 어원 사전(Online Etymology Dictionary)은 이 단어가 ''유전자''(gene)와 ''염색체''(chromosome)를 합쳐 만든 것이라고 설명한다.[9][10][11][12]
사람 게놈은 약 30억 염기쌍으로 구성되어 있으며, 체세포는 이배체이므로 약 60억 염기쌍의 DNA를 핵 내에 가지고 있다. 분열 효모에서는 3개의 염색체 DNA 위에, 대장균이나 미토콘드리아에서는 하나의 환상 DNA 위에 보존되어 있다. 인간 면역 결핍 바이러스(HIV)와 같은 레트로바이러스에서는 RNA가 매개체가 된다.
한스 빈클러는 처음에는 게놈을 "배우자(생식 세포)가 가진 염색체 세트"라고 정의했다. 그러나 1930년 기하라 히토시는 게놈을 "생물을 그 생물로 만드는 데 필수적인 최소한의 염색체 세트"로 다시 정의했다. 기하라는 밀 염색체의 배수성 관찰을 바탕으로 이러한 게놈 개념을 제시했다. 두 정의 모두 생식 세포에 포함된 모든 염색체(또는 그 유전 정보)를 의미하며, N배체 생물의 체세포에는 N개의 게놈이 있다고 본다.
1956년 DNA가 발견된 이후에는 "모든 염색체를 구성하는 DNA의 모든 염기 서열"이라는 의미도 가지게 되었다.
3. 구성
유전자 수와 게놈 크기는 반드시 비례하지 않는다. 양서류나 식물 백합의 게놈 크기는 크고, 곤충이나 참복에서는 게놈 크기가 작다. 이것은 인트론이나 유전자 간의 정크 DNA의 길이가 원인이다. 예를 들어 물벼룩이 사람보다 게놈 크기는 작지만 유전자 수는 더 많다. 또한 원핵생물은 진핵생물보다 게놈에서 차지하는 코딩 영역의 비율이 높은 경향이 있으며, 유전자가 게놈에 콤팩트하게 들어있다.
게놈 크기가 커지면 대량의 정보를 저장할 수 있지만 복제에 사용하는 에너지가 증가하여 생존에 불리하게 작용하기 때문에, 일정 게놈 크기에서 자연 선택 압력이 가해진다. 또한 원핵생물보다 진핵생물이 더 복잡하고 필요한 정보량이 많은 경향이 있으며, 일반적으로 진핵생물에서는 스플라이싱에 의해 인트론이 제거되고 엑손의 코딩 영역이 번역되므로, 원핵생물에 비해 진핵생물은 게놈 크기가 커지는 경향이 있다.
게놈은 크게 염색체와 세포 소기관 DNA로 구성된다.
3. 1. 염색체
핵 안에 존재하는 선형 DNA 분자로, 대부분의 진핵생물은 이배체로 각 염색체를 쌍으로 가진다. 인간은 22쌍의 상염색체와 1쌍의 성염색체(XX 또는 XY)를 가진다.[16] 염색체는 유전자와 유전자 사이 영역(intergenic region), 반복 서열 등 다양한 요소로 구성된다.
전형적인 인간 세포에서 게놈은 22쌍의 상염색체와 두 개의 성염색체를 가지며, 생식세포는 반수체로 각 염색체의 사본을 하나만 가지고 있다.
진핵 생물 게놈은 하나 이상의 선형 DNA 염색체로 구성되어 있다. 염색체 수는 잭 점퍼 개미와 무성 선충과 같이 한 쌍만 있는 경우부터 720쌍을 가진 고사리 종까지 다양하다.[36]
3. 2. 세포 소기관 DNA
미토콘드리아와 엽록체(식물 세포에 존재)는 자체적인 DNA를 가지고 있는데, 이는 원핵생물처럼 환상 DNA 형태이다. 미토콘드리아 DNA는 모계 유전되며, 세포 호흡에 관여하는 유전자를 포함하고 있다.[3][15]
3. 3. 배수체
단수체는 한 조의 염색체를 가지고 있는 세포나 개체를 말하며, 이배체는 모계와 부계로부터 유래된 두 개의 홑배수체 세트를 함유하는 세포나 개체이다. 체세포는 정상적인 염색체 수를 가지며, 이는 생식 세포(난자, 정자)에 존재하는 염색체 수의 두 배이다. 일반적인 동물에서 볼 수 있는 번식 메커니즘이다.[16]
인간 세포는 22개의 상염색체 각각에 대해 부모로부터 하나씩 물려받은 두 개의 사본과 두 개의 성염색체를 가지고 있어 이배체이다. 반면 난자, 정자와 같은 생식 세포는 반수체로, 각 염색체의 사본을 하나만 가지고 있다.[37]
4. 염기쌍
염기쌍(Base pair, bp)은 핵산을 구성하는 염기 가운데 서로 수소 결합을 할 수 있는 두 개의 염기이다. 아데닌과 티민의 쌍, 구아닌과 사이토신의 쌍이 있다. 대장균( ''E.coli'')의 경우 약 460만 bp, 유전자 수는 4,300개이며 사람의 경우 약 33억 bp, 유전자 수는 21,000개로 잠정적으로 알려져 있다.[14]
5. 인간 유전체
인간 유전체는 한 인간 개체를 만들기 위해 필요한 모든 유전자들과 유전자 바깥 부분을 포함하는 약 30억 쌍 정도의 모든 DNA 염기 서열을 통틀어 말한다. 인간 유전체는 44개(22쌍)의 상염색체와 2개(1쌍)의 성염색체 (X, Y), 그리고 미토콘드리아 DNA에 나뉘어 유전된다. DNA(디옥시리보스핵산)는 인산이나 당뿐 아니라, A(아데닌), T(티민), G(구아닌), C(사이토신)의 염기로 이루어져 있는 이중 나선형의 물질이며, 이러한 네 가지 염기 배열에 의해 유전 정보가 암호화된다. 사람의 유전자 약 2만 개는 대략 30억 쌍의 염기대의 DNA에 기록되어 있다.
DNA의 염기 배열이 어느 유전자에 대응하는지를 조사함으로써 사람의 모든 유전자를 해독하는 것을 인간 유전체 계획라고 부른다. 인간 유전체 계획은 미국을 중심으로 일본이나 유럽 등에서 빠른 성과를 목표로 연구를 하고 있는 국제적인 프로젝트였다.
6. 게놈 분석
게놈 분석은 배수체 종의 게놈 구성을 염색체 수준에서 밝히는 방법이다.[60] 배수체 종과 그 양친 종을 교배하여 잡종 제1대의 감수 분열 시 염색체 대합을 관찰하고 게놈 상동 정도를 계산한다. 주로 식물에서 생명 유지의 기본 단위인 게놈이 하나의 세포에 3세트 이상 존재하는 다배수성이 관찰될 수 있다. 기하라 히토시(木原均)에 의한 게놈설의 근원이 된 빵 밀에서는 3종의 게놈이 2세트씩 합쳐진 6배체임을 게놈 분석으로 밝혔다.
7. 게놈 서열 분석 및 기능 매핑
'''게놈 서열'''은 개체 또는 종의 모든 염색체를 구성하는 모든 뉴클레오타이드(DNA 게놈의 경우 A, C, G 및 T)의 완전한 목록이다. 종 내에서 뉴클레오타이드의 대다수는 개체 간에 동일하지만, 유전적 다양성을 이해하려면 여러 개체를 시퀀싱해야 한다.
1976년, 겐트 대학교(벨기에)의 월터 파이어스는 바이러스 RNA 게놈 (박테리오파지 MS2)의 완전한 뉴클레오타이드 서열을 최초로 확립했다. 이듬해 프레드 생어는 최초의 DNA 게놈 서열인 파지 Φ-X174 (5386개의 염기쌍)를 완성했다.[17] 시퀀싱된 최초의 세균 게놈은 1995년 유전체 연구소의 팀에 의해 완성된 인플루엔자균의 게놈이었다. 몇 달 후, 최초의 진핵생물 게놈이 완성되었으며, 1980년대 중반에 시작된 유럽 주도의 노력의 결과로 출아 효모 ''사카로마이세스 세레비시에''의 16개 염색체의 서열이 발표되었다. 고세균의 첫 번째 게놈 서열인 ''메탄로부스 야나시이''는 1996년에 유전체 연구소에 의해 다시 완성되었다.
새로운 기술의 개발로 게놈 시퀀싱이 훨씬 저렴하고 쉬워졌으며, 완전한 게놈 서열의 수가 빠르게 증가하고 있다. 미국 국립 보건원은 유전체 정보의 여러 포괄적인 데이터베이스 중 하나를 유지한다.[18] 수천 개의 완료된 게놈 시퀀싱 프로젝트에는 쌀, 생쥐, 식물 ''애기장대'', 복어 및 세균 대장균의 게놈이 포함된다. 2013년 12월, 과학자들은 멸종된 인류의 일종인 네안데르탈인의 전체 ''게놈''을 처음으로 시퀀싱했다. 게놈은 시베리아 동굴에서 발견된 130,000년 된 네안데르탈인의 발가락 뼈에서 추출되었다.[19][20]
대량 병렬 시퀀싱과 같은 새로운 시퀀싱 기술은 만테이아 예측 의학이 개척한 것처럼 개인 게놈 시퀀싱을 진단 도구로 사용할 수 있는 가능성도 열었다. 그러한 목표를 향한 주요 단계는 2007년 DNA 구조의 공동 발견자 중 한 명인 제임스 왓슨의 전체 게놈 완성이었다.[21]
게놈 서열은 게놈의 모든 DNA 염기의 순서를 나열하는 반면, 게놈 지도는 랜드마크를 식별한다. 게놈 지도는 게놈 서열보다 덜 상세하며 게놈을 탐색하는 데 도움이 된다. 인간 게놈 프로젝트는 지도를 작성하고 시퀀싱하기 위해 조직되었다. 장 바이센바흐와 그의 제노스코프 팀은 상세한 게놈 지도를 발표했는데, 이것이 프로젝트의 근본적인 단계였다.[22][23]
참조 게놈 서열과 지도는 오류를 제거하고 높은 대립형질 복잡성 영역을 명확히 하면서 계속 업데이트된다.[24] 유전체 매핑 비용이 감소함에 따라 계보학 사이트에서 서비스를 제공할 수 있게 되었으며,[25] 규모의 경제와 시민 과학의 예인 뉴욕 게놈 센터의 DNA.LAND와 같은 크라우드 소싱 과학적 노력에 게놈을 제출할 수 있다.[26][27]
1990년대부터 게놈의 전체 염기 서열을 해독하는 것을 목표로 하는 게놈 프로젝트가 다양한 생물종을 대상으로 실시되고 있다. 전체 게놈 정보의 해명은 망라적 해석에 의한 생명 현상의 이해의 기반이 된다. 그러나 염기 서열을 읽는 것만으로는 생명 현상을 이해하기에 불충분하며, 개별 염기 서열의 기능과 역할, 발현된 RNA나 단백질의 거동 등을 폭넓게 검토해야 한다.
현재는 게놈을 연구하는 게노믹스를 시작으로, 오믹스(-omics = -ome + -ics)라고 불리는, 망라적 해석을 특징으로 하는 연구 분야가 활발해지고 있다. 게놈 DNA로부터의 전사체(트랜스크립트)의 총합으로서 전사체(Transcriptome), 존재하는 단백질(프로테인)의 총체로서 프로테옴(Proteome)이 있다. 또한 대사 산물(Metabolite)의 총합으로서 메타볼롬(Metabolome)이라는 개념도 있다. 특히 프로테옴을 다루는 분야를 프로테오믹스라고 한다. 이러한 게놈 해독 이후의 연구를 통칭하여 포스트 게놈이라고 부르기도 한다.
오믹스에서는 데이터를 효율적으로 망라적으로 수집하고, 컴퓨터로 해석하는 것이 필수적이다. 이에 대응하는 바이오인포매틱스라는 분야의 연구도 활발하다.
8. 게놈 합성
시험관 내에서 올리고뉴클레오티드(소규모 DNA 단편)를 화학적으로 합성하는 기술은 1950년대부터 존재해왔다.
2010년 5월, 벤터 연구소는 마이코플라스마 미코이데스라는 세균의 게놈을 인공 합성하여 다른 종류의 세균인 마이코플라스마 카프리콜룸에 이식하여 이식된 세포를 제어하는 데 성공했다.[65] 합성 게놈으로 세포 제어에 성공한 것은 세계 최초이다. 이는 게놈을 인공적으로 설계·합성하여 세포에 이식하고, 세포가 기능하는 것을 실증한 것으로, 합성 생물학의 발전에 기여하는 성과가 되었다. 세포막과 세포 내 기관은 인공 합성하지 않았기 때문에 완전한 "인공 생명"은 아니지만, 이러한 연구가 더욱 진전된다면 합성 생명의 탄생에 도달하게 될 것이다.
9. 게놈 크기
게놈 크기는 반수체 게놈의 한 사본에 있는 DNA 염기쌍의 총 개수를 의미하며, 생물 종에 따라 매우 다양하다. 무척추동물은 일반적으로 전이성 요소의 수가 적어 작은 게놈을 갖는다. 어류와 양서류는 중간 크기의 게놈을 가지며, 조류는 비교적 작은 게놈을 갖는다. 조류는 비행으로 전환하는 과정에서 게놈의 상당 부분을 잃었다는 주장이 있으며, DNA 메틸화가 게놈 확장을 가능하게 했다고 알려져 있다.[43]
사람의 핵 게놈은 약 31억 개의 뉴클레오타이드 DNA로 구성되며, 24개의 선형 분자로 나뉘어 각각 다른 염색체에 포함되어 있다. 이 중 가장 짧은 것은 45,000,000 뉴클레오타이드, 가장 긴 것은 248,000,000 뉴클레오타이드이다.[52] 원핵생물이나 하등 진핵생물에서는 형태적 복잡성과 게놈 크기 사이에 뚜렷한 상관관계가 없으며,[37][53] 게놈 크기는 주로 반복 DNA 요소의 확장과 수축에 영향을 받는다.
게놈은 매우 복잡하므로, 최소한의 유전자 수로 생명체가 생존할 수 있는지 연구하는 전략이 있다. 단세포 및 다세포 유기체의 최소 게놈에 대한 실험 연구가 ''생체 내''와 ''생체 외''에서 진행되고 있다.[54][55] 다세포 진핵생물 게놈에서 특히 큰 차이가 나타나는데, 이는 전이성 요소의 다양성 때문이다. 전이성 요소는 염색체 내에서 자체 복사본을 만들어 진화하며,[43] 진핵생물 게놈은 이러한 요소의 수천 개 복사본을 포함하는 경우가 많다.
사람 게놈은 약 30억 염기쌍으로 구성되어 있으며, 체세포는 2배체이므로 약 60억 염기쌍의 DNA를 핵 내에 가지고 있다. 분열 효모는 3개의 염색체 DNA 위에, 대장균이나 미토콘드리아는 하나의 환상 DNA 위에 유전 정보가 저장된다. 인간 면역 결핍 바이러스(HIV)와 같은 레트로바이러스는 RNA를 유전 물질로 사용한다.
유전자 수와 게놈 크기가 반드시 비례하는 것은 아니다. 양서류나 백합의 게놈 크기는 크지만, 곤충이나 참복은 작다. 이는 인트론이나 유전자 간 정크 DNA의 길이가 다르기 때문이다. 예를 들어 물벼룩은 사람보다 게놈 크기는 작지만 유전자 수는 더 많다. 원핵생물은 진핵생물보다 게놈에서 코딩 영역이 차지하는 비율이 높아 유전자가 빽빽하게 들어있다. 게놈 크기가 커지면 더 많은 정보를 저장할 수 있지만, 복제에 더 많은 에너지가 필요하여 생존에 불리하게 작용할 수 있으므로 일정 크기 이상 커지면 자연 선택 압력이 작용한다. 일반적으로 진핵생물은 원핵생물보다 복잡하고 필요한 정보량이 많으며, 스플라이싱을 통해 인트론이 제거되고 엑손의 코딩 영역이 번역되므로 게놈 크기가 더 큰 경향이 있다.
9. 1. 게놈 크기의 예시
(bp: 염기수)아보카도 선블로치 바이로이드