맨위로가기

GenBank

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

GenBank는 1982년 로스앨러모스 국립 연구소에서 시작된 공공용 유전자 서열 데이터베이스이다. 국립 보건원, 국립 과학 재단 등의 지원을 받아 설립되었으며, 유럽 생물 정보학 연구소의 EMBL 데이터 라이브러리, 일본 DNA 데이터 뱅크와 연계하여 염기 서열 데이터를 교환한다. GenBank는 웹 기반 양식이나 독립 실행형 프로그램을 통해 서열을 제출받아 품질 검사를 거친 후 공개하며, 기하급수적으로 데이터가 증가하여 2022년에는 2억 3900만 개 이상의 로커스와 1조 3900억 개의 염기쌍이 포함되어 있다. 데이터베이스는 공개되어 있어 오류가 존재하며, 이에 대한 품질 관리 노력이 진행되고 있다.

더 읽어볼만한 페이지

  • 미국 국립 보건원 - 미국 국립 의학 도서관
    미국 국립 의학 도서관은 세계 최대의 의학 도서관으로서, 다양한 생물학 데이터베이스와 정보 시스템을 운영하며 연구자들에게 중요한 자료를 제공하고 대중 교육과 비상 상황 대응에도 기여한다.
  • 미국 국립 보건원 - 국립보건원 (미국)
    국립보건원(NIH)은 미국의 의학 연구 기관으로, 질병 연구 및 지식 보급을 통해 인류 건강 증진에 기여하며, 20개의 연구소와 7개의 센터를 두고 다양한 연구 활동을 지원하고 100명이 넘는 노벨상 수상자를 배출하는 등 굵직한 연구 성과를 이루어냈다.
  • 생물학 데이터베이스 - 피시베이스
    피시베이스는 다니엘 파울리가 고안하고 라이너 프로제와 협력하여 개발, 웹에서 출시된 전 세계 어류 정보를 제공하는 가장 크고 널리 사용되는 온라인 데이터베이스로, 유생 단계 정보는 LarvalBase, 경골어류 외 수생 생물 정보는 SeaLifeBase를 통해 보완되며 어류 연구, 수산 자원 관리, 교육 등 다양한 분야에서 활용된다.
  • 생물학 데이터베이스 - ChEMBL
    ChEMBL은 약물 표적에 대한 화합물 생체 활성 데이터베이스로서, 신약 개발 과정의 선도 물질 식별을 위한 화합물 스크리닝 라이브러리 구축에 활용되며, 웹 인터페이스나 파일 전송 프로토콜을 통해 접근 가능하다.
  • 공식 웹사이트에 알 수 없는 변수를 사용한 문서 - 브루클린 미술관
    브루클린 미술관은 1823년 브루클린 견습생 도서관으로 시작하여 현재 약 50만 점의 소장품을 보유한 뉴욕 브루클린 소재의 미술관으로, 다양한 분야의 예술 작품을 전시하며 특히 아프리카 미술과 여성주의 미술에 대한 기여가 크다.
  • 공식 웹사이트에 알 수 없는 변수를 사용한 문서 - 광주지방기상청
    광주지방기상청은 광주광역시와 전라남도 지역의 기상 예보, 특보, 관측, 기후 정보 제공 등의 업무를 수행하는 기상청 소속 기관으로, 1949년 광주측후소로 설치되어 1992년 광주지방기상청으로 개편되었으며, 기획운영과, 예보과, 관측과, 기후서비스과와 전주기상지청, 목포기상대를 두고 있다.
GenBank

2. 역사

로스앨러모스 국립 연구소(LANL)의 이론 생물학 및 생물물리학 그룹의 월터 고아드 등은 1979년 로스앨러모스 시퀀스 데이터베이스를 설립했으며, 이는 1982년 공공용 GenBank의 창설로 이어졌다.[8] 자금은 국립 보건원, 국립 과학 재단, 미국 에너지부, 미국 국방부에서 제공되었다. LANL은 볼트, 베라넥, 뉴먼사와 GenBank에 대해 협력했으며, 1983년 말까지 2,000개 이상의 서열이 저장되었다.

1980년대 중반에 스탠퍼드 대학교의 인텔리제네틱스 바이오인포매틱스 회사가 LANL과 협력하여 GenBank 프로젝트를 관리했다.[9] 인터넷 초창기 바이오인포매틱스 커뮤니티 프로젝트 중 하나인 GenBank 프로젝트는 생명 과학자들 사이의 오픈 액세스 커뮤니케이션을 촉진하기 위해 BIOSCI/Bionet 뉴스 그룹을 시작했다. 1989년부터 1992년까지 GenBank 프로젝트는 새로 설립된 국립 생명공학 정보 센터(NCBI)로 이전되었다.[10]

3. 데이터 제출 및 이용

GenBank에는 원본 서열만 제출할 수 있으며, 직접 제출은 웹 기반 양식인 BankIt 또는 독립 실행형 제출 프로그램인 Sequin을 사용하여 이루어진다.[6][7] 서열 제출을 받으면 GenBank 직원이 데이터의 독창성을 검토하고 서열에 접근 번호를 할당하고 품질 보증 검사를 수행한다.[6][7] 그런 다음 제출물은 공개 데이터베이스에 공개되어 Entrez 또는 FTP를 통해 검색하거나 다운로드할 수 있다.[6][7]

발현 서열 태그 (EST), 서열 표지 부위 (STS), 유전체 조사 서열 (GSS) 및 고처리량 유전체 서열 (HTGS) 데이터의 대량 제출은 대규모 서열 분석 센터에서 가장 자주 제출하며, GenBank 직접 제출 그룹은 또한 완전한 미생물 유전체 서열을 처리한다.[6][7]

4. 데이터 성장



1982년부터 현재까지 GenBank의 염기 수는 약 18개월마다 두 배로 증가했다.[5][11] 2022년 6월 15일 현재 GenBank 릴리스 250.0에는 2억 3900만 개 이상의 로커스, 1조 3900억 개의 뉴클레오티드 염기쌍이 포함되어 있으며, 보고된 서열은 2억 3900만 개이다.[5]

GenBank 데이터베이스는 유럽 분자 생물학 연구소(EMBL; European Molecular Biology Laboratory) 산하의 유럽 생물 정보학 연구소(EBI; European Bioinformatics Institute)의 EMBL 데이터 라이브러리, 그리고 일본 DNA 데이터 뱅크(DDBJ; DNA Data Bank of Japan)와 연계하여 상호 염기 서열 데이터를 교환하고 있다. GenBank 및 공동 활동을 하고 있는 데이터베이스에는 전 세계 연구 기관에서 10만 종 이상의 생물에서 추출된 염기 서열이 등록되어 있다.

GenBank의 데이터는 기하급수적으로 증가하고 있으며, 2012년 6월에는 8,200만 개 이상의 염기 서열, 약 2,870억 개의 핵산 염기(뉴클레오티드) 데이터가 등록되었다. GenBank 데이터베이스에는 전 세계 각지의 연구 기관에서 직접 데이터가 등록될 뿐만 아니라, 대규모 서열 센터에서 대량의 데이터가 일괄 등록되기도 한다.

GenBank 상위 20개 유기체(릴리스 250)[5]
유기체염기쌍
Triticum aestivum215443744183
SARS-CoV-2165771825746
Hordeum vulgare subsp. vulgare101344340096
Mus musculus30614386913
Homo sapiens27834633853
Avena sativa21127939362
Escherichia coli15517830491
Klebsiella pneumoniae11144687122
Danio rerio10890148966
Bos taurus10650671156
Triticum turgidum subsp. durum9981529154
Zea mays7412263902
Avena insularis6924307246
Secale cereale6749247504
Rattus norvegicus6548854408
Aegilops longissima5920483689
Canis lupus familiaris5776499164
Aegilops sharonensis5272476906
Sus scrofa5179074907
Rhinatrema bivittatum5178626132



GenBank의 염기 서열 데이터에는 주석(애노테이션)이 붙어 있으며, 대응하는 아미노산(단백질) 서열 정보도 가지고 있다.

4. 1. 주요 유기체 데이터

5. 데이터 품질 문제 및 한계

GenBank는 공개 데이터베이스이므로, 초기 식별 오류 등으로 인해 특정 종으로 잘못 할당된 염기서열이 포함될 수 있다.[15] 예를 들어, 미토콘드리아 사이토크롬 c 산화효소 소단위 I 염기서열의 75%가 물고기 ''Nemipterus mesoprion''으로 잘못 할당되었다는 연구 결과가 발표되었다.[15]

국립생명공학정보센터(NCBI)의 기본 지역 정렬 검색 도구(BLAST)를 사용하여 GenBank를 검색할 수 있지만, 유형 균주의 동료 검토를 거친 염기서열과 비유형 균주의 염기서열이 부족하다는 한계가 있다. 임상 미생물학 저널에 발표된 논문에 따르면, GenBank를 EzTaxon-e[13]와 같은 품질 관리가 이루어지는 데이터베이스와 함께 사용할 경우, GenBank만 사용하는 것보다 더 정확한 분석 결과를 얻을 수 있다.[12]

여러 출판물에서 GenBank의 오류 염기서열을 지적하고 있으며,[16][17][18] 이러한 오류는 잘못된 종 할당, 키메라, 염기서열 오류 등을 포함한다. 사이토크롬 b 기록 품질에 대한 연구에서는, 식별된 오류 기록의 45%가 종 식별 재평가가 불가능한 표본과 관련되어 있다는 사실이 밝혀졌다.[19]

5. 1. 데이터 품질 관리 노력

참조

[1] 기타 download page http://hgdownload.so[...] NCBI
[2] 논문 GenBank 2022-01-07
[3] 논문 GenBank
[4] 논문 GenBank
[5] 웹사이트 GenBank release notes (Release 250) http://ftp.ncbi.nih.[...] NCBI 2022-06-15
[6] 웹사이트 How to submit data to GenBank https://www.ncbi.nlm[...] 2022-07-20
[7] 웹사이트 GenBank Submission Types https://www.ncbi.nlm[...] 2022-07-20
[8] 웹사이트 Walter Goad, GenBank founder, dies http://www.lanl.gov/[...] Los Alamos National Laboratory 2000-11-21
[9] 기타 LANL GenBank History http://www.bio.net/b[...]
[10] 논문 Recent changes in the GenBank On-line Service
[11] 논문 GenBank
[12] 논문 Evaluation of the GenBank, EzTaxon, and BIBI Services for Molecular Identification of Clinical Blood Culture Isolates That Were Unidentifiable or Misidentified by Conventional Methods 2012-05
[13] 기타 EzTaxon-e Database https://web.archive.[...]
[14] 기타 leBIBI V5 https://web.archive.[...]
[15] 논문 Genetic diversity and phylogenetic relationships of threadfin breams (Nemipterus spp.) from the Red Sea and eastern Mediterranean Sea https://cdnsciencepu[...] 2021
[16] 논문 ACDC, a global database of amphibian cytochrome-b sequences using reproducible curation for GenBank records null 2020-08-13
[17] 논문 Detection of Potential Problematic Cytb Gene Sequences of Fishes in GenBank null 2018-02-06
[18] 논문 A database of metazoan cytochrome c oxidase subunit I gene sequences derived from GenBank with CO-ARBitrator null 2018-08-07
[19] 논문 Bird genetic databases need improved curation and error reporting to NCBI null 2022-09-22
[20] 논문 GenBank
[21] 논문 GenBank



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com