맨위로가기

Pfam

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

Pfam은 단백질 패밀리와 도메인에 대한 분류를 제공하는 데이터베이스로, 단백질 연구, 구조 결정, 서열 정리, 진화 연구 등 다양한 분야에서 활용된다. InterPro 웹사이트를 통해 단백질 또는 DNA 서열을 검색할 수 있으며, 프로파일 은닉 마르코프 모델을 사용하여 원격 상동성을 감지한다. Pfam은 또한 iPfam과 같은 다른 리소스 생성에도 사용되었다. Pfam은 패밀리, 도메인, 반복, 모티프 등 다양한 엔트리를 제공하며, 위키백과 커뮤니티의 참여를 통해 데이터베이스 관리를 효율적으로 수행한다. 1995년에 설립되었으며, 지속적인 업데이트와 재구성을 거쳐 현재는 InterPro에 통합되었다.

더 읽어볼만한 페이지

  • 생물학 데이터베이스 - 피시베이스
    피시베이스는 다니엘 파울리가 고안하고 라이너 프로제와 협력하여 개발, 웹에서 출시된 전 세계 어류 정보를 제공하는 가장 크고 널리 사용되는 온라인 데이터베이스로, 유생 단계 정보는 LarvalBase, 경골어류 외 수생 생물 정보는 SeaLifeBase를 통해 보완되며 어류 연구, 수산 자원 관리, 교육 등 다양한 분야에서 활용된다.
  • 생물학 데이터베이스 - ChEMBL
    ChEMBL은 약물 표적에 대한 화합물 생체 활성 데이터베이스로서, 신약 개발 과정의 선도 물질 식별을 위한 화합물 스크리닝 라이브러리 구축에 활용되며, 웹 인터페이스나 파일 전송 프로토콜을 통해 접근 가능하다.
  • 생물정보학 - Rosetta@home
    Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다.
  • 생물정보학 - 발현체학
Pfam
개요
설명Pfam 데이터베이스는 단백질 도메인의 정렬과 숨겨진 마르코프 모델을 제공한다.
범위단백질 패밀리
대상모든 생물
센터EBI
PMID19920124
포맷스톡홀름 포맷
URLpfam.xfam.org
다운로드FTP 1
FTP 2
라이선스GNU Lesser General Public License
버전34.0

2. 목적 및 활용

Pfam 데이터베이스는 단백질 패밀리와 도메인에 대한 완전하고 정확한 분류를 제공하는 것을 목표로 한다.[5] 알려진 단백질 패밀리에 대한 정보를 반자동으로 큐레이션하여 게놈 주석의 효율성을 향상시키기 위해 만들어졌다.[6] Pfam의 단백질 패밀리 분류는 단백질을 광범위하게 다루고 명명 규칙도 알기 쉬워 생물학자들에게 널리 채택되었다.[7]

InterPro 웹사이트를 통해 Pfam 데이터베이스 검색을 제공하며, DNA 서열의 6개 프레임 번역을 통해 검색 기능을 지원한다.[12] 프로파일 은닉 마르코프 모델을 사용하여 보존된 서열 위치에 가중치를 부여하여 원격 상동성 감지 능력을 향상시켰다.[13] iPfam과 같은 다른 리소스 생성에도 활용되어 단백질 내 및 단백질 간 도메인-도메인 상호 작용을 분석한다.[14]

2. 1. 활용 분야

Pfam은 특정 단백질을 연구하는 실험 생물학자, 구조 결정의 새로운 표적을 식별하는 구조 생물학자, 서열을 정리하는 전산 생물학자, 단백질의 기원을 추적하는 진화 생물학자들이 사용한다.[8] 인간 및 초파리와 같은 초기 게놈 프로젝트는 게놈 데이터의 기능적 주석을 위해 Pfam을 광범위하게 사용했다.[9][10][11]

3. 특징

Pfam의 각 패밀리에 대해 다음과 같은 정보를 제공하고 작업을 수행할 수 있다.


  • 패밀리에 대한 설명을 볼 수 있다.
  • 다중 정렬을 볼 수 있다.
  • 단백질 도메인 아키텍처를 볼 수 있다.
  • 종 분포를 검토할 수 있다.
  • 다른 데이터베이스로 연결되는 링크를 따라갈 수 있다.
  • 알려진 단백질 구조를 볼 수 있다.


Pfam 패밀리 설명은 위키백과를 이용하여 일반 대중이 관리한다.[9]

2016년 릴리스 29.0 현재, 유니프로트KB에 있는 단백질 서열의 76.1%가 하나 이상의 Pfam 도메인과 일치했다.

3. 1. 엔트리 유형

패밀리(Family)는 구성원이 관련되어 있음을 나타내는 기본 클래스이다. 도메인(Domain)은 여러 단백질 컨텍스트에서 발견될 수 있는 자율적인 구조적 단위 또는 재사용 가능한 서열 단위로 정의된다. 반복(Repeat)은 일반적으로 단독으로는 안정적이지 않지만, 도메인 또는 확장된 구조를 형성하기 위해 직렬 반복을 형성하는 경우가 많다. 모티프는 일반적으로 구형 도메인 외부에서 발견되는 더 짧은 서열 단위이다.[9]

3. 2. 커뮤니티 큐레이션

Pfam 패밀리에 대한 설명은 위키백과를 이용하여 일반 대중이 관리한다.[9] 데이터베이스 관리의 효율성을 높이기 위해, 개발자들은 릴리스 26.0에서 Pfam 도메인의 기능적 주석을 위키백과 커뮤니티에 개방하였다.[15] 이미 위키백과 항목이 있는 경우 Pfam 페이지에 연결되었으며, 없는 경우 커뮤니티가 항목을 만들어 큐레이터에게 알리고 연결되도록 하였다.

커뮤니티 참여를 통해 이러한 패밀리의 주석 수준이 크게 향상될 것으로 예상되지만, 일부는 위키백과에 포함될 만큼 충분히 주목할 만하지 않아 원래 Pfam 설명을 유지하게 된다. 아연 손가락 기사와 같이 여러 패밀리를 다루는 위키백과 기사도 있다. InterPro 및 Pfam 데이터를 기반으로 기사를 생성하는 자동화된 절차도 구현되어 정보, 데이터베이스 링크 및 사용 가능한 이미지를 페이지에 채운 다음, 기사가 큐레이터의 검토를 거치면 샌드박스에서 정식 위키백과로 이동된다. 기사 훼손 행위를 방지하기 위해 각 위키백과 수정 사항은 Pfam 웹사이트에 표시되기 전에 큐레이터의 검토를 거친다. 훼손 행위의 거의 모든 사례는 큐레이터에게 도달하기 전에 커뮤니티에서 수정되었다.[15]

4. 신규 엔트리 생성

새로운 패밀리는 주로 PDB에서 비롯되며, Pfam에 일치하는 항목이 없는 유전자를 찾기 위해 전체 프로테옴을 분석하여 생성된다.[15]

각 패밀리에 대해 대표적인 서열의 하위 집합이 고품질 시드 정렬로 정렬된다. 시드 정렬에 사용되는 서열은 주로 pfamseq (참조 프로테옴의 중복되지 않는 데이터베이스)에서 가져오며, UniprotKB에서 일부 보충된다. 이 시드 정렬은 HMMER를 사용하여 프로파일 은닉 마르코프 모델을 구축하는 데 사용된다. 그런 다음 이 HMM은 서열 데이터베이스에 대해 검색되고, 정밀 조사된 수집 임계값에 도달하는 모든 일치 항목은 단백질 패밀리의 구성원으로 분류된다.

각 패밀리에 대해 수동으로 큐레이션된 수집 임계값이 할당되어, 오탐을 제외하면서 패밀리에 대한 실제 일치 항목 수를 최대화한다. Pfam이 업데이트될 때마다, 새로운 패밀리와 기존 패밀리 간의 중첩을 방지하기 위해 수집 임계값이 재평가된다.[15]

5. 기능 미상 도메인 (DUF)

기능 미상 도메인(DUF, Domains of unknown function)은 Pfam 데이터베이스에서 증가하는 부분을 차지한다. 이들 계열은 종(種) 간에 보존되는 것으로 밝혀졌지만, 기능이 알려지지 않아 그렇게 명명되었다. 새로 추가되는 각 DUF는 추가 순서대로 이름이 지정된다. 이러한 항목의 이름은 기능이 확인됨에 따라 업데이트된다. 일반적으로 DUF에 속하는 단백질 중 적어도 하나의 기능이 결정되면 전체 DUF의 기능이 업데이트되고 해당 계열의 이름이 변경된다. 일부 명명된 계열은 여전히 기능 미상 도메인이며, 예를 들어 YbbR와 같이 대표적인 단백질의 이름을 따서 명명된다. 기능이 알려지지 않은 보존된 서열이 서열 데이터에서 계속 확인됨에 따라 DUF의 수는 계속 증가할 것으로 예상된다. DUF는 결국 알려진 기능을 가진 계열보다 더 많아질 것으로 예상된다.[15]

6. 클랜 (Clan)

클랜은 구조적, 기능적, 서열 및 HMM 비교를 통해 확인된 단일 진화적 기원을 공유하는 관련 패밀리의 그룹이다.[5] 2005년 Pfam 데이터베이스에 처음 도입되었다.[5] 시간이 지남에 따라 서열 및 잔기 범위가 모두 증가했으며, 패밀리가 커짐에 따라 더 많은 진화적 관계가 발견되어 패밀리를 클랜으로 그룹화할 수 있게 되었다.[8] 2019년(버전 32.0)에는 단백질 패밀리의 약 4분의 3이 클랜에 속했다.[16]

Pfam 큐레이터는 클랜 관계를 식별하기 위해 SCOOP(Simple Comparison Of Outputs Program) 뿐만 아니라 ECOD 데이터베이스의 정보도 사용한다.[16] ECOD는 구조가 알려진 단백질 패밀리의 반자동 계층적 데이터베이스로, Pfam 항목에 쉽게 매핑되는 패밀리와 Pfam 클랜에 일반적으로 매핑되는 상동성 수준을 가지고 있다.

7. 역사

Pfam은 1995년 에릭 손나머(Erik Sonnhammer), 숀 에디(Sean Eddy), 리처드 M. 더빈(Richard M. Durbin)이 다세포 동물의 단백질 코딩 유전자에 주석을 달 수 있는, 흔히 발견되는 단백질 도메인의 모음으로 설립했다.[6] 초기 주요 목표 중 하나는 예쁜꼬마선충 유전체 주석을 돕는 것이었다.[6] 이 프로젝트는 사이러스 초티아(Cyrus Chothia)의 '분자 생물학자를 위한 1000개의 패밀리'에서 단백질 패밀리가 약 1500개이며, 대부분의 단백질이 이 중 1000개에 속한다는 주장에 의해 부분적으로 추진되었다.[5]

Pfam이 처음 설립되었을 때 다른 데이터베이스와 주요 차이점은 항목에 대해 두 가지 정렬 유형, 즉 수동으로 확인된 더 작은 시드 정렬과 시드 정렬에서 구축된 프로파일 은닉 마르코프 모델에 시퀀스를 정렬하여 구축된 전체 정렬을 사용한다는 점이었다. HMMER2보다 약 100배 빠르고 더 민감한 HMMER3를 도입한 버전 24.0에서 데이터베이스 업데이트 속도가 더욱 개선되었다.[8]

Pfam-A 항목이 알려진 모든 단백질을 포괄하지 않기 때문에, 자동으로 생성된 보충 자료인 Pfam-B가 제공되었다. Pfam-B는 릴리스 28.0부터 중단되었다가, 새로운 클러스터링 알고리즘인 MMSeqs2를 사용하여 릴리스 33.1에서 다시 도입되었다.

Pfam은 원래 중복성을 유지하기 위해 전 세계 세 곳의 미러 사이트에서 호스팅되었다. 그러나 2012년과 2014년 사이에 Pfam 리소스는 유럽 생물 정보학 연구소(EMBL-EBI)로 이전되었다.

2014년부터 2016년까지 Pfam은 큐레이션에 관련된 수동 노력을 줄이고 더 빈번한 업데이트를 허용하기 위해 상당한 재구성을 거쳤다. 2022년경 Pfam은 유럽 생물 정보학 연구소에서 InterPro에 통합되었다.

8. 한계점

이들 서열 정보를 이용하는 경우에는 서열의 유사도(sequence homology)가 낮지만 기능이나 구조는 유사한 다른 단백질 서열들을 찾는데 한계가 있다. 이들을 위해 remote homology search를 하는 방법들이 활발히 연구되고 있다.

9. 관련 항목


  • 생물학적 데이터베이스 목록
  • Rfam (보존된 비암호 RNA 패밀리 데이터베이스)
  • TreeFam (동물 유전자 계통수 데이터베이스)
  • TrEMBL (단백질 서열의 자동 주석을 수행하는 데이터베이스)
  • InterPro (단백질 도메인과 단백질 패밀리 데이터베이스 통합)
  • [http://dunbrack2.fccc.edu/protcid/pdbfam PDBfam] (단백질 데이터 뱅크(PDB)의 서열에 Pfam 도메인의 철저한 할당)[50][51]

참조

[1] 논문 The Pfam protein families database
[2] 논문 Pfam: clans, web tools and services null 2006-01
[3] 논문 The Pfam protein families database
[4] 웹사이트 Xfam Blog https://xfam.wordpre[...] 2024-09-10
[5] 논문 Pfam 10 years on: 10 000 families and still growing
[6] 논문 Pfam: A Comprehensive Database of Protein Domain Families Based on Seed Alignments
[7] 논문 Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB
[8] 논문 The Pfam protein families database
[9] 논문 The Pfam protein families database
[10] 논문 The genome sequence of Drosophila melanogaster
[11] 논문 Initial sequencing and analysis of the human genome
[12] 논문 Pfam: the protein families database
[13] 논문 Pfam: multiple sequence alignments and HMM-profiles of protein domains
[14] 논문 iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions
[15] 논문 The Pfam protein families database
[16] 논문
[36] 논문 The genome sequence of Drosophila melanogaster
[37] 논문 Initial sequencing and analysis of the human genome
[38] 논문 Pfam: the protein families database
[39] 논문 Pfam: multiple sequence alignments and HMM-profiles of protein domains
[40] 논문 iPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions
[41] 논문 The Pfam protein families database
[42] 논문 The Pfam protein families database in 2019 2019-01-08
[43] 웹사이트 Evolutionary Classification of Protein Domains http://prodata.swmed[...] 2019-05-18
[44] 논문 One thousand families for the molecular biologist
[45] 논문 ADDA: a domain database with global coverage of the protein universe 2005-01
[46] 웹사이트 Pfam 28.0 release notes ftp://ftp.ebi.ac.uk/[...] 2015-06-30
[47] 웹사이트 A new Pfam-B is released https://xfam.wordpre[...] 2020-06-30
[48] 웹사이트 Moving to xfam.org https://xfam.wordpre[...] 2016-11-25
[49] 논문 The Pfam protein families database: towards a more sustainable future
[50] 웹사이트 PDBfam http://dunbrack2.fcc[...] Fox Chase Cancer Center 2013-03-09
[51] 논문 Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com