PubChem
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
PubChem은 2004년 미국 국립보건원(NIH)의 분자 라이브러리 프로그램의 일환으로 출시된 화학 물질 데이터베이스이다. 2020년에는 2억 9,300만 개 이상의 물질 설명, 1억 1,100만 개 고유 화학 구조, 125만 건의 생물학적 검사 실험에서 얻은 2억 7,100만 개의 생물 활성 데이터를 포함하고 있다. PubChem은 화합물, 물질, 바이오에세이의 세 가지 주요 데이터베이스로 구성되어 있으며, 화학 구조, 이름 조각, 화학식, 분자량 등 다양한 속성을 기반으로 검색할 수 있다.
더 읽어볼만한 페이지
- 생물정보학 데이터베이스 - 피시베이스
피시베이스는 다니엘 파울리가 고안하고 라이너 프로제와 협력하여 개발, 웹에서 출시된 전 세계 어류 정보를 제공하는 가장 크고 널리 사용되는 온라인 데이터베이스로, 유생 단계 정보는 LarvalBase, 경골어류 외 수생 생물 정보는 SeaLifeBase를 통해 보완되며 어류 연구, 수산 자원 관리, 교육 등 다양한 분야에서 활용된다. - 생물정보학 데이터베이스 - 질병 데이터베이스
질병 데이터베이스는 질병, 약물, 증상 등 8,500여 개의 의학 관련 항목을 포함하며, 항목 간 관계 설정, 외부 웹 리소스 연결, 통합 의학 언어 시스템 매핑을 통해 구성된다. - 화학 데이터베이스 - ChEMBL
ChEMBL은 약물 표적에 대한 화합물 생체 활성 데이터베이스로서, 신약 개발 과정의 선도 물질 식별을 위한 화합물 스크리닝 라이브러리 구축에 활용되며, 웹 인터페이스나 파일 전송 프로토콜을 통해 접근 가능하다. - 화학 데이터베이스 - CAS 등록번호
CAS 등록번호는 화학 물질을 식별하기 위해 화학 초록 서비스에서 개발한 고유 식별 번호이며, 하이픈으로 구분된 세 부분과 검증 숫자로 구성된다. - 생물학 데이터베이스 - 피시베이스
피시베이스는 다니엘 파울리가 고안하고 라이너 프로제와 협력하여 개발, 웹에서 출시된 전 세계 어류 정보를 제공하는 가장 크고 널리 사용되는 온라인 데이터베이스로, 유생 단계 정보는 LarvalBase, 경골어류 외 수생 생물 정보는 SeaLifeBase를 통해 보완되며 어류 연구, 수산 자원 관리, 교육 등 다양한 분야에서 활용된다. - 생물학 데이터베이스 - ChEMBL
ChEMBL은 약물 표적에 대한 화합물 생체 활성 데이터베이스로서, 신약 개발 과정의 선도 물질 식별을 위한 화합물 스크리닝 라이브러리 구축에 활용되며, 웹 인터페이스나 파일 전송 프로토콜을 통해 접근 가능하다.
PubChem | |
---|---|
일반 정보 | |
명칭 | PubChem |
설명 | 화학 물질 및 생물학적 분석 데이터베이스 |
범위 | 화학 물질 생물학적 분석 |
대상 | 인간 및 기타 동물 |
센터 | NCBI (국립 생물 정보 센터) |
제공자 | NCBI |
URL | PubChem 공식 웹사이트 |
다운로드 | FTP |
웹 서비스 | PUG-View |
라이선스 | 퍼블릭 도메인 |
PMID | 15879180 |
기술 정보 | |
기타 정보 | |
출처 정보 | PubChem 출처 정보 |
2. 역사
2004년 미국 국립보건원(NIH)의 분자 라이브러리 프로그램(Molecular Libraries Program, MLP)의 일환으로 펍켐(PubChem)이 출시되었다.[3] 2015년 11월 기준으로 펍켐은 1억 5천만 개 이상의 물질 설명, 6천만 개 고유 화학 구조, 2억 2,500만 개의 생물학적 활성 테스트 결과를 포함하였다. 이 결과는 2백만 개 이상의 저분자 화합물에 대해 수행된 100만 개 이상의 검사 실험에서 도출되었으며, 5,000개 이상의 유전자에 해당하는 거의 10,000개의 고유 단백질 표적 서열을 포괄한다. 또한, 15,000개 이상의 유전자를 표적으로 하는 RNA 간섭(RNAi) 스크리닝 검사도 포함하고 있다.[3]
PubChem은 동적으로 성장하는 세 가지 주요 데이터베이스로 구성되어 있다. 2020년 11월 5일 기준(BioAssay의 수는 변경되지 않음)으로 각 데이터베이스의 현황은 다음과 같다.
2018년 8월 기준으로 펍켐은 40개국 629개의 데이터 소스에서 제공된 2억 4,730만 개의 물질 설명, 9,650만 개의 고유 화학 구조를 포함하고 있다. 또한, 125만 건의 생물학적 검사에서 얻은 2억 3,700만 건의 생물 활성 테스트 결과를 포함하며, 10,000개 이상의 표적 단백질 서열을 포괄한다.[5]
2020년 기준으로 100개 이상의 새로운 소스에서 데이터를 통합하여 펍켐은 2억 9,300만 개 이상의 물질 설명, 1억 1,100만 개 고유 화학 구조 및 120만 건의 생물학적 검사 실험에서 얻은 2억 7,100만 개의 생물 활성 데이터를 포함하고 있다.[4]
3. 데이터베이스
데이터베이스 설명 건수 화합물 순수하고 특징이 있는 화학 화합물 1억 1,100만[4] (2017년 9,400만에서 증가[5])[6] 물질 혼합물, 추출물, 착물 및 특징이 없는 물질 2억 9,300만 (2017년 2억 3,600만, 2014년 9월 1억 6,300만에서 증가[7][8]) BioAssay 생물학적 활성 결과 125만[9] (2014년 9월 6,000건에서 증가[10]) 고속 처리 스크리닝 프로그램으로 수백만 개의 값을 포함
3. 1. 화합물 (Compound)
2011년 1월 7일 기준으로 3,100만 건의 순수 화합물 및 특징이 있는 화합물 정보를 제공하였다.[15] 2020년 기준으로는 1억 1,100만 건의 항목을 포함하고 있다. 펍켐은 특히 유사구조참조(Find Similar Structures) 기능을 지원하고 있다.
3. 2. 물질 (Substance)
2011년 1월 7일 기준으로, 혼합물, 추출물, 배위 화합물을 포함하여 75,000,000건의 항목이 수록되어 있다.[16]
3. 3. 바이오에세이 (BioAssay)
화학 물질의 생물학적 활성에 대한 실험 결과를 제공한다. 고속 처리 스크리닝(high-throughput screening)을 통해 얻은 수백만 건의 데이터를 포함한다. 2011년 1월 7일 기준 수백만 건의 생리 활성 결과 값을 포함하고 있다.[17]
4. 검색 기능
데이터베이스 검색은 화학 구조, 이름 조각, 화학식, 분자량, XLogP, 수소 결합 공여체 및 수용체 수를 포함한 광범위한 속성에 대해 가능하다.
PubChem은 모든 일반적인 화학 파일 형식의 가져오기 및 내보내기를 허용하여 구조와 조각을 검색할 수 있는 단분자 편집기를 자체적으로 갖추고 있으며, SMILES/SMARTS 및 InChI를 지원한다.
각 검색 결과는 동의어, 화학적 특성, SMILES 및 InChI 문자열을 포함한 화학 구조, 생체 활성, 구조적으로 관련된 화합물 및 PubMed과 같은 다른 NCBI 데이터베이스에 대한 링크에 대한 정보를 제공한다.
텍스트 검색 양식에서 데이터베이스 필드는 검색어에 필드 이름을 대괄호로 추가하여 검색할 수 있다. 숫자 범위는 콜론으로 구분된 두 개의 숫자로 표시된다. 검색어와 필드 이름은 대소 문자를 구분하지 않는다. 괄호와 논리 연산자 AND, OR, NOT을 사용할 수 있다. 연산자가 사용되지 않으면 AND가 가정된다.
예시(리핀스키의 5의 규칙):
0:500[mw] 0:5[hbdc] 0:10[hbac] -5:5[logp]
펍켐 CID(PubChem CID)는 빠르고 방대한 자료량에서뿐만 아니라 이러한 자료들의 체계적이고 과학적인 구축에서 수많은 기관, 전문가들이 참여하고 이용하는 데이터베이스의 근간을 이루는 고유식별번호이다.[18]
5. 데이터베이스 필드
식별 번호 | ||
---|---|---|
• | 현재 데이터베이스의 식별 번호 | [UID] |
• | 물질 식별 번호 | [SID] |
• | 화합물 식별 번호 | [CID] |
• | 생물학적 분석 식별 번호 | [BAID], [AID] |
일반 | ||
• | 모든 데이터베이스 필드 | [ALL] |
• | 코멘트 | [CMT] |
• | 등록 날짜 | [DDAT], [DEPDAT] |
• | 등록자의 외부 ID | [SRID], [SRCID] |
• | 출처 이름 | [SRC], [SRCNAM], [SRCNAME] |
• | 출처 공개 날짜 | [SRD], [SRDAT], [RLSDAT] |
• | 의학 주제 표제어 (MeSH) 용어 | [MSHT], [MESHT] |
• | MeSH 트리 노드 | [MSHN], [MESHTN] |
• | MeSH 약리학적 작용 | [PHMA], [PHARMA] |
물질 속성 | ||
• | 물질 동의어 | [SYNO] |
• | IUPAC 이름 | [UPAC], [IUPAC] |
• | 국제 화학 식별자 (InChI) | [INCHI] |
• | 분자량 | [MW], [MWT], [MOLWT] |
• | 화학 원소 | [ELMT], [EL] |
• | 비수소 원자 수 | [HAC], [HACNT] |
• | 동위원소 수 | [IAC], [IACNT] |
• | 총 형식 전하 | [TFC], [CHG], [CHRG] |
• | 키랄 원자 수 | [ACC], [ACCNT] |
• | 정의된 키랄 원자 수 | [ACDC], [ACDCNT] |
• | 정의되지 않은 키랄 원자 수 | [ACUC], [ACUCNT] |
• | 수소 결합 수용체 수 | [HBAC], [HBACNT] |
• | 수소 결합 공여체 수 | [HBDC], [HBDCNT] |
• | 호변 이성질체 수 | [TC], [TCNT], [TTMC] |
• | 회전 가능한 결합 수 | [RBC], [RBCNT] |
• | XLogP[11] | [XLGP], [LOGP] |
화합물 속성 | ||
• | 화합물 동의어 | [CSYN], [CSYNO] |
• | 구성 요소 수 | [CC], [CCNT] |
• | 공유 단위 (분자) 수 | [CUC], [CUCNT] |
• | 총 생물 활성 수 | [TAC] |
참조
[1]
논문
PUG-View: programmatic access to chemical annotations integrated in PubChem
2019-08-09
[2]
웹사이트
PubChem Source Information
https://pubchem.ncbi[...]
National Center for Biotechnology Information
[3]
논문
Literature information in PubChem: associations between PubChem records and scientific articles
2016
[4]
논문
PubChem in 2021: new data content and improved web interfaces
2021-01-08
[5]
웹사이트
Search Results for all compounds
https://www.ncbi.nlm[...]
2016-01-28
[6]
웹사이트
all[filt] - PubChem Compound Results
https://www.ncbi.nlm[...]
National Center for Biotechnology Information
2011-01-07
[7]
웹사이트
all[filt] - PubChem Substance Results
https://www.ncbi.nlm[...]
National Center for Biotechnology Information
2016-01-28
[8]
웹사이트
all[filt] - PubChem Substance Results
https://www.ncbi.nlm[...]
National Center for Biotechnology Information
2011-01-07
[9]
웹사이트
all[filt] - PubChem BioAssay Results
https://www.ncbi.nlm[...]
National Center for Biotechnology Information
2016-01-28
[10]
웹사이트
all[filt] - PubChem BioAssay Results
https://www.ncbi.nlm[...]
National Center for Biotechnology Information
2011-01-07
[11]
논문
Computation of octanol-water partition coefficients by guiding an additive model with knowledge
2007-11
[12]
뉴스
The American Chemical Society and NIH's PubChem
http://osc.universit[...]
[13]
웹사이트
PubChem Substance Data Source Information
http://pubchem.ncbi.[...]
[14]
웹인용
PubChem Source Information
http://pubchem.ncbi.[...]
National Center for Biotechnology Information
[15]
웹인용
all[filt] - PubChem Compound Results
http://www.ncbi.nlm.[...]
National Center for Biotechnology Information
2011-01-07
[16]
웹인용
all[filt] - PubChem Substance Results
http://www.ncbi.nlm.[...]
National Center for Biotechnology Information
2011-01-07
[17]
웹인용
all[filt] - PubChem BioAssay Results
http://www.ncbi.nlm.[...]
National Center for Biotechnology Information
2011-01-07
[18]
문서
PubChem-About PubChem
https://pubchemdocs.[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com