생물정보학

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

생물정보학은 생명 현상을 이해하기 위해 컴퓨터 과학, 통계학, 수학적 모델링 등을 활용하여 생물학적 데이터를 분석하는 학문이다. 1950년대 앨런 튜링의 연구를 시작으로, DNA 서열 분석 기술의 발전과 함께 급성장했다. 유전체학, 단백체학, 다중체학 등 다양한 하위 분야를 포함하며, 서열 분석, 유전자 및 단백질 기능 예측, 비교 유전체학, 질병 유전체학, 암 유전체학, 유전자 발현 분석, 단백질 구조 예측, 네트워크 및 시스템 생물학 등 여러 연구 분야를 다룬다. 신약 개발, 질병 진단 및 예방, 농업 및 식품 산업, 환경 및 에너지 산업 등 광범위한 분야에 응용되며, KOBIC, NCBI, EBI 등의 기관과 Bioinformatics, BMC Bioinformatics 등의 저널을 통해 연구 결과가 공유된다. 다양한 오픈 소스 소프트웨어 도구와 데이터베이스가 활용되며, 생물정보학 워크플로우 관리 시스템을 통해 연구 효율성을 높인다.

생물정보학

📚 더 읽어볼만한 페이지

응용수학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
응용수학 - 수리사회학
수리사회학은 수학적 모델과 방법론을 활용하여 사회 현상을 분석하는 사회학 분야로, 사회 네트워크 분석을 통해 사회 구조를 규명하고 빅데이터 분석 및 예측에 기여하며 그 중요성이 인정받고 있다.
생물학에 관한 - 해부학
해부학은 생물체의 구조와 구성 요소를 연구하는 학문으로, 육안 해부학과 현미경 해부학으로 나뉘며, 인체 해부학 외에도 동물, 식물, 미술 해부학 등 다양한 분야가 존재한다.
생물학에 관한 - 죽음
죽음은 생명 활동의 영구적 종식으로 의학, 법, 사회, 종교, 심리, 생물학 등 다양한 관점에서 해석되며, 전통적인 심폐사 외에 뇌사도 죽음으로 인정되고, 개발도상국은 전염병, 선진국은 노화 관련 질병이 주요 사망 원인이며, 문화와 종교에 따라 다양한 이해와 관습이 존재하고, 수명 연장, 냉동 보존술, 존엄사, 안락사 등에 대한 논의가 이루어지고 있다.
생물정보학 - Rosetta@home
Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다.
생물정보학 - 발현체학

1. 개요
2. 역사적 배경
- 2.1. 생물정보학의 태동
- 2.2. 생물정보학의 발전과 한국
3. 관련 분야
4. 하위 분야
5. 주요 연구 분야
6. 응용 분야
7. 관련 기관 및 저널
8. 도구 및 데이터베이스

2. 역사적 배경

1950년대 영국의 앨런 튜링은 자연 발생적인 생물학적 패턴에 관한 논문을 발표했는데, 이는 생물정보학의 초기 연구로 평가받는다. 같은 시기 영국의 MRC 센터의 막스 퍼루츠와 존 켄드류는 헤모글로빈의 3차원 구조를 밝혀내면서, 컴퓨터를 이용해 모델을 만들기 시작했고, 이는 구조생물정보학의 시작으로 이어진다. 프랜시스 크릭과 시드니 브레너는 코돈이라는 용어를 만들며 DNA 나선 구조와 정보 복사라는 생물학 핵심 개념을 확립했다. 같은 MRC 센터의 프레데릭 생어는 인슐린 단백질 서열을 최초로 해독하여 서열 연구의 중요성을 알렸다. 이후 생어는 DNA 서열 해독법을 고안하여 대량의 DNA 정보 생산에 기여했다.

1960년대와 1970년대에는 미국의 여러 연구자들이 케임브리지 MRC 센터에서 생물리학, 생화학, 생물정보학을 배우고 돌아갔다. 이들은 미국에서 최초의 단백질 아틀라스 발간, 유전자 정보 은행 설립, 니들만 원쉬 알고리즘 개발 등에 기여하며 생물정보학 발전에 중요한 역할을 했다. 1995년 인터넷의 급격한 보급과 함께 생물정보학은 현재와 같은 형태로 발전하게 되었다.

2.1. 생물정보학의 태동

1950년대 앨런 튜링은 자연 발생적인 생물학적 패턴에 관한 논문을 발표했는데, 이는 생물정보학의 초기 연구로 평가받는다. 같은 시기 프레데릭 생어는 인슐린의 서열을 처음으로 결정하여 단백질의 아미노산 서열을 연구에 활용할 수 있게 하였다. 그러나 여러 서열을 수동으로 비교하는 것은 비효율적이었기 때문에, 컴퓨터를 사용한 해석이 분자생물학에 필수적이 되었다.

1970년 폴린 호게베흐와 벤 헤스퍼는 생물 시스템의 정보 처리 과정을 연구하는 학문으로 '생물정보학'이라는 용어를 처음 사용했다. 이들은 생물정보학을 생화학과 병렬적인 분야로 규정했다.

이 분야의 선구자 중 한 명인 마가렛 오클리 데이호프는 최초의 단백질 서열 데이터베이스를 구축하고, 서열 정렬 및 분자 진화 방법론을 개발하여 생물정보학 발전에 크게 기여했다. 엘빈 A. 카바트는 1980년부터 1991년까지 Tai Te Wu와 함께 항체 서열을 분석하여 생물학적 서열 분석 분야를 개척했다.

2.2. 생물정보학의 발전과 한국

1990년대 인간 게놈 프로젝트와 DNA 염기서열 분석 기술의 발전은 생물정보학의 폭발적인 성장을 이끌었다. 2010년을 기점으로 게놈 해독 기술이 급격하게 발전하면서, 전사체, 단백질, 대사체, 외유전체를 포함하는 발현체 해독과 분석이 용이하게 되었다. 이로 인해 다중 오믹스 또는 다중체 정보라고 불리는 다양한 종류의 오믹스(체학) 데이터가 늘어났다. 다중오믹스(multiomics)는 현재 생명정보학 빅데이터의 핵심이다. 특히, 게놈 위주의 체학에서 인공지능(AI)을 이용해 다중 오믹스 간의 유기적 관계성을 해석하는 시도가 늘어나면서, 암뿐만 아니라 심장병까지도 다중 오믹스적으로 원인 유전자를 분석하게 되었다. 심장병은 암과 같이 유전 질환으로 인식되지 않는 만성 성인병임에도 불구하고, 다중 오믹스 분석력 증가에 따라 유전자와 발현체 정보 활용에 힘입어, 조기 진단 및 치료에까지 생정보학의 영역이 확대되고 있으며, 이는 생정보학과 의료정보학의 중복성을 잘 보여준다.

3. 관련 분야

* 생물학: 생물정보학은 생물학적 현상을 이해하고 설명하기 위한 도구로 활용된다.
* 컴퓨터 과학: 대용량 데이터 처리, 알고리즘 개발, 인공지능 기술 적용 등 컴퓨터 과학은 생물정보학의 핵심적인 기반 기술이다.
* 통계학: 통계적 방법론은 방대한 생물학적 데이터에서 유의미한 정보를 추출하고 분석하는 데 필수적이다.
* 수학: 수학적 모델링은 생명 현상을 설명하고 예측하는 데 중요한 역할을 한다.

4. 하위 분야

생물정보학의 하위 분야는 다음과 같다.

* 유전체학: 유전체 서열 분석, 유전자 발굴, 유전체 기능 연구 등을 수행한다. 개인유전체학, 비교 유전체학, 기능 유전체학 등이 여기에 속한다.
* 변이체학: 유전체학의 변이를 연구한다. 단일 염기 변이(SNV), 복제수 변이(CNV), 구조 변이(SV) 등과 질병 간의 연관성을 분석한다.
* 단백체학: 단백질의 구조, 기능, 상호작용 등을 연구한다. 단백질 마이크로어레이 및 고속 처리(HT) 질량 분석법(mass spectrometry; MS)을 통해 얻어진 데이터 분석에 생물정보학이 중요하게 사용된다.
* 상호작용체학: 단백질-단백질 상호작용과 같은 생체 분자 간의 상호작용 네트워크를 분석한다.
* 다중체학: 유전체, 전사체, 단백질체, 대사체 등 다양한 오믹스 데이터를 통합 분석하여 생명 현상을 종합적으로 이해하려는 분야이다. 암 및 만성 질환 연구에서 질병 원인 유전자 분석과 조기 진단, 치료에 활용된다.

4.1. 유전체학

유전체학은 유전체 서열 분석, 유전자 발굴, 유전체 기능 연구 등을 수행한다. 여기에는 개인 유전체학, 비교 유전체학, 기능 유전체학 등이 있다.

유전자 주석은 염기 서열이 결정된 DNA 서열에서 유전자와 다른 생물학적 특징의 시작과 끝 영역을 표시하는 과정이다. 많은 유전체는 손으로 주석을 달기에는 너무 크기 때문에 자동화가 필요하다.

유전자 주석은 뉴클레오타이드 수준, 단백질 수준, 과정 수준으로 분류할 수 있다.

* 뉴클레오타이드 수준 주석: 유전자 찾기가 주요 측면이며, 복잡한 유전체의 경우 생물정보학적 예측과 발현 서열 데이터베이스 및 다른 유기체와의 서열 비교를 조합하여 수행한다.
* 단백질 수준 주석: 유전체의 단백질 산물에 기능을 할당하는 것이 목표이며, 단백질 서열 및 기능적 도메인과 모티프 데이터베이스가 사용된다.
* 과정 수준 주석: 세포 및 유기체 생리학적 맥락에서 유전자 및 그 산물의 기능을 이해하는 것이 목표이다.

1995년 유전체 연구소는 자유 생활 유기체인 박테리아 헤모필루스 인플루엔자의 유전체에 대한 최초의 완전한 시퀀싱 및 분석을 발표하면서 포괄적인 주석 시스템을 처음으로 설명했다.

2003년에 종료된 인간 유전체 프로젝트의 목표를 따라, ENCODE 프로젝트가 국립 인간 유전체 연구소에 의해 개발되었다. 이 프로젝트는 차세대 DNA 시퀀싱 기술과 유전체 타일링 어레이를 사용하여 인간 유전체의 기능적 요소를 공동으로 수집한다.

--

유전체학의 맥락에서 어노테이션은 DNA 염기 서열 내의 유전자 영역과 그 기능, 그리고 기타 생물학적 특징을 표시하는 과정이다. 대부분의 게놈은 너무 크기 때문에 수동으로 주석을 달 수 없다. 따라서 이 과정은 자동화되어야 한다.

4.2. 변이체학

유전체학의 변이를 연구하는 분야이다. 유전체 변이에는 단일 염기 변이(SNV), 복제수 변이(CNV), 구조 변이(SV) 등이 있으며, 이러한 변이와 질병 간의 연관성을 분석한다.

4.3. 단백체학

단백질의 구조, 기능, 상호작용 등을 연구하는 분야이다. 단백질 마이크로어레이 및 고속 처리(HT) 질량 분석(mass spectrometry; MS)은 생체 시료에 존재하는 단백질의 스냅샷을 제공하며, 여기서 얻어진 데이터 분석에 생물정보학이 중요하다.

3차원 단백질 구조의 예. 단백질 입체 구조의 해석은 생물 정보학 분석의 일반적인 주제 중 하나이다.

단백질의 아미노산 서열(1차 구조)은 이를 코딩하는 유전자의 서열 정보로부터 비교적 쉽게 결정할 수 있다. 많은 경우 1차 구조는 실제 세포 내에서의 고차 구조(2차, 3차, 4차)를 결정한다. 즉, 같은 아미노산 서열을 가진 단백질은 세포 내에서 같은 방식으로 접혀서 같은 2차 구조나 3차 구조를 만들어낸다는 것이다. (예외: 소 해면상 뇌증(광우병)을 일으키는 프리온 등) 고차 구조에 대한 지식은 단백질의 기능을 이해하는 데 필수적이다.

생물정보학에서는 "서열 유사성" 개념을 이용하여, 기능이 알려진 유전자 A의 서열과 기능이 불분명한 유전자 B의 서열이 유사한 경우, B가 A의 기능을 공유할 것으로 예측한다. 구조 분야에서는 서열 유사성을 사용하여 단백질의 어느 부분이 구조 형성과 상호작용에 중요한지 추론한다. 상동성 모델링 기법은 서열적으로 유사한 단백질의 구조 정보를 사용하여 임의의 단백질 고차 구조를 예측한다. 인간의 헤모글로빈과 콩과 식물의 레그헤모글로빈은 먼 친척 관계지만, 산소 수송 목적과 구조가 유사하여 동일 조상을 공유한다고 여겨진다.

4.4. 상호작용체학

단백질 간의 상호 작용은 네트워크를 통해 분석하고 시각화하는 경우가 많다. 이 네트워크는 매독 및 기타 질병의 원인 물질인 매독 트레포네마의 단백질 간 상호 작용으로 구성되어 있다. — 단백질 간의 상호 작용은 네트워크를 통해 분석하고 시각화하는 경우가 많다. 이 네트워크는 매독 및 기타 질병의 원인 물질인 *매독 트레포네마*의 단백질 간 상호 작용으로 구성되어 있다.

상호작용체학은 단백질-단백질 상호작용과 같은 생체 분자 간의 상호작용 네트워크를 분석하는 분야이다. 이러한 상호작용은 네트워크를 통해 시각화하여 분석할 수 있다. 예를 들어, 매독을 일으키는 매독 트레포네마의 단백질 간 상호작용 네트워크를 분석하여 질병의 원인을 밝히는 데 도움을 줄 수 있다.

4.5. 다중체학 (Multiomics)

Multiomics^영어는 유전체, 전사체, 단백질체, 대사체 등 다양한 오믹스 데이터를 통합 분석하여 생명 현상을 종합적으로 이해하려는 분야이다. 특히, 암 및 만성 질환 연구에서 질병 원인 유전자 분석과 조기 진단, 치료에 활용된다.

2010년을 기점으로 게놈 해독 기술이 급격하게 발전하면서, 게놈뿐만 아니라 발현체(전사체, 단백질, 대사체, 외유전체)의 해독과 분석이 용이하게 되었다. 이러한 체(ome)의 총칭인 오믹스(체학)의 다양성이 늘어났고, 이 다양한 체학의 데이터를 다중오믹스 혹은 다중체정보라고 부른다.

다중오믹스는 현재 생명정보학 빅데이터의 핵심이다. 특히, 게놈 위주의 체학에서 벗어나 다중오믹스 간의 유기적 관계성을 인공지능(AI)으로 해석하는 시도들이 늘어나고 있다. 이를 통해 암뿐만 아니라, 심장병과 같이 이전에는 유전 질환으로 인식되지 않았던 만성 성인병의 원인 유전자 분석까지 가능해졌다. 다중오믹스 분석 능력의 발전은 유전자와 발현체 정보 활용을 통해 조기 진단 및 치료까지 생명정보학의 영역을 확대시키고 있으며, 이는 생명정보학과 의료정보학의 중복성을 보여준다.

5. 주요 연구 분야

--
생물정보학의 주요 연구 분야는 유전자 예측, 유전자 기능 예측, 유전자 분류, 배열 정렬, 게놈 조립, 단백질 구조 정렬, 단백질 구조 예측, 유전자 발현 분석, 단백질 간 상호 작용 예측, 진화 모델링, 드러그 디자인, 신약 개발 등 컴퓨터 프로그래밍을 사용한 각종 생물학 연구 분야이다. 특히 게노믹스 분야에서 반복적으로 사용되는 특정 분석 파이프라인을 개발하는 등, 방법론 개발에 관한 연구도 포함된다.

생물정보학을 활용한 연구에는 질병의 유전적 근거 및 생물의 환경 적응, (특히 농업 분야에서의) 식물과 동물의 특성 분석, 개체군 간의 차이 등을 더 잘 이해하기 위한 후보 유전자 및 SNP 탐색 등이 있다. 단백질체학이라고 불리는 단백질을 대상으로 한 데이터를 게놈 배열과 조합한 바이오인포매틱스 연구도 진행되고 있다。

오늘날, 바이오인포매틱스는 분자생물학에서 이미지 처리 및 신호 처리 기술을 이용해 방대한 생물 데이터를 통해 유용한 결과를 추출하고, 유전학에서 게놈 배열 및 돌연변이된 배열의 결정과 주석(annotation)에 활용되는 등 생물학의 많은 분야에서 중요한 역할을 수행하고 있다. 또한, 생물학적 문헌의 텍스트 마이닝 및 생물학적 유전자 온톨로지 개발을 통해 방대한 생물학적 데이터를 사용하기 쉬운 형태로 정리하고, 유전자 및 단백질의 발현 조절 분석에도 깊이 관여하고 있다.

바이오인포매틱스 도구는 유전자 및 게놈 데이터 비교와 분석, 해석을 지원하며, 분자생물학의 진화적인 이해에도 기여한다. 더 나아가 개별 유전자 및 단백질 분석을 넘어, 생명을 유전자 및 단백질 네트워크로 파악하고 그 총체를 시스템으로 이해하려는 시스템 생물학 분야도 생겨나고 있다. 바이오인포매틱스는 생물학적 대사 경로와 네트워크의 분석 및 목록화에 기여하며, 시스템 생물학을 뒷받침하고 있다. 구조생물학 분야에서는 생체 분자의 상호 작용뿐만 아니라, DNA, RNA, 단백질 등의 시뮬레이션과 모델링에도 기여하고 있다。

생물정보학의 주요 목표는 생물학적 프로세스에 대한 이해를 더욱 깊게 하는 데 있으며, 다른 접근 방식과 달리 패턴 인식, 데이터 마이닝, 기계 학습 알고리즘 등 더 계산 집약적인 방법의 개발과 적용에 중점을 둔다.

예를 들어, 질병 연구 분야에서 정상적인 세포 활동이 다양한 병적 상태에서 어떻게 변화하는지 밝히기 위해 생물학적 데이터를 조합하여 포괄적인 구조를 이해해야 한다. 따라서 염기 및 아미노산 서열, 단백질 도메인, 단백질 구조 등 다양한 유형의 데이터를 조합하여 분석하고 해석할 수 있도록 생물정보학 분야는 진화해 왔다.

데이터 분석 및 해석 프로세스는 계산 생물학이라고 한다. 생물정보학과 계산 생물학의 중요한 연구 목표는 대규모 데이터 세트에서 구성원 간의 관계를 평가하는 새로운 알고리즘과 통계적 척도를 개발하는 것이다. 예를 들어, 게놈 서열 내에서 유전자 영역을 예측하거나, 단백질의 구조나 기능을 예측하거나, 단백질 서열을 관련 서열의 패밀리로 클러스터링하는 방법 등에 관한 연구가 진행되고 있다. 또한, 다양한 종류의 생물학적 정보 리소스를 정리하고 관리하여 효율적인 접근과 이용을 가능하게 하는 컴퓨터 프로그램 및 시스템의 개발과 구현도 중요한 과제이다.

5.1. 서열 분석

1977년 박테리오파지 Φ-X174가 해독된 이후, 수천 종의 유기체의 DNA 염기 서열이 해독되어 데이터베이스에 저장되었다. 이러한 서열 정보는 단백질을 암호화하는 유전자, RNA 유전자, 조절 서열, 구조적 모티프 및 반복 서열을 결정하기 위해 분석된다. 종 내 유전자 또는 다른 종 간의 유전자 비교를 통해 단백질 기능 간의 유사성 또는 종 간의 관계(분자 계통학을 사용하여 계통수를 구성)를 확인할 수 있다. 데이터 양이 증가함에 따라 DNA 서열을 수동으로 분석하는 것은 오래전에 비실용적이 되었다. 2008년 기준으로 1,900억 개 이상의 뉴클레오타이드를 포함하는 26만 개 이상의 유기체에서 서열을 검색하는 데 BLAST와 같은 컴퓨터 프로그램이 일상적으로 사용된다.

염기 서열을 분석하기 전에, 염기 서열은 GenBank와 같은 데이터 저장 은행에서 얻어진다. DNA 염기 서열 분석은 원시 데이터에 노이즈가 있거나 약한 신호의 영향을 받을 수 있으므로 여전히 간단하지 않은 문제이다. DNA 염기 서열 분석에 대한 다양한 실험적 접근 방식을 위한 염기 호출 알고리즘이 개발되었다.

5.2. 유전자 및 단백질 기능 예측

게놈 주석은 주로 서열 유사성(및 상동성)을 기반으로 하지만, 서열의 다른 속성들을 사용하여 유전자의 기능을 예측할 수 있다. 실제로 대부분의 유전자 기능 예측 방법은 더 많은 정보를 제공하고 특징이 풍부하기 때문에 단백질 서열에 초점을 맞춘다. 예를 들어, 소수성 아미노산의 분포는 단백질 내의 막 관통 세그먼트를 예측한다. 그러나 단백질 기능 예측은 유전자(또는 단백질) 발현 데이터, 단백질 구조, 또는 단백질-단백질 상호작용과 같은 외부 정보도 사용할 수 있다.

--

바이오인포메틱스의 주요 연구 대상에는 유전자 기능 예측이 포함되어 있다.

종 내 또는 종 간 유전자 배열을 비교하여 단백질 기능 간의 유사성을 평가하거나, 계통수를 구축하여 종 간의 분자계통학적 관계를 나타낼 수 있다. 데이터량 증가에 따라 DNA 배열을 수작업으로 분석하는 것은 이미 비현실적이다. 오늘날에는 BLAST 등 상동성 검색을 수행하는 컴퓨터 프로그램을 사용하여, GenBank에 등록된 1,600억 개 이상의 뉴클레오티드를 포함하는 260,000개 이상의 생물체에서 배열을 검색하는 것이 일상적으로 이루어지고 있다(2008년 기준). 이러한 프로그램은 DNA 시퀀스의 변이(염기 치환, 결실, 삽입 등)를 보정하여 유사하지만 동일하지 않은 배열을 검색할 수 있다. 검색 결과는 클로닝된 유전자의 부분 정보로부터 유전자 전체의 배열을 예측하거나, 구조가 알려지지 않은 단백질의 이차 구조를 예측하거나, 해독된 게놈에서 유전자를 검출하여 그 기능을 예측하는 등의 연구의 기반이 된다.

5.3. 유전체 주석 (Genome Annotation)

유전체학에서 유전체 주석(영어: genome annotation)은 염기 서열이 결정된 DNA 서열에서 유전자와 다른 생물학적 특징의 시작과 끝 영역을 표시하는 과정이다. 많은 유전체는 손으로 주석을 달기에는 너무 크기 때문에, 자동화된 주석 도구가 필요하다. DNA 서열 분석 속도가 유전자 주석 속도를 초과함에 따라, 유전자 주석은 생물정보학의 새로운 병목 현상이 되고 있다.

유전자 주석은 크게 세 가지 수준으로 분류할 수 있다.

* 뉴클레오타이드 수준: 유전자 찾기는 뉴클레오타이드 수준 주석의 주요 측면이다. 복잡한 유전체의 경우, 생물정보학적 예측과 발현 서열 데이터베이스 및 다른 유기체와의 서열 비교를 조합하면 성공할 수 있다. 뉴클레오타이드 수준 주석은 또한 유전체 서열을 유전체의 다른 유전적 및 물리적 지도와 통합할 수 있게 해준다.
* 단백질 수준: 단백질 수준 주석의 주요 목표는 유전체의 단백질 산물에 기능을 할당하는 것이다. 단백질 서열 및 기능적 도메인과 모티프 데이터베이스가 이러한 유형의 주석에 사용된다. 새로운 유전체 서열에서 예측된 단백질의 약 절반은 명확한 기능이 없는 경향이 있다.
* 과정 수준: 세포 및 유기체 생리학적 맥락에서 유전자 및 그 산물의 기능을 이해하는 것이 과정 수준 주석의 목표이다. 과정 수준 주석의 장애물은 서로 다른 모델 시스템에서 사용되는 용어의 불일치였다. 유전자 온톨로지 컨소시엄은 이 문제를 해결하는 데 도움을 주고 있다.

최초의 포괄적인 주석 시스템은 1995년 유전체 연구소에 의해 발표되었으며, 이는 자유 생활 (비 공생) 유기체인 박테리아 헤모필루스 인플루엔자의 유전체에 대한 최초의 완전한 시퀀싱 및 분석을 수행했다. 이 시스템은 모든 단백질, 전달 RNA, 리보솜 RNA를 암호화하는 유전자를 식별하여 초기 기능 할당을 수행한다. 헤모필루스 인플루엔자에서 단백질 코딩 유전자를 찾도록 훈련된 GeneMark 프로그램은 지속적으로 변경되고 개선되고 있다.

2003년에 종료된 인간 유전체 프로젝트가 달성해야 할 목표를 따라, ENCODE 프로젝트는 국립 인간 유전체 연구소에 의해 개발되었다. 이 프로젝트는 차세대 DNA 시퀀싱 기술과 유전체 타일링 어레이를 사용하여 인간 유전체의 기능적 요소를 공동으로 수집하는 것으로, 엄청나게 감소된 염기당 비용으로 동일한 정확도 (염기 호출 오류) 및 충실도 (조립 오류)로 대량의 데이터를 자동으로 생성할 수 있는 기술이다.

판게놈 분석(Pan-genome analysis)은 특정 분류군 내에서 보유하고 있는 유전자의 포괄적인 유전자 레퍼토리를 나타내는 개념으로, 2005년 Tettelin과 Medini에 의해 처음 소개되었다. 처음에는 종 수준의 근연 계통에 적용되었지만, 속이나 문과 같은 더 큰 분류군에도 적용할 수 있다. 판게놈은 코어 게놈과 플렉시블 게놈의 두 그룹으로 구성된다. 코어 게놈은 모든 게놈에 공통된 유전자 세트를 지칭하며, 대개 이러한 유전자는 생존에 필수적인 하우스키핑 유전자이다. 반면에 플렉시블 게놈(Dispensable / Flexible Genome)은 하나 이상의 게놈에 존재하지 않는 일련의 유전자를 지칭한다. 예를 들어, 생물정보학 도구인 BPGA를 사용하여 세균 종의 판게놈을 특징지을 수 있다.

5.4. 비교 유전체학

비교 유전체학 분석의 핵심은 서로 다른 생물체의 유전자(정상동성) 또는 다른 유전체 특징 간의 대응 관계를 설정하는 것이다. 두 유전체의 분화를 담당하는 진화 과정을 추적하기 위해 유전자 간 지도가 만들어진다. 다양한 조직 수준에서 작용하는 수많은 진화적 사건들이 유전체 진화를 형성한다. 최저 수준에서 점 돌연변이는 개별 뉴클레오티드에 영향을 미친다. 더 높은 수준에서는, 큰 염색체 분절이 중복, 수평 이동, 역위, 전위, 삭제 및 삽입을 겪는다. 전체 유전체는 급속한 종 분화를 초래하는 잡종화, 배수체 형성 및 내공생 과정에 관여한다. 유전체 진화의 복잡성은 수학적 모델 및 알고리즘 개발자들에게 많은 흥미로운 과제를 제기하며, 이들은 정확한, 휴리스틱, 고정 매개변수 및 근사 알고리즘에서 최소 절약 모델을 기반으로 하는 문제에 대한 마르코프 연쇄 몬테카를로 알고리즘에 이르기까지 다양한 알고리즘, 통계 및 수학적 기술을 사용한다. 확률적 모델을 기반으로 하는 문제의 베이즈 분석에 사용된다.

이러한 연구의 많은 부분은 서열 상동성을 감지하여 서열을 단백질 계열에 할당하는 것을 기반으로 한다.
--

5.5. 질병 유전체학

전장 유전체 연관성 연구는 복잡한 질병 및 형질에 대한 수천 개의 흔한 유전자 변이를 찾아냈지만, 이러한 변이들은 유전성의 일부분만을 설명한다. 희귀 기능 변이가 실종 유전성의 일부를 설명할 수 있다는 연구 결과도 있다. 대규모 전체 유전체 염기서열 분석 연구를 통해 수백만 개의 전체 유전체를 빠르게 염기서열 분석했으며, 이를 통해 수억 개의 희귀 기능 변이를 발견했다.

기능적 주석은 유전자 변이의 효과나 기능을 예측하고 희귀 기능 변이의 우선순위를 정하는 데 도움을 준다. 이러한 주석을 통합하면 전체 유전체 염기서열 분석 연구에서 희귀 변이 분석의 유전자 연관성 분석 능력을 효과적으로 높일 수 있다. 유전자형 데이터 및 기능적 주석 통합, 연관성 분석, 결과 요약 및 시각화를 포함하여 전체 유전체 염기서열 분석 데이터를 위한 통합 희귀 변이 연관성 분석 도구도 개발되었다. 전체 유전체 염기서열 분석 연구의 메타 분석은 복잡한 표현형과 관련된 희귀 변이를 찾기 위해 대규모 표본 크기를 수집하는 문제에 대한 효과적인 해결책을 제시한다.

2013년 이후, 효율적인 고처리량 차세대 염기서열 분석 기술 덕분에 다양한 인간 질환의 원인을 식별할 수 있게 되었다. 멘델 유전은 Online Mendelian Inheritance in Man 데이터베이스에서 확인된 3,000개 이상의 질환에서 관찰되었지만, 복잡한 질병은 원인 규명이 더 어렵다. 연관성 연구는 단일 원인보다는 개별적으로 복잡한 질병(예: 불임, 유방암 및 알츠하이머병)과 약하게 관련된 여러 유전자 영역을 발견했다.

악성 종양(암)에서 암세포의 게놈은 매우 복잡하고 예측 불가능한 형태로 재조합된다. 대규모 시퀀싱 연구를 통해 암세포에서 발견되는 다양한 유전자의 점 돌연변이를 특정하는 작업이 진행되었다. 이러한 연구에서는 방대한 양의 서열 데이터를 관리하기 위한 전용 자동화 시스템이나 새로운 알고리즘 및 소프트웨어를 제작하여 시퀀싱 결과를 인간 게놈 서열 및 생식 계열 다형성 컬렉션과 비교하는 생물 정보학적 분석이 이루어지고 있다.

또한, 염색체의 증감을 비교하는 올리고 뉴클레오티드 마이크로어레이나, 알려진 점 돌연변이를 검출하는 단일 염기 다형성 어레이 등 새로운 물리적 검출 기술이 사용된다. 이러한 검출 방법은 게놈 전체에서 수십만 개의 위치를 동시에 측정할 수 있으며, 고처리량으로 수천 개의 샘플을 측정하는 경우 실험당 수 테라바이트의 데이터를 생성한다. 따라서 이 방대한 데이터 양을 처리하기 위한 새로운 기법에 대한 연구도 진행되고 있다. 데이터에 상당한 변동성이나 노이즈가 포함되어 있기 때문에 실제 복제수 변화를 추정하기 위해 은닉 마르코프 모델 기반 변화점 분석법이 개발되었다.

엑솜 돌연변이 동정에서 암은 유전자에 축적된 체세포 변이의 질환이며, 암에는 질병 발병과 관련된 변이(드라이버)와 무관한 변이(패신저)의 두 종류가 있다는 중요한 원칙이 있다. 이는 생물 정보학적 분석을 수행하는 데 중요하게 고려된다.

5.6. 암 유전체학

악성 종양(암)에서 암세포의 유전체는 매우 복잡하고 예측 불가능한 형태로 재조합이 일어나는 것으로 알려져 있다. 대규모 시퀀싱 연구를 통해 암세포에서 발견되는 다양한 유전자상의 점 돌연변이를 특정하는 작업이 진행되어 왔다. 이러한 연구에서는 방대한 양의 서열 데이터를 관리하기 위한 전용 자동화 시스템이나 새로운 알고리즘 및 소프트웨어 제작을 통해 시퀀싱 결과를 인간 게놈 서열 및 생식 계열 다형성 컬렉션과 비교하는 생물 정보학적 분석이 진행되고 있다.

또한, 염색체의 증감을 비교하는 올리고 뉴클레오티드 마이크로어레이나, 알려진 점 돌연변이를 검출하는 단일 염기 다형성 어레이 등 새로운 물리적 검출 기술이 채택되고 있다. 이러한 검출 방법은 게놈 전체에서 수십만 개의 사이트를 동시에 측정할 수 있으며, 고처리량으로 수천 개의 샘플을 측정하는 경우 실험당 수 테라바이트나 되는 데이터를 생성한다. 따라서 이 방대한 데이터 양을 처리하기 위한 새로운 기법에 대한 연구도 진행되고 있다.

데이터에는 상당한 변동성 또는 노이즈가 포함되어 있기 때문에 실제 복제수의 변화를 추정하기 위해 은닉 마르코프 모델에 기초한 변화점 분석법이 개발되었다. 엑솜의 돌연변이 동정에서 암은 유전자에 축적된 체세포 변이의 질환이며, 암에는 질환 발병과 관련된(드라이버) 변이와 무관한(패신저) 변이의 구별되는 두 종류가 포함되어 있다는 두 가지 중요한 원칙이 있으며, 생물 정보학적 분석을 수행하는 데에도 중요해지고 있다.

시퀀싱 기술의 발전으로 암 게노믹스는 극적으로 변화할 수 있다. 새로운 방법과 소프트웨어를 통해 더 많은 암 게놈을 더 빠르고 저렴한 가격으로 시퀀싱할 수 있게 되면 암에 의한 게놈 내 변이 분석과 암 종류의 분류가 더욱 발전할 수 있다. 또한, 암 샘플 시퀀싱을 통해 암의 진행 상황을 추적할 수 있게 될 가능성도 지적되고 있다.

5.7. 유전자 발현 분석

DNA 마이크로어레이, 발현 서열 태그(EST) 시퀀싱, 연속 분석 유전자 발현(SAGE) 태그 시퀀싱, 대량 병렬 시그니처 시퀀싱(MPSS), RNA-Seq (WTSS라고도 함) 또는 다양한 다중화된 in-situ 하이브리드화와 같은 여러 기술을 통해 mRNA 수준을 측정하여 많은 유전자의 유전자 발현을 결정할 수 있다. 이러한 기술들은 잡음이 많거나 생물학적 측정에서 편향되기 쉬워, 신호를 잡음으로부터 분리하는 통계 도구를 개발하는 것이 계산 생물학의 주요 연구 분야이다.

이러한 연구는 종종 질병과 관련된 유전자를 결정하는 데 사용된다. 예를 들어, 암성 상피 세포의 마이크로어레이 데이터를 비암성 세포의 데이터와 비교하여 특정 암세포 집단에서 발현이 증가하거나 억제되는 전사체를 결정할 수 있다.

유전자 발현은 대개 마이크로어레이, 발현 cDNA 서열 태그 (EST) 시퀀싱, 유전자 발현 연속 분석 (SAGE) 태그 시퀀싱, 초고속 병렬 시그니처 시퀀싱 (MPSS), RNA-Seq (또는 Whole Transcriptome Shotgun Sequencing; WTSS), 다중 in-situ 하이브리다이제이션 등의 방법을 통해 mRNA 수준을 측정하여 결정한다. 이러한 방법들은 모두 노이즈가 매우 발생하기 쉽고 생물학적인 측정 편향이 발생하기 때문에, 고처리량 유전자 발현 연구에서 이러한 노이즈를 제거하고 신뢰할 수 있는 신호를 분리하는 통계 도구의 개발이 계산 생물학 연구 분야에서 중요해지고 있다. 이러한 유전자 발현 연구는 질병과 관련된 유전자를 식별하는 데 자주 사용된다. 예를 들어 암성 상피 세포의 마이크로어레이 데이터를 비암성 세포의 데이터와 비교하여 특정 암세포 집단에서 발현이 증가하거나 억제되는 전사체를 결정할 수 있다.

5.8. 단백질 구조 예측

단백질의 선형 아미노산 서열은 1차 구조라고 불린다. 이 1차 구조는 해당 단백질을 암호화하는 DNA 유전자의 코돈 서열로부터 쉽게 결정할 수 있다. 대부분의 단백질에서 1차 구조는 특정 환경에서 단백질의 3차원 구조를 유일하게 결정한다. 하지만 프라이온과 관련된 소 해면상 뇌병증의 변형된 단백질과 같은 예외도 존재한다. 이러한 단백질의 구조는 기능과 연결되어 있다. 추가적인 구조 정보에는 2차 구조, 3차 구조, 4차 구조가 포함된다. 단백질 기능 예측에 대한 일반적인 해결책은 여전히 어려운 문제로 남아있으며, 지금까지의 대부분의 노력은 대부분의 경우에 효과가 있는 휴리스틱에 집중되어 왔다.

단백질의 아미노산 서열로부터 그 고차(2차, 3차, 및 4차) 구조를 예측하는 것은 생물 정보학의 큰 과제 중 하나이다. 단백질의 아미노산 서열(1차 구조)은 이를 코딩하는 유전자의 서열 정보로부터 비교적 쉽게 결정할 수 있다. 그리고 많은 경우 이 1차 구조는 실제 세포 내에서의 고차 구조를 고유하게 결정한다. 즉, 같은 아미노산 서열을 가진 단백질은 모두 세포 내에서 같은 방식으로 컨포메이션을 취하고 접혀서 같은 2차 구조나 3차 구조의 입체 구조를 만들어낸다는 것이다(다만 예외로 소 해면상 뇌증 (광우병)을 일으키는 프리온 등이 있다). 고차 구조에 대한 지식은 단백질의 기능을 이해하는 데 필수적이다.

생물정보학에서 중요한 개념 중 하나는 "서열 유사성"이다. 유전체학 분야에서는 서열 유사성을 이용하여 유전자의 기능을 예측한다. 예를 들어, 기능이 알려진 유전자 A의 서열이 기능이 알려지지 않은 유전자 B의 서열과 유사하다면, B가 A의 기능을 공유할 수 있다고 추론할 수 있다. 구조 생물정보학에서는 서열 유사성을 이용하여 단백질의 어떤 부분이 구조 형성과 다른 단백질과의 상호작용에 중요한지 결정한다. 상동성 모델링은 이미 구조가 알려진 상동성 단백질을 바탕으로 알려지지 않은 단백질의 구조를 예측하는 데 사용된다.

이러한 상동성 모델링의 예로는 인간의 헤모글로빈과 콩과 식물의 헤모글로빈(레그헤모글로빈)이 있다. 이들은 동일한 단백질 슈퍼패밀리에서 유래된 먼 친척 관계이다. 두 단백질 모두 생물체 내에서 산소를 운반하는 동일한 역할을 수행한다. 이 두 단백질은 완전히 다른 아미노산 서열을 가지고 있지만, 단백질 구조는 거의 동일하며, 이는 거의 동일한 목적과 공유된 조상을 반영한다.

단백질 구조를 예측하는 다른 기술로는 단백질 스레딩과 de novo(처음부터) 물리 기반 모델링이 있다.

구조 생물정보학의 또 다른 측면은 가상 스크리닝 모델, 예를 들어 정량적 구조-활성 관계 모델 및 단백질화학량론 모델(PCM)에 단백질 구조를 사용하는 것이다. 또한 단백질의 결정 구조는 리간드 결합 연구 및 in silico 돌연변이 유발 연구의 시뮬레이션에 사용될 수 있다.

2021년, 구글의 딥마인드가 개발한 딥러닝 알고리즘 기반 소프트웨어인 알파폴드는 다른 모든 예측 소프트웨어 방법보다 훨씬 뛰어난 성능을 보였으며, 알파폴드 단백질 구조 데이터베이스에서 수억 개의 단백질에 대한 예측 구조를 발표했다.

5.9. 네트워크 및 시스템 생물학

네트워크 분석은 생물학적 네트워크 내의 관계를 이해하려는 시도로, 대사 또는 단백질-단백질 상호작용 네트워크 등이 있다. 생물학적 네트워크는 단일 유형의 분자 또는 개체(예: 유전자)로 구성될 수 있지만, 네트워크 생물학은 단백질, 작은 분자, 유전자 발현 데이터 등과 같이 물리적, 기능적 또는 둘 다 연결된 여러 다른 데이터 유형을 통합하려는 경우가 많다.

시스템 생물학은 세포 서브시스템(예: 대사를 구성하는 대사물질 및 효소 네트워크, 신호 전달 경로 및 유전자 조절 네트워크)의 컴퓨터 시뮬레이션을 사용하여 이러한 세포 과정의 복잡한 연결을 분석하고 시각화하는 데 관여한다.

6. 응용 분야

--
생물정보학은 유전자 예측, 유전자 기능 예측, 유전자 분류, 배열 정렬, 게놈 조립, 단백질 구조 정렬, 단백질 구조 예측, 유전자 발현 분석, 단백질 간 상호 작용 예측, 진화 모델링 등 다양한 컴퓨터 프로그래밍을 사용한 각종 생물학 연구 분야에서 활용된다. 특히 게노믹스 분야에서 반복적으로 사용되는 특정 분석 파이프라인을 개발하는 등, 방법론 개발에 관한 연구도 포함된다.

오늘날, 바이오인포매틱스는 분자생물학에서 이미지 처리 및 신호 처리 기술을 이용해 방대한 생물 데이터를 통해 유용한 결과를 추출하고, 유전학에서 게놈 배열 및 돌연변이된 배열의 결정과 주석(annotation)에 활용되는 등 생물학의 많은 분야에서 중요한 역할을 수행하고 있다. 또한, 생물학적 문헌의 텍스트 마이닝 및 생물학적 유전자 온톨로지 개발을 통해, 방대하게 축적된 생물학적 데이터를 사용하기 쉬운 형태로 정리하고, 유전자 및 단백질의 발현 조절 분석, 유전자 및 게놈 데이터 비교와 분석, 해석을 지원하며, 분자생물학의 진화적인 이해에도 기여하고 있다.

더욱 통합적인 수준에서는 개별 유전자 및 단백질의 분석에서 한 걸음 더 나아가, 생명을 유전자 및 단백질 네트워크로 파악하고 그 총체를 시스템으로 이해하려는 시스템 생물학이라는 분야도 생겨나고 있다. 바이오인포매틱스는 생물학적 대사 경로와 네트워크의 분석 및 목록화에 기여하며, 시스템 생물학을 뒷받침하고 있다. 구조생물학 분야에서는 생체 분자의 상호 작용뿐만 아니라, DNA, RNA, 단백질 등의 시뮬레이션과 모델링에도 기여하고 있다。

6.1. 신약 개발

생물정보학은 질병 관련 유전자 및 단백질을 표적으로 하는 신약 후보 물질을 발굴하고, 약물 반응을 예측하는 데 활용된다. 생물정보학의 주요 연구 대상에는 약물 설계, 신약 개발 등이 있다.

6.2. 질병 진단 및 예방

생물정보학은 유전체 및 단백질체 정보 등을 분석하여 질병을 조기에 진단하고, 개인 맞춤형 예방 전략을 수립하는 데 활용된다. 예를 들어, 질병 연구 분야에서 정상적인 세포 활동이 다양한 병적 상태에서 어떻게 변화하는지 밝히기 위해, 생물학적 데이터를 조합하여 이러한 활동의 포괄적인 구조를 이해해야 한다. 따라서 다양한 유형의 데이터를 조합한 분석과 해석을 할 수 있도록 생물정보학 분야는 진화해 왔다. 여기에는 염기 및 아미노산 서열 외에도 단백질 도메인과 단백질 구조가 포함된다.

6.3. 농업 및 식품 산업

생물정보학은 농업 분야에서 작물 및 가축의 유전체 분석을 통해 품종 개량, 생산성 향상, 질병 저항성 증진 등에 활용된다. 특히, 식물과 동물의 특성 분석, 개체군 간의 차이 등을 더 잘 이해하기 위한 후보 유전자 및 SNP 탐색 등에 이용된다.

6.4. 환경 및 에너지 산업

메타게놈 분석은 환경에 존재하는 세균총 샘플에서 게놈 DNA를 직접 회수하여, 주로 샷건 시퀀싱을 실시하고 생물정보학적으로 분석하는 미생물학·바이러스학 연구 분야이다. 이를 통해 어떤 생리학적 기능을 가진 미생물이 어떤 비율로 존재하는지 파악하여, 지구상의 물질 순환과 생태계를 이해하는 데 기여한다.

7. 관련 기관 및 저널

생물정보학과 관련된 주요 기관 및 단체는 다음과 같다.

* 국가생명연구자원정보센터 (KOBIC): 한국의 대표적인 생명정보학 연구 기관이다.
* 미국 국립생물정보센터 (NCBI): 미국의 대표적인 국가 생정보학 기관이다.
* [http://www.ebi.ac.uk/ EBI]: 유럽연합 생정보학 연구소이다.
* POSTECH 생물정보학 연구센터 (SBI): 한국의 생물정보학 연구 기관이다.
* 게놈연구재단: 게놈을 생정보학적으로 연구하는 한국의 전문 비영리 기관이다.
* [http://www.bioinformatics.org Bioinformatics.org]: 생정보학 포털이다.
* [http://www.iscb.org ISCB]: 국제 전산 생물학 협회이다.

관련 주요 학술 저널로는 Bioinformatics, BMC Bioinformatics, PLoS Computational Biology, Journal of computational biology, Journal of Bioinformatics and Computational Biology 등이 있다.

7.1. 한국

국가생명연구자원정보센터 (KOBIC)는 한국의 대표적인 생명정보학 연구 기관 중 하나이다. POSTECH 생물정보학 연구센터 (SBI)와 게놈연구재단도 생물정보학 연구를 수행하는 주요 기관이다.

7.2. 국제

미국 국립생물정보센터(NCBI)는 1990년대에 막대한 양의 생물학 정보를 전 세계에 보급하는 데 큰 역할을 했다. NCBI는 미국의 대표적인 국가 생정보학 기관이다.

[http://www.ebi.ac.uk/ EBI]는 유럽연합 생정보학 연구소이다.

[http://www.iscb.org ISCB]는 국제 전산 생물학 협회(International Society for Computational Biology)이다. 생물정보학 분야의 국제 학회로는 일본 바이오인포매틱스 학회와 ISCB가 있다. 또한 국제 회의로는 분자 생물학 지능 시스템(ISMB), 유럽 전산 생물학 컨퍼런스(ECCB), 전산 분자 생물학 연구(RECOMB), 국제 유전체 정보학 컨퍼런스(GIW) 등이 있다.

8. 도구 및 데이터베이스

--
생물정보학은 유전자 예측, 유전자 기능 예측, 유전자 분류, 배열 정렬, 게놈 조립, 단백질 구조 정렬, 단백질 구조 예측, 유전자 발현 분석, 단백질 간 상호 작용 예측, 진화 모델링, 드러그 디자인, 신약 개발 등 다양한 컴퓨터 프로그래밍을 사용한 생물학 연구 분야에 활용된다. 또한, 게노믹스 분야에서 반복적으로 사용되는 특정 분석 파이프라인을 개발하는 등 방법론 개발 연구도 포함된다.

오늘날 생물정보학은 분자생물학에서 이미지 처리 및 신호 처리 기술을 이용하여 방대한 생물 데이터를 통해 유용한 결과를 추출하고, 유전학 분야에서는 게놈 배열 및 돌연변이된 배열의 결정과 주석(annotation)에 활용되는 등 생물학의 많은 분야에서 중요한 역할을 수행하고 있다. 생물학적 문헌의 텍스트 마이닝 및 생물학적 유전자 온톨로지 개발을 통해 방대한 데이터를 사용하기 쉬운 형태로 정리하고, 유전자 및 단백질의 발현 조절 분석에도 기여한다.

생물정보학 도구는 유전자 및 게놈 데이터 비교와 분석, 해석을 지원하며, 분자생물학의 진화적 이해에도 기여하고 있다. 더욱 통합적인 수준에서는 개별 유전자 및 단백질의 분석에서 나아가, 생명을 유전자 및 단백질 네트워크로 파악하고 그 총체를 시스템으로 이해하려는 시스템 생물학 분야도 생겨나고 있다. 생물정보학은 생물학적 대사 경로와 네트워크의 분석 및 목록화에 기여하며, 시스템 생물학을 뒷받침하고 있다. 구조생물학 분야에서는 DNA, RNA, 단백질 등의 시뮬레이션과 모델링에도 기여하고 있다.

생물정보학의 주요 목표는 생물학적 프로세스에 대한 이해를 더욱 깊게 하는 데 있으며, 패턴 인식, 데이터 마이닝, 기계 학습 알고리즘 등 계산 집약적인 방법의 개발과 적용에 중점을 둔다.

데이터베이스는 생물정보학 연구 및 응용에 필수적이다. DNA 및 단백질 서열, 분자 구조, 표현형, 생물 다양성 등 다양한 정보 유형을 다루는 많은 데이터베이스가 구축되어 있다. 데이터베이스에는 실험적으로 획득되는 실험 데이터와 분석에서 얻어지는 예측 데이터 중 하나 또는 둘 다가 포함된다.

생물정보학에서 다루는 데이터는 1차원 문자열(시퀀스)부터 3차원 구조의 매트릭스(PDB), 계산 과학에서의 그래프(네트워크 데이터 전반), 유전자 온톨로지와 같은 유향 비순환 그래프(DAG)와 같은 매우 다양한 데이터 구조를 가진다.

각종 데이터베이스는 파일 형식, 접근 메커니즘, 공개 여부 등 다양한 점에서 차이가 있다. 생물학 연구에 사용되는 주요 데이터베이스는 다음과 같다(괄호 안은 구체적인 예):

* 서열 데이터베이스: DDBJ, EMBL, GenBank, Swiss-Prot
* 입체 구조 데이터베이스: PDB
* 경로·네트워크 데이터베이스: KEGG, BioCyc
* 마이크로어레이 데이터베이스: ArrayExpress, GEO
* 문헌 데이터베이스: MEDLINE/PubMed
* 온톨로지 데이터베이스: 유전자 온톨로지

연구용 프로그램 개발에는 다음과 같은 언어들이 사용되며, 이들 대부분에는 각각 생물정보학용 라이브러리가 개발되어 있다.

👆

좌우로 밀어서 보기

언어	설명	패키지
C++(C++)	C 언어(C 언어)를 기반으로 새로운 프로그래밍 패러다임을 도입하여 개발된 언어.
Java(자바)	객체 지향 및 가상 머신이라는 개념을 도입한 언어.	https://www.biojava.org/ BioJava
Perl(펄)	범용 인터프리터 언어.	https://www.bioperl.org/ BioPerl
Python(파이썬)	범용 인터프리터 언어.	https://www.biopython.org/ BioPython
Ruby(루비)	Java와 마찬가지로 객체 지향 프로그래밍 언어.	https://www.bioruby.org BioRuby
R 언어(R 언어)	객체 지향의 수치 해석 언어. 행렬 처리, 문자열 처리, 그래프 기능에 뛰어난 자유 소프트웨어이며, 미국 식품의약국(FDA) 공인.	https://www.bioconductor.org/ Bioconductor

8.1. 오픈 소스 생물정보학 소프트웨어

1980년대 이후 자유 오픈 소스 소프트웨어 도구들이 꾸준히 개발되어 왔다. 새로운 생물학적 데이터 분석을 위한 알고리즘 개발, 컴퓨터 시뮬레이션 실험, 그리고 자유롭게 사용 가능한 오픈 코드 기반은 자금 지원 여부와 관계없이 연구 그룹들이 생물정보학에 기여할 수 있도록 하였다. 오픈 소스 도구는 아이디어 인큐베이터나 상업용 애플리케이션에서 커뮤니티 지원 플러그인 역할을 하며, 생물 정보 통합을 위한 사실상 표준 및 공유 객체 모델을 제공한다.

바이오컨덕터(Bioconductor), 바이오펄(BioPerl), 바이오파이썬(BioPython), 바이오자바(BioJava), 바이오JS(BioJS), 바이오루비(BioRuby) 등 다양한 프로그래밍 언어 기반의 오픈 소스 소프트웨어들이 개발되어 활용되고 있다.

비영리 오픈 생물정보학 재단과 연례 생물정보학 오픈 소스 컨퍼런스는 오픈 소스 생물정보학 소프트웨어를 장려한다.

8.2. 생물정보학 워크플로우 관리 시스템

생물정보학 워크플로우 관리 시스템은 생물정보학 응용 분야에서 일련의 계산 또는 데이터 조작 단계(워크플로우)를 구성하고 실행하도록 특별히 설계된 워크플로우 관리 시스템의 특수한 형태이다. 이러한 시스템은 다음과 같은 특징을 가진다.

* 개별 응용 과학자들이 직접 자신만의 워크플로우를 생성할 수 있는 사용하기 쉬운 환경을 제공한다.
* 과학자들이 워크플로우를 실행하고 결과를 실시간으로 볼 수 있도록 지원하는 대화형 도구를 제공한다.
* 과학자 간의 워크플로우 공유 및 재사용 프로세스를 단순화한다.
* 과학자들이 워크플로우 실행 결과 및 워크플로우 생성 단계의 출처를 추적할 수 있도록 지원한다.

이러한 서비스를 제공하는 플랫폼으로는 갤럭시, 케플러, 타버나, 유진(UGENE), 안두릴, HIVE 등이 있다.

8.3. 주요 데이터베이스

데이터베이스는 생물정보학 연구 및 응용에 필수적이다. DNA 및 단백질 서열, 분자 구조, 표현형, 생물 다양성 등 다양한 정보 유형을 다루는 많은 데이터베이스가 구축되어 있다. 데이터베이스에는 실험적으로 획득되는 실험 데이터와 분석에서 얻어지는 예측 데이터 중 하나 또는 둘 다가 포함된다. 데이터베이스는 종종 특정 생물, 대사 경로, 목적 분자에 특화되어 구축된다. 또한 다른 여러 데이터베이스에서 컴파일된 데이터를 통합하기도 한다.
생물정보학에서 다루는 데이터는 1차원 문자열(시퀀스)부터 3차원 구조의 매트릭스(PDB), 계산 과학에서의 그래프(네트워크 데이터 전반), 유전자 온톨로지와 같은 유향 비순환 그래프(DAG)와 같은 매우 다양한 데이터 구조를 가진다.

--

각종 데이터베이스는 파일 형식, 접근 메커니즘, 공개 여부 등 다양한 점에서 차이가 있다. 생물학 연구에 사용되는 주요 데이터베이스는 다음과 같다(괄호 안은 구체적인 예):

* 서열 데이터베이스: DDBJ, EMBL, GenBank, Swiss-Prot
* 입체 구조 데이터베이스: PDB
* 경로·네트워크 데이터베이스: KEGG, BioCyc
* 마이크로어레이 데이터베이스: ArrayExpress, GEO
* 문헌 데이터베이스: MEDLINE/PubMed
* 온톨로지 데이터베이스: 유전자 온톨로지

생물정보학

1. 개요

2. 역사적 배경

2.1. 생물정보학의 태동

2.2. 생물정보학의 발전과 한국

3. 관련 분야

4. 하위 분야

4.1. 유전체학

4.2. 변이체학

4.3. 단백체학

4.4. 상호작용체학

4.5. 다중체학 (Multiomics)

5. 주요 연구 분야

5.1. 서열 분석

5.2. 유전자 및 단백질 기능 예측

5.3. 유전체 주석 (Genome Annotation)

5.4. 비교 유전체학

5.5. 질병 유전체학

5.6. 암 유전체학

5.7. 유전자 발현 분석

5.8. 단백질 구조 예측

5.9. 네트워크 및 시스템 생물학

6. 응용 분야

6.1. 신약 개발

6.2. 질병 진단 및 예방

6.3. 농업 및 식품 산업

6.4. 환경 및 에너지 산업

7. 관련 기관 및 저널

7.1. 한국

7.2. 국제

7.3. 관련 저널

8. 도구 및 데이터베이스

8.1. 오픈 소스 생물정보학 소프트웨어

8.2. 생물정보학 워크플로우 관리 시스템

8.3. 주요 데이터베이스