단백질 설계

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

단백질 설계는 1970년대와 1980년대에 시작되어, 단백질의 구조와 기능을 컴퓨터 모델을 통해 설계하고 최적화하는 기술이다. 목표 구조, 서열 공간, 구조적 유연성, 에너지 함수 등의 요소를 고려하여 단백질을 설계하며, 효소, 친화성, 특이성, 단백질 리서페이싱, 구상 단백질 및 막 단백질 설계 등 다양한 분야에 응용된다. 최적화 문제로 간주되어 정확한 알고리즘과 휴리스틱 알고리즘을 사용하여 해결하며, 딥 러닝과 같은 새로운 기술의 도입으로 발전하고 있다.

단백질 설계

개요

분야	생물학, 화학, 컴퓨터 과학
목표	특정 기능이나 특성을 가진 새로운 단백질 분자를 합리적으로 설계하는 것
접근 방식	De novo 설계 단백질 스캐폴드 재설계 계산적 단백질 설계 합리적 단백질 설계

상세 정보

정의	새로운 단백질 분자를 합리적으로 설계하는 과정
설계 방법	단백질 구조 예측 단백질 접힘 예측 단백질 기능 예측
응용 분야	새로운 효소 촉매 개발 치료용 단백질 개발 바이오 센서 개발 새로운 재료 개발
핵심 기술	컴퓨터 모델링 분자 시뮬레이션 단백질 공학 합성 생물학

관련 기술	단백질 공학 합성 생물학 계산 생물학 구조 생물학
기술 종류	단백질 구조 예측 단백질 상호작용 예측 단백질-리간드 도킹 분자 역학 시뮬레이션

다른 이름	합리적 단백질 설계, 데 노보 단백질 설계
관련 연구	단백질 구조 예측 연구 단백질 접힘 문제 연구 효소 설계 연구

참고 자료	Minimalist design of peptide and protein catalysts The de novo design of protein structures

2. 역사적 배경

1970년대와 1980년대에 최초의 단백질 설계가 이루어졌다. 초기에는 다른 알려진 단백질, 서열 조성, 아미노산 전하 및 원하는 구조의 기하학적 구조 분석을 기반으로 수작업으로 서열을 최적화했다. 베른트 구테(Bernd Gutte)는 최초로 설계된 단백질을 만들었는데, 이는 소 리보뉴클레아제의 축소된 버전과 DDT 결합체를 포함하는 β 시트와 α 나선으로 구성된 3차 구조였다. 어리(Urry)와 동료들은 서열 조성을 기반으로 하는 규칙에 따라 엘라스틴 유사 섬유 단백질 펩타이드를 설계했다. 리차드슨(Richardson)과 동료들은 알려진 단백질과 서열 상동성이 없는 79개 잔기 단백질을 설계했다.

1990년대 이후, 강력한 컴퓨터, 아미노산 컨포메이션 라이브러리, 그리고 주로 분자 역학 시뮬레이션을 위해 개발된 힘장이 등장하면서 구조 기반의 전산 단백질 설계 도구 개발이 가능해졌다. 1997년 스티븐 메이오(Stephen Mayo)와 동료들이 최초로 완전히 드 노보(de novo)로 설계된 단백질을 만들었으며, 1999년 피터 S. 김(Peter S. Kim)과 동료들은 부자연스러운 오른손 코일 코일의 이량체, 삼량체 및 사량체를 설계했다. 2003년, 데이비드 베이커 (생화학자)(David Baker) 연구실은 자연에서 볼 수 없었던 폴드를 가진 완전한 단백질을 설계했다.

3. 단백질 구조 및 기능의 기본 모델

단백질 설계 프로그램은 생체 내 환경에서 단백질을 구동하는 분자력에 대한 컴퓨터 모델을 사용하며, 문제를 단순화한다. 단백질 설계 프로그램은 다양하지만, 목표 구조, 유연성, 서열 공간, 힘장이라는 네 가지 주요 모델링 질문에 답해야 한다.

단백질의 기능은 단백질 구조에 크게 의존하며, 합리적인 단백질 설계는 이러한 관계를 사용하여 목표 구조 또는 폴드를 가진 단백질을 설계함으로써 기능을 설계한다. 따라서 합리적인 단백질 설계에서 목표 구조 또는 구조 앙상블은 정의상 미리 알려져 있어야 한다. 이는 특정 기능을 달성하는 단백질을 찾기 위해 다양한 방법을 사용하는 지향적 진화와, 서열은 알려져 있지만 구조는 알려지지 않은 단백질 구조 예측과 같은 다른 형태의 단백질 공학과 대조된다.

최근에는 데이비드 베이커와 연구진이 2차 구조 예측과 3차 구조 사이를 연결하는 단백질 접힘 깔때기를 기반으로 이상적인 구상 단백질 구조를 설계하기 위한 일련의 원리를 개발했다. 단백질 구조 예측과 단백질 설계를 모두 기반으로 하는 이러한 원리는 5개의 서로 다른 새로운 단백질 토폴로지를 설계하는 데 사용되었다.

단백질을 둘러싼 대부분의 분자는 물이며, 단백질 구조의 주요 원동력이다. 단백질 설계에서 물과 단백질 간의 상호 작용을 모델링하는 것은 매우 중요하다. 단백질 설계 프로그램은 이러한 물 분자 대부분을 연속체로 모델링하여 소수성 효과와 용매화 분극을 모두 모델링한다.

3.1. 목표 구조

합리적 단백질 설계에서 목표 구조는 미리 알려져 있어야 하며, 이는 지향적 진화나 단백질 구조 예측과 대조된다. 대부분의 경우, 목표 구조는 다른 단백질의 알려진 구조를 기반으로 하지만, 새로운 폴드 설계도 가능하다. 피터 S. 김(Peter S. Kim)과 연구진은 자연에서 볼 수 없었던 인공 코일 코일의 삼량체와 사량체를 설계했다. 데이비드 베이커 연구실에서 개발된 Top7 단백질은 완전히 새로운 폴드로 설계되었다.

3.2. 서열 공간

단백질 설계에서 서열 공간은 각 잔기 위치에서 허용되는 특정 아미노산을 정의한다. 단백질 재설계에서는 서열의 대부분 잔기가 야생형 아미노산으로 유지되지만, 일부 잔기만 변이가 허용된다. 반면 de novo 설계에서는 사전 서열에 근거하지 않고 전체 서열이 새롭게 설계된다.

De novo 설계와 단백질 재설계 모두 서열 공간에 대한 규칙을 설정할 수 있다. 예를 들어, HIV 광범위 중화 항체를 선택하기 위한 RSC3 프로브의 조성은 진화 데이터와 전하 균형을 기반으로 제한되었다. 초기 단백질 설계는 서열 공간에 대한 경험적인 '규칙'에 크게 기반했다. 섬유 단백질의 설계는 일반적으로 서열 공간에 대한 엄격한 규칙을 따른다. 예를 들어, 콜라겐을 기반으로 설계된 단백질은 Gly-Pro-X 반복 패턴으로 구성되는 경우가 많다. 그러나 계산 기술의 발전으로 인간의 개입 없이도 서열 선택을 통해 단백질을 설계할 수 있게 되었다.

3.3. 구조적 유연성

단백질 설계에서는 목표 구조에 대해 설계 가능한 서열의 수를 늘리고, 서열이 다른 구조로 접힐 가능성을 최소화하기 위해 목표 구조에 어느 정도의 유연성을 모델링해야 한다. 예를 들어, 단백질의 빽빽하게 채워진 코어에 있는 작은 아미노산(예: 알라닌)을 재설계할 때, 주변 측쇄가 다시 채워질 수 없다면 합리적인 설계 접근 방식으로는 목표 구조로 접히도록 예측될 돌연변이체가 거의 없을 것이다.

모든 설계 과정에서 필수적인 매개변수는 측쇄와 주쇄 모두에 허용되는 유연성의 정도이다. 가장 단순한 모델에서는 단백질 주쇄를 고정된 상태로 유지하고 일부 단백질 측쇄만 구조를 변경할 수 있다. 그러나 측쇄는 결합 길이, 결합 각도 및 χ 이면각에서 많은 자유도를 가질 수 있다. 이 공간을 단순화하기 위해 단백질 설계 방법은 결합 길이와 결합 각도에 대한 이상적인 값을 가정하고, χ 이면각을 로타머라고 하는 몇 가지 자주 관찰되는 저에너지 구조로 제한하는 로타머 라이브러리를 사용한다.

로타머 라이브러리는 많은 단백질 구조의 통계적 분석에서 파생된다. 주쇄 독립적 로타머 라이브러리는 모든 로타머를 설명한다. 반면, 주쇄 의존적 로타머 라이브러리는 측쇄 주변의 단백질 주쇄 배열에 따라 로타머가 나타날 가능성을 설명한다.

합리적인 단백질 설계는 단백질의 일반적인 주쇄 접힘을 보존해야 하지만, 어느 정도의 주쇄 유연성을 허용하면 단백질의 일반적인 접힘을 유지하면서 구조로 접히는 서열의 수를 크게 늘릴 수 있다. 주쇄 유연성은 서열 돌연변이가 종종 주쇄 구조의 작은 변화를 유발하기 때문에 단백질 재설계에서 특히 중요하다. 또한 주쇄 유연성은 결합 예측 및 효소 설계를 포함한 단백질 설계의 보다 진보된 응용 분야에 필수적일 수 있다. 단백질 설계 주쇄 유연성의 일부 모델에는 작고 연속적인 전역 주쇄 움직임, 목표 접힘 주변의 이산 주쇄 샘플, 백럽(backrub) 운동 및 단백질 루프 유연성이 포함된다.

3.4. 에너지 함수

단백질 설계에는 서열의 순위를 매기고 점수를 매길 수 있는 정확한 에너지 함수가 필요하다. 가장 정확한 에너지 함수는 양자역학적 시뮬레이션을 기반으로 하지만, 계산 속도가 너무 느려 단백질 설계에 실용적이지 않다. 따라서 많은 단백질 설계 알고리즘은 분자 역학 시뮬레이션 프로그램에서 사용되는 물리 기반 에너지 함수, 지식 기반 에너지 함수, 또는 이 둘을 혼합한 하이브리드 방식을 사용한다.

AMBER 및 CHARMM과 같은 물리 기반 에너지 함수는 일반적으로 양자역학적 시뮬레이션, 열역학, 결정학 및 분광학의 실험 데이터에서 파생된다. 이들은 원자 간의 인력-반발 레너드-존스 항과 비결합 원자 간의 쌍별 정전기 쿨롱 항을 모델링한다.

통계적 포텐셜은 계산 속도가 빠르고 복잡한 효과를 암묵적으로 고려하며 단백질 구조의 작은 변화에 덜 민감하다는 장점이 있다. 이러한 에너지 함수는 구조 데이터베이스에서 나타나는 빈도에서 에너지 값을 파생하는 것을 기반으로 한다.

하지만, 분자 역학 힘장은 단일 서열 시뮬레이션에 최적화되어 있는 반면, 단백질 설계는 많은 서열의 다양한 구조를 탐색한다. 따라서 분자 역학 힘장은 단백질 설계를 위해 맞춤화되어야 한다. 실제로 단백질 설계 에너지 함수는 종종 통계적 항과 물리 기반 항을 모두 통합한다. 예를 들어, 가장 많이 사용되는 에너지 함수 중 하나인 로제타(Rosetta) 에너지 함수는 CHARMM 에너지 함수에서 파생된 물리 기반 에너지 항과 로타머 확률 및 지식 기반 정전기와 같은 통계적 에너지 항을 통합한다. 일반적으로 에너지 함수는 실험실 간에 고도로 사용자 정의되며 모든 설계에 맞게 특별히 조정된다.

단백질을 둘러싼 대부분의 분자는 물이며, 단백질 구조의 주요 원동력이다. 단백질 설계에서 물과 단백질 간의 상호 작용을 모델링하는 것은 매우 중요하다. 단백질 설계 프로그램은 이러한 물 분자 대부분을 연속체로 모델링하여 소수성 효과와 용매화 분극을 모두 모델링한다.

4. 최적화 문제로서의 단백질 설계

단백질 설계의 목표는 특정 단백질 구조로 접힐(단백질 폴딩) 아미노산 서열을 찾는 것이다. 후보 단백질 서열의 수는 단백질 잔기 수에 따라 기하급수적으로 증가한다. 예를 들어 길이가 100인 단백질 서열은 20¹⁰⁰가지나 된다. 또한, 아미노산 측쇄 구조가 몇 개의 로타머로 제한된다 하더라도, 각 서열에 대해 기하급수적인 수의 구조가 발생한다.

에너지 함수는 일반적으로 로타머와 아미노산 유형 사이의 쌍별 항으로 분해될 수 있으며, 이는 문제를 조합 문제로 만들어 해결할 수 있게 한다. 이 경우, 각 서열에 속하는 각 구조의 총 에너지는 잔기 위치 사이의 개별 항과 쌍별 항의 합으로 공식화될 수 있다. 설계자가 최상의 서열에만 관심이 있다면, 단백질 설계 알고리즘은 가장 낮은 에너지 서열의 가장 낮은 에너지 구조만 필요로 한다.

단백질 사슬에서 잔기 위치 i의 로타머를 r_i, 로타머 내부 원자 사이의 잠재 에너지를 E(r_i), 잔기 위치 j에서 r_i와 로타머 r_j 사이의 잠재 에너지를 E(r_i, r_j)라고 하면, 최적화 문제는 다음과 같이 최소 에너지(E_T)의 구조를 찾는 것으로 정의된다.

:

E_T를 최소화하는 문제는 NP-난해 문제이다. 그러나 문제의 클래스가 NP-난해함에도 불구하고, 실제 단백질 설계의 많은 사례는 정확하게 해결되거나 휴리스틱 방법을 통해 만족스럽게 최적화될 수 있다.

5. 단백질 설계 알고리즘

단백질 설계 알고리즘은 크게 정확한 알고리즘과 휴리스틱 알고리즘으로 분류된다.

단백질 설계의 목표는 특정 단백질 구조로 접히는 아미노산 서열을 찾는 것이다. 단백질 설계 알고리즘은 목표 접힘에 대한 각 서열의 모든 구조를 탐색하고, 단백질 설계 에너지 함수에 의해 결정되는 각 서열의 가장 낮은 에너지 구조에 따라 서열의 순위를 매긴다.

그러나 후보 단백질 서열의 수는 단백질 잔기의 수에 따라 기하급수적으로 증가한다. 아미노산 측쇄 구조가 몇 개의 로타머로 제한된다 하더라도, 이는 각 서열에 대해 기하급수적인 수의 구조를 초래한다. 따라서, 단백질 설계 알고리즘은 방대한 탐색 공간에서 최적의 서열을 찾아야 한다.

가장 일반적인 에너지 함수는 로타머와 아미노산 유형 사이의 쌍별 항으로 분해될 수 있으며, 이는 문제를 조합 문제로 만들고 강력한 최적화 알고리즘을 사용하여 해결할 수 있게 한다. 이 경우, 각 서열에 속하는 각 구조의 총 에너지는 잔기 위치 사이의 개별 및 쌍별 항의 합으로 공식화될 수 있다.

: $\min E_{T} = \sum_{i}\Big[ E_i(r_i) + \sum_{i\ne j} E_{ij}(r_i, r_j)\Big] \,$

E_T를 최소화하는 문제는 NP-hard 문제이다.

단백질 설계 문제에 특화된 여러 알고리즘이 개발되었다. 이러한 알고리즘은 크게 두 가지로 분류할 수 있다.

* 정확한 알고리즘: 실행 시간 보장은 없지만 해답의 질을 보장한다.
* [[휴리스틱 (컴퓨터 과학)|휴리스틱]] 알고리즘: 정확한 알고리즘보다 빠르지만 결과의 최적성에 대한 보장이 없다.

정확한 알고리즘은 단백질 설계 모델에 따라 최적의 결과를 생성한다고 보장한다. 따라서 정확한 알고리즘의 예측이 실험적으로 검증될 때 실패하는 경우, 오류의 원인은 에너지 함수, 허용된 유연성, 시퀀스 공간 또는 대상 구조(예: 설계할 수 없는 경우)로 귀인될 수 있다.

2020년 과학자들은 게놈 데이터베이스를 사용하여 진화 기반으로 새로운 단백질을 설계하는 AI 기반 프로세스를 개발했다고 보고했다. 그들은 딥 러닝을 사용하여 설계 규칙을 식별했다. 2022년에는 사전 지정된 기능적 부위를 포함하는 단백질을 설계할 수 있는 딥 러닝 소프트웨어를 보고하는 연구가 발표되었다.

이후 내용은 "수학적 보장이 있는 알고리즘" 및 "보장이 없는 최적화 알고리즘" 하위 섹션에서 더 자세히 다룬다.

5.1. 수학적 보장이 있는 알고리즘

데드-엔드 제거(DEE) 알고리즘은 전역 최저 에너지 컨포메이션(GMEC)의 일부가 아닌 로타머를 제거하여 탐색 공간을 줄인다. 각 반복에서 DEE는 각 잔기 위치에서 가능한 모든 로타머 쌍을 비교하고, 다른 로타머 r_i보다 항상 더 높은 에너지를 갖는 로타머 r′_i를 제거한다.

: $E(r^\prime_i) + \sum_{j\ne i} \min_{r_j} E(r^\prime_i,r_j) > E(r_i) + \sum_{j\ne i} \max_{r_j} E(r_i,r_j)$

쌍 제거 기준 및 일반화된 데드-엔드 제거 기준과 같이 DEE의 강력한 확장도 있다. 이 알고리즘은 연속적인 로타머를 처리하도록 확장되었다.

DEE 알고리즘은 각 반복에서 다항 시간 내에 실행되지만, 수렴을 보장할 수는 없다. 특정 횟수의 반복 후 DEE가 더 이상 로타머를 제거하지 않으면, 로타머를 병합하거나 다른 검색 알고리즘을 사용하여 남은 탐색 공간을 검색해야 한다. 이러한 경우 DEE는 탐색 공간을 줄이기 위한 사전 필터링 알고리즘 역할을 하며, A*, 몬테 카를로, 선형 계획법, FASTER와 같은 다른 알고리즘을 사용하여 남은 탐색 공간을 검색한다.

단백질 설계의 형태 공간은 트리로 표현될 수 있으며, 단백질 잔기는 임의의 방식으로 정렬되고, 트리는 각 잔기의 로타머에서 분기된다. 분기 한정법 알고리즘은 이러한 표현을 사용하여 형태 트리를 효율적으로 탐색한다. 각 분기에서 분기 한정법 알고리즘은 형태 공간을 한정하고 유망한 분기만 탐색한다.

단백질 설계를 위한 널리 사용되는 탐색 알고리즘은 A* 탐색 알고리즘이다. A*는 각 부분 트리 경로에 대한 하한 점수를 계산하며, 이는 확장된 각 로타머의 에너지를 하한으로 한다(보장). 각 부분 형태는 우선 순위 큐에 추가되고 각 반복에서 가장 낮은 하한을 가진 부분 경로가 큐에서 꺼내져 확장된다. 알고리즘은 완전한 형태가 열거되면 중지되며, 형태가 최적임을 보장한다.

단백질 설계에서 A* 점수 f는 f=g+h의 두 부분으로 구성된다. g는 부분 형태에서 이미 할당된 로타머의 정확한 에너지이다. h는 아직 할당되지 않은 로타머의 에너지에 대한 하한이다. 각 항목은 다음과 같이 설계되며, 여기서 d는 부분 형태에서 마지막으로 할당된 잔기의 인덱스이다.

: $g=\sum_{i=1}^d (E(r_i ) + \sum_{j=i+1}^d E(r_i,r_j) )$

: $h = \sum_{j=d+1}^n [\min_{r_j}(E(r_j) + \sum_{i=1}^d E(r_i,r_j) + \sum_{k=j+1}^n \min_{r_k} E(r_j,r_k))]$

E_T를 최적화하는 문제는 정수 선형 계획법(ILP)으로 쉽게 공식화할 수 있다. 가장 강력한 공식 중 하나는 로타머의 존재와 최종 솔루션의 에지를 나타내기 위해 이진 변수를 사용하고, 각 잔기에 대해 정확히 하나의 로타머와 각 잔기 쌍에 대해 하나의 쌍별 상호 작용을 갖도록 솔루션을 제한한다.

: $\ \min \sum_{i}\sum_{r_i} E_i(r_i)q_{i}(r_i) + \sum_{j\ne i}\sum_{r_j} E_{ij}(r_i, r_j)q_{ij}(r_i, r_j) \,$

제약 조건:

: $\sum_{r_i} q_{i}(r_i) = 1, \ \forall i$

: $\sum_{r_j} q_{ij}(r_i,r_j) = q_{i}(r_i), \forall i, r_i, j$

: $q_i, q_{ij} \in \{0,1\}$

CPLEX와 같은 ILP 솔버는 단백질 설계 문제의 대규모 사례에 대한 정확한 최적 솔루션을 계산할 수 있다. 이러한 솔버는 문제의 선형 계획법 완화를 사용하며, 여기서 q_i와 q_ij는 연속 값을 가질 수 있으며, 분기 한정법 알고리즘과 결합하여 최적 솔루션을 위해 컨포메이션 공간의 작은 부분만 검색한다. ILP 솔버는 측쇄 배치 문제의 많은 사례를 해결하는 것으로 나타났다.

ILP 솔버는 각 분기에서 LP 완화를 수행하기 위해 단순법 또는 배리어 기반 방법과 같은 선형 계획법(LP) 알고리즘에 의존한다. 이러한 LP 알고리즘은 일반적인 목적의 최적화 방법으로 개발되었으며 단백질 설계 문제에 최적화되어 있지 않다. 결과적으로, LP 완화는 문제 크기가 클 때 ILP 솔버의 병목 현상이 된다. 최근, 단백질 설계 문제의 LP 완화를 최적화하기 위해 특별히 설계된 몇 가지 대안이 메시지 전달 알고리즘을 기반으로 개발되었다. 이러한 알고리즘은 정수 계획법의 쌍대 또는 원시 인스턴스를 모두 근사할 수 있지만, 최적성에 대한 보장을 유지하기 위해, 단백질 설계 문제의 쌍대를 근사하는 데 가장 유용하다. 쌍대를 근사하면 솔루션을 놓치지 않도록 보장하기 때문이다. 메시지 전달 기반 근사에는 트리 가중 최대-곱 메시지 전달 알고리즘 및 메시지 전달 선형 계획법 알고리즘이 포함된다.

5.2. 보장이 없는 최적화 알고리즘

몬테카를로 방법은 단백질 설계를 위한 가장 널리 사용되는 알고리즘 중 하나이다. 가장 단순한 형태의 몬테카를로 알고리즘은 무작위로 잔기를 선택하고, 해당 잔기에서 무작위로 선택된 로타머(어떤 아미노산이라도)를 평가한다. 단백질의 새로운 에너지 E_new는 이전 에너지 E_old와 비교되며, 새로운 로타머는 다음과 같은 확률로 수용된다.

: $p=e^{-\beta(E_{\text{new}}-E_{\text{old}}))},$

여기서 β는 볼츠만 상수이며, 온도 T는 초기 단계에서는 높게, 시뮬레이티드 어닐링을 천천히 진행하여 지역 최소값을 극복하도록 선택할 수 있다.

FASTER 알고리즘은 아미노산 서열을 최적화하기 위해 결정론적 기준과 확률론적 기준을 결합하여 사용한다. FASTER는 먼저 DEE를 사용하여 최적의 해답에 속하지 않는 로타머를 제거한다. 그런 다음, 일련의 반복 단계를 통해 로타머 할당을 최적화한다.

신념 전파에서, 이 알고리즘은 각 잔기가 인접한 잔기에서 각 회전 이성질체의 확률에 대해 갖는 믿음을 설명하는 메시지를 교환한다. 이 알고리즘은 매 반복마다 메시지를 업데이트하고, 수렴하거나 고정된 횟수만큼 반복할 때까지 반복한다. 단백질 설계에서는 수렴이 보장되지 않는다. 잔기 i가 인접 잔기 j의 모든 회전 이성질체 (r_j로 보내는 메시지 m_{i→ j}(r_j는 다음과 같이 정의된다.

: $m_{i\to j}(r_j) = \max_{r_i} \Big(e^{\frac{-E_i(r_i)-E_{ij}(r_i,r_j)}{T}}\Big) \prod_{k \in N(i)\backslash j} m_{k\to i (r_i)}$

최대-곱 신념 전파와 합-곱 신념 전파가 모두 단백질 설계를 최적화하는 데 사용되었다.

6. 단백질 설계의 응용 및 사례

1970년대와 1980년대에 단백질이 처음으로 합리적으로 설계되었을 때, 그 서열은 다른 알려진 단백질, 서열 조성, 아미노산 전하 및 원하는 구조의 기하학적 구조 분석을 기반으로 수동으로 최적화되었다. 최초로 설계된 단백질은 베른트 구테(Bernd Gutte)가 설계한 것으로, 소 리보뉴클레아제의 축소된 버전과 DDT 결합체를 포함하는 베타 시트와 알파 나선으로 구성된 3차 구조였다. 어리(Urry)와 동료들은 나중에 서열 조성을 기반으로 하는 규칙에 따라 엘라스틴 유사 섬유 단백질 펩타이드를 설계했다. 리차드슨(Richardson)과 동료들은 알려진 단백질과 서열 상동성이 없는 79개 잔기 단백질을 설계했다.

1990년대에는 강력한 컴퓨터, 아미노산 컨포메이션 라이브러리, 그리고 주로 분자 역학 시뮬레이션을 위해 개발된 힘장이 등장하면서 구조 기반 전산 단백질 설계 도구 개발이 가능해졌다. 이러한 전산 도구 개발 이후 지난 30년 동안 단백질 설계 분야는 큰 성공을 거두었다. 1997년 스티븐 메이오(Stephen Mayo)와 동료들이 최초로 완전히 드 노보로 설계된 단백질을 개발했고, 1999년 피터 S. 김(Peter S. Kim)과 동료들은 부자연스러운 오른손 코일 코일의 이량체, 삼량체, 사량체를 설계했다. 2003년 데이비드 베이커 (생화학자)(David Baker) 연구실은 자연에서 이전에 발견되지 않은 폴드를 가진 완전한 단백질을 설계했다. 2008년 베이커 그룹은 두 가지 다른 반응에 대한 효소를 전산 방식으로 설계했고, 2010년에는 전산 설계된 단백질 탐침을 사용하여 환자 혈청에서 가장 강력한 광범위 중화 항체 중 하나를 분리했다. 이러한 성과들 덕분에 단백질 설계는 단백질 공학에서 가장 중요한 도구 중 하나가 되었으며, 생물의학 및 생명공학 분야에서 활용될 것으로 크게 기대된다.

단백질 설계의 응용 및 사례는 다음과 같다.

* 효소 설계: 새로운 효소를 설계하여 생명공학 및 의생명공학 분야에 응용한다.
* 준합리적 설계: 효소의 서열, 구조, 촉매 작용 기작을 바탕으로 의도적인 변형을 가하는 방법이다.
* 친화성을 위한 설계: 단백질-단백질 상호작용을 조절하여 알츠하이머병, 암(TP53 등), 인간 면역 결핍 바이러스(HIV) 감염 등의 질병 치료에 응용한다.
* 특이성을 위한 설계: 특정 단백질과의 결합만 유도하여 부작용을 최소화한다.
* 단백질 리서페이싱: 단백질 표면을 설계하여 다른 단백질과의 결합 방식을 변경한다.
* 구상 단백질 설계: 안정적인 구조를 가지는 구상 단백질을 설계한다.
* 막 단백질 설계: 막 단백질을 설계하여 세포막 기능을 조절한다.
* 기타 응용: 바이오센서 개발 등 특정 화합물을 감지하는 단백질을 설계한다.

6.1. 효소 설계

새로운 효소의 설계는 생명공학 및 의생명공학 분야에서 광범위하게 응용될 수 있다. 효소 설계는 촉매 기구와 관련된 여러 상태를 고려해야 하기 때문에 일반적인 단백질 구조 설계와는 다르다. 그럼에도 불구하고, 단백질 설계는 드 노보(de novo) 효소 설계의 필수적인 전제 조건인데, 이는 촉매 설계를 위해서는 최소한 촉매 메커니즘을 삽입할 수 있는 스캐폴드가 필요하기 때문이다.

21세기 첫 10년 동안 드 노보 효소 설계 및 재설계 분야는 큰 발전을 이루었다. 데이비드 베이커(David Baker)와 그의 동료들은 세 가지 주요 연구를 통해 레트로-알돌 반응, 켐프 제거 반응, 딜스-알더 반응에 대한 효소를 드 노보로 설계했다. 또한, 스티븐 메이요(Stephen Mayo)와 동료들은 켐프 제거 반응에 대해 알려진 가장 효율적인 효소를 설계하기 위한 반복적인 방법을 개발했다. 브루스 도널드(Bruce Donald) 연구실에서는 계산 단백질 설계를 사용하여 그라미시딘 S를 생성하는 비리보솜 펩타이드 합성효소의 단백질 도메인 중 하나의 특이성을 자연 기질인 페닐알라닌에서 다른 비특이적 기질(예: 전하를 띤 아미노산)로 전환시켰다. 재설계된 효소는 야생형 효소와 거의 비슷한 활성을 보였다.

6.2. 준합리적 설계

준합리적 설계는 효소의 서열, 구조 및 촉매 작용 기작에 대한 어느 정도의 이해를 바탕으로 하는 의도적인 변형 방법이다. 이 방법은 비합리적 설계와 합리적 설계 사이에 위치하며, 알려진 정보와 수단을 사용하여 대상 효소의 특정 기능에 대한 진화적 변형을 수행한다. 준합리적 설계의 특징은 무작위 돌연변이와 스크리닝에만 의존하지 않고, 오류 발생 PCR, DNA 재조합, 위치 포화 돌연변이 유발과 같은 지향적 진화의 개념을 결합한다는 것이다. 이를 통해 다양한 서열을 가진 무작위 돌연변이 라이브러리를 생성하고, 효소에 대한 이해와 설계 원리를 사용하여 원하는 특성을 가진 돌연변이를 의도적으로 선별한다.

준합리적 설계 방법론은 효소에 대한 심층적인 이해와 진화 과정의 제어를 강조한다. 이를 통해 연구자들은 알려진 정보를 사용하여 진화 과정을 안내하여 효율성과 성공률을 향상시킬 수 있다. 이 방법은 단백질 기능 변형에 중요한 역할을 하는데, 비합리적 설계와 합리적 설계의 장점을 결합할 수 있으며, 알려지지 않은 공간을 탐색하고 알려진 지식을 사용하여 표적 변형을 수행할 수 있기 때문이다.

준합리적 설계는 효소 최적화, 약물 표적 변형, 생물 촉매의 진화 등 광범위한 분야에 적용된다. 이 방법을 통해 연구자들은 특정 생명 공학 또는 의학적 요구 사항을 충족하기 위해 단백질의 기능적 특성을 더욱 효과적으로 향상시킬 수 있다. 이 방법은 정보와 기술에 대한 요구 사항이 높고 구현하기가 비교적 어렵지만, 컴퓨팅 기술과 생물 정보학의 발전에 따라 단백질 공학 분야에서 준합리적 설계의 응용 전망이 점점 더 넓어지고 있다.

6.3. 친화성을 위한 설계

단백질-단백질 상호작용은 대부분의 생물학적 과정에 관여한다. 알츠하이머병, 여러 형태의 암(TP53 등), 인간 면역 결핍 바이러스(HIV) 감염과 같이 치료하기 어려운 질병 중 상당수는 단백질-단백질 상호작용과 관련이 있다. 따라서 이러한 질병을 치료하기 위해서는 상호작용 파트너 중 하나에 결합하여 질병을 유발하는 상호작용을 방해하는 단백질 또는 단백질 유사 치료제를 설계하는 것이 필요하다. 이를 위해서는 파트너에 대한 친화도를 가진 단백질 치료제를 설계해야 한다.

단백질 안정성을 지배하는 원리가 단백질-단백질 결합에도 적용되기 때문에, 단백질 설계 알고리즘을 사용하여 단백질-단백질 상호작용을 설계할 수 있다. 그러나 단백질-단백질 상호작용 설계는 일반적인 단백질 설계에서는 나타나지 않는 문제를 야기한다. 가장 중요한 문제 중 하나는 단백질 간의 인터페이스가 단백질 코어보다 더 극성이 높고, 결합에는 탈용매화와 수소 결합 형성 사이의 상충 관계가 있다는 것이다. 이러한 문제를 해결하기 위해 브루스 티도르(Bruce Tidor)와 그의 동료들은 정전기적 기여에 초점을 맞춰 항체의 친화도를 향상시키는 방법을 개발했다. 그들은 설계된 항체의 경우, 인터페이스 잔기의 탈용매화 비용을 줄이면 결합 쌍의 친화도가 증가한다는 것을 발견했다.

6.3.1. 결합 예측 점수화

단백질 설계 에너지 함수는 결합 예측을 위해 조정되어야 한다. 왜냐하면 결합은 자유 단백질의 가장 낮은 에너지 상태(E_P 및 E_L)와 결합된 복합체의 가장 낮은 에너지 상태(E_PL) 사이의 상충 관계를 포함하기 때문이다.

: $\Delta_G = E_{PL} - E_P - E_L$ .

K* 알고리즘은 자유 에너지 계산에 컨포메이션 엔트로피를 포함시켜 알고리즘의 결합 상수를 근사한다. K* 알고리즘은 각 복합체의 분배 함수를 근사하기 위해 자유 복합체와 결합 복합체의 가장 낮은 에너지 상태(P, L, PL로 표시)만을 고려한다.

: $K^* = \frac{\sum\limits_{x\in PL} e^{-E(x)/RT}}{\sum\limits_{x\in P} e^{-E(x)/RT}\sum\limits_{x\in L} e^{-E(x)/RT}}$

6.4. 특이성을 위한 설계

단백질-단백질 상호작용 설계는 단백질이 많은 수의 단백질과 상호작용할 수 있기 때문에 매우 특이적이어야 하며, 성공적인 설계를 위해서는 선택적 결합체가 필요하다. 따라서 단백질 설계 알고리즘은 표적 결합(또는 긍정적 설계)과 비표적 결합(또는 부정적 설계)을 구별할 수 있어야 한다. 특이성 설계를 보여주는 가장 두드러진 예 중 하나는 에이미 키팅(Amy Keating)과 동료들이 20개의 bZIP 패밀리 중 19개에 대해 설계한 특정 bZIP 결합 펩타이드이다. 이 펩타이드 중 8개는 경쟁 펩타이드보다 의도한 파트너에 대해 특이성을 보였다. 또한, 앤더슨(Anderson)과 동료들은 긍정적 및 부정적 설계를 사용하여 새로운 약물에 대한 내성을 부여하는 약물 표적의 활성 부위에서 돌연변이를 예측했다. 긍정적 설계는 야생형 활성을 유지하는 데 사용되었고, 부정적 설계는 약물 결합을 방해하는 데 사용되었다. 코스타스 마라나스(Costas Maranas)와 동료들의 최근 전산 재설계는 또한 Candida boidinii 자일로스 환원효소의 보조 인자 특이성을 NADPH에서 NADH로 실험적으로 전환할 수 있었다.

6.5. 단백질 리서페이싱

단백질 리서페이싱은 단백질의 전반적인 접힘, 핵심 영역 및 경계 영역을 손상시키지 않으면서 단백질 표면을 설계하는 것이다. 단백질 리서페이싱은 단백질이 다른 단백질에 결합하는 방식을 변경하는 데 특히 유용하다. 단백질 리서페이싱의 가장 중요한 응용 분야 중 하나는 미국 국립보건원(NIH) 백신 연구 센터에서 광범위하게 중화하는 HIV 항체를 선택하기 위한 RSC3 프로브 설계였다. 먼저, gp120 HIV 외피 단백질과 이전에 발견된 b12 항체 간의 결합 인터페이스 외부의 잔기를 설계하도록 선택했다. 그런 다음, 진화 정보, 용해도, 야생형과의 유사성 및 기타 고려 사항을 기반으로 시퀀스 공간을 선택했다. 그 후, 로제타 디자인 소프트웨어를 사용하여 선택된 시퀀스 공간에서 최적의 시퀀스를 찾았다. RSC3는 나중에 장기간 HIV에 감염된 비진행자 개인의 혈청에서 광범위하게 중화하는 항체 VRC01을 발견하는 데 사용되었다.

6.6. 구상 단백질 설계

구상 단백질은 소수성 코어와 친수성 표면을 가지며, 섬유상 단백질과 달리 안정적인 구조를 갖는 경우가 많다. X선 결정 구조 분석 및 핵자기 공명 분광법을 통해 막 단백질보다 3차원 구조를 결정하기 쉽기 때문에 단백질 설계에 더 매력적이다. 가장 성공적인 단백질 설계는 구상 단백질을 포함한다. RSD-1과 Top7 모두 구상 단백질의 드 노보(de novo) 설계였다. 2012년 베이커 그룹은 5개의 단백질 구조를 더 설계하고 합성하여 검증했다. 이 새로운 단백질은 생물학적 기능을 수행하지 않지만, 기능적 활성 부위를 통합하도록 확장할 수 있는 빌딩 블록 역할을 하도록 설계되었다. 이 구조는 2차 구조를 지정하는 서열의 일부 사이를 연결하는 루프를 분석하여 새로운 발견법을 사용하여 계산적으로 발견되었다.

6.7. 막 단백질 설계

여러 막 단백질들이 성공적으로 설계되었고, 다른 많은 막 연관 펩타이드와 단백질들도 설계되었다. 최근 코스타스 마라나스(Costas Maranas)와 그의 연구진은 대장균의 외막 포린 타입-F(OmpF)의 기공 크기를 임의의 서브 나노미터(sub-nm) 크기로 재설계하고, 정밀한 옹스트롬(angstrom) 규모의 분리를 수행하기 위해 막에 조립하는 자동화 도구를 개발했다.

6.8. 기타 응용

단백질 설계의 가장 바람직한 용도 중 하나는 특정 화합물의 존재를 감지하는 단백질인 바이오센서이다. 바이오센서 설계에서는 트리니트로톨루엔(TNT)과 같은 비천연 분자용 센서를 설계하려는 시도도 이루어지고 있다. 최근에는 쿨만(Kuhlman) 등이 PAK1의 바이오센서를 설계했다.