최근 Alphafold의 소스 코드와 전체 단백질 예측 구조 데이터 베이스가 공개되면서, 정말 다양한 방면에 활용이 가능할 것으로 생각되고 있습니다. 유전체 연구자의 입장에서는 Alphafold를 이용하면 수 많은 변이들의 in-silico structural prediction이 가능하기에, 과거에 존재하던 variant prediction tool들 보다 훨씬 강력하고 정확한 예측 도구가 나타날 것으로 생각됩니다. 이번 포스팅은 공개된 Alphafold2의 소스 코드와 데이터 베이스 자료를 정리해보고자 합니다.

Alphafold2의 경우, 기존에 실험적으로 17% 정도만 알려져있던 단백질의 3차원적인 구조를 딥러닝 기법을 활용하여, 존재하는 거의 모든 단백질에 대해서 높은 정확도로 예측하여 해당 구조를 데이터베이스로 제공하고 있습니다. 이는 과거에 알지 못했던 많은 단백질의 3차원 구조들에 대한 높은 예측을 제공하기 때문에, 완전히 새로운 필드를 열었다고 해도 과언이 아닙니다. 특히나 단백질의 3차원 모델화가 가능하다는 것은 이 모델을 활용하여 추후에 파생되는 약물 상호 작용이나 변이의 효과에 대한 예측도 가능하다는 이야기가 되기 때문에, 그 파급력은 더욱 클 것으로 생각됩니다.

현재 AlphaFold Protein Structure Database는 약 2만개의 단백질에 대한 정상 구조를 예측되어 제공하고 있지만, 개인적으로는 인간의 유전체에 존재하는 수 많은 변이 (Missense & Indel variants) 에 대해, mutant protein 들의 예측도 포함하는 Database가 update가 되길 기대해 봅니다. 현재까지의 아미노산 서열의 변화에 대한 많은 예측 Tool이 개발되었지만, 임상적으로 해석하고 활용하기에는 많은 한계가 있었는데, 최종 변이 단백질의 구조를 높은 정확도로 예측할 수 있다면, 그 해석과 활용도 용이해지기 때문입니다. 단백질 하나에 존재할 수 있는 아미노산 변이의 종류는 수만가지가 넘을 것이기 때문에 (아미노산 20종 x 단백질 서열 크기 500~2,000개 아미노산), 이러한 Database를 구축하기 위해서 컴퓨터가 연산해야할 데이터량이 무지막지하겠지만, 결국에는 이러한 in-silico saturated mutagenesis proteome Database도 추후에 구축되지 않을까 예상합니다. (비트 코인 채굴하는 자원이면, 금방 될 듯 합니다…)
[관련 포스팅 보기]
- Protein Structure Visualization: RCSB Protein Data Bank (PDB) & PyMOL
- 아미노산 치환의 효과 예측: In silico tool의 원리와 종류
- 바이오 연구자를 위한 Genome Browser 비교 및 활용
- 유전자 변이의 해석: 대용량 기능 검사의 필요성
[References]
Deepmind Blog 소개 글: https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands
Open source github 자료: https://github.com/deepmind/alphafold/
AlphaFold Protein Structure Database: https://alphafold.ebi.ac.uk/
Jumper, John, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature (2021): 1-11.