AlphaFold를 이용한 단백질 구조 예측

최근 Alphafold의 소스 코드와 전체 단백질 예측 구조 데이터 베이스가 공개되면서, 정말 다양한 방면에 활용이 가능할 것으로 생각되고 있습니다. 유전체 연구자의 입장에서는 Alphafold를 이용하면 수 많은 변이들의 in-silico structural prediction이 가능하기에, 과거에 존재하던 variant prediction tool들 보다 훨씬 강력하고 정확한 예측 도구가 나타날 것으로 생각됩니다. 이번 포스팅은 공개된 Alphafold2의 소스 코드와 데이터 베이스 자료를 정리해보고자 합니다.

[Alphafold2 모델 모식도]

Alphafold2의 경우, 기존에 실험적으로 17% 정도만 알려져있던 단백질의 3차원적인 구조를 딥러닝 기법을 활용하여, 존재하는 거의 모든 단백질에 대해서 높은 정확도로 예측하여 해당 구조를 데이터베이스로 제공하고 있습니다. 이는 과거에 알지 못했던 많은 단백질의 3차원 구조들에 대한 높은 예측을 제공하기 때문에, 완전히 새로운 필드를 열었다고 해도 과언이 아닙니다. 특히나 단백질의 3차원 모델화가 가능하다는 것은 이 모델을 활용하여 추후에 파생되는 약물 상호 작용이나 변이의 효과에 대한 예측도 가능하다는 이야기가 되기 때문에, 그 파급력은 더욱 클 것으로 생각됩니다.

현재 AlphaFold Protein Structure Database는 약 2만개의 단백질에 대한 정상 구조를 예측되어 제공하고 있지만, 개인적으로는 인간의 유전체에 존재하는 수 많은 변이 (Missense & Indel variants) 에 대해, mutant protein 들의 예측도 포함하는 Database가 update가 되길 기대해 봅니다. 현재까지의 아미노산 서열의 변화에 대한 많은 예측 Tool이 개발되었지만, 임상적으로 해석하고 활용하기에는 많은 한계가 있었는데, 최종 변이 단백질의 구조를 높은 정확도로 예측할 수 있다면, 그 해석과 활용도 용이해지기 때문입니다. 단백질 하나에 존재할 수 있는 아미노산 변이의 종류는 수만가지가 넘을 것이기 때문에 (아미노산 20종 x 단백질 서열 크기 500~2,000개 아미노산), 이러한 Database를 구축하기 위해서 컴퓨터가 연산해야할 데이터량이 무지막지하겠지만, 결국에는 이러한 in-silico saturated mutagenesis proteome Database도 추후에 구축되지 않을까 예상합니다. (비트 코인 채굴하는 자원이면, 금방 될 듯 합니다…)

[관련 포스팅 보기]

[References]

Deepmind Blog 소개 글: https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

Open source github 자료: https://github.com/deepmind/alphafold/

AlphaFold Protein Structure Database: https://alphafold.ebi.ac.uk/

Jumper, John, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature (2021): 1-11.

Jumper, J., Evans, R., Pritzel, A. et al. “Highly accurate protein structure prediction with AlphaFold”. Nature (2021).

Protein Structure Visualization: RCSB Protein Data Bank (PDB) & PyMOL

단백질을 구성하는 아미노산의 서열을 안다고 하더라도 단백질의 3차원적인 구조 (Protein 3D structure)를 예측하는 것은 매우 어려운 일입니다. 최근 구글 딥마인드에서 딥러닝을 이용한 AlphaFold를 개발해서, 3차원적인 구조를 성공적으로 예측한 논문 (아래 reference) 이 발표된 바 있지만, 전통적으로 가장 확실하게 구조를 확인하는 방법은 X-ray 회절을 이용한 Crystallography 방법 입니다.

많은 연구를 통해서, 이러한 3차원 단백 구조를 보관하고 있는 data bank가 있는데, 오늘 이용할 RCSB Protein Data Bank (PDB)가 그 곳입니다.  최근 논문을 쓰다보니, 단백질의 치환 변이를 시각화한 Figure를 만드려다 보니, PyMOL을 이용하게 되어, 해당 과정을 블로그 포스팅으로 남깁니다.

 

I. PDB를 통한 Protein Struture 정보 확인

PDB

RCSB PDB 바로가기 > https://www.rcsb.org/

 가장 먼저 할 일은 위의 database에 해당하는 단백의 PDB 파일을 받거나, PDB ID를 확인하는 것입니다. 사람의 경우, Homo Sapiens인지를 확인하고, 관심있는 유전자 또는 단백의 이름을 입력한 후에 검색을 하면, 여러개의 결과가 display됩니다. 단백질 결정의 구조를 나타낸 것이기 때문에, 어떠한 Ligand를 가지고 실험을 하였는가에 따라서, 구조가 조금씩 달라지게 됩니다. 가장 적절한 것을 선택하여, 구조를 확인하거나, PDB 파일을 다운로드 받아서 활용하게 됩니다.

 

II. PyMOL 설치 및 PDB 파일 불러오기

위의 PDB에서 받은 .pdb 파일은 다양한 툴로 분석 및 시각화가 가능한데, 가장 널리 쓰이는 프로그램은 파이썬 기반으로 개발된 PyMOL입니다. 최근에 무료에서 유료로 전환되면서, 접근성이 떨어지긴 하였지만, 설치 후 바로 30일간 무료 체험판으로 이용 가능합니다. 윈도우에서 바로 이용 가능하며, anaconda 등을 이용하여 Python 기반으로도 이용 가능합니다.

PyMOL 다운로드 바로가기 > https://pymol.org/

 

III. PyMOL을 이용한 시각화

위의 링크를 통해, PyMOL을 설치하면, 프로그램에서 PDB 파일을 불러올 수 있습니다. 여러가지 명령어와 패키지 등을 활용하면, 단백질 구조에 대한 고급 분석이 가능하다고 하는데, 저는 가장 기본적인 기능만을 활용해서, 유전체 분석을 통해 확인된 변이들의 위치를 시각화하는데 이용 해보도록 하겠습니다. (논문용 Figure…) 더 자세한 세부 내용은 링크에서 찾으시길 바랍니다.

초보자를 위한 PyMOL 시작하기 > https://pymolwiki.org/index.php/Practical_Pymol_for_Beginners

기타 PyMOL의 활용법을 위한 PyMOL Wiki 바로가기 > https://pymolwiki.org/

자주 사용하는 유용한 PyMOL 명령어 > http://pymol.sourceforge.net/newman/user/S0210start_cmds.html

CYP1A1

저는 약물 유전자 중 하나인 CYP1A1 유전자에서 발견된 변이들의 위치를 아래의 Command들을 이용하여, Cartoon View로 표시해 보았습니다.  위의 그림은 최종적으로 완성한 그림입니다.

 


[References]

Senior, Andrew W., et al. “Improved protein structure prediction using potentials from deep learning.” Nature (2020): 1-5.