Protein Structure Visualization: RCSB Protein Data Bank (PDB) & PyMOL

단백질을 구성하는 아미노산의 서열을 안다고 하더라도 단백질의 3차원적인 구조 (Protein 3D structure)를 예측하는 것은 매우 어려운 일입니다. 최근 구글 딥마인드에서 딥러닝을 이용한 AlphaFold를 개발해서, 3차원적인 구조를 성공적으로 예측한 논문 (아래 reference) 이 발표된 바 있지만, 전통적으로 가장 확실하게 구조를 확인하는 방법은 X-ray 회절을 이용한 Crystallography 방법 입니다.

많은 연구를 통해서, 이러한 3차원 단백 구조를 보관하고 있는 data bank가 있는데, 오늘 이용할 RCSB Protein Data Bank (PDB)가 그 곳입니다.  최근 논문을 쓰다보니, 단백질의 치환 변이를 시각화한 Figure를 만드려다 보니, PyMOL을 이용하게 되어, 해당 과정을 블로그 포스팅으로 남깁니다.

 

I. PDB를 통한 Protein Struture 정보 확인

PDB

RCSB PDB 바로가기 > https://www.rcsb.org/

 가장 먼저 할 일은 위의 database에 해당하는 단백의 PDB 파일을 받거나, PDB ID를 확인하는 것입니다. 사람의 경우, Homo Sapiens인지를 확인하고, 관심있는 유전자 또는 단백의 이름을 입력한 후에 검색을 하면, 여러개의 결과가 display됩니다. 단백질 결정의 구조를 나타낸 것이기 때문에, 어떠한 Ligand를 가지고 실험을 하였는가에 따라서, 구조가 조금씩 달라지게 됩니다. 가장 적절한 것을 선택하여, 구조를 확인하거나, PDB 파일을 다운로드 받아서 활용하게 됩니다.

 

II. PyMOL 설치 및 PDB 파일 불러오기

위의 PDB에서 받은 .pdb 파일은 다양한 툴로 분석 및 시각화가 가능한데, 가장 널리 쓰이는 프로그램은 파이썬 기반으로 개발된 PyMOL입니다. 최근에 무료에서 유료로 전환되면서, 접근성이 떨어지긴 하였지만, 설치 후 바로 30일간 무료 체험판으로 이용 가능합니다. 윈도우에서 바로 이용 가능하며, anaconda 등을 이용하여 Python 기반으로도 이용 가능합니다.

PyMOL 다운로드 바로가기 > https://pymol.org/

 

III. PyMOL을 이용한 시각화

위의 링크를 통해, PyMOL을 설치하면, 프로그램에서 PDB 파일을 불러올 수 있습니다. 여러가지 명령어와 패키지 등을 활용하면, 단백질 구조에 대한 고급 분석이 가능하다고 하는데, 저는 가장 기본적인 기능만을 활용해서, 유전체 분석을 통해 확인된 변이들의 위치를 시각화하는데 이용 해보도록 하겠습니다. (논문용 Figure…) 더 자세한 세부 내용은 링크에서 찾으시길 바랍니다.

초보자를 위한 PyMOL 시작하기 > https://pymolwiki.org/index.php/Practical_Pymol_for_Beginners

기타 PyMOL의 활용법을 위한 PyMOL Wiki 바로가기 > https://pymolwiki.org/

자주 사용하는 유용한 PyMOL 명령어 > http://pymol.sourceforge.net/newman/user/S0210start_cmds.html

CYP1A1

저는 약물 유전자 중 하나인 CYP1A1 유전자에서 발견된 변이들의 위치를 아래의 Command들을 이용하여, Cartoon View로 표시해 보았습니다.  위의 그림은 최종적으로 완성한 그림입니다.

 


[References]

Senior, Andrew W., et al. “Improved protein structure prediction using potentials from deep learning.” Nature (2020): 1-5.

광고