암유전체 분석: Driver mutation prediction tools

이전 포스팅에서 암에서 발생하는 mutation을 driverpassenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Driver vs. Passenger mutation in cancer

[유전학 중요개념 정리] Mutational signature

사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다.  Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

1
[Somatic variant 변이 판독을 위한 AMP/ASCO/CAP guideline에 따른 Tier classification]

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.

  1. 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
  2. Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
  3. 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)

 

이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.

I. COSMIC (https://cancer.sanger.ac.uk/cosmic)

Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.

 

II. cBioPortal (http://www.cbioportal.org/)

다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.

 

III. OncoKB (https://oncokb.org/)

Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.

 

IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)

이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.

 

V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)

가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.

 

위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.

관련 포스팅 보기>

약물유전체 정밀의료의 실현, F-CAP 프로젝트

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

[References]

Li, Marilyn M., et al. “Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists.” The Journal of molecular diagnostics 19.1 (2017): 4-23.