이전 포스팅에서 암에서 발생하는 mutation을 driver와 passenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.
관련 포스팅 보기>
사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다. Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.
- 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
- Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
- 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)
이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.
I. COSMIC (https://cancer.sanger.ac.uk/cosmic)
Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.
II. cBioPortal (http://www.cbioportal.org/)
다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.
III. OncoKB (https://oncokb.org/)
Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.
IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)
이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.
V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)
가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.
위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.
관련 포스팅 보기>
[References]
글 잘 읽었습니다.
다만 궁금한점이, driver mutation을 이렇게 정의하면 일명 ‘승자의 저주’ 즉, 나온 target만 계속 더 유의미하게 검출될 수 밖에 없을것 같은데.. 신규 target 발굴에는 driver mutation이라는 개념이 적용되지 않는건가요?
좋아요좋아요
무언가 혼동이 있으신 것 같은데, Driver mutation의 정의는 이전 포스팅에 남긴대로, 실제로 Cancer clonal evolution을 주도하는 변이이구요, 이번 포스팅은 그러한 driver mutation을 검출하는 방법론적인 것에 대한 얘기입니다. 말씀하신대로 현재의 접근 방법은 기존에 알려진 변이만 계속 Bias 있게 검출하기 때문에 한계가 있고, Novel driver detection은 실제로 실험적으로 발굴 및 입증 하거나 새로운 환자에서 발견해야하는데, 매우 오랜 시간이 걸리며 쉽지가 않습니다. 그래서 최근 많은 연구들이 알려져 있지 않은 Driver를 찾기 위해서 집중하고, 그러한 방법론 개발에도 열을 올리고 있지요..
정리하면 신규 target 발굴을 하면, 그것이 driver mutation 이라는 것을 입증해야하죠..
좋아요좋아요
앗 그렇군요. 헷갈렸네요.
제가 원하는건 driver mutation 이 아니라 significant mutation인것 같습니다.
감사합니다. ^^
좋아요좋아요
저도 sldkfn님과 마찬가지입니다.
특정 significant mutation을 발굴 하였을때 해당 mutation이 driver mutation인지 아닌지는 시간을 거슬러 올라가봐야 한다는 것 같은데 해당 tools는 단순히 significant mutation을 찾아주는 tool인것 같습니다. 혹시 어떻게 생각하시는지요.
좋아요좋아요
암발생과 진화는 한 두개의 유전자 mutation으로 발생하는것이 아닙니다. 생각보다 훨씬 복잡하고 다양하죠. significant와 driver의 차이는 무엇인가요? 생각보다 구분하기가 쉽지않습니다. 확실하게 실험적으로 입증이 안되었지만 검출이 많이되는 변이들의 임상적 해석을 위한 in silico tool로 이해하면 됩니다. 해당 툴들은 변이 발견 빈도 뿐 아니라 단백질의 3차원적 구조, 단백질의 알려진 기능 등을 종합적으로 고려하기때문에 driver ‘prediction’ tool로 개발된 것입니다. 그러나 여전히 한계가 많은 것은 사실입니다.
좋아요좋아요