제 14차 CBMC 희귀질환 센터 화상 컨퍼런스 강의 자료

[07.15(수)]_제14차_CBMC_희귀질환_센터_화상_컨퍼런스

COVID-19는 학회와 강의의 풍경도 많이 바꾸어 놓은 것 같습니다. 개인적으로는 Zoom을 이용하여 화상 인터뷰 및 미팅 등은 한 적이 있는데, 온라인 강의는 이번이 처음입니다.

의국 선배님으로 부터 NGS에 대한 기초적인 개괄에 대한 강의를 부탁받아, 분당 차병원 임상과 선생님들을 대상으로 강의 자료를 준비하였습니다. 강의 자료가 필요하신 분들을 위해 블로그에도 업로드 합니다. (사용은 자유롭게 하시되, 출처만 명시해주시기 바랍니다.)

관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

바이오 연구자를 위한 Genome Browser 비교 및 활용

NGS 결과의 임상 적용: Genotype-phenotype correlation

NGS 분석 파이프 라인의 이해: GATK Best Practice

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

강의 자료 다운로드 > CBMC conference

[유전학 중요개념 정리] Muller’s morph와 gain of function, loss of function variant

올해의 마지막 포스팅은 매우 기본적이지만 중요한 개념인 Muller’s morph에 대해서 정리하고 마치려고 합니다. 오늘날과 같이 시퀀싱 기술이 보편화된 시대의 유전체 연구의 기본 단위는 변이 (genetic variant)입니다. 그리고 수많은 개별적 변이의 의미를 판독하는 작업은 여전히 진행 중입니다. 하지만 지금과 같이 시퀀싱이 가능하지 않던 시절에는  어떻게 변이에 대해서 연구를 했을까요?

Muller_Hermann

오늘 이야기하고자 하는 Muller’s morph의 주인공인 Hermann J. Muller (1890–1967) 는  X-ray에 의한 돌연변이 발생 기전을 발견한 공로로 1946년 노벨 생리의학상을 받은 것으로 유명합니다. 하지만 그 이전에 초파리 유전학자로 유명한 Thomas Hunt Morgan의 실험실에서 초파리 유전학 (Drosophila genetics) 을 공부했습니다. 다양한 초파리를 키우고, 교배시키면서 나오는 돌연변이를 관찰하다보니, 돌연변이에 대한 분류가 필요 했겠지요. 따라서, Muller의 돌연변이 구분은 초파리 시절 관찰에 근거한 분류 방법입니다. 그러나, 그 본질은 시퀀싱 시대인 오늘 날에도 여전히 쓰이고 있습니다.

 

Morph 는 형태를 의미합니다. Muller는 초파리의 형태를 보고, 돌연변이의 종류를 아래와 같이 크게 5가지 종류로 구분했습니다. 그리고 기능적으로 분류하면, 이러한 변이는 기능을 잃는 변이 (Loss of function)기능을 얻는 변이 (Gain of function)으로 나눌 수 있습니다.

amorph-hypomorph-hypermorph-neomorph-n

Loss of function: Amorph (Null; 완전히 잃는), Hypomorph (Hypo-; 기능이 떨어진)

Gain of function: Hypermorph (Hyper-; 기능이 항진된), Antimorph (Anti-; 반대의 기능을 하는), Neomorph (Neo-; 완전히 새로운 기능을 하는)

 

그렇다면 시퀀싱 변이 판독을 할 때, 어떠한 Muller’s morph 가 제일 많이 나타날까까요? 정확한 답을 알기는 어렵지만, 아래의 PPARG 유전자의 모든 가능한 변이의 조합으로 시행한 Deep Mutational Scan 결과를 보면, 대략적으로 유추를 해 볼 수는 있을 것 같습니다.

pparg
대부분의 아미노산 치환의 효과는 기능에 변화가 없거나 감소하는 쪽으로 발생하게 됩니다.

 

Stop codon이 발생하는 Nonsense mutation이나 Frameshift가 발생하는 Loss of function 변이는 Amorph, 아미노산 치환이 발생하는 Missense 변이는 대부분 Isomorph, Hypomorph의 가능성이 높습니다. 새로운 기능을 얻는 Gain of function 변이는 매우 드물게 나타나지만, 원래의 기능과 반대 기능을 하거나 완전히 새로운 기능을 하는 변이는 병적 변이로 나타날 확률이 높습니다. 그래서 흔히 Gain of function 기전으로 나타나는 병적 변이의 기전을 Dominant Negative 라고 합니다. 더불어, Gain of function은 Gene duplication 또는 일부 Missense 변이에 의해 대부분 나타나게 됩니다.

하지만 Muller’s morph는 매우 단순한 5가지의 분류에 근거하고 있습니다. 생물학은 그때 그때 다르며, 하나의 변이가 경우에 따라서는 loss-of-function 변이일수도, gain-of-function 변이일수도 있습니다. 따라서 개별 변이를 판독하는 과정은 위와 같은 배경 아래에서 다양한 요소들을 함께 고려해야하는 context-dependent한 과정이 될 수 밖에 없습니다.

 

[References]

Majithia, Amit R., et al. “Prospective functional classification of all possible missense variants in PPARG.” Nature genetics 48.12 (2016): 1570.

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

오늘 포스팅은 Annovar에 관한 내용으로 작성해볼까 합니다. 언젠가 한번은 정리할 필요가 생각하고 있던 내용인데, 이제서야 차례가 왔네요. 시퀀싱 기술이 보편화되면서, 대부분 표준화된 파이프라인을 이용하여 시퀀싱 raw data로부터 변이를 검출하는 Up-stream analysis는 대부분의 업체에서 대동소이한 결과를  주고 있습니다. 연구자의 입장에서 사실 더 중요한 것은 이 정보를 어떻게 효과적으로 이용할까 하는 부분에 있고, 그래서 Bam file 또는 VCF file에서 시작하는 Down-stream analysis가 더 중요하다고 볼 수 있습니다. 그 첫 단계로 필요한 적절한 정보를 활용하여 주석을 다는 과정이 있고, 이를 우리는 Annotation (주석 달기) 과정이라고 합니다. 그리고 이 과정에서 우리는 대부분 Annovar를 사용하게 됩니다. 물론 업체에 의뢰하면 대부분 기본적인 Annotation이 끝난 파일도 전달을 받게 되는데, 사실 필요 없는 내용이 잔뜩 달려서 파일의 용량만 무지막지하게 커진다거나, 정작 필요한 내용이 빠진 경우도 종종 발생합니다. 그래서 이번에 다룰 내용은 주석 달기의 각 항목에 대한 의미와 주요 활용 항목에 대해서 정리해보겠습니다.

관련 포스팅 보기>

NGS 분석 파이프 라인의 이해: GATK Best Practice

Annovar는 Perl script 기반으로 짜여 있어서, linux에서 명령어를 주면 자동으로 annotation을 달아주게 되어있습니다. 이때 몇가지 option에 따라서 원하는 내용대로 다양한 Database에서 관련 내용을 annotation 할 수가 있습니다. 더 많은 내용을 추가함에 따라서 연산 시간과 최종 파일 용량은 커지고, 가끔은 이것이 오히려 독이 되기도 합니다. 따라서 원하는 내용을 입맛에 따라 최적화하여 활용하는 것이 필요하게 됩니다. 아래 그림은 Annovar를 이용하여, 주석을 다는 과정의 전반적인 흐름을 보여주고 있습니다. 간단히, “Database 파일을 통째로 다운 받아서, Perl script 기반의 annotate_variation.pl을 실행하면, 그에 맞는 내용을 찾아서 주석으로 달아준다.” 정도로 말할 수 있겠습니다.

ANNOVAR_main_package_workflows.svg.png

Annovar에서 제공하는 Database 목록 보기

위 페이지에서는 다운로드 가능한 Database의 목록들을 보여주고 있습니다. 필요한 항목의 이름과 업데이트 날짜 등을 참고하여, DB를 다운로드하고 적절하게 활용하기 바랍니다.

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar [위 목록의 Database 이름] humandb/

 


I. Gene-based Annotation

VCF 파일에서 가장 핵심 정보는 사실 몇개 없습니다. 정확하게는 5개 정보만 있어도 충분한데, “몇번째 염색체 (Chr)의 몇번째 염기 위치 (Position)가 원래 무엇인데 (Ref) 무엇 (Alt)으로 바뀌었다.” (흔히 이러한 형태의 파일을 MAF format이라고 합니다.) 이 말을 하기 위해서, 부수적인 내용들이 잔뜩 달려 있는 셈이죠. 그러나 이 정보만을 이용해서는 사람들이 알아들을 수가 없습니다. 우리는 “어떤 유전자의 몇번째 엑손 영역의 몇번째 아미노산이 무엇으로 바뀌었다“와 같은 정보가 필요하죠. 그런데 사실 아직도 유전자의 정확한 정의와 위치에 대해서는 100% 밝혀지지 않았습니다. 따라서 이 유전자라고 하는 부분도 다양한 데이터 베이스가 존재하게 됩니다. 대표적으로 RefGene, UCSC/Ensemble Gene, Known Gene, CCDS 등등의 데이터 베이스가 있습니다. 따라서 여기서 어떤 데이터 베이스를 이용하여, annotation을 하냐에 따라서 출력이 달라집니다. (하지만 사실 큰 차이는 없습니다. 대부분의 업체에서는 2~3개의 데이터 베이스를 이용하여 annotation을 해주는데, 대부분 내용이 중복되어 용량만 커짐… 그래서 개인적으로는 그냥 RefGene만으로도 충분합니다.)

<가장 핵심적인 VCF 파일의 정보> = MAF format

Chromosome : Position (Start_End) : Reference sequence > Alternative sequence

위의 database를 이용하면, 위의 정보가 어떤 유전자에 속하고, 해당 유전자에서 어떤 기능을 하는 어떤 부위의 변이인지, 기능적으로 변화가 있는지 없는지 등에 대한 기본적인 정보를 제공해주게 됩니다. 어떻게 보면 가장 핵심적인 정보를 추가하는 부분이라고 할 수 있습니다.

 

II. Filter-based Annotation

사실 변이를 Genome Browser에서 찾는 가장 빠른 방법은 rsID를 이용하는 것입니다. 그런 점에서 dbSNP 또는 avSNP의 rsID를 주석으로 달아놓는 것은 활용도가 높습니다. rsID는 변이 보고가 점점 늘어남에 따라서 계속 갱신되고 있는데, 가장 최근 database는 avSNP 151 버젼이지만, 보편적으로 아직까지는 avSNP 147 버젼을 사용하고 있는 것 같습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

변이빈도와 효과 크기

사실 변이의 생물학적 의미를 해석하는 과정에서 정말로 중요한 내용은 일반 인구 집단에서 얼마나 흔하게 존재하는가?에 있다고 할 수 있습니다. 그러한 의미에서 Population Frequency 정보는 변이의 의미를 파악하는데 매우 중요한 단서를 제공해 줍니다. 이와 같은 Population Frequency는 다양한 집단에서 시퀀싱을 시행하여, 그 빈도를 계산한 다양한 데이터 베이스에 기반하게 되는데, 대표적으로 EXAC, gnomAD, 1000Genome, ESP database 등이 있습니다. 이때 중요한 점은 인구 집단이 얼마나 대표성을 띄는가?에 있다고 볼 수 있는데, 빈도를 계산한 인구 집단의 크기 (n수)와 인종적 배경 (Ethnicity) 등이 특히 중요합니다. 더불어, Rare variant의 경우는 더욱더 인종에 따른 차이가 크기 때문에 일반적으로는 한국인의 경우는 EAS (East Asian population) 정보를 이용하지만, 해당 데이터 베이스가 충분히 한국인을 대표하지 못하는 경우가 많습니다. (위의 데이터 베이스에서는 gnomAD가 가장 n 수가 가장 크기 때문에 저는 주로 EXAC과 gnomAD의 EAS 인구 집단 정보를 활용하고 있습니다.)

사실 데이터 용량이 가장 뻥튀기 되는 부분이 in-silico prediction tool 부분에 있습니다. 아미노산 치환 효과를 예측해주는 tool은 100가지가 넘게 있는데, 각 tool 들이 예측해주는 정보를 얼마나 포함할 것인가에 따라서 추가되는 정보도 달라집니다. 크게 얼마나 진화적으로 보존된 지역인지 또는 아미노산 구조적으로 변화를 유발하는지 등에 기반한 알고리즘으로 개발되어, SIFT, PolyPhen과 같은 고전적 tool부터, GERP, SiPhy, MutationTaster, FATHMM, MetaSVM, CADD, DANN과 같은 다양한 tool이 존재합니다. (역시나 이쪽도 절대 지존은 없기 때문에 경우에 따라 적절하게 활용합니다. 보통 Voting Method, 즉 10개 또는 선택된 갯수의 서로 다른 알고리즘 중에서 몇개가 Deleterious로 예측하는가? 와 같은 방식으로 많은 경우 활용하게 됩니다. 저는 개인적으로 Ensemble 기반의 tool을 주로 활용하고 있습니다.)

마지막으로 임상 정보들을 annotation 하는 database가 존재하는데, 대표적으로 OMIM, HGMD, ClinVar, COSMIC 등등이 있습니다. 희귀 유전 질환에 대해서 연구를 한다면, OMIM이나 HGMD, Cancer 관련 연구를 한다면, COSMIC database 정보를 annotation 하는 것이 도움이 될 수 있습니다. 그러나 사실 이렇게 annotation을 덕지덕지 붙이다보면 파일 크기가 엄청나게 불어나게 됩니다. 현재까지 대부분의 연구자들은 Coding region의 Functional variant에만 관심이 있기 때문에, 1차적으로 Gene-based annotation 후 exon 영역의 functional variant만 filtering하고나서, 해당 변이들에 대해서 annotation 하는 방법이 시간과 데이터를 절약하는 방법이 될 수 있습니다.

 

III. 기타 annotation 방법

관련 포스팅 보기>

암유전체 분석: Driver mutation prediction tools

위의 annovar를 이용하는 방법은 linux 기반의 서버를 통해서 대용량으로 실행하는 방법입니다. 그러나 서버를 구축하지 못하거나, linux를 친숙하게 이용하지 못하는 경우에는 그러면 어떻게 annotation을 하는가? 에 대한 문제가 발생합니다. 이를 위해서 다양한 Web 기반의 annotation tool 들이 존재하게 됩니다. 가장 대표적인 것이 wANNOVAR입니다. 기타 cancer를 다룬다면, Oncotator 또는 Cancer Genome Interpreter도 대안이 될 수 있습니다. 그러나 역시 이러한 tool들은 Annovar에 비해서 자유도는 떨어지기 때문에 기능에 제약이 있다는 단점이 있습니다. 마지막으로 R을 활용하여, annotation이 가능한 몇가지 package들이 개발되어 있습니다. 대표적인 package로는 MAFtools, VariantAnnotation 등이 있으나, 역시 기능이 AnnoVar에 비하면 제한적입니다. 그러나, 소수의 변이에 대해서 빠르게 annotation이 필요한 경우라면 이러한 도구들도 적절하게 활용하는게 도움이 될 수 있습니다. 더 자세한 정보는 아래 github를 활용하시기 바랍니다.

 


 

References>

Yang, Hui, and Kai Wang. “Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR.” Nature protocols 10.10 (2015): 1556.

ANNOVAR: http://annovar.openbioinformatics.org/en/latest/

wANNOVAR: https://github.com/WGLab/doc-ANNOVAR

Oncotator: https://github.com/broadinstitute/oncotator

VariantAnnotation: https://github.com/Bioconductor/VariantAnnotation

MAFtools: https://github.com/PoisonAlien/maftools

Web resources for Bioinformatics database: https://netbiolab.org/w/Web_Resources

암유전체 분석: Driver mutation prediction tools

이전 포스팅에서 암에서 발생하는 mutation을 driverpassenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Driver vs. Passenger mutation in cancer

[유전학 중요개념 정리] Mutational signature

사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다.  Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

1
[Somatic variant 변이 판독을 위한 AMP/ASCO/CAP guideline에 따른 Tier classification]

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.

  1. 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
  2. Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
  3. 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)

 

이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.

I. COSMIC (https://cancer.sanger.ac.uk/cosmic)

Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.

 

II. cBioPortal (http://www.cbioportal.org/)

다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.

 

III. OncoKB (https://oncokb.org/)

Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.

 

IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)

이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.

 

V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)

가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.

 

위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.

관련 포스팅 보기>

약물유전체 정밀의료의 실현, F-CAP 프로젝트

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

[References]

Li, Marilyn M., et al. “Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists.” The Journal of molecular diagnostics 19.1 (2017): 4-23.

유전자 변이의 해석: 대용량 기능 검사의 필요성

오늘 포스팅은 유전체 검사 후 발견되는 변이 해석에 대해 얘기해 보고자 합니다. 사실 최근에 제가 공부한 내용이라, 조금 어려운 내용이지만 해당 내용을 정리할 겸 포스팅을 남겨봅니다.

NGS 기술이 널리 사용되면서, 검사를 통한 변이 검출에 대한 문제는 이제 어느 정도 정상 궤도에 올랐다고 볼 수 있습니다. 사실 더 중요한 문제는 검출된 변이를 해석하고, 이를 실제 의료 현장에서 적용하는데 있습니다. 이제서야 이러한 문제가 이슈가 되고 있는 것은 시간의 흐름대로 과거 생거 시퀀싱을 통한 유전자 검사와 NGS 기술의 등장을 생각하면, 이해하기가 쉽습니다.

시퀀싱 기술의 발전 한눈에 살펴 보기 -> 휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

과거 10년 정도 임상 현장 (병원)에서는 계속 유전자 검사를 해왔고, 실제 진료 (유전병 진단 등)에도 사용을 해왔습니다. 그러나 이때는 주로 생거 시퀀싱에 기반한 유전자 검사 였기 때문에, 매우 한정된 지역 (흔히 mutation hot spot이라고 불리는 부분)을 검사하거나 단일 유전자 1~2개의 엑손 부위 등을 검사하였죠. 이러한 유전자 검사를 시행하더라도, 검출되는 변이는 그리 많지 않았습니다. 그리고 질병과 알려진 변이 외의 변이는 검출된다 하더라도 크게 관심이 없었습니다. 사실 그러한 변이는 딱히 해석할 방법이 없었다는게 더 정확할지도 모르겠습니다. 따라서 그 동안 주요 변이 해석은 다음과 같이 이루어졌습니다.

  1. Family segregation: 가계도 분석을 통해, 대부분의 유전병 원인 유전자 및 변이를 추정하는 방식.
  2. Computational prediction algorithms: Polyphen-2, SIFT 등과 같은 단백질의 아미노산 서열 및 기능적 중요도 (conservation)에 기반한 컴퓨터 예측 알고리즘.
  3. Data sharing: 연구자 또는 임상 의사들 간의 진료 경험 및 축적된 데이터를 커뮤니티 또는 학회에서 공유해오던 방식.
  4. Traditional functional assays: 주로 in vitro assay를 통해 개별적인 논문에서 실험하고 변이의 효과를 입증해오던 방식.

하지만 NGS 기술이 등장하면서, 더이상 위의 접근 방식들로는 변이들을 해석하는데 한계에 다다르게 됩니다. 가장 널리 사용되는 컴퓨터 알고리즘 방식의 경우는 위양성률이 높고, 제한적인 데이터에 기반하기 때문에 정확한 정보를 주지 못하는 경우가 많습니다. 그리고 전통적인 변이의 functional assay의 경우는 가장 정확한 방법이기는 하지만, 매우 제한적인 몇몇 변이에 대해서만 실험 및 논문 보고가 이루어졌기 때문에 모든 검출 변이에 대해 정보를 제공하는데 한계가 있었습니다 (low through-put).

컴퓨터 알고리즘 기반 예측 도구에 대해 더 살펴보기 -> 아미노산 치환의 효과 예측: In silico tool의 원리와 종류

NGS의 다른 이름인 Massively parallel sequencing 처럼, 엄청나게 방대한 시퀀싱 데이터를 통해 생산된 변이 데이터는 더이상 한 두개의 유전자 수준이 아닌 거의 질병과 관련된 모든 유전자의, 모든 변이들을 검출 가능하게 하였습니다. 상황이 이렇다 보니, 검출된 대부분의 변이들은 VUS (Variant of Unknown Significane)로 분류되는 상황이 잦아지게 되었죠. 쉽게 말해 ‘어떤 의미를 가지는 변이인지 모르겠다.’ 입니다.

Figure 1
아미노산 잔기가 치환되는 missense variant는 gnomAD에 460만개의 변이가 보고되었지만, 그 중에 임상적 연관성을 보고하여 ClinVar에 등록된 변이는 2% 수준인 10만개입니다. 그마저도 절반 이상은 정확히 의미를 잘 모르겠다고 분류된 VUS입니다.

따라서 뒤따라오는 문제는 Massive하게 검출되는 변이들 처럼, 변이들의 기능적 특성에 대해서도 Massive하게 검사해서 확인할 필요가 있게 되었습니다 (High through-put Functional assay). 그래서, 하나의 대안으로 최근 주목 받는 검사 방법이 오늘 소개하고자 하는 Multiplexed assays for variant effect (MAVE)입니다.

Figure 2.png
MAVE는 가능한 모든 변이들의 library를 생산한 이후에 모든 변이들에 대한 functional assay를 high through-put으로 시행하여 그 변이의 기능적 기여를 해석하는 방식을 말합니다.
Figure 3
MAVE의 단계적 assay 방법.
  1. Construction of a variant library: 검사하고자 하는 기능 유전자에 해당하는 가능한 모든 위치의 변이를 포함하는 library를 구축합니다.
  2. Delivery of this variant library to a model system: E.coli, Yeast, 또는 mammalian cell과 같이 유전자를 발현시켜 검사하고자하는 model system에 library를 집어 넣습니다.
  3. A functional assay: 발현된 단백질의 기능을 기능 검사를 통해 평가합니다. 보통은 selection 방법을 이용하여, selection 전 후의 어떤 기능을 가진 변이가 더 많이 또는 더 적게 존재하는지를 정량합니다.
  4. Sequencing to quantify each variant’s representation: 위의 기능 검사 전 후의 발현의 상대적인 비율을 sequencing을 통해 비교하게 됩니다.
  5. Calculation and calibration of functional scores: 위에서 얻은 비율을 일종의 기능적 점수로 환산하여 평가합니다.
  6. The genotype–phenotype relationship at every position: 모든 위치의 변이에 대한 기능적 지도가 완성됩니다.

위의 MAVE의 방법은 변이 해석에 대한 새로운 high throughput method로 앞으로 정밀 의료를 실현하는데 있어, 유용한 genotype–phenotype relationship 정보를 제공해줄 것으로 기대가 됩니다. 그러나 다음과 같은 제한점 및 후속 연구가 필요합니다.

  1. Model system의 한계: E.coli, Yeast, Mammalian cell과 같이 변이 라이브러리를 발현 시킬 적당한 모델이 있어야 하지만, 어떤 유전자에 대해서는 이것이 불가능할 수도 있습니다.
  2. Functional assay를 통한 selection: 사실 유전자가 발현되어 생긴 단백의 기능은 한 가지만 정해져 있는 것이 아닙니다. 하나의 단백이 여러가지 일을 동시에 수행하기 때문이죠. 따라서 검사해야할 functional assay가 무궁무진하게 많을 수도 있고, 그 각각을 표준화하기가 매우 어렵습니다. 또한 발현 전후의 상대적인 양으로 그 기능을 평가한다는 것이 과연 단백질의 정확한 기능을 반영하는 것인가에 대해서도 생각해볼 문제입니다.
  3. 컴퓨터 알고리즘 개선: 기능적 점수를 포함하는 새로운 컴퓨터 알고리즘을 개발하여, 좀 더 정확하게 변이의 효과를 예측하는데에 위의 데이터가 사용될 수 있습니다.

최근에 위의 MAVE 방법론을 이용하여 PPARG 유전자의 기능적 지도가 완성되어, Nature genetics에 소개된 바가 있습니다. 논문에서 저자들은 컴퓨터 알고리즘에 기반한 예측보다 MAVE 방법이 더 변이의 기능을 설명하는데 더 유용하다는 것을 보이기도 했습니다. 앞으로는 이처럼 아마 NGS 기술의 발전되고 많은 변이가 보고됨에 따라서, 그 기능적 해석과 관련된 부분에 대해서도 많은 관심과 연구가 진행될 것으로 생각이 됩니다. 그에 따라 하나의 방법론으로써 MAVE는 아직 몇가지 한계점이 있지만 좋은 대안이 될 것으로 생각됩니다. 그리고 궁극적으로는 모든 주요 유전자에 대한 변이의 기능적 예측을 높은 정확도로 얻을 수 있는 기능 지도가 완성되어, 데이터 베이스의 형태로 제공되기를 연구자들은 희망하고 있습니다.

사실 오늘 포스팅은 MAVE에 대해 매우 간략하게 정리한 것이라, 이해하기 어려울 수도 있을 것 같습니다. 관심이 있으신 분들을 아래 논문들을 더 살펴보시면 좋을 것 같습니다.

 

[참고 문헌]

Starita, Lea M., et al. “Variant Interpretation: Functional Assays to the Rescue.” The American Journal of Human Genetics 101.3 (2017): 315-325.

Gasperini, Molly, Lea Starita, and Jay Shendure. “The power of multiplexed functional analysis of genetic variants.” Nature protocols 11.10 (2016): 1782-1787.

Majithia AR, Tsuda B., et al. “Prospective functional classification of all possible missense variants in PPARG.” Nature Genetics 2016 Dec;48(12):1570-1575.