[NGS DNA-SEQ] Functional Equivalence pipeline: CROMWELL, WDL

gnomAD, TOPMed 등 대규모 유전체 코호트들이 만들어지면서, 여기서 생산된 데이터를 이용하는데 중요한 문제가 부각되었는데, 바로 분석 결과 간의 재현성호환성에 있었습니다. 즉, 연구자가 GATK Best practice를 이용하여 Exome 또는 Genome 시퀀싱 분석을 진행하더라도 어떤 설정과 파라미터 값을 넣느냐에 따라, 최종 검출 변이의 결과가 달라지고, 이것은 연구 결과 간의 재현성의 측면에서 매우 중요한 문제가 되었던 것이지요. 참고논문에서 진행한 실험 결과를 보면, 동일한 샘플로 생산된 FASTQ 파일을 서로 다른 5개의 기관에 보내 각각의 파이프 라인으로 분석한 결과, Call된 변이들 간에 많은 차이가 있었다고 보고하고 있습니다.

[관련 포스팅 보기]

따라서, 점점 늘어나는 유전체 데이터만큼 유전체 분석 파이프 라인을 하나의 표준화된 파이프 라인으로 통합하는 것이 매우 중요해졌고, 그 결과 개발된 것이 “Functional Equivalence (FE)” Pipeline (기능적으로 동등한 파이프라인) 입니다. 사실 NGS 분석을 하는 사용자의 입장에서는 Input만 넣고, Output만 나오면 편한데, 그동안 개발된 툴들은 이를 모두 아우르는 것이 아니라, 그때 그때마다 필요한 부분들을 개발했기 때문에, 분석 파이프 라인도 이제야 어느 정도 성숙 단계에 이르렀다고 할 수 있습니다. 따라서 최근의 대규모 유전체 컨소시엄들은 모두 “Functional Equivalence ” Pipeline 을 통해 생산된 유전체 데이터를 생산하는 것으로 채택하고 있습니다. (그래서 저도 functional equivalent한 결과를 얻기 위해서 최근에 새롭게 공부를 하게 되었습니다.)

[ Functional Equivalence Pipeline Overview]

FE 파이프라인을 제공하기 위해서, Broad Institute의 개발진들은 WDL (Workflow Description Langauge)과 Cromwell이라고 하는 프로그래밍 언어를 개발하는데, 하나의 파이프라인을 패키지로 묶은 WDL 파일을 만들고, 이를 Cromwell이라는 프로그램으로 구동시켜주는 원리라고 합니다. 사실 사용자의 입장에서는 과거에 개별 프로그램을 설치하고, 개별 스텝을 따로 돌려야했다면, 지금은 이러한 것들이 모두 하나의 패키지 형태로 제공되기에 더욱 편해졌다고 할 수 있습니다 (?).

[Cromwell 페이지 바로 가기] https://cromwell.readthedocs.io/en/stable/

[WARP 페이지 바로가기] https://broadinstitute.github.io/warp/docs/get-started/

Cromwell의 로고: 꼬마돼지 베이브와 스타트렉에 출연한 배우 James Cromwell을 오마주한 로고라고 합니다 🙂

병원 검사실을 운영하는데, 검사 장비와 보고 방법을 표준화하는 것은 매우 중요한데, 유전체 분석 파이프 라인에도 이제야 이러한 개념이 들어왔다는 점이 반갑습니다. (분석 파이프 라인 하나도 이렇게 표준화하기가 어렵습니다.) Genome의 경우에는 처리해야할 데이터의 크기가 워낙 방대하기때문에 더욱 어려운 점이 있는 것 같습니다. 현재 이쪽 분야도 많은 Computational Scienctist들이 뛰어들어서 개발을 진행하고 있는 중이기 때문에, 추후에 더 User-friendly하고 간편한 파이프 라인이 개발되어 제공되기를 기대해 봅니다. (점차 대세는 클라우드로 옮겨가지 않을까 합니다?)

[References]

Regier, Allison A., et al. “Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects.” Nature communications 9.1 (2018): 1-8.

NGS 결과의 임상 적용: Genotype-phenotype correlation

최근에 병원의 의료 현장에서 NGS 타겟 시퀀싱 패널을 이용하면서 다양한 유전자들을 동시에 검사하는 건수가 폭발적으로 증가하고 있습니다. 다만 안타깝게도 많은 경우에 실제로 그 유전체 정보와 데이터를 충분히 활용하지 못하고 있음을 많이 느낍니다. 즉, 돈을 들여서 구축된 파이프 라인을 통해서 유전체 데이터 생산은 되는데, 이후에 변이들에 대한 적절한 해석을 하고, 환자에 적용하는데 까지는 아직 더 경험이 필요한 것 같습니다. 그래서 이번 글에서는 매우 중요한 개념인 유전형-표현형 일치 (Genotype-Phenotype correlation; G-P correlation)에 대한 포스팅을 남기고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

임상의를 위한 NGS 레포트 해석의 이해

 

I. Genotype-Phenotype correlation 의 개념

NGS 검사를 직접 해보면, 환자 한명에서도 엄청나게 많은 수의 변이들이 쏟아져 나옵니다. 여러가지 컴퓨터 예측 알고리즘이나 기존에 보고되어 구축된 유전체 데이터 베이스를 통해, 해당 변이가 실제로 질병을 일으키는 변이인지에 대해서 확인을 하고, 해당 결과가 NGS 검사 결과 보고서를 통해서 임상 의사에게 보고됩니다. 그러나, 이때 보고서의 다양한 변이 리스트를 보고, 실제로 환자에서 질병을 일으키는 유전자 이상이 무엇인지를 판단하는 것은 의사의 몫입니다.

이때 가장 중요한 것은 환자가 나타내는 임상 양상이 실제로 해당 유전자의 이상으로 발생하는 임상 양상과 일치하는가? 입니다. 나의 환자가 NGS 검사를 통해 확인된 유전형(Genotype)으로 인해 특정 유전자의 이상이 의심되고, 해당 유전자의 이상으로 알려진 질병 또는 임상 양상이 실제 나의 환자에서 나타나는 임상 양상(표현형, phenotype)과 일치하는가를 판단하는 전반적인 과정이 바로 G-P correlation이 되겠습니다. 원래는 해당 질병의 전문가가 종합적으로 판단하여야 하는데, 임상 유전학자들의 수는 매우 제한적이기 때문에, 환자의 주치의도 이러한 판단을 할 수 있어야 하기 때문에, 기본적인 유전학적 지식이 필수로 요구됩니다.

 

II. Genotype-Phenotype correlation의 접근 과정

NGS 검사를 통해 환자의 다양한 변이 정보를 얻었고, 임상 증상과 의심되는 질병도 있습니다. 이때 진단을 위한 마지막 퍼즐을 풀 차례입니다. 제일 먼저 할 과정은 환자에서 검출된 병적 변이에 의해서 실제로 보고된 임상 양상과 질병이 무엇인가를 확인하는 것입니다. 다양한 데이터 베이스가 있으나, 가장 광범위하고 무난하게 활용할 수 있는 곳은 아래의 두곳입니다. 아래 사이트에서 가장 먼저 확인해야할 것은 유전 양식(AD, AR, XLD, XLR 등등)과 질병을 일으킨 것으로 알려진 병적 변이에 대한 정보 입니다.

1

  • Online Mendelian Inheritance in Men (OMIM) : 사람의 유전질환들에 대한 다양한 데이터를 제공하기 위해 만들어졌습니다. 유전 양상과 대표적인 케이스 논문들에 대해서 바로 링크를 제공하기 때문에 유용합니다.
  • Gene Reviews : 좀 더 다양한 임상 양상들에 대해서 유전자 단위로 좀 더 상세하고 종합적으로 서술되어 있어, 배경 지식을 얻는데 더 좋습니다.

위의 사이트에서 우리 환자에서 검출된 유전자로 검색을 해서, 실제로 어떤 질병과 임상 양상이 보고되었었는가를 확인합니다. 또한 해당 유전자가 나타내는 임상 양상의 특징이 무엇인지를 파악해야합니다.

 

III. Genotype-Phenotype correlation이 안될 경우의 해석법

위와 같은 과정을 여러번 거치다 보면 다양한 상황에 마주하게 됩니다. 실제 병적 변이도 확인하고, 임상 양상도 잘 일치해서 환자를 진단하면 가장 좋겠지만, 여전히 모호한 경우를 많이 마주하게 됩니다.

  • 유전 양식이 잘 일치하는가? : 환자에서 변이가 homozygote 인지, heterozygote인지 그리고 알려진 질병 발생이 상염색체 우성 (AD)인지 상염색체 열성(AR)인지 잘 살펴본다. AR로 알려진 질병은 경우에 따라서 Compound heterozygote의 가능성도 있으므로, 추가적으로 다른 변이도 검출되지 않았은지 따져 본다.

> [유전학 중요개념 정리] Compound Heterozygote

  • 임상 양상과 해당 유전자가 의심되지만, 환자에서 검출된 변이가 실제로 병적 변이인지 모호한 경우: 1) 변이 빈도를 확인한다. : 인구 집단에서 흔한 변이이면 크게 의미가 없다. > 매우 드물거나 보고된 적이 없는 변이의 경우, 2) 환자의 부모에서 해당 변이 존재 유무를 확인하는 가족 검사를 실시한다. 만약 부모도 같은 변이를 가지고 있고 정상이라면, 질병과 관계가 없을 가능성이 높다. 그러나 일부는 투과도 (Penetrance)가 100%가 아니기 때문에 항상 그런 것은 아니다. 3) 관련 논문을 검색한다. > 논문을 잘 찾아보면 최소한의 실마리를 얻을 수 있다.

 

Genotype-Phenotype correlation 과정 자칫 환자를 잘못 진단하는 결과를 일으킬 수 있기때문에 매우 중요한 과정입니다. 그러나 이러한 과정을 통해 NGS 검사 결과를 적절히 해석하고 임상 진료에 활용하는 의사는 매우 제한적입니다. 임상 진료 현장에서 많은 의사들이 이러한 유전체 데이터를 활용하여 환자들을 적절히 진단하고 치료 하기를 소망합니다. 위에서 언급한 것 외에도 다양한 접근법이 있을 수 있으나, 분량이 너무 길어지기 때문에 이번 포스팅은 여기서 마무리하도록 하겠습니다.

Splicing 과정과 splicing site 변이 해석

NGS 데이터를 이용하여 환자의 변이를 판독하는데 있어 제일 어려운 부분은 Intron 영역과 splicing site 인 것 같습니다. Exon 영역의 경우는 직접적으로 아미노산 서열에 영향을 주는 부분이기 때문에 Null variant 또는 Missense variant에 따라 어느 정도 예측이 가능하지만, Non-coding 영역인 Intron 영역은 해석하기 어렵기 때문이지요. 그래서 종종 Intron 영역은 배제하고 Coding region만  변이 판독을 하는 경우가 많습니다. 그러나 이럴 경우, splicing site mutation을 종종 놓칠 수 있습니다. 판독에 포함하더라도 실제 검출된 변이가 어떤 영향을 주는지 알기 어려운 경우도 많습니다. 그래서 이번 포스팅에서는 splicing이 일어나는 과정 및 실제로 splicing site에서 mutation이 검출된 예를 통해서 splicing site 변이 해석 방법에 대해서 정리해 보고자 합니다.

Fig-07-47-0
[Splicing process] mRNA로 transcription 되기 위해서는 gDNA의 intron 영역이 잘려나가고 exon 영역만 합쳐져야 합니다. 이 때 Intron 영역의 5′ 영역의 GU를 포함한 donor site가 Branch point의 A를 인지하고 lariat을 형성하고 동시에 3′ 말단의 AG를 포함한 acceptor 부분이 떨어져 나가면서 두개의 exon 영역이 합쳐지게 됩니다.
 

위의 과정에서 transcription이 제대로 일어나지 않은 경우, 잘못된 mRNA가 생성될 수 있고 이러한 mRNA의 산물로 잘못된 단백질이 형성되어 환자의 형질이 나타날 수가 있습니다. 아래는 splicing 과정 중에서 기능적으로 중요하여 보존된 영역의 sequence를 보여주고 있습니다. 따라서 일반적으로 NGS 변이 판독 시에는 exon 영역 전후 10bp 또는 50bp 까지도 판독에 포함하기도 합니다. 그러나 많은 경우, 판독이 쉽지 않아서 실제로 mutation을 검출하는 경우는 드뭅니다.

Ch5A4

1-s2.0-S1471491412001013-gr2
[Splicing site mutation] splicing에 영향을 주는 변이 발생에 따라, mRNA 내에 정상 exon이 빠지거나 intron 영역이 포함되는 등 다양한 상황이 발생할 수 있습니다.
 

최근에 두개골 조기 유합증 환자의 NGS 결과를 판독하다가 나온 예를 통해 Splicing site 변이를 판독하는 방법을 살펴 보겠습니다. 해당 환자는 TCF12 유전자의 c.1468-7A>G 변이가 heterozygote로 확인되었습니다. 아래 그림과 같이 원래 AA sequence이던 부분이 변이로 인해 AG로 바뀌면서 원래 splicing acceptor site로 작동해야할 부분의 앞쪽이 splicing 되면서 잘못된 transcription이 발생한 case 입니다. 위 그림 (c)의 Cryptic splice site usage에 해당합니다.

이렇게 되면 원래 exon 17 앞의 intron 영역의 CTTTAG sequence가 포함되어, 실제 mRNA에는 Leu(CUU)-Stop(UAG) codon이 포함되고, 결국 해당 mRNA는 inserted stop codon에 의해 exon 16번까지만 발현되는 Stop gain variant와 같은 결과를 보이게 됩니다.

그림1
[Example of cryptic splice site activation] 두개골 조기유합증 관련 TCF12 유전자의 splicing site에서 heterozygote로 검출된 변이와 해당 변이에 의해 발생한 Stop gain. 해당 유전자는 Autosomal dominant (AD) 유전 방식을 따르고, 실제 환자의 임상양상도 일치하기 때문에 진단이 가능합니다.
 

마지막으로 이러한 splicing variant를 simulation 하는 in-silico tool을 소개하면서 포스팅을 마치고자 합니다. 아래 논문에서는 splicing에 영향을 주는 SNV의 효과를 예측하는 in-silico tool에 대해서 소개하고 있는데, scSNV score로 명명하여 여러 컴퓨터 알고리즘을 적용하고 있습니다. 위의 환자의 변이는 ADA score 0.9995 / RF score 0.9739 으로 ADA 또는 RF 알고리즘으로 예측한 결과 모두 영향을 받을 가능성이 아주 높음 (1에 가까울 수록) 을 보여주고 있습니다.

 

[Reference]

Singh, Ravi K., and Thomas A. Cooper. “Pre-mRNA splicing in disease and therapeutics.” Trends in molecular medicine 18.8 (2012): 472-482. https://doi.org/10.1016/j.molmed.2012.06.006

Xueqiu Jian, Eric Boerwinkle, Xiaoming Liu; In silico prediction of splice-altering single nucleotide variants in the human genome, Nucleic Acids Research, Volume 42, Issue 22, 16 December 2014, Pages 13534–13544, https://doi.org/10.1093/nar/gku1206

바이오 연구자를 위한 Genome Browser 비교 및 활용

인터넷 검색 브라우저 및 포털 사이트도 구글, 네이버, 다음 등 다양한 사이트들이 존재하는 것처럼, Genome Browser도 다양한 사이트들이 존재합니다. 사실은 이런 사이트들은 너무 다양해서, 가끔은 어떤 것을 사용해야할지 막막할 때가 있습니다. 그래서 오늘은 바이오 연구자들이 활용할 수 있는 다양한 Genome Browser들에 대한 소개 및 장, 단점 및 활용 방법 등에 대한 지극히 개인적인 후기를 정리한 포스트를 올리고자 합니다.

 

I. UCSC Genome Browser (http://genome.ucsc.edu/)

UCSC.jpg

  가장 역사와 전통(?)이 오래된 브라우저라고 할 수 있습니다. 이름에서 알 수 있듯이, UCSC에서 만든 브라우저인데, 옛날 논문들에서는 거의 Reference 처럼 사용하는 수학의 정석과 같은 존재입니다. 필요한 데이터나 정보는 대부분 찾을 수 있습니다만, 인터페이스가 구식이고 쓰기가 조금 복잡하고 어렵습니다. 게놈상의 위치를 줌인하거나 줌아웃할 경우 가끔 로딩이 오래 걸리고 속도가 느린 점도 단점입니다. 저는 자주는 안쓰지만, 유전자의 시퀀스 다운로드와 같은 Genome data를 받을 때, Primer 디자인 후에 In-silico PCR 을 돌릴 때 등 여전히 유용하게 잘 사용하고 있는 브라우저입니다.

 

II. Ensemble Genome Browser (http://grch37.ensembl.org)

Ensemble

EMBL-EBI 그룹에서 만든 브라우저입니다. UCSC보다 인터페이스가 좀 더 직관적으로 쓰기 편하고 역시 방대한 데이터를 제공하기 때문에, 대분의 필요한 정보는 이 브라우저 하나만으로도 얻을 수 있습니다. 주로 어느 위치의 SNP에 대한 정보를 찾을 때 유용하게 사용할 수 있습니다. 다른 DB와의 연계도 훌륭하고 워낙에 유명하기 때문에 많은 사람들이 사용하고 있는 가장 범용적인 브라우저입니다.

 

III. DECIPHER Genome Browser (https://decipher.sanger.ac.uk/)

DECIPHER

위의 브라우저들보다 인터페이스가 깔끔하고 보기 편하고, 좀 더 염색체 상의 위치에 기반한 정보를 잘 제공해줍니다. Ensemble이 SNP 정보를 찾아볼 때 이용한다면, DECIPHER는 CNV 정보를 찾아볼 때 활용하기 좋습니다. 염색체 구조 이상과 phenotype data 간의 정보가 잘 정리되어 있어, 특히 array 칩을 통해 염색체 미세 구조 변이가 확인된 선천성 기형 환자의 genotype-phenotype correlation이나 Rare disease에서 CNV 관련 분석을 할 때 유용하게 사용할 수 있습니다. 역시 다른 DB 와의 연계도 훌륭합니다.

관련 포스팅 보기 >

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

 

IV. VarSome (https://varsome.com/)

VarSome

제가 개인적으로 가장 많이 사용하는 브라우저입니다. 직관적이고 편리한 인터페이스와 SNP 정보를 간편하고 빨리 얻을 수 있는 점이 장점입니다. 특히, 임상적으로 변이 판독에 활용하기에 유용한데, SNV의 임상적 정보를 해석하는데 필요한 ACMG classification 및 In-silico tool을 통한 아미노산 치환 효과 예측 스코어 등을 한 페이지에 모두 보여주고, 게놈 상에 이미 pathogenic variant로 보고된 변이도 한눈에 보여주기 때문에, 여기 저기 다른 사이트들에 가서 찾아볼 필요가 없어 좋습니다. 그러나 다른 브라우저와 다르게 가입(무료)을 해야 계속 검색을 할 수 있다는 점이 단점입니다.

관련 포스팅 보기 >

임상의를 위한 NGS 레포트 해석의 이해

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

 

V. ExAC Genome Browser (http://exac.broadinstitute.org/)

Broad Institute에서 개발한 브라우저로 ExAC 기반한 변이들의 변이 빈도를 제공한다는 점이 강점이었습니다만, 최근에 대부분의 DB에서 더 큰 population인 gnomAD 변이 빈도를 제공하기 때문에 강점을 많이 잃었습니다. 다른 브라우저와 다르게 검사한 NGS 데이터의 퀄리티, Coverage 정보 등을 제공하기 때문에 가끔 유용한 경우가 있습니다.

 

위에 소개한 게놈 브라우저 외에도 다양한 브라우저들이 존재합니다. 각 브라우저들만의 강점이 존재하기 때문에, 상황에 맞게 장단점을 이해하고 브라우저들을 활용하는 것이 좋을 것으로 생각됩니다. 이번 포스팅은 여기서 마치도록 하겠습니다.

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

지난 포스팅에서는 임상의의 입장에서 NGS 검사를 통한 변이의 해석을 이해하기 위한 기초적인 내용들을 언급했습니다.

<관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

그러나, 언급된 내용들이 기초적이고 많이 부족하다고 느껴, 이번 포스팅에서는 타깃 시퀀싱 패널의 분석시 고려할 내용 및 팁 등을 언급해 보고자 합니다.

1) 검사 데이터의 Quality check: 사실 환자를 보는 의사의 입장에서는 최종 결과만 확인하기 때문에 가장 간과하기 쉬운 단계입니다. 그러나 본인이 직접 데이터를 분석하고 해석하고자 한다면, 가장 중요한 단계입니다. 확인해야할 여러 파라미터들이 있습니다만, 가장 기본적으로 target region의 coverage 및 depth를 확인해야합니다. 이는 우리가 검사하고자 하는 영역을 타깃 시퀀싱 패널이 얼마나 잘 디자인되어 검출하는지를 나타내주는 지표입니다. 경우에 따라 다르지만, 일반적으로 100X 이상의 depth로 원하는 영역의 99% 이상 커버(100X over target ratio > 99%)한다면 디자인이 매우 잘된 것으로 생각할 수 있습니다.

doc-1024x216

1
매우 잘 디자인된 타깃 시퀀싱 패널의 성능 결과 예: 평균 depth도 매우 많고, 원하는 영역을 골고루 잘 커버하는 것을 알 수 있다.

2) 검출된 변이가 true signal인가? false positive 인가?: 위와 같이 잘 디자인된 시퀀싱 패널이라 하더라도, micro-insertion 또는 deletion이 일어나는 경우에는 reference 패널과 read의 시퀀스 차이가 크기 때문에 엉뚱한 곳에 가서 read가 붙는 일이 일어날 수 있습니다. 그 결과 엉뚱한 위양성 변이가 검출되기도 합니다.

따라서 임상적으로 중요한 변이가 검출된 경우에는 (특히 frameshift mutation), 실제로 해당 변이를 IGV 와 같은 genome viewer를 통해서 직접 눈으로 확인해보는 것이 중요합니다.

2
국내의 모 NGS 검사 업체에서 전달받은 결과에서 보고한 한 환자의 검체에서 무더기로 검출된 변이. 검출된 변이의 빈도가 1% 정도로 매우 적기 때문에 noise signal로 판단할 수 있었지만, 이렇게 작은 빈도라 하더라도 somatic mutation을 타깃으로 하는 cancer panel이었다고 하면 이야기는 완전히 달라집니다.

Mutation-visualization-in-the-Integrative-Genomics-Viewer-IGV-browser-showing
경우에 따라서는 위와 같이 IGV를 통해 실제로 deletion 된 영역이 있고, read들이 올바르게 달라붙었는지를 눈으로 직접 확인해보는 것도 필요합니다.

3) 검사 목적에 따른 변이의 filter 전략: 타깃 시퀀싱 패널은 크게 2가지 유전 질환과 관련하여 생식 세포 돌연변이 (germ-line mutation) 또는 de novo mutation을 검출하거나 암 환자에서 체세포 돌연변이 (somatic mutation)을 검출할 목적으로 디자인됩니다. 이 두 가지는 구분하여 NGS 검사에서 검출된 변이를 적절하게 필터링하는 전략이 필요합니다.

<관련 포스팅 보기> 유전학 중요개념 정리: Germline vs. Somatic mutation

Germ-line의 경우에는 부모로 부터 한쌍씩 유전형을 물려받기 때문에 검출되는 변이의 상대 빈도는 ~50% 또는 ~100%일 수 밖에 없습니다. 반면, 암 세포의 경우에는 다양한 변이들이 섞여 있기 때문에 (tumor heterogeneity) 다양한 상대 빈도로 검출이 됩니다. 따라서, 변이를 필터링할 경우, 이러한 점을 염두해 두고 환자들에서 의미있는 병적 변이들을 검출하게 됩니다.

4) 집단 내 변이 빈도에 따른 filter 전략: 매우 드문 희귀 유전 질환의 변이를 검출하고자 하는 경우, 해당 변이의 집단 내 변이 빈도에 따라 필터링하는 전략도 유효합니다. 1000 Genome project 또는 ExAC과 같은 유전체 database는 인구 집단에서 해당 변이의 빈도에 대한 정보를 제공해주기 때문에, 이미 알려진 변이 빈도를 기반으로 인구 집단에서 흔하게 존재하는 변이(1% 이상)는 필터링하고 남은 변이들을 대상으로 임상적 평가를 확인하는 것이 좋습니다.

변이빈도와 효과 크기
일반적으로 희귀 유전질환의 경우에는 집단 내 변이 빈도가 매우 작고, 효과 크기가 큰 변이에 의해 유발되는 것으로 생각되고 있기 때문에, NGS 검사를 통해 검출된 흔한 변이들은 크게 임상적인 의미가 없는 경우가 많습니다.

5) 유전체 데이터 베이스를 활용한 Clinical annotation: 최근 다양한 생명정보학 및 유전체 툴들이 개발되어 검출된 변이의 특성 및 정보들을 자동으로 처리해주고 있습니다. 이러한 툴들을 보조적으로 잘 활용하면 변이 판독에 소요되는 시간을 최소화하면서, 동시에 효과적으로 판정할 수 있습니다. 그러나, 경우에 따라서 이러한 판정들이 항상 옳은 것은 아니기 때문에 변이의 판정 및 판독에는 다양한 경험을 바탕으로 한 전문가의 수기 판독이 필요하게 됩니다.

가장 대표적으로 많이 사용되는 툴은 Annovar이며, annovar 내에서도 다양한 툴들이 존재하기 때문에, 사용자가 필요에 따라 이를 선택할 수 있습니다.

Annovar 홈페이지 방문하기

임상의를 위한 NGS 레포트 해석의 이해

최근에 친한 선배께서 환자의 NGS 검사 레포트를 보면서, 저에게 이것 저것 물어보는 일이 잦아졌습니다. 항상 귀찮게 해서 미안하다고 하시지만, 저의 지식이 도움이 될 수 있다는 즐거움과 이렇게 좋은 쓸 거리를 제공해주셔서, 이 자리를 빌어 감사의 말을 드립니다. 이번 포스팅은 최근 병원에서 검사 건수가 많이 늘어난 NGS 검사의 결과 레포트를 보기 위한, 기본적인 이해와 해석을 위한 지식을 포스팅해보고자 합니다.

NGS 검사는 워낙 최근에 새로 생겨난 검사이다 보니, 의사 선생님들이라 하더라도 결과 레포트 해석에 많은 어려움을 토로하고 있습니다 (의대에서 가르치지 않는 지식). 이전에 생거 시퀀싱으로 단일 유전자를 검사 하는 경우는 있었지만, 매우 드물고 검출된 변이 수가 적었기에 크게 문제가 되지 않았습니다. 그러나 NGS의 시대가 도래하면서, 환자로 부터 타깃 시퀀싱을 통해 100여개의 유전자를 한꺼번에 검사하다 보니 거기서 나오는 변이의 수도 많고, 그 임상적 의미에 대해서도 복잡하여 해석이 어려운 경우가 많습니다.

관련 포스팅 보기>

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

HGVS (Human Genome Variation Society) nomenclature

: 유전자의 변이를 기술하는 약속입니다. 레포트가 의미하는 바를 알기위해서 기본적인 HGVS nomenclature 숙지가 필요합니다. 더 자세한 정보는 http://varnomen.hgvs.org/recommendations/general/에서 찾으시길 바랍니다.

gr2

  • c.1526C>T: c는 coding sequence를 의미합니다. 즉, 어떤 유전자의 아미노산을 코딩하는 1526번째 염기가 C에서 T로 바뀌었다는 의미입니다.
  • c.154-10G>T, c.194+7G>T: (-) 표시와 (+) 표시의 의미. c는 coding sequence를 나타내므로, 엑손 영역만 나타나게 됩니다. intron 영역의 염기를 표현할 때는 가장 가까운 엑손 영역의 염기를 기준으로 (-) 표시와 (+) 표시로 나타낼수 있습니다. c.154-10G>T은 154번째 코딩 유전자로부터 인트론 영역으로 10개의 bp 위쪽, c.194+7G>T는 194번째 코딩 유전자로부터 7개의 bp 아래쪽을 의미합니다.
  • c.92_94del, c.92_94delGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)에서 결손(deletion)이 일어났다.
  • c.92_94dup, c.92_94dupGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)가 중복(duplication)되어 나타난다.
  • c.51_52insT: 51번째와 52번째 coding sequence의 사이에 T가 삽입(insertion)되었다.

 

  • p.Ala132Pro, p.A132P: p는 protein을 의미합니다. 즉, 132번째 아미노산이 Ala에서 Pro으로 바뀌었다. 이 경우, missense variant에 해당합니다.
  • p.Ala132=: 132번째 아미노산이 Ala이며, 아미노산에 변화가 없다. 이 경우 synonymous variant에 해당합니다.
  • p.(Arg97Profs*23), p.(Arg97ProfsTer23): fs는 frame shift를 의미합니다. 즉, 프레임이 전체적으로 바뀌면서 97번째 아미노산이 Arg에서 Pro으로 바뀌고, 새로 바뀐 프레임에 의해 뒤로 23번째에 (120번째 위치) 종결 코돈 (Termination; Ter)이 나타난다는 의미입니다.

reportingMutations

 

Variant Interpretation

  • rsID (ex. rs3952537): rs는 Reference SNP을 의미합니다. 즉, reference 시퀀스를 기준으로 다른 변이에 하나의 ID를 부여했다고 할 수 있습니다. 이러한, rsID를 이용하면 해당 변이의 위치, 염색체, 해당 유전자, 인종별 분포 등 다양한 정보를 검색하기 용이합니다. 2018년 10월에 공개된 dbSNP152 database는 총 6억5천만개의 변이에 대한 정보를 제공하고 있습니다.
  • 유전 정보 검색 브라우져를 통한 변이 정보 검색: 네이버나 구글과 같은 검색 툴처럼 유전 정보에 대한 검색 툴도 많이 개발되어 있습니다. 대표적으로 Ensemble Genome browser, ExAC browser, UCSC browser 등이 있습니다. 해당 홈페이지에서 위의 rsID를 이용하면, 다양한 추가적인 정보를 얻을 수 있습니다. 저는 개인적으로 VarSome 이라는 사이트가 보기 편해서, VarSome을 주로 이용하고 있습니다.

 

 

acmg
ACMG 가이드라인에 따른 변이의 5단계 분류. 결과 보고지에는 보통 VUS 이상의 변이가 포함됩니다.

  • ACMG Classification: Pathogenic, Likely Pathogenic, VUS (Variant of Uncertain Significance) – ACMG (American College of Medical Genetics)라는 단체에서 정한 변이 분류 기준에 따라 해당 변이를 분류한 것입니다.
  • VUS : 쉽게 말해, 해당 변이의 의미를 정확히 모르겠다. 라고 생각하면 됩니다. ‘아직까지 명확한 임상적 증거가 없는, 잘 모르겠는 애매한 변이입니다’ 라는 뜻으로 해석하시면 됩니다. 사실 질병과 변이의 관계가 명확하게 밝혀진 것은 전체 변이의 1% 정도 밖에 되지 않습니다. 때문에, 대부분의 변이가 VUS로 분류될 수 밖에 없습니다.
  • In silico tool score – SIFT, PolyPhen-2 등등: 아미노산의 치환에 의해 단백질 구조와 기능이 영향을 받을지 예측하는 컴퓨터 알고리즘이 100개 이상 존재합니다. 시퀀싱 레포트에서 종종 추가적으로 이러한 툴을 이용하여 예측한 해당 변이의 기능 정보를 추가하고 있습니다. SIFT는 0에 가까울수록, PolyPhen-2는 1에 가까울수록 문제가 있는 병적 변이일 가능성이 높다고 예측합니다. 다만 이러한 정보는 참고를 위한 정보이기 때문에, 진료를 위해 활용하기는 어렵습니다.

 

PMC2875051_ddq16201
변이 빈도가 중요한 이유는, 드문 변이일수록 형질에 영향을 더 크게 미칠 확률이 높아지기 때문입니다.

  • Allele frequency: 해당 변이의 일반 인구 집단에서의 분포 빈도를 나타냅니다. 보통 1% 미만의 변이를 rare variant, 그보다 큰 경우는 common variant로 분류합니다. 변이 빈도가 중요한 이유는 rare variant 일수록, effect size가 커서 실제 병적 변이로 의심해봐야할 가능성이 높아지기 때문입니다. 그러나 변이 빈도를 산출해낸 인구 집단의 크기와 조성(ExAC, gnomAD 등)에 따라, 인종 및 성별에 따라 변이 빈도는 천차 만별인 경우도 많음을 유의해야합니다. 우리 나라에서는 대규모 한국인에서의 변이 빈도를 참고하는 것이 좋겠지만, 아쉽게도 한국인의 인구 집단 데이터 (KRGDB, KOVA 등)는 아직 크기가 작아서 참고용으로 많이 사용되고 있습니다.
  • Inheritance pattern – AD (Autosomal Dominant, 상염색체 우성), AR (Autosomal Recessive, 상염색체 열성), XD (X-linked Dominant, X 염색체 우성), XR (X-linked Recessive, X 염색체 열성) 등의 대표적 멘델 유전 양식을 나타냅니다.
  • De novo variant란? (라틴어로 de novo는 ‘of new’를 의미) 즉, 부모로부터 유전되지 않고, 정확한 원인을 모르지만 환자에서 새로이 나타난 변이를 일컫습니다. 환자에서 De novo variant가 있는 경우에는 환자의 질병의 원인이 되는 변이로 의심해볼 가능성이 높아집니다. 이런 경우에는 부모로부터 유전되었는지, de novo 인지를 확인하기 위해 유전 상담 및 부모의 가족 검사를 추천하기도 합니다.

 

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

NGS 결과의 임상 적용: Genotype-phenotype correlation

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

 

Conclusion: 음.. 어떻게 해석할까?

임상 선생님들은 간결하고 명확한걸 좋아합니다. 하지만 생각보다 변이와 질병 관계가 명확한게 별로 없고 모르는게 많습니다. 그러다보니 검출된 변이는 많이 보고하지만, 그에대한 해석은 결국 환자의 임상 증상에 맞게 통합적으로 내릴수 밖에 없습니다. 이 부분은 임상의의 경험과 안목이 필요합니다. 일반적으로 이러한 과정을 Genotype-Phenotype correlation (유전형-표현형 일치) 라고 하는데, 현재도 많은 연구자들이 이 관계를 밝히기 위해 노력하고 있습니다.

 


[References]

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine 17.5 (2015): 405-423.

Rehm, Heidi L., et al. “ACMG clinical laboratory standards for next-generation sequencing.” Genetics in medicine 15.9 (2013): 733-747.

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

임상 검사 및 연구 목적의 검사로 시행하는 염기서열 분석 방법은 기존의 생거 시퀀싱에서 차세대 염기서열 분석법 (Next-generation sequencing; 이하 NGS)로 빠르게 바뀌어서, 이제는 대부분 NGS로 생산된 엄청난 유전체 데이터가 쏟아지고 있습니다. 하지만 이러한 데이터의 생산보다 더 중요한 것은 어떠한 목적과 목표를 가지고 생산된 데이터를 활용할 것인가에 있다고 하겠습니다. 그래서 이번 포스팅에서는 NGS 기술을 이용하여 DNA 시퀀싱을 하는 대표적인 3가지 검사법에 대해서 비교 및 정리하고자 합니다.

관련 포스팅 보기>

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

NGS Targeted Gene Panel 디자인을 위한 고려 사항

Exome sequencing을 위해 고려할 요소들: capture kit와 target coverage 선택

SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

 

Genomic_comparison3

I. Whole Genome Sequencing (WGS)

유전체 전체의 시퀀스를 모두 검사하는 방법입니다. 유전체 전부를 보기 때문에, 개별 시퀀스의 깊이 (depth)는 낮아지지만, 이론적으로 유전체 모든 영역의 SNP (Single Nucleotide Polymorphism), INDEL (Insertion & Deletion), SV (Splicing variant), CNV (Copy number variant) 등을 확인할 수 있습니다 (물론 short-read에서는 repetitive 영역을 모두 보는 것은 불가능합니다). 단, 검사 단가가 비싸고 생산된 유전체의 크기가 매우 커서 분석 및 저장에도 많은 비용이 들어갑니다. 그러나 non-coding 영역의 regulatory variant를 발굴하고, 전체 유전체 영역을 동일하게 가정하는 Genome-wide Null 분석이 가능한 장점이 있습니다.

 

II. Whole Exome Sequencing (WES)

유전체 중에서 단백질을 직접 코딩하는 엑손 영역 (Exome; 엑솜)의 유전체만을 분석하는 방법입니다. 사람의 경우, Exome은 전체 유전체의 2% 미만이기 때문에 WGS보다 생산되는 데이터의 크기가 작아, 저장 및 연산 용량도 줄어들고 가격도 저렴합니다. WGS을 분석하더라도 많은 경우, non-coding 영역의 변이는 해석이 어렵고 크게 의미 있는 결과를 얻는 경우가 많지 않기 때문에 WES이 더 경제적이고 더 높은 depth를 얻을 수 있는 장점이 있습니다. 하지만, 타겟 영역을 제외한 부위 (Intergenic 또는 Intron 영역의 regulatory variant)는 검출이 어렵습니다.

 

III. Targeted Gene Sequencing (TGS)

특정 질병 또는 목적에 부합하는 유전자들로만 구성된 Customized 패널을 구성하여 검사하는 방법입니다. 상대적으로 좁은 영역의 유전체만을 대상으로 하기 때문에, 적은 용량의 데이터를 생산해도 높은 시퀀싱 Depth를 얻을 수 있고, 가격적으로도 가장 저렴합니다. 효율적으로 원하는 유전자들로 입맛에 맞게 유전자 패널을 구성하여, 데이터의 연산 및 저장 용량도 줄일 수 있습니다. 대표적으로 약물 대사에 관련된 유전자로 구성된 약물 유전체 패널, 암 발생과 관련된 유전자들로 구성된 고형암 패널 등이 있습니다. 타겟으로 하는 유전자가 명확하고 보고자 하는 영역이 명확한 경우에 가장 적절하여, 임상 검사실에서 가장 많이 사용하는 검사 방법입니다.

NGS modalities
[유전체 검사의 범위에 따른 가격, 용도 및 도구] 더 폭넓은 유전체를 검사할수록 가격은 일반적으로 더 비싸지고, Depth는 낮아지게 됩니다. 검사 목적에 따라 적절한 modality를 활용하는 것이 중요합니다.
 

위의 3가지 검사법을 결정해야할 때 고려해야할 요소는 크게 다음과 같습니다.

  1. 검사 목적: 진단용인가? 연구용인가? 연구용이라면, 연구 대상의 유전자가 제한된 연구인가 또는 새롭게 발굴하는 것이 목적인가?
  2. 분석 대상: 특정 유전자에 한정할 것인가? 해석이 용이한 엑손 영역에서 새로운 유전자를 발굴할 것인가? 전체 유전체에서 탐색적으로 연구할 것인가?
  3. 검체 이용 및 시퀀싱 깊이: 어떠한 검체를 이용할 것이며, 시퀀싱 깊이는 어느 정도가 적절한가?
  4. 검사 비용 및 분석 능력: 시퀀싱 결과 생산된 데이터의 크기가 매우 크기 때문에 이것을 분석하는 컴퓨팅 파워 및 용량, 전체적인 비용도 고려해야 합니다.

올해부터 한시적으로 임상 검사의 목적으로는 타겟 시퀀싱 패널 (TGS)에 대해서 보험 급여가 인정되어 임상 검사실에서 시행되고 있고, WES 및 WGS의 경우에는 진단의 목적보다는 연구 목적으로 새로운 후보 유전자 또는 영역을 발굴하는 목적으로 많이 사용하고 있습니다. 위의 3가지 외에도 최근에는 Clinical Exome Sequencing이라고 하여, 전체 엑손 영역 중에서 임상적으로 질병과 연관된 유전자들로만 구성된 일종의 광범위 타겟 시퀀싱 패널과 같은 검사도 WES보다 좀 더 저렴하게 검사가 가능합니다.

또한, 연구자의 입장에서 비용 만을 생각하면 시퀀싱보다는 micro-array 기반의 검사가 더 저렴하고 간편한 경우도 있기 때문에 (e.g. 한국인칩 ㅠㅠ), 목적에 적합한 검사를 선택하는 것이 중요하다고 할 수 있겠습니다. Array 검사법과 시퀀싱 검사법의 비교는 나중 포스팅에서 다루도록 하겠습니다.

 

[References]

https://blog.genohub.com/2015/02/21/whole-genome-sequencing-wgs-vs-whole-exome-sequencing-wes/

https://blog.genohub.com/2016/10/24/targeted-gene-panels-vs-whole-exome-sequencing/

[유전학 중요개념 정리] Germline vs. Somatic mutation

가끔 주위 선생님들과 NGS 검사를 통해 발견된 변이에 대해서 이야기를 할 때, Germ-lineSomatic mutation, 두 가지 개념의 차이를 잘 모르는 경우를 종종 보아와서, 이번 포스팅에서는 Germline mutation (생식 세포 돌연변이)Somatic mutation (체세포 돌연변이)의 개념과 임상적 중요성에 대해서 정리하려고 합니다. 생식 세포 돌연변이와 체세포 돌연변이는 크게 2가지 개념에서 구분할 수 있습니다.

somatic-vs-germline_med

  1. Inheritance: 부모로부터 물려받은 변이인가? 살아가면서 새로 발생하고 축적된 돌연변이 인가?
  2. Mosaicism: 개체의 모든 세포들이 공유하는 변이인가? 특정 세포에만 발생된 변이인가?

우리의 몸은 처음에는 하나의 세포에서 기원했지만, 장기나 조직 별로 각 세포를 구성하고 발현하는 유전체는 동일하지 않습니다. 임상적인 관점에서 위의 2가지 구분은 대상 질환의 검사 방법 및 분석 방법에도 차이를 발생시킵니다. 가령, 부모로 부터 물려받은 유전 질환에 대해서 검사하고 싶다면 Germ-line mutation을 target으로 해야하고, 어떤 암 환자 조직에서 발생한 mutation을 검사하고 싶다면 Somatic mutation을 target으로 해야 합니다. (물론 Cancer의 경우에도 생식세포에서 발생하는 Germ-line mutation이 중요한 Hereditary cancer syndrome의 경우도 있긴 합니다만, 대부분의 일반 장기에서 발생하는 경우 Somatic mutation이 주요 원인입니다.)

특히 암의 경우에는 조직을 구성하는 세포들이 정상 세포와 암세포간에 Mosaicism을 이루고, 같은 암세포라 하더라도 가지고 있는 돌연변이들이 모두 다릅니다. 이를 Tumor Heterogeneity (종양 이질성) 라고 부릅니다.

Screen-Shot-2016-11-11-at-17.27.01
같은 종양 조직 안에서도 무수히 많은 종양세포 군집이 뒤섞여 있습니다. 이를 Tumor Heterogeneity라고 부릅니다.

그렇다면, 위의 구분이 검사에서 왜 중요할까요? NGS 검사를 통해서, 암의 원인이 되는 변이를 찾고자 한다고 가정해보겠습니다. 그리고 암 환자의 조직을 수술을 통해서 검사를 보냈다고 가정해 봅시다. 보통은 조직에서 DNA를 추출하고, DNA 절편을 만들어서 NGS 검사를 진행합니다. 그리고 기기에서는 각 절편을 기준이 되는 Reference Genome에 Assembly를 구성해서, 환자의 Sequence를 읽게 됩니다.

이때 Depth of Coverage라는 개념이 있게 되는데, 어느 한 지역을 얼마나 많은 절편으로 읽었는가? 하는 개념이 됩니다. 즉, Depth가 깊을수록, 그 지역의 누클레오타이드는 더 확실하고 명확하게 됩니다. 그런데 간혹 기기에서 시퀀싱 에러가 발생하는 경우도 있게 됩니다. 만약 한번의 시퀀싱 에러가 발생했는데, 그 부위의 depth가 2라면, Error rate는 50%가 되지만, depth가 200이라면 Error rate는 0.5%가 됩니다. 그런데 암세포의 변이를 찾는 검사에서 돌연변이가 전체 조직 세포의 5%에만 존재한다고 생각해 봅시다. 이 변이를 검출하기 위해서는 적어도 depth가 20은 되어야 1개의 변이가 나타날 것입니다. 그런데 depth가 20일때, 이러한 변이가 검출되었다면 이것이 에러인지 진짜인지 어떻게 알 수 있을까요? 그래서 Somatic mutation을 검출하는 검사는 일반적으로 더 높은 Read Depth를 요구합니다. (이를 위해 Deep sequencing이 요구되며, 일반적으로 500~1,000X 이상으로 읽게 됩니다. 임상적으로 Germline 이 target인 경우는 더 적은 depth로도 충분하게 됩니다.)

F2.large
NGS 검사의 특성상 위치별로 Coverage 및 Depth가 다르게 되며, 이는 SNP 검사 결과의 신뢰도와 error rate 등에 영향을 주게 됩니다.

반대로 Germ-line mutation을 target으로 변이를 검출하려고 한다고 생각해봅시다. 그런데 어느 부위에서 A가 10번, T가 90번 읽혔습니다. 그러면 이 변이는 Somatic mutation 또는 시퀀싱 에러의 가능성이 매우 높기 때문에 분석에서 제외하는게 좋습니다. 왜냐하면 Germ-line은 부모로 부터 물려받았기 때문에 Homozygete 또는 Heterozygote의 2가지 경우만 있을 것이고, SNP을 읽었을 때 50:50으로 읽히거나 (Heterozygote), 100%로 동일하게 (Homozygote) 읽혀야 하기 때문입니다. 이렇듯 위의 두가지 개념을 구분하는 것은, NGS 검사를 통해 해석할 때 매우 중요합니다.

 


[References]

Rizzo, Jason M., and Michael J. Buck. “Key principles and clinical applications of” next-generation” DNA sequencing.” Cancer prevention research (2012): canprevres-0432.

약물유전체 정밀의료의 실현, F-CAP 프로젝트

오늘은 어제 소개해드렸던 PGRN (Pharmacogenomic Research Network)에서 진행 중인 프로젝트 중 하나인 F-CAP(Functionalization of Variants in Clinical Actionable Pharmacogenes)에 대해서 소개하고자 합니다.

최근 유전자 시퀀싱 기술의 발달로 개인별로 많은 차이를 보이는 SNV (Single Nucleotide Variant)를 가진다는 것을 알게 되었고, (사실 전체 염기서열에 비하면, SNV의 비율을 매우 적은 편이긴 합니다만,) 약물 대사에 관여되는 단백질을 coding 하는 유전자의 변이가 결국 약물의 농도나 반응, 부작용 등에 관여하는 것이 밝혀지면서 약물 유전체학의 연구는 이쪽으로 집중되고 있습니다. 특히 최근에는 약물 대사 관련 유전자들을 한번에 검사 가능한 NGS 패널도 개발되면서, 많은 변이들을 한번에 찾아낼 수 있게 되었죠.

그림1
[F-CAP 프로젝트] 개인별 약물 반응을 예측하기 위해서는 개인별로 발견된 변이가 약물 유전자에 어떤 기능적 차이를 만들어내는지 알아야합니다. 이를 위해서는 모든 가능한 변이에 대한 기능적 변화를 측정한 데이터 베이스 구축이 필요합니다.
그러나 이러한 데이터가 점점 쌓이면서, 해석에 문제가 생기게 되었습니다. 즉 이전에 보고되지 않은 많은 변이들이 발견되었는데, 이게 약물 대사 효소의 기능에 어떠한 영향을 미치는지 정확하게 알기 어려운 상황에 직면하게 된 것입니다. 사실 이전에 보고된 논문에서 실험을 통해 확인되었던 변이들은 어느 정도 그 효과를 예상할 수 있었지만, 처음 발견되는 변이들이 너무 많다보니 변이의 효과를 제대로 예측하기 불가능했던 것입니다. 그래서 F-CAP 프로젝트는 약물 유전자에 가능한 모든 단백질의 변이들에 대해서 그 기능적 변화를 측정하여, 데이터 베이스를 구축하고자 하는 프로젝트입니다. 이렇게 되면 새로운 변이가 발견되었을 때도 그 효과를 기존 데이터베이스를 통해서 예측할 수 있게 되니까요. 일종의 유전자 지도에 상응하는 기능적 지도를 만들고자하는 시도라고 볼 수 있죠. 사실 이것은 정밀 의료의 실현 측면에서 매우 중요한 의미를 가집니다. PGRN에서는 우선적으로 약물 대사에 중요한 유전자들에 대해서 이러한 시도를 시작했지만, 더 나아가 인간의 유전자 염기 서열 지도처럼, 결국은 모든 유전자들에 대해서 이러한 기능적 지도가 있어야 정밀 의료가 가능하다는 셈이죠.

그림2

F-CAP 프로젝트는 다음과 같은 5가지 단계로 기획되어 있습니다.

  1. Target Gene Prioritization: 약물 대사와 유전자 관계가 명확하며, 임상적 의의가 큰 CPIC Level A 약물-유전자 쌍에 대해, 우선적으로 연구를 진행하고 있습니다.
  2. Large-Scale Functional Assays: 모든 유전자 변이에 대해서 기능 검사를 해야하기 때문에, 매우 큰 스케일의 검사를 효율적이고 빠르게 시행할 수 있는 기술을 개발하고 적용해야 합니다.
  3. Variant Impact Score Calculation: 위에서 측정한 검사 결과를 토대로, 변이가 실제 정상에 비해 어느 정도의 영향을 미치는지를 표준화된 score로 계산해냅니다.
  4. Impact Score Validation: 이렇게 얻어낸 스코어를 통해 예측한 결과가 실제 임상 데이터에 유용하게 쓰일 수 있는지를 검증합니다.
  5. Data dissemination: 유전자 변이와 스코어를 하나의 커다란 데이터베이스로 구축하여, 누구나 열람할 수 있도록 합니다.

 

그림3.png
2017년 3월 현재, CPIC 가이드라인에서 제시하는 Level A (유전자와 약물 반응 간의 관계가 분명하게 입증된 수준) 유전자와 약물 쌍입니다.

한 가지 더 부연 설명을 추가하면, 2017년 3월 현재 CPIC 가이드 라인에서 유전자와 약물 대사 간의 명확한 관계가 입증된 쌍은 위의 16쌍이며, 계속적으로 추가가 되고 있습니다. 특히 약물 대사의 많은 부분은 Cytochrome P450이 관여하기 때문에, CYP 관련 유전자들이 많은 것을 볼 수 있습니다. 즉 F-CAP 프로젝트의 1단계는 CYP 관련 유전자에 대해서, 얼마나 효율적으로 모든 변이의 기능 변화를 측정하는가 하는 방향으로 진행될 것을 예상할 수 있습니다.

F-CAP 프로젝트는 현재 진행형이며, 아마 조만간 관련 논문이 나올 것으로 생각됩니다. 약물 유전자 기능 지도가 완성되면, NGS 검사를 통한 개인의 변이 검사 및 이를 임상에 활용하는 측면에서도 많은 도움이 기대가 됩니다. 또한 정밀 의료 실현의 측면에서도 약물 유전자 뿐 아니라 여러 질병 유전자들에 대해서도 비슷한 연구가 활발히 진행되어, 많은 유전자-형질 및 기능 관계가 밝혀지기를 기대합니다. 다음 번 포스팅에서는 실제로 이러한 연구가 진행된 사례와 그 연구 방법론에 대해서 글을 써 보도록 하겠습니다.

[참고 문헌]

Bush, William S., et al. “Genetic variation among 82 pharmacogenes: The PGRNseq data from the eMERGE network.” Clinical Pharmacology & Therapeutics 100.2 (2016): 160-169.

http://www.pgrn.org/functional-pharmacogenes.html