NGS 결과의 임상 적용: Genotype-phenotype correlation

최근에 병원의 의료 현장에서 NGS 타겟 시퀀싱 패널을 이용하면서 다양한 유전자들을 동시에 검사하는 건수가 폭발적으로 증가하고 있습니다. 다만 안타깝게도 많은 경우에 실제로 그 유전체 정보와 데이터를 충분히 활용하지 못하고 있음을 많이 느낍니다. 즉, 돈을 들여서 구축된 파이프 라인을 통해서 유전체 데이터 생산은 되는데, 이후에 변이들에 대한 적절한 해석을 하고, 환자에 적용하는데 까지는 아직 더 경험이 필요한 것 같습니다. 그래서 이번 글에서는 매우 중요한 개념인 유전형-표현형 일치 (Genotype-Phenotype correlation; G-P correlation)에 대한 포스팅을 남기고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

임상의를 위한 NGS 레포트 해석의 이해

 

I. Genotype-Phenotype correlation 의 개념

NGS 검사를 직접 해보면, 환자 한명에서도 엄청나게 많은 수의 변이들이 쏟아져 나옵니다. 여러가지 컴퓨터 예측 알고리즘이나 기존에 보고되어 구축된 유전체 데이터 베이스를 통해, 해당 변이가 실제로 질병을 일으키는 변이인지에 대해서 확인을 하고, 해당 결과가 NGS 검사 결과 보고서를 통해서 임상 의사에게 보고됩니다. 그러나, 이때 보고서의 다양한 변이 리스트를 보고, 실제로 환자에서 질병을 일으키는 유전자 이상이 무엇인지를 판단하는 것은 의사의 몫입니다.

이때 가장 중요한 것은 환자가 나타내는 임상 양상이 실제로 해당 유전자의 이상으로 발생하는 임상 양상과 일치하는가? 입니다. 나의 환자가 NGS 검사를 통해 확인된 유전형(Genotype)으로 인해 특정 유전자의 이상이 의심되고, 해당 유전자의 이상으로 알려진 질병 또는 임상 양상이 실제 나의 환자에서 나타나는 임상 양상(표현형, phenotype)과 일치하는가를 판단하는 전반적인 과정이 바로 G-P correlation이 되겠습니다. 원래는 해당 질병의 전문가가 종합적으로 판단하여야 하는데, 임상 유전학자들의 수는 매우 제한적이기 때문에, 환자의 주치의도 이러한 판단을 할 수 있어야 하기 때문에, 기본적인 유전학적 지식이 필수로 요구됩니다.

 

II. Genotype-Phenotype correlation의 접근 과정

NGS 검사를 통해 환자의 다양한 변이 정보를 얻었고, 임상 증상과 의심되는 질병도 있습니다. 이때 진단을 위한 마지막 퍼즐을 풀 차례입니다. 제일 먼저 할 과정은 환자에서 검출된 병적 변이에 의해서 실제로 보고된 임상 양상과 질병이 무엇인가를 확인하는 것입니다. 다양한 데이터 베이스가 있으나, 가장 광범위하고 무난하게 활용할 수 있는 곳은 아래의 두곳입니다. 아래 사이트에서 가장 먼저 확인해야할 것은 유전 양식(AD, AR, XLD, XLR 등등)과 질병을 일으킨 것으로 알려진 병적 변이에 대한 정보 입니다.

1

  • Online Mendelian Inheritance in Men (OMIM) : 사람의 유전질환들에 대한 다양한 데이터를 제공하기 위해 만들어졌습니다. 유전 양상과 대표적인 케이스 논문들에 대해서 바로 링크를 제공하기 때문에 유용합니다.
  • Gene Reviews : 좀 더 다양한 임상 양상들에 대해서 유전자 단위로 좀 더 상세하고 종합적으로 서술되어 있어, 배경 지식을 얻는데 더 좋습니다.

위의 사이트에서 우리 환자에서 검출된 유전자로 검색을 해서, 실제로 어떤 질병과 임상 양상이 보고되었었는가를 확인합니다. 또한 해당 유전자가 나타내는 임상 양상의 특징이 무엇인지를 파악해야합니다.

 

III. Genotype-Phenotype correlation이 안될 경우의 해석법

위와 같은 과정을 여러번 거치다 보면 다양한 상황에 마주하게 됩니다. 실제 병적 변이도 확인하고, 임상 양상도 잘 일치해서 환자를 진단하면 가장 좋겠지만, 여전히 모호한 경우를 많이 마주하게 됩니다.

  • 유전 양식이 잘 일치하는가? : 환자에서 변이가 homozygote 인지, heterozygote인지 그리고 알려진 질병 발생이 상염색체 우성 (AD)인지 상염색체 열성(AR)인지 잘 살펴본다. AR로 알려진 질병은 경우에 따라서 Compound heterozygote의 가능성도 있으므로, 추가적으로 다른 변이도 검출되지 않았은지 따져 본다.

> [유전학 중요개념 정리] Compound Heterozygote

  • 임상 양상과 해당 유전자가 의심되지만, 환자에서 검출된 변이가 실제로 병적 변이인지 모호한 경우: 1) 변이 빈도를 확인한다. : 인구 집단에서 흔한 변이이면 크게 의미가 없다. > 매우 드물거나 보고된 적이 없는 변이의 경우, 2) 환자의 부모에서 해당 변이 존재 유무를 확인하는 가족 검사를 실시한다. 만약 부모도 같은 변이를 가지고 있고 정상이라면, 질병과 관계가 없을 가능성이 높다. 그러나 일부는 투과도 (Penetrance)가 100%가 아니기 때문에 항상 그런 것은 아니다. 3) 관련 논문을 검색한다. > 논문을 잘 찾아보면 최소한의 실마리를 얻을 수 있다.

 

Genotype-Phenotype correlation 과정 자칫 환자를 잘못 진단하는 결과를 일으킬 수 있기때문에 매우 중요한 과정입니다. 그러나 이러한 과정을 통해 NGS 검사 결과를 적절히 해석하고 임상 진료에 활용하는 의사는 매우 제한적입니다. 임상 진료 현장에서 많은 의사들이 이러한 유전체 데이터를 활용하여 환자들을 적절히 진단하고 치료 하기를 소망합니다. 위에서 언급한 것 외에도 다양한 접근법이 있을 수 있으나, 분량이 너무 길어지기 때문에 이번 포스팅은 여기서 마무리하도록 하겠습니다.

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

지난 포스팅에서는 임상의의 입장에서 NGS 검사를 통한 변이의 해석을 이해하기 위한 기초적인 내용들을 언급했습니다.

<관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

그러나, 언급된 내용들이 기초적이고 많이 부족하다고 느껴, 이번 포스팅에서는 타깃 시퀀싱 패널의 분석시 고려할 내용 및 팁 등을 언급해 보고자 합니다.

1) 검사 데이터의 Quality check: 사실 환자를 보는 의사의 입장에서는 최종 결과만 확인하기 때문에 가장 간과하기 쉬운 단계입니다. 그러나 본인이 직접 데이터를 분석하고 해석하고자 한다면, 가장 중요한 단계입니다. 확인해야할 여러 파라미터들이 있습니다만, 가장 기본적으로 target region의 coverage 및 depth를 확인해야합니다. 이는 우리가 검사하고자 하는 영역을 타깃 시퀀싱 패널이 얼마나 잘 디자인되어 검출하는지를 나타내주는 지표입니다. 경우에 따라 다르지만, 일반적으로 100X 이상의 depth로 원하는 영역의 99% 이상 커버(100X over target ratio > 99%)한다면 디자인이 매우 잘된 것으로 생각할 수 있습니다.

doc-1024x216

1
매우 잘 디자인된 타깃 시퀀싱 패널의 성능 결과 예: 평균 depth도 매우 많고, 원하는 영역을 골고루 잘 커버하는 것을 알 수 있다.

2) 검출된 변이가 true signal인가? false positive 인가?: 위와 같이 잘 디자인된 시퀀싱 패널이라 하더라도, micro-insertion 또는 deletion이 일어나는 경우에는 reference 패널과 read의 시퀀스 차이가 크기 때문에 엉뚱한 곳에 가서 read가 붙는 일이 일어날 수 있습니다. 그 결과 엉뚱한 위양성 변이가 검출되기도 합니다.

따라서 임상적으로 중요한 변이가 검출된 경우에는 (특히 frameshift mutation), 실제로 해당 변이를 IGV 와 같은 genome viewer를 통해서 직접 눈으로 확인해보는 것이 중요합니다.

2
국내의 모 NGS 검사 업체에서 전달받은 결과에서 보고한 한 환자의 검체에서 무더기로 검출된 변이. 검출된 변이의 빈도가 1% 정도로 매우 적기 때문에 noise signal로 판단할 수 있었지만, 이렇게 작은 빈도라 하더라도 somatic mutation을 타깃으로 하는 cancer panel이었다고 하면 이야기는 완전히 달라집니다.
Mutation-visualization-in-the-Integrative-Genomics-Viewer-IGV-browser-showing
경우에 따라서는 위와 같이 IGV를 통해 실제로 deletion 된 영역이 있고, read들이 올바르게 달라붙었는지를 눈으로 직접 확인해보는 것도 필요합니다.

3) 검사 목적에 따른 변이의 filter 전략: 타깃 시퀀싱 패널은 크게 2가지 유전 질환과 관련하여 생식 세포 돌연변이 (germ-line mutation) 또는 de novo mutation을 검출하거나 암 환자에서 체세포 돌연변이 (somatic mutation)을 검출할 목적으로 디자인됩니다. 이 두 가지는 구분하여 NGS 검사에서 검출된 변이를 적절하게 필터링하는 전략이 필요합니다.

<관련 포스팅 보기> 유전학 중요개념 정리: Germline vs. Somatic mutation

Germ-line의 경우에는 부모로 부터 한쌍씩 유전형을 물려받기 때문에 검출되는 변이의 상대 빈도는 ~50% 또는 ~100%일 수 밖에 없습니다. 반면, 암 세포의 경우에는 다양한 변이들이 섞여 있기 때문에 (tumor heterogeneity) 다양한 상대 빈도로 검출이 됩니다. 따라서, 변이를 필터링할 경우, 이러한 점을 염두해 두고 환자들에서 의미있는 병적 변이들을 검출하게 됩니다.

4) 집단 내 변이 빈도에 따른 filter 전략: 매우 드문 희귀 유전 질환의 변이를 검출하고자 하는 경우, 해당 변이의 집단 내 변이 빈도에 따라 필터링하는 전략도 유효합니다. 1000 Genome project 또는 ExAC과 같은 유전체 database는 인구 집단에서 해당 변이의 빈도에 대한 정보를 제공해주기 때문에, 이미 알려진 변이 빈도를 기반으로 인구 집단에서 흔하게 존재하는 변이(1% 이상)는 필터링하고 남은 변이들을 대상으로 임상적 평가를 확인하는 것이 좋습니다.

변이빈도와 효과 크기
일반적으로 희귀 유전질환의 경우에는 집단 내 변이 빈도가 매우 작고, 효과 크기가 큰 변이에 의해 유발되는 것으로 생각되고 있기 때문에, NGS 검사를 통해 검출된 흔한 변이들은 크게 임상적인 의미가 없는 경우가 많습니다.

5) 유전체 데이터 베이스를 활용한 Clinical annotation: 최근 다양한 생명정보학 및 유전체 툴들이 개발되어 검출된 변이의 특성 및 정보들을 자동으로 처리해주고 있습니다. 이러한 툴들을 보조적으로 잘 활용하면 변이 판독에 소요되는 시간을 최소화하면서, 동시에 효과적으로 판정할 수 있습니다. 그러나, 경우에 따라서 이러한 판정들이 항상 옳은 것은 아니기 때문에 변이의 판정 및 판독에는 다양한 경험을 바탕으로 한 전문가의 수기 판독이 필요하게 됩니다.

가장 대표적으로 많이 사용되는 툴은 Annovar이며, annovar 내에서도 다양한 툴들이 존재하기 때문에, 사용자가 필요에 따라 이를 선택할 수 있습니다.

Annovar 홈페이지 방문하기

유전자 변이의 해석: 대용량 기능 검사의 필요성

오늘 포스팅은 유전체 검사 후 발견되는 변이 해석에 대해 얘기해 보고자 합니다. 사실 최근에 제가 공부한 내용이라, 조금 어려운 내용이지만 해당 내용을 정리할 겸 포스팅을 남겨봅니다.

NGS 기술이 널리 사용되면서, 검사를 통한 변이 검출에 대한 문제는 이제 어느 정도 정상 궤도에 올랐다고 볼 수 있습니다. 사실 더 중요한 문제는 검출된 변이를 해석하고, 이를 실제 의료 현장에서 적용하는데 있습니다. 이제서야 이러한 문제가 이슈가 되고 있는 것은 시간의 흐름대로 과거 생거 시퀀싱을 통한 유전자 검사와 NGS 기술의 등장을 생각하면, 이해하기가 쉽습니다.

시퀀싱 기술의 발전 한눈에 살펴 보기 -> 휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

과거 10년 정도 임상 현장 (병원)에서는 계속 유전자 검사를 해왔고, 실제 진료 (유전병 진단 등)에도 사용을 해왔습니다. 그러나 이때는 주로 생거 시퀀싱에 기반한 유전자 검사 였기 때문에, 매우 한정된 지역 (흔히 mutation hot spot이라고 불리는 부분)을 검사하거나 단일 유전자 1~2개의 엑손 부위 등을 검사하였죠. 이러한 유전자 검사를 시행하더라도, 검출되는 변이는 그리 많지 않았습니다. 그리고 질병과 알려진 변이 외의 변이는 검출된다 하더라도 크게 관심이 없었습니다. 사실 그러한 변이는 딱히 해석할 방법이 없었다는게 더 정확할지도 모르겠습니다. 따라서 그 동안 주요 변이 해석은 다음과 같이 이루어졌습니다.

  1. Family segregation: 가계도 분석을 통해, 대부분의 유전병 원인 유전자 및 변이를 추정하는 방식.
  2. Computational prediction algorithms: Polyphen-2, SIFT 등과 같은 단백질의 아미노산 서열 및 기능적 중요도 (conservation)에 기반한 컴퓨터 예측 알고리즘.
  3. Data sharing: 연구자 또는 임상 의사들 간의 진료 경험 및 축적된 데이터를 커뮤니티 또는 학회에서 공유해오던 방식.
  4. Traditional functional assays: 주로 in vitro assay를 통해 개별적인 논문에서 실험하고 변이의 효과를 입증해오던 방식.

하지만 NGS 기술이 등장하면서, 더이상 위의 접근 방식들로는 변이들을 해석하는데 한계에 다다르게 됩니다. 가장 널리 사용되는 컴퓨터 알고리즘 방식의 경우는 위양성률이 높고, 제한적인 데이터에 기반하기 때문에 정확한 정보를 주지 못하는 경우가 많습니다. 그리고 전통적인 변이의 functional assay의 경우는 가장 정확한 방법이기는 하지만, 매우 제한적인 몇몇 변이에 대해서만 실험 및 논문 보고가 이루어졌기 때문에 모든 검출 변이에 대해 정보를 제공하는데 한계가 있었습니다 (low through-put).

컴퓨터 알고리즘 기반 예측 도구에 대해 더 살펴보기 -> 아미노산 치환의 효과 예측: In silico tool의 원리와 종류

NGS의 다른 이름인 Massively parallel sequencing 처럼, 엄청나게 방대한 시퀀싱 데이터를 통해 생산된 변이 데이터는 더이상 한 두개의 유전자 수준이 아닌 거의 질병과 관련된 모든 유전자의, 모든 변이들을 검출 가능하게 하였습니다. 상황이 이렇다 보니, 검출된 대부분의 변이들은 VUS (Variant of Unknown Significane)로 분류되는 상황이 잦아지게 되었죠. 쉽게 말해 ‘어떤 의미를 가지는 변이인지 모르겠다.’ 입니다.

Figure 1
아미노산 잔기가 치환되는 missense variant는 gnomAD에 460만개의 변이가 보고되었지만, 그 중에 임상적 연관성을 보고하여 ClinVar에 등록된 변이는 2% 수준인 10만개입니다. 그마저도 절반 이상은 정확히 의미를 잘 모르겠다고 분류된 VUS입니다.

따라서 뒤따라오는 문제는 Massive하게 검출되는 변이들 처럼, 변이들의 기능적 특성에 대해서도 Massive하게 검사해서 확인할 필요가 있게 되었습니다 (High through-put Functional assay). 그래서, 하나의 대안으로 최근 주목 받는 검사 방법이 오늘 소개하고자 하는 Multiplexed assays for variant effect (MAVE)입니다.

Figure 2.png
MAVE는 가능한 모든 변이들의 library를 생산한 이후에 모든 변이들에 대한 functional assay를 high through-put으로 시행하여 그 변이의 기능적 기여를 해석하는 방식을 말합니다.
Figure 3
MAVE의 단계적 assay 방법.
  1. Construction of a variant library: 검사하고자 하는 기능 유전자에 해당하는 가능한 모든 위치의 변이를 포함하는 library를 구축합니다.
  2. Delivery of this variant library to a model system: E.coli, Yeast, 또는 mammalian cell과 같이 유전자를 발현시켜 검사하고자하는 model system에 library를 집어 넣습니다.
  3. A functional assay: 발현된 단백질의 기능을 기능 검사를 통해 평가합니다. 보통은 selection 방법을 이용하여, selection 전 후의 어떤 기능을 가진 변이가 더 많이 또는 더 적게 존재하는지를 정량합니다.
  4. Sequencing to quantify each variant’s representation: 위의 기능 검사 전 후의 발현의 상대적인 비율을 sequencing을 통해 비교하게 됩니다.
  5. Calculation and calibration of functional scores: 위에서 얻은 비율을 일종의 기능적 점수로 환산하여 평가합니다.
  6. The genotype–phenotype relationship at every position: 모든 위치의 변이에 대한 기능적 지도가 완성됩니다.

위의 MAVE의 방법은 변이 해석에 대한 새로운 high throughput method로 앞으로 정밀 의료를 실현하는데 있어, 유용한 genotype–phenotype relationship 정보를 제공해줄 것으로 기대가 됩니다. 그러나 다음과 같은 제한점 및 후속 연구가 필요합니다.

  1. Model system의 한계: E.coli, Yeast, Mammalian cell과 같이 변이 라이브러리를 발현 시킬 적당한 모델이 있어야 하지만, 어떤 유전자에 대해서는 이것이 불가능할 수도 있습니다.
  2. Functional assay를 통한 selection: 사실 유전자가 발현되어 생긴 단백의 기능은 한 가지만 정해져 있는 것이 아닙니다. 하나의 단백이 여러가지 일을 동시에 수행하기 때문이죠. 따라서 검사해야할 functional assay가 무궁무진하게 많을 수도 있고, 그 각각을 표준화하기가 매우 어렵습니다. 또한 발현 전후의 상대적인 양으로 그 기능을 평가한다는 것이 과연 단백질의 정확한 기능을 반영하는 것인가에 대해서도 생각해볼 문제입니다.
  3. 컴퓨터 알고리즘 개선: 기능적 점수를 포함하는 새로운 컴퓨터 알고리즘을 개발하여, 좀 더 정확하게 변이의 효과를 예측하는데에 위의 데이터가 사용될 수 있습니다.

최근에 위의 MAVE 방법론을 이용하여 PPARG 유전자의 기능적 지도가 완성되어, Nature genetics에 소개된 바가 있습니다. 논문에서 저자들은 컴퓨터 알고리즘에 기반한 예측보다 MAVE 방법이 더 변이의 기능을 설명하는데 더 유용하다는 것을 보이기도 했습니다. 앞으로는 이처럼 아마 NGS 기술의 발전되고 많은 변이가 보고됨에 따라서, 그 기능적 해석과 관련된 부분에 대해서도 많은 관심과 연구가 진행될 것으로 생각이 됩니다. 그에 따라 하나의 방법론으로써 MAVE는 아직 몇가지 한계점이 있지만 좋은 대안이 될 것으로 생각됩니다. 그리고 궁극적으로는 모든 주요 유전자에 대한 변이의 기능적 예측을 높은 정확도로 얻을 수 있는 기능 지도가 완성되어, 데이터 베이스의 형태로 제공되기를 연구자들은 희망하고 있습니다.

사실 오늘 포스팅은 MAVE에 대해 매우 간략하게 정리한 것이라, 이해하기 어려울 수도 있을 것 같습니다. 관심이 있으신 분들을 아래 논문들을 더 살펴보시면 좋을 것 같습니다.

 

[참고 문헌]

Starita, Lea M., et al. “Variant Interpretation: Functional Assays to the Rescue.” The American Journal of Human Genetics 101.3 (2017): 315-325.

Gasperini, Molly, Lea Starita, and Jay Shendure. “The power of multiplexed functional analysis of genetic variants.” Nature protocols 11.10 (2016): 1782-1787.

Majithia AR, Tsuda B., et al. “Prospective functional classification of all possible missense variants in PPARG.” Nature Genetics 2016 Dec;48(12):1570-1575.