임상의를 위한 NGS 레포트 해석의 이해

최근에 친한 선배께서 환자의 NGS 검사 레포트를 보면서, 저에게 이것 저것 물어보는 일이 잦아졌습니다. 항상 귀찮게 해서 미안하다고 하시지만, 저의 지식이 도움이 될 수 있다는 즐거움과 이렇게 좋은 쓸 거리를 제공해주셔서, 이 자리를 빌어 감사의 말을 드립니다. 이번 포스팅은 최근 병원에서 검사 건수가 많이 늘어난 NGS 검사의 결과 레포트를 보기 위한, 기본적인 이해와 해석을 위한 지식을 포스팅해보고자 합니다.

NGS 검사는 워낙 최근에 새로 생겨난 검사이다 보니, 의사 선생님들이라 하더라도 결과 레포트 해석에 많은 어려움을 토로하고 있습니다 (의대에서 가르치지 않는 지식). 이전에 생거 시퀀싱으로 단일 유전자를 검사 하는 경우는 있었지만, 매우 드물고 검출된 변이 수가 적었기에 크게 문제가 되지 않았습니다. 그러나 NGS의 시대가 도래하면서, 환자로 부터 타깃 시퀀싱을 통해 100여개의 유전자를 한꺼번에 검사하다 보니 거기서 나오는 변이의 수도 많고, 그 임상적 의미에 대해서도 복잡하여 해석이 어려운 경우가 많습니다.

관련 포스팅 보기>

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

HGVS (Human Genome Variation Society) nomenclature

: 유전자의 변이를 기술하는 약속입니다. 레포트가 의미하는 바를 알기위해서 기본적인 HGVS nomenclature 숙지가 필요합니다. 더 자세한 정보는 http://varnomen.hgvs.org/recommendations/general/에서 찾으시길 바랍니다.

gr2

  • c.1526C>T: c는 coding sequence를 의미합니다. 즉, 어떤 유전자의 아미노산을 코딩하는 1526번째 염기가 C에서 T로 바뀌었다는 의미입니다.
  • c.154-10G>T, c.194+7G>T: (-) 표시와 (+) 표시의 의미. c는 coding sequence를 나타내므로, 엑손 영역만 나타나게 됩니다. intron 영역의 염기를 표현할 때는 가장 가까운 엑손 영역의 염기를 기준으로 (-) 표시와 (+) 표시로 나타낼수 있습니다. c.154-10G>T은 154번째 코딩 유전자로부터 인트론 영역으로 10개의 bp 위쪽, c.194+7G>T는 194번째 코딩 유전자로부터 7개의 bp 아래쪽을 의미합니다.
  • c.92_94del, c.92_94delGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)에서 결손(deletion)이 일어났다.
  • c.92_94dup, c.92_94dupGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)가 중복(duplication)되어 나타난다.
  • c.51_52insT: 51번째와 52번째 coding sequence의 사이에 T가 삽입(insertion)되었다.

 

  • p.Ala132Pro, p.A132P: p는 protein을 의미합니다. 즉, 132번째 아미노산이 Ala에서 Pro으로 바뀌었다. 이 경우, missense variant에 해당합니다.
  • p.Ala132=: 132번째 아미노산이 Ala이며, 아미노산에 변화가 없다. 이 경우 synonymous variant에 해당합니다.
  • p.(Arg97Profs*23), p.(Arg97ProfsTer23): fs는 frame shift를 의미합니다. 즉, 프레임이 전체적으로 바뀌면서 97번째 아미노산이 Arg에서 Pro으로 바뀌고, 새로 바뀐 프레임에 의해 뒤로 23번째에 (120번째 위치) 종결 코돈 (Termination; Ter)이 나타난다는 의미입니다.

reportingMutations

 

Variant Interpretation

  • rsID (ex. rs3952537): rs는 Reference SNP을 의미합니다. 즉, reference 시퀀스를 기준으로 다른 변이에 하나의 ID를 부여했다고 할 수 있습니다. 이러한, rsID를 이용하면 해당 변이의 위치, 염색체, 해당 유전자, 인종별 분포 등 다양한 정보를 검색하기 용이합니다. 2018년 10월에 공개된 dbSNP152 database는 총 6억5천만개의 변이에 대한 정보를 제공하고 있습니다.
  • 유전 정보 검색 브라우져를 통한 변이 정보 검색: 네이버나 구글과 같은 검색 툴처럼 유전 정보에 대한 검색 툴도 많이 개발되어 있습니다. 대표적으로 Ensemble Genome browser, ExAC browser, UCSC browser 등이 있습니다. 해당 홈페이지에서 위의 rsID를 이용하면, 다양한 추가적인 정보를 얻을 수 있습니다. 저는 개인적으로 VarSome 이라는 사이트가 보기 편해서, VarSome을 주로 이용하고 있습니다.

 

 

acmg
ACMG 가이드라인에 따른 변이의 5단계 분류. 결과 보고지에는 보통 VUS 이상의 변이가 포함됩니다.
  • ACMG Classification: Pathogenic, Likely Pathogenic, VUS (Variant of Uncertain Significance) – ACMG (American College of Medical Genetics)라는 단체에서 정한 변이 분류 기준에 따라 해당 변이를 분류한 것입니다.
  • VUS : 쉽게 말해, 해당 변이의 의미를 정확히 모르겠다. 라고 생각하면 됩니다. ‘아직까지 명확한 임상적 증거가 없는, 잘 모르겠는 애매한 변이입니다’ 라는 뜻으로 해석하시면 됩니다. 사실 질병과 변이의 관계가 명확하게 밝혀진 것은 전체 변이의 1% 정도 밖에 되지 않습니다. 때문에, 대부분의 변이가 VUS로 분류될 수 밖에 없습니다.
  • In silico tool score – SIFT, PolyPhen-2 등등: 아미노산의 치환에 의해 단백질 구조와 기능이 영향을 받을지 예측하는 컴퓨터 알고리즘이 100개 이상 존재합니다. 시퀀싱 레포트에서 종종 추가적으로 이러한 툴을 이용하여 예측한 해당 변이의 기능 정보를 추가하고 있습니다. SIFT는 0에 가까울수록, PolyPhen-2는 1에 가까울수록 문제가 있는 병적 변이일 가능성이 높다고 예측합니다. 다만 이러한 정보는 참고를 위한 정보이기 때문에, 진료를 위해 활용하기는 어렵습니다.

 

PMC2875051_ddq16201
변이 빈도가 중요한 이유는, 드문 변이일수록 형질에 영향을 더 크게 미칠 확률이 높아지기 때문입니다.
  • Allele frequency: 해당 변이의 일반 인구 집단에서의 분포 빈도를 나타냅니다. 보통 1% 미만의 변이를 rare variant, 그보다 큰 경우는 common variant로 분류합니다. 변이 빈도가 중요한 이유는 rare variant 일수록, effect size가 커서 실제 병적 변이로 의심해봐야할 가능성이 높아지기 때문입니다. 그러나 변이 빈도를 산출해낸 인구 집단의 크기와 조성(ExAC, gnomAD 등)에 따라, 인종 및 성별에 따라 변이 빈도는 천차 만별인 경우도 많음을 유의해야합니다. 우리 나라에서는 대규모 한국인에서의 변이 빈도를 참고하는 것이 좋겠지만, 아쉽게도 한국인의 인구 집단 데이터 (KRGDB, KOVA 등)는 아직 크기가 작아서 참고용으로 많이 사용되고 있습니다.
  • Inheritance pattern – AD (Autosomal Dominant, 상염색체 우성), AR (Autosomal Recessive, 상염색체 열성), XD (X-linked Dominant, X 염색체 우성), XR (X-linked Recessive, X 염색체 열성) 등의 대표적 멘델 유전 양식을 나타냅니다.
  • De novo variant란? (라틴어로 de novo는 ‘of new’를 의미) 즉, 부모로부터 유전되지 않고, 정확한 원인을 모르지만 환자에서 새로이 나타난 변이를 일컫습니다. 환자에서 De novo variant가 있는 경우에는 환자의 질병의 원인이 되는 변이로 의심해볼 가능성이 높아집니다. 이런 경우에는 부모로부터 유전되었는지, de novo 인지를 확인하기 위해 유전 상담 및 부모의 가족 검사를 추천하기도 합니다.

 

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

NGS 결과의 임상 적용: Genotype-phenotype correlation

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

 

Conclusion: 음.. 어떻게 해석할까?

임상 선생님들은 간결하고 명확한걸 좋아합니다. 하지만 생각보다 변이와 질병 관계가 명확한게 별로 없고 모르는게 많습니다. 그러다보니 검출된 변이는 많이 보고하지만, 그에대한 해석은 결국 환자의 임상 증상에 맞게 통합적으로 내릴수 밖에 없습니다. 이 부분은 임상의의 경험과 안목이 필요합니다. 일반적으로 이러한 과정을 Genotype-Phenotype correlation (유전형-표현형 일치) 라고 하는데, 현재도 많은 연구자들이 이 관계를 밝히기 위해 노력하고 있습니다.

 


[References]

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine 17.5 (2015): 405-423.

Rehm, Heidi L., et al. “ACMG clinical laboratory standards for next-generation sequencing.” Genetics in medicine 15.9 (2013): 733-747.

광고

유전자 변이의 해석: 대용량 기능 검사의 필요성

오늘 포스팅은 유전체 검사 후 발견되는 변이 해석에 대해 얘기해 보고자 합니다. 사실 최근에 제가 공부한 내용이라, 조금 어려운 내용이지만 해당 내용을 정리할 겸 포스팅을 남겨봅니다.

NGS 기술이 널리 사용되면서, 검사를 통한 변이 검출에 대한 문제는 이제 어느 정도 정상 궤도에 올랐다고 볼 수 있습니다. 사실 더 중요한 문제는 검출된 변이를 해석하고, 이를 실제 의료 현장에서 적용하는데 있습니다. 이제서야 이러한 문제가 이슈가 되고 있는 것은 시간의 흐름대로 과거 생거 시퀀싱을 통한 유전자 검사와 NGS 기술의 등장을 생각하면, 이해하기가 쉽습니다.

시퀀싱 기술의 발전 한눈에 살펴 보기 -> 휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

과거 10년 정도 임상 현장 (병원)에서는 계속 유전자 검사를 해왔고, 실제 진료 (유전병 진단 등)에도 사용을 해왔습니다. 그러나 이때는 주로 생거 시퀀싱에 기반한 유전자 검사 였기 때문에, 매우 한정된 지역 (흔히 mutation hot spot이라고 불리는 부분)을 검사하거나 단일 유전자 1~2개의 엑손 부위 등을 검사하였죠. 이러한 유전자 검사를 시행하더라도, 검출되는 변이는 그리 많지 않았습니다. 그리고 질병과 알려진 변이 외의 변이는 검출된다 하더라도 크게 관심이 없었습니다. 사실 그러한 변이는 딱히 해석할 방법이 없었다는게 더 정확할지도 모르겠습니다. 따라서 그 동안 주요 변이 해석은 다음과 같이 이루어졌습니다.

  1. Family segregation: 가계도 분석을 통해, 대부분의 유전병 원인 유전자 및 변이를 추정하는 방식.
  2. Computational prediction algorithms: Polyphen-2, SIFT 등과 같은 단백질의 아미노산 서열 및 기능적 중요도 (conservation)에 기반한 컴퓨터 예측 알고리즘.
  3. Data sharing: 연구자 또는 임상 의사들 간의 진료 경험 및 축적된 데이터를 커뮤니티 또는 학회에서 공유해오던 방식.
  4. Traditional functional assays: 주로 in vitro assay를 통해 개별적인 논문에서 실험하고 변이의 효과를 입증해오던 방식.

하지만 NGS 기술이 등장하면서, 더이상 위의 접근 방식들로는 변이들을 해석하는데 한계에 다다르게 됩니다. 가장 널리 사용되는 컴퓨터 알고리즘 방식의 경우는 위양성률이 높고, 제한적인 데이터에 기반하기 때문에 정확한 정보를 주지 못하는 경우가 많습니다. 그리고 전통적인 변이의 functional assay의 경우는 가장 정확한 방법이기는 하지만, 매우 제한적인 몇몇 변이에 대해서만 실험 및 논문 보고가 이루어졌기 때문에 모든 검출 변이에 대해 정보를 제공하는데 한계가 있었습니다 (low through-put).

컴퓨터 알고리즘 기반 예측 도구에 대해 더 살펴보기 -> 아미노산 치환의 효과 예측: In silico tool의 원리와 종류

NGS의 다른 이름인 Massively parallel sequencing 처럼, 엄청나게 방대한 시퀀싱 데이터를 통해 생산된 변이 데이터는 더이상 한 두개의 유전자 수준이 아닌 거의 질병과 관련된 모든 유전자의, 모든 변이들을 검출 가능하게 하였습니다. 상황이 이렇다 보니, 검출된 대부분의 변이들은 VUS (Variant of Unknown Significane)로 분류되는 상황이 잦아지게 되었죠. 쉽게 말해 ‘어떤 의미를 가지는 변이인지 모르겠다.’ 입니다.

Figure 1
아미노산 잔기가 치환되는 missense variant는 gnomAD에 460만개의 변이가 보고되었지만, 그 중에 임상적 연관성을 보고하여 ClinVar에 등록된 변이는 2% 수준인 10만개입니다. 그마저도 절반 이상은 정확히 의미를 잘 모르겠다고 분류된 VUS입니다.

따라서 뒤따라오는 문제는 Massive하게 검출되는 변이들 처럼, 변이들의 기능적 특성에 대해서도 Massive하게 검사해서 확인할 필요가 있게 되었습니다 (High through-put Functional assay). 그래서, 하나의 대안으로 최근 주목 받는 검사 방법이 오늘 소개하고자 하는 Multiplexed assays for variant effect (MAVE)입니다.

Figure 2.png
MAVE는 가능한 모든 변이들의 library를 생산한 이후에 모든 변이들에 대한 functional assay를 high through-put으로 시행하여 그 변이의 기능적 기여를 해석하는 방식을 말합니다.
Figure 3
MAVE의 단계적 assay 방법.
  1. Construction of a variant library: 검사하고자 하는 기능 유전자에 해당하는 가능한 모든 위치의 변이를 포함하는 library를 구축합니다.
  2. Delivery of this variant library to a model system: E.coli, Yeast, 또는 mammalian cell과 같이 유전자를 발현시켜 검사하고자하는 model system에 library를 집어 넣습니다.
  3. A functional assay: 발현된 단백질의 기능을 기능 검사를 통해 평가합니다. 보통은 selection 방법을 이용하여, selection 전 후의 어떤 기능을 가진 변이가 더 많이 또는 더 적게 존재하는지를 정량합니다.
  4. Sequencing to quantify each variant’s representation: 위의 기능 검사 전 후의 발현의 상대적인 비율을 sequencing을 통해 비교하게 됩니다.
  5. Calculation and calibration of functional scores: 위에서 얻은 비율을 일종의 기능적 점수로 환산하여 평가합니다.
  6. The genotype–phenotype relationship at every position: 모든 위치의 변이에 대한 기능적 지도가 완성됩니다.

위의 MAVE의 방법은 변이 해석에 대한 새로운 high throughput method로 앞으로 정밀 의료를 실현하는데 있어, 유용한 genotype–phenotype relationship 정보를 제공해줄 것으로 기대가 됩니다. 그러나 다음과 같은 제한점 및 후속 연구가 필요합니다.

  1. Model system의 한계: E.coli, Yeast, Mammalian cell과 같이 변이 라이브러리를 발현 시킬 적당한 모델이 있어야 하지만, 어떤 유전자에 대해서는 이것이 불가능할 수도 있습니다.
  2. Functional assay를 통한 selection: 사실 유전자가 발현되어 생긴 단백의 기능은 한 가지만 정해져 있는 것이 아닙니다. 하나의 단백이 여러가지 일을 동시에 수행하기 때문이죠. 따라서 검사해야할 functional assay가 무궁무진하게 많을 수도 있고, 그 각각을 표준화하기가 매우 어렵습니다. 또한 발현 전후의 상대적인 양으로 그 기능을 평가한다는 것이 과연 단백질의 정확한 기능을 반영하는 것인가에 대해서도 생각해볼 문제입니다.
  3. 컴퓨터 알고리즘 개선: 기능적 점수를 포함하는 새로운 컴퓨터 알고리즘을 개발하여, 좀 더 정확하게 변이의 효과를 예측하는데에 위의 데이터가 사용될 수 있습니다.

최근에 위의 MAVE 방법론을 이용하여 PPARG 유전자의 기능적 지도가 완성되어, Nature genetics에 소개된 바가 있습니다. 논문에서 저자들은 컴퓨터 알고리즘에 기반한 예측보다 MAVE 방법이 더 변이의 기능을 설명하는데 더 유용하다는 것을 보이기도 했습니다. 앞으로는 이처럼 아마 NGS 기술의 발전되고 많은 변이가 보고됨에 따라서, 그 기능적 해석과 관련된 부분에 대해서도 많은 관심과 연구가 진행될 것으로 생각이 됩니다. 그에 따라 하나의 방법론으로써 MAVE는 아직 몇가지 한계점이 있지만 좋은 대안이 될 것으로 생각됩니다. 그리고 궁극적으로는 모든 주요 유전자에 대한 변이의 기능적 예측을 높은 정확도로 얻을 수 있는 기능 지도가 완성되어, 데이터 베이스의 형태로 제공되기를 연구자들은 희망하고 있습니다.

사실 오늘 포스팅은 MAVE에 대해 매우 간략하게 정리한 것이라, 이해하기 어려울 수도 있을 것 같습니다. 관심이 있으신 분들을 아래 논문들을 더 살펴보시면 좋을 것 같습니다.

 

[참고 문헌]

Starita, Lea M., et al. “Variant Interpretation: Functional Assays to the Rescue.” The American Journal of Human Genetics 101.3 (2017): 315-325.

Gasperini, Molly, Lea Starita, and Jay Shendure. “The power of multiplexed functional analysis of genetic variants.” Nature protocols 11.10 (2016): 1782-1787.

Majithia AR, Tsuda B., et al. “Prospective functional classification of all possible missense variants in PPARG.” Nature Genetics 2016 Dec;48(12):1570-1575.