구조 변이 annotation tool: AnnotSV

유전체 정보로 부터 임상적으로 중요한 변이를 검출하기 위해서는 NGS 시퀀싱 기기의 read 정보로부터 변이 검출까지의 파이프 라인 못지 않게, 얻어낸 수많은 변이로 부터 병인에 중요한 역할을 할 것으로 생각되는 후보 변이를 필터링하는 전략이 매우 중요하게 됩니다. 따라서 적절한 데이터 베이스로 부터 Annotation을 하는 과정은 매우 중요하게 되는데, 이번 포스팅은 다양한 변이 중에서 구조 변이 (Structural variation; SV)을 대상으로 Annotation을 할 수 있는 도구 중에 하나인 AnnotSV에 대해서 소개하고자 합니다. AnnotSV는 이전에 소개했던 Annovar의 CNV (copy number variant) 버젼에 해당한다고 볼 수 있습니다.

[관련 포스팅 보기]

AnnotSV는 다양한 구조 변이의 Annotation 기능 뿐만 아니라, ACMG (American College of Medical Genetics)에서 권장하는 구조 변이의 판독 기준에 따라서, 해당 변이의 중요도를 5가지 카테고리로 구분해줍니다. Input으로는 bed 파일 또는 vcf 파일을 받으며, 다양한 유전자, 조절 인자, 기존에 알려진 병적 변이, 질병과의 연관성 등을 기준으로 ACMG class를 보고해줍니다. 위 그림은 AnnotSV의 이러한 분석 과정을 보여주고 있습니다.

[bed 파일의 기본 구조] bed 파일은 1) 염색체 번호 (Chromosome), 2) 시작 지점 (Start), 3) 끝 지점 (End)의 3가지 기본적인 정보를 토대로 유전체 내의 특정 범위에 대한 정보를 제공해줍니다.

구조 변이 (CNV)의 경우, 적은 수의 염기 변이 (SNV)보다 short-read sequencing을 이용하는 경우, 기술적으로 검출하는 해상도의 한계가 있으며 (deletion보다 duplication 검출이 어려움. 충분한 Depth와 Supporting read가 확보되어야 하며, 이 때문에 translocation도 검출이 어려움.) 변이의 해석도 더 어려운 경우가 많습니다. 따라서, 적절한 한계점을 인지하고 적절한 분석 방법론을 적용하는 것이 중요하며, 현재도 많은 부분들이 현재 진행형으로 연구가 되고 있는 분야입니다.

다만, 최근 ACMG에서 구조 변이의 임상적 해석을 위한 Criteria를 제시해주어, 많은 부분 임상적으로 활용이 가능해진 부분이 있습니다. (아래 참고 논문: Riggs, Erin Rooney, et al. Genetics in Medicine 22.2 (2020): 245-257) 그동안 구조 변이의 해석에 여러가지 어려운 점들이 많았는데, 최근 이 쪽 분야도 많은 툴들과 방법론 들이 개발되고 있는 것 같습니다. 그런 점에서 AnnotSV는 구조 변이를 연구하고 해석하는 입장에서 매우 유용한 툴임이 분명합니다.

[References]

AnnotSV Github: https://github.com/lgmgeo/AnnotSV

AnnotSV Homepage: https://www.lbgi.fr/AnnotSV/

Geoffroy, Véronique, et al. “AnnotSV: an integrated tool for structural variations annotation.” Bioinformatics 34.20 (2018): 3572-3574.

Geoffroy, Véronique, et al. “AnnotSV and knotAnnotSV: a web server for human structural variations annotations, ranking and analysis.” Nucleic Acids Research (2021).

Riggs, Erin Rooney, et al. “Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen).” Genetics in Medicine 22.2 (2020): 245-257.

제 14차 CBMC 희귀질환 센터 화상 컨퍼런스 강의 자료

[07.15(수)]_제14차_CBMC_희귀질환_센터_화상_컨퍼런스

COVID-19는 학회와 강의의 풍경도 많이 바꾸어 놓은 것 같습니다. 개인적으로는 Zoom을 이용하여 화상 인터뷰 및 미팅 등은 한 적이 있는데, 온라인 강의는 이번이 처음입니다.

의국 선배님으로 부터 NGS에 대한 기초적인 개괄에 대한 강의를 부탁받아, 분당 차병원 임상과 선생님들을 대상으로 강의 자료를 준비하였습니다. 강의 자료가 필요하신 분들을 위해 블로그에도 업로드 합니다. (사용은 자유롭게 하시되, 출처만 명시해주시기 바랍니다.)

관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

바이오 연구자를 위한 Genome Browser 비교 및 활용

NGS 결과의 임상 적용: Genotype-phenotype correlation

NGS 분석 파이프 라인의 이해: GATK Best Practice

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

강의 자료 다운로드 > CBMC conference

암유전체 분석: Driver mutation prediction tools

이전 포스팅에서 암에서 발생하는 mutation을 driverpassenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Driver vs. Passenger mutation in cancer

[유전학 중요개념 정리] Mutational signature

사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다.  Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

1
[Somatic variant 변이 판독을 위한 AMP/ASCO/CAP guideline에 따른 Tier classification]
 

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.

  1. 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
  2. Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
  3. 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)

 

이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.

I. COSMIC (https://cancer.sanger.ac.uk/cosmic)

Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.

 

II. cBioPortal (http://www.cbioportal.org/)

다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.

 

III. OncoKB (https://oncokb.org/)

Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.

 

IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)

이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.

 

V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)

가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.

 

위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.

관련 포스팅 보기>

약물유전체 정밀의료의 실현, F-CAP 프로젝트

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

[References]

Li, Marilyn M., et al. “Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists.” The Journal of molecular diagnostics 19.1 (2017): 4-23.

임상의를 위한 NGS 레포트 해석의 이해

최근에 친한 선배께서 환자의 NGS 검사 레포트를 보면서, 저에게 이것 저것 물어보는 일이 잦아졌습니다. 항상 귀찮게 해서 미안하다고 하시지만, 저의 지식이 도움이 될 수 있다는 즐거움과 이렇게 좋은 쓸 거리를 제공해주셔서, 이 자리를 빌어 감사의 말을 드립니다. 이번 포스팅은 최근 병원에서 검사 건수가 많이 늘어난 NGS 검사의 결과 레포트를 보기 위한, 기본적인 이해와 해석을 위한 지식을 포스팅해보고자 합니다.

NGS 검사는 워낙 최근에 새로 생겨난 검사이다 보니, 의사 선생님들이라 하더라도 결과 레포트 해석에 많은 어려움을 토로하고 있습니다 (의대에서 가르치지 않는 지식). 이전에 생거 시퀀싱으로 단일 유전자를 검사 하는 경우는 있었지만, 매우 드물고 검출된 변이 수가 적었기에 크게 문제가 되지 않았습니다. 그러나 NGS의 시대가 도래하면서, 환자로 부터 타깃 시퀀싱을 통해 100여개의 유전자를 한꺼번에 검사하다 보니 거기서 나오는 변이의 수도 많고, 그 임상적 의미에 대해서도 복잡하여 해석이 어려운 경우가 많습니다.

관련 포스팅 보기>

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

HGVS (Human Genome Variation Society) nomenclature

: 유전자의 변이를 기술하는 약속입니다. 레포트가 의미하는 바를 알기위해서 기본적인 HGVS nomenclature 숙지가 필요합니다. 더 자세한 정보는 http://varnomen.hgvs.org/recommendations/general/에서 찾으시길 바랍니다.

gr2

  • c.1526C>T: c는 coding sequence를 의미합니다. 즉, 어떤 유전자의 아미노산을 코딩하는 1526번째 염기가 C에서 T로 바뀌었다는 의미입니다.
  • c.154-10G>T, c.194+7G>T: (-) 표시와 (+) 표시의 의미. c는 coding sequence를 나타내므로, 엑손 영역만 나타나게 됩니다. intron 영역의 염기를 표현할 때는 가장 가까운 엑손 영역의 염기를 기준으로 (-) 표시와 (+) 표시로 나타낼수 있습니다. c.154-10G>T은 154번째 코딩 유전자로부터 인트론 영역으로 10개의 bp 위쪽, c.194+7G>T는 194번째 코딩 유전자로부터 7개의 bp 아래쪽을 의미합니다.
  • c.92_94del, c.92_94delGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)에서 결손(deletion)이 일어났다.
  • c.92_94dup, c.92_94dupGGA: coding sequence 중에 92번째부터 94번째까지 3개의 염기 (GGA)가 중복(duplication)되어 나타난다.
  • c.51_52insT: 51번째와 52번째 coding sequence의 사이에 T가 삽입(insertion)되었다.

 

  • p.Ala132Pro, p.A132P: p는 protein을 의미합니다. 즉, 132번째 아미노산이 Ala에서 Pro으로 바뀌었다. 이 경우, missense variant에 해당합니다.
  • p.Ala132=: 132번째 아미노산이 Ala이며, 아미노산에 변화가 없다. 이 경우 synonymous variant에 해당합니다.
  • p.(Arg97Profs*23), p.(Arg97ProfsTer23): fs는 frame shift를 의미합니다. 즉, 프레임이 전체적으로 바뀌면서 97번째 아미노산이 Arg에서 Pro으로 바뀌고, 새로 바뀐 프레임에 의해 뒤로 23번째에 (120번째 위치) 종결 코돈 (Termination; Ter)이 나타난다는 의미입니다.

reportingMutations

 

Variant Interpretation

  • rsID (ex. rs3952537): rs는 Reference SNP을 의미합니다. 즉, reference 시퀀스를 기준으로 다른 변이에 하나의 ID를 부여했다고 할 수 있습니다. 이러한, rsID를 이용하면 해당 변이의 위치, 염색체, 해당 유전자, 인종별 분포 등 다양한 정보를 검색하기 용이합니다. 2018년 10월에 공개된 dbSNP152 database는 총 6억5천만개의 변이에 대한 정보를 제공하고 있습니다.
  • 유전 정보 검색 브라우져를 통한 변이 정보 검색: 네이버나 구글과 같은 검색 툴처럼 유전 정보에 대한 검색 툴도 많이 개발되어 있습니다. 대표적으로 Ensemble Genome browser, ExAC browser, UCSC browser 등이 있습니다. 해당 홈페이지에서 위의 rsID를 이용하면, 다양한 추가적인 정보를 얻을 수 있습니다. 저는 개인적으로 VarSome 이라는 사이트가 보기 편해서, VarSome을 주로 이용하고 있습니다.

 

 

acmg
ACMG 가이드라인에 따른 변이의 5단계 분류. 결과 보고지에는 보통 VUS 이상의 변이가 포함됩니다.

  • ACMG Classification: Pathogenic, Likely Pathogenic, VUS (Variant of Uncertain Significance) – ACMG (American College of Medical Genetics)라는 단체에서 정한 변이 분류 기준에 따라 해당 변이를 분류한 것입니다.
  • VUS : 쉽게 말해, 해당 변이의 의미를 정확히 모르겠다. 라고 생각하면 됩니다. ‘아직까지 명확한 임상적 증거가 없는, 잘 모르겠는 애매한 변이입니다’ 라는 뜻으로 해석하시면 됩니다. 사실 질병과 변이의 관계가 명확하게 밝혀진 것은 전체 변이의 1% 정도 밖에 되지 않습니다. 때문에, 대부분의 변이가 VUS로 분류될 수 밖에 없습니다.
  • In silico tool score – SIFT, PolyPhen-2 등등: 아미노산의 치환에 의해 단백질 구조와 기능이 영향을 받을지 예측하는 컴퓨터 알고리즘이 100개 이상 존재합니다. 시퀀싱 레포트에서 종종 추가적으로 이러한 툴을 이용하여 예측한 해당 변이의 기능 정보를 추가하고 있습니다. SIFT는 0에 가까울수록, PolyPhen-2는 1에 가까울수록 문제가 있는 병적 변이일 가능성이 높다고 예측합니다. 다만 이러한 정보는 참고를 위한 정보이기 때문에, 진료를 위해 활용하기는 어렵습니다.

 

PMC2875051_ddq16201
변이 빈도가 중요한 이유는, 드문 변이일수록 형질에 영향을 더 크게 미칠 확률이 높아지기 때문입니다.

  • Allele frequency: 해당 변이의 일반 인구 집단에서의 분포 빈도를 나타냅니다. 보통 1% 미만의 변이를 rare variant, 그보다 큰 경우는 common variant로 분류합니다. 변이 빈도가 중요한 이유는 rare variant 일수록, effect size가 커서 실제 병적 변이로 의심해봐야할 가능성이 높아지기 때문입니다. 그러나 변이 빈도를 산출해낸 인구 집단의 크기와 조성(ExAC, gnomAD 등)에 따라, 인종 및 성별에 따라 변이 빈도는 천차 만별인 경우도 많음을 유의해야합니다. 우리 나라에서는 대규모 한국인에서의 변이 빈도를 참고하는 것이 좋겠지만, 아쉽게도 한국인의 인구 집단 데이터 (KRGDB, KOVA 등)는 아직 크기가 작아서 참고용으로 많이 사용되고 있습니다.
  • Inheritance pattern – AD (Autosomal Dominant, 상염색체 우성), AR (Autosomal Recessive, 상염색체 열성), XD (X-linked Dominant, X 염색체 우성), XR (X-linked Recessive, X 염색체 열성) 등의 대표적 멘델 유전 양식을 나타냅니다.
  • De novo variant란? (라틴어로 de novo는 ‘of new’를 의미) 즉, 부모로부터 유전되지 않고, 정확한 원인을 모르지만 환자에서 새로이 나타난 변이를 일컫습니다. 환자에서 De novo variant가 있는 경우에는 환자의 질병의 원인이 되는 변이로 의심해볼 가능성이 높아집니다. 이런 경우에는 부모로부터 유전되었는지, de novo 인지를 확인하기 위해 유전 상담 및 부모의 가족 검사를 추천하기도 합니다.

 

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

NGS 결과의 임상 적용: Genotype-phenotype correlation

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

 

Conclusion: 음.. 어떻게 해석할까?

임상 선생님들은 간결하고 명확한걸 좋아합니다. 하지만 생각보다 변이와 질병 관계가 명확한게 별로 없고 모르는게 많습니다. 그러다보니 검출된 변이는 많이 보고하지만, 그에대한 해석은 결국 환자의 임상 증상에 맞게 통합적으로 내릴수 밖에 없습니다. 이 부분은 임상의의 경험과 안목이 필요합니다. 일반적으로 이러한 과정을 Genotype-Phenotype correlation (유전형-표현형 일치) 라고 하는데, 현재도 많은 연구자들이 이 관계를 밝히기 위해 노력하고 있습니다.

 


[References]

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine 17.5 (2015): 405-423.

Rehm, Heidi L., et al. “ACMG clinical laboratory standards for next-generation sequencing.” Genetics in medicine 15.9 (2013): 733-747.

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

앞선 포스팅에서 언급했듯이, 단일염기변이 (SNV)에 의해 코딩하는 아미노산의 바뀌면 (missense variant) 단백질의 기능에도 영향을 주게 됩니다. 이때, 치환되는 아미노산이 단백질 구조와 기능에 영향을 미치는 정도에 따라서 그 효과가 거의 없을수도 있고, 단백질의 기능 자체를 항진시키거나 (gain of function; 드물게) 또는 감소시키게 됩니다 (loss of function). 오늘은 이러한 아미노산 치환에 따른 단백질 기능을 예측하는 컴퓨터 알고리즘 도구들 (In silico tools)의 원리와 종류들 대해서 포스팅하고자 합니다.

In silico tool에 대한 이해가 중요한 이유는 유전자 검사를 통해 변이를 검출한 경우, 변이 해석을 위한 기초 정보를 제공하기 때문입니다. 현재 많은 임상 검사실에서 사용하고 있는 American College of Medical Genetics and Genomics (ACMG)의 염기 변이의 해석에 관한 표준화 가이드라인 (2015 ACMG guideline)에서도 In silico tool의 결과를 판독 기준에 포함 시키고 있습니다. 자세히 살펴보면, 각각의 개발 도구들은 세부적으로 조금 더 기능을 향상시키기 위해 적용한 알고리즘에 차이가 있지만, 사실 대부분의 In silico tool에서 활용하는 기본 원리는 비슷합니다. 아래의 원리는 단백질학에 있어 중요한 내용이지만, 저도 세부적인 내용에 대해서는 전문가가 아니기 때문에, 간단히만 정리하고 넘어가겠습니다.

principle
아미노산 서열이 보존된 영역 (Conserved site) 또는 단백질 구조상 파묻힌 영역 (Buried site)에 변이가 있을 경우, 단백질 기능에 영향을 미쳐 질병이 발생할 확률이 높아진다.
  1. 아미노산 서열의 보존성 (Homology & Conservation): 진화 생물학적 관점에서 여러 종에서 공통적으로 단백질에 존재하는 아미노산 서열 ( conserved area)의 경우, 기능을 수행하는데 중요한 영역일 확률이 높습니다. 보통 이러한 부위를 상동성 (homology)을 갖는다고 합니다. 이러한 부위에 아미노산 치환이 일어나게 되면, 기능이 떨어질 확률이 높습니다. (진화적 관점에서 선택압의 결과) 이러한 원리에 기반하여, 아미노산 서열 정보를 단백질 기능 변화 예측에 사용합니다.
  2. 단백질의 구조 (Structure): 아미노산 치환이 표면 (surface sites)에서 일어나는 경우, 내부의 파묻힌 영역 (buried sites)에서 일어나는 경우보다 단백질 기능 변화에 영향을 적게 줄 확률이 높습니다. binding site 또는 active site의 경우도 변이가 발생할 경우, 기능에 영향을 미칠 확률이 높아집니다. 이러한 구조적인 정보를 다양한 Database로 부터 활용하여, 예측 모델에 포함시킵니다.
  3. Annotation: 그동안 병적 변이(pathogenic variant)로 보고되었던 변이들의 정보, 즉 실제 관찰된 데이터베이스 (database)를 추가적으로 활용하여, 모델을 개선 시킵니다.

위의 데이터는 예측을 위한 모델링의 기초 자료가 됩니다. 위의 자료들을 토대로 다양한 예측 알고리즘을 적용한 것들이 in silico tool로 개발되어 왔습니다. 아래 그림은 이러한 과정을 정리한 모식도를 보여주고 있습니다.

AAS
In silico prediction tool의 전체적인 모델링 과정. 단백질 구조, 아미노산 서열, 기존 보고되었던 DB 정보를 활용하여, 예측 알고리즘을 적용하게 됩니다.

In silico tool에는 많은 종류가 있는데, 이들의 차이는 대부분 적용한 알고리즘의 차이에서 옵니다. 흔히 적용하는 알고리즘은 최근 이슈가 되고있는 기계 학습 (Machine learning) 알고리즘들입니다. 즉 위의 데이터를 머신러닝 알고리즘으로 학습을 시킨 이후에 예측을 하도록 모델링하는 것이지요. 각각의 세부적인 알고리즘들에 대해서는 나중 포스팅에서 다루기로 하고, 여기서는 간단히 정리하고 넘어가겠습니다. 대표적으로 사용되고 있는 알고리즘에는 Random Forest (RF), Support Vector Machine (SVM), Hidden Markov Model (HMM), Artificial Neural Network (ANN), Deep Neural Network (DNN) 등이 있습니다. 아래는 ACMG 가이드라인에 소개된 대표적인 in silico tool들을 정리한 표입니다.

in silico tools
적용 알고리즘과 방법에 따라서 다양한 종류의 in silico prediction tool들이 개발되고 있습니다.

마지막으로 in silico tool들의 한계점을 살펴보고 글을 마치고자 합니다. 사실 위의 표에 소개된 도구 외에도 많은 도구들이 개발되어 논문으로 소개되고 있고, 서로 자기들이 개발한 도구의 성능이 우수하다고 말하곤 합니다. 하지만, 위의 도구들은 그들의 태생적 한계 때문에, 예측 성능이 정확하지는 않습니다. 여기서 태생적 한계라 함은 input data인 structure, sequence, annotation 정보를 말합니다. 모델에 이용된 데이터가 매우 제한적이고, 실제 기능을 측정한 정보가 포함되어 있지 않기 때문에, 아무리 좋은 머신러닝 알고리즘을 적용한다고 하더라도, 성능이 좋을 수가 없습니다. 사실 이러한 이유때문에, 이전에 포스팅했던 MAVE를 활용한 기능 측정 데이터의 필요성이 부각되고 있습니다.

관련 포스팅 보기>

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

아래는 위에서 언급한 in silico tool의 제한점들입니다.

  1. 보통 90%의 민감도로 pathogenic variant를 예측할 때, 위양성률이 30% 정도 수준이라고 합니다. 이는 병적 변이라고 예측해도 실제로는 30%는 그렇지 않다는 의미입니다. 또한 대부분의 논문에서 발표한 성능도 training dataset 및 test dataset에 따라 결과에 많은 차이가 있습니다. 이러한 성능은 실제 임상 진료에 사용하기에는 매우 부족합니다.
  2. 적용 알고리즘만으로는 Input data의 태생적 한계를 극복할 수 없다: 위에서 언급한 것 처럼, 아무리 좋은 알고리즘을 적용한다고 하더라도, input data가 포함하는 정보가 제한적이기 때문에 예측 모델의 태생적 한계를 극복할 수 없습니다.
  3. 예측 도구들 마다 분류하는 방식 및 기준값, scale 등이 제각각이다.: 가령 대표적인 tool인 SIFT의 경우는 0과 1 사이의 값을 계산하여 0.05보다 작은 경우는 damaging 큰 경우는 tolerated으로 구분하는 반면, PolyPhen-2의 경우는 benign, possibly damaging, probably damaging로 구분하며, 반대로 1에 가까울수록 damaging일 가능성이 높도록 예측합니다. 즉 이처럼 값이나 기준이 통일 되어 있지 않으며, 그 의미도 제각각이라서 이해하기가 어려운 측면이 있습니다.
  4. 변이의 양적 형질에 대한 정보를 주지 못한다.: 대부분의 알고리즘은 단백질 영향이 정상인지 병적인지의 2~3가지의 카테고리로 변이를 구분합니다. 하지만 사실 정밀의료의 측면에서는 효소의 활성도가 80% 수준으로 떨어지는지, 0% 수준으로 완전히 없어지는지 등과 같은 양적 형질에도 관심이 큽니다. 그러나 현재 알고리즘은 이러한 정보는 전혀 줄 수 없습니다. 사실 이러한 특징은 약 처방량 결정 등에 이용될 수 있는 약물 대사 효소의 경우에 더 중요하게 됩니다.

 


[References]

Ng, Pauline C., and Steven Henikoff. “Predicting the effects of amino acid substitutions on protein function.” Annu. Rev. Genomics Hum. Genet. 7 (2006): 61-80.

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine: official journal of the American College of Medical Genetics 17.5 (2015): 405.