구조 변이 annotation tool: AnnotSV

유전체 정보로 부터 임상적으로 중요한 변이를 검출하기 위해서는 NGS 시퀀싱 기기의 read 정보로부터 변이 검출까지의 파이프 라인 못지 않게, 얻어낸 수많은 변이로 부터 병인에 중요한 역할을 할 것으로 생각되는 후보 변이를 필터링하는 전략이 매우 중요하게 됩니다. 따라서 적절한 데이터 베이스로 부터 Annotation을 하는 과정은 매우 중요하게 되는데, 이번 포스팅은 다양한 변이 중에서 구조 변이 (Structural variation; SV)을 대상으로 Annotation을 할 수 있는 도구 중에 하나인 AnnotSV에 대해서 소개하고자 합니다. AnnotSV는 이전에 소개했던 Annovar의 CNV (copy number variant) 버젼에 해당한다고 볼 수 있습니다.

[관련 포스팅 보기]

AnnotSV는 다양한 구조 변이의 Annotation 기능 뿐만 아니라, ACMG (American College of Medical Genetics)에서 권장하는 구조 변이의 판독 기준에 따라서, 해당 변이의 중요도를 5가지 카테고리로 구분해줍니다. Input으로는 bed 파일 또는 vcf 파일을 받으며, 다양한 유전자, 조절 인자, 기존에 알려진 병적 변이, 질병과의 연관성 등을 기준으로 ACMG class를 보고해줍니다. 위 그림은 AnnotSV의 이러한 분석 과정을 보여주고 있습니다.

[bed 파일의 기본 구조] bed 파일은 1) 염색체 번호 (Chromosome), 2) 시작 지점 (Start), 3) 끝 지점 (End)의 3가지 기본적인 정보를 토대로 유전체 내의 특정 범위에 대한 정보를 제공해줍니다.

구조 변이 (CNV)의 경우, 적은 수의 염기 변이 (SNV)보다 short-read sequencing을 이용하는 경우, 기술적으로 검출하는 해상도의 한계가 있으며 (deletion보다 duplication 검출이 어려움. 충분한 Depth와 Supporting read가 확보되어야 하며, 이 때문에 translocation도 검출이 어려움.) 변이의 해석도 더 어려운 경우가 많습니다. 따라서, 적절한 한계점을 인지하고 적절한 분석 방법론을 적용하는 것이 중요하며, 현재도 많은 부분들이 현재 진행형으로 연구가 되고 있는 분야입니다.

다만, 최근 ACMG에서 구조 변이의 임상적 해석을 위한 Criteria를 제시해주어, 많은 부분 임상적으로 활용이 가능해진 부분이 있습니다. (아래 참고 논문: Riggs, Erin Rooney, et al. Genetics in Medicine 22.2 (2020): 245-257) 그동안 구조 변이의 해석에 여러가지 어려운 점들이 많았는데, 최근 이 쪽 분야도 많은 툴들과 방법론 들이 개발되고 있는 것 같습니다. 그런 점에서 AnnotSV는 구조 변이를 연구하고 해석하는 입장에서 매우 유용한 툴임이 분명합니다.

[References]

AnnotSV Github: https://github.com/lgmgeo/AnnotSV

AnnotSV Homepage: https://www.lbgi.fr/AnnotSV/

Geoffroy, Véronique, et al. “AnnotSV: an integrated tool for structural variations annotation.” Bioinformatics 34.20 (2018): 3572-3574.

Geoffroy, Véronique, et al. “AnnotSV and knotAnnotSV: a web server for human structural variations annotations, ranking and analysis.” Nucleic Acids Research (2021).

Riggs, Erin Rooney, et al. “Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen).” Genetics in Medicine 22.2 (2020): 245-257.

약물유전체 Annotation tool: PharmCAT

제가 있는 연구실의 주요 연구 테마는 약물 유전학인데, 저는 어쩌다 보니 운이 좋게도 암종 (Cancer), 선천성 희귀 유전 질환 (Rare Disease), 약물유전체 (Pharmacogenomics) 시퀀싱 데이터를 모두 분석할 기회가 있었습니다. 사실 이 3가지 분야는 유전체 기술을 통한 정밀 의료 실현을 위해 연구자들이 집중하고 있는 주요 카테고리인데, 공통점도 있지만 성격이 많이 다릅니다. 특히, Cancer, Rare Disease와 구분되는 Pharmacogenomics의 가장 큰 차이는 연구 집단이 환자가 아닌 정상 일반인이라는데 있습니다. 이 차이점은 Variant interpretation 접근 과정에서도 큰 차이를 보이는데, 1) 일반적으로 환자의 원인 변이를 찾을 때, Allele Frequency에 의한 variant filtering을 통해 rare variant를 찾는 것 뿐 아니라, 인구 집단에 따른 Common variant도 무시하기가 어렵고,  2) 약물 대사와 관련된 유전자의 발현은 다양한 요소에 영향을 받기 때문에, 한 두개의 유전형으로 기능을 평가한다는 것이 거의 불가능합니다.

이러한 유전체 정보를 통합적으로 활용하기 위해서, 다양한 변이에 기반한 약물 유전형을 annotation 하기 위한 도구가 개발되고 있는데, 이름하여 PharmCAT (Clinical Annotation Tool) 이라고 부르게 되었습니다. 일반적으로 시퀀싱 정보는 이전에 언급한 Annovar를 이용하여, Annotation을 진행하지만, 약물 유전학적 접근에서는 annovar의 annotation 정보로는 임상적인 활용까지 부족한 부분이 많은 것이 사실입니다. 그래서 이번 포스팅에서는 다른 유전체 정보와 구분되는 약물 유전체 정보의 특성과 PharmCAT의 개발 상황에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

약물유전체학 연구 네트워크: PGRN

CPIC Guideline: 유전체 정보를 활용한 약물 처방에 관한 임상 근거 지침

약물 유전체 연구가 어려운 이유

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

 

다양한 약물 유전자의 변이와 조합, Haplotype status

CYP2C19

발생 과정에서 핵심적인 역할을 하는 유전자는 상대적으로 변이가 적습니다. 그에 비해 약물 유전자는 주변 환경과 식이 등의 영향을 받아서, 인종과 개별에 따라서 매우 다양한 변이를 가지고 있습니다. 대표적인 예로, 96%의 사람들이 중요한 약물 유전자들인 CPIC-Level A 유전자들에 최소 1개 이상의 변이를 가진 것으로 보고되고 있습니다. 이러한 변이의 수 뿐만 아니라, 배수체 (Haplotype, Diploid n = 2) 상태에 따라, 변이가 cis- 또는 trans- 위치인지에 따라서 다양한 조합이 존재하게 됩니다. 위의 그림은 이러한 변이의 종류와 조합에 따른 CYP2C19 유전자의 약물 유전형 상태를 나타내고 있습니다. 단순히 시퀀싱 데이터를 통해서, 개인의 약물 유전형을 추정하는 것이 쉽지 않은 이유입니다. 더불어 약물 유전자들의 경우에는 Star nomenclature를 통해서, 유전형을 표시하는데 시퀀싱 데이터에서 바로 Star allele (ex> *1A, *2B, *3 등등)로 읽어 들이기가 쉽지 않습니다.

약물 유전자 변이와 유전형에 대한 Star nomenclature 정보 보기>

https://www.pharmvar.org/

 

PharmCAT Project

PharmCAT

PharmCAT은 위와 같은 어려움을 극복하여, 시퀀싱 데이터를 통해 개인별 약물 유전형을 추정하고, 최종적으로는 그에 맞는 약물 처방 가이드 라인을 제공하여, 정밀 의료를 현실화 하려고 하는 프로젝트입니다. 일반적인 Annotation 과정 외에도 Haplotype 정보를 통합한 약물 유전형 추정 및, 이를 통합한 약물 처방 가이드 라인 제공이 합쳐진 Pipeline을 구축하는 것이 목표입니다. 현재는 아직 개발 단계의 테스트 버젼만 제공하고 있으나, 곧 어느 정도의 파이프 라인이 구축되지 않을까 생각됩니다. 다만, 아직까지는 약물 유전형에 따른 충분한 임상 정보와 가이드 라인이 구축되어 있지 않아서, 약물 유전체 연구가 더 활발하게 이루어져야 진정한 의미의 정밀 의료가 실현 될 수 있지 않을까 생각됩니다.

 


[References]

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics (2019).

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics 107.1 (2020): 203-210.

Kalman, Lisa V., et al. “Pharmacogenetic allele nomenclature: international workgroup recommendations for test result reporting.” Clinical Pharmacology & Therapeutics 99.2 (2016): 172-185.


PharmCAT Web-sources:

http://pharmcat.org/

https://www.pharmgkb.org/page/pharmcat

https://github.com/PharmGKB/PharmCAT

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

지난 포스팅에서는 임상의의 입장에서 NGS 검사를 통한 변이의 해석을 이해하기 위한 기초적인 내용들을 언급했습니다.

<관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

그러나, 언급된 내용들이 기초적이고 많이 부족하다고 느껴, 이번 포스팅에서는 타깃 시퀀싱 패널의 분석시 고려할 내용 및 팁 등을 언급해 보고자 합니다.

1) 검사 데이터의 Quality check: 사실 환자를 보는 의사의 입장에서는 최종 결과만 확인하기 때문에 가장 간과하기 쉬운 단계입니다. 그러나 본인이 직접 데이터를 분석하고 해석하고자 한다면, 가장 중요한 단계입니다. 확인해야할 여러 파라미터들이 있습니다만, 가장 기본적으로 target region의 coverage 및 depth를 확인해야합니다. 이는 우리가 검사하고자 하는 영역을 타깃 시퀀싱 패널이 얼마나 잘 디자인되어 검출하는지를 나타내주는 지표입니다. 경우에 따라 다르지만, 일반적으로 100X 이상의 depth로 원하는 영역의 99% 이상 커버(100X over target ratio > 99%)한다면 디자인이 매우 잘된 것으로 생각할 수 있습니다.

doc-1024x216

1
매우 잘 디자인된 타깃 시퀀싱 패널의 성능 결과 예: 평균 depth도 매우 많고, 원하는 영역을 골고루 잘 커버하는 것을 알 수 있다.

2) 검출된 변이가 true signal인가? false positive 인가?: 위와 같이 잘 디자인된 시퀀싱 패널이라 하더라도, micro-insertion 또는 deletion이 일어나는 경우에는 reference 패널과 read의 시퀀스 차이가 크기 때문에 엉뚱한 곳에 가서 read가 붙는 일이 일어날 수 있습니다. 그 결과 엉뚱한 위양성 변이가 검출되기도 합니다.

따라서 임상적으로 중요한 변이가 검출된 경우에는 (특히 frameshift mutation), 실제로 해당 변이를 IGV 와 같은 genome viewer를 통해서 직접 눈으로 확인해보는 것이 중요합니다.

2
국내의 모 NGS 검사 업체에서 전달받은 결과에서 보고한 한 환자의 검체에서 무더기로 검출된 변이. 검출된 변이의 빈도가 1% 정도로 매우 적기 때문에 noise signal로 판단할 수 있었지만, 이렇게 작은 빈도라 하더라도 somatic mutation을 타깃으로 하는 cancer panel이었다고 하면 이야기는 완전히 달라집니다.

Mutation-visualization-in-the-Integrative-Genomics-Viewer-IGV-browser-showing
경우에 따라서는 위와 같이 IGV를 통해 실제로 deletion 된 영역이 있고, read들이 올바르게 달라붙었는지를 눈으로 직접 확인해보는 것도 필요합니다.

3) 검사 목적에 따른 변이의 filter 전략: 타깃 시퀀싱 패널은 크게 2가지 유전 질환과 관련하여 생식 세포 돌연변이 (germ-line mutation) 또는 de novo mutation을 검출하거나 암 환자에서 체세포 돌연변이 (somatic mutation)을 검출할 목적으로 디자인됩니다. 이 두 가지는 구분하여 NGS 검사에서 검출된 변이를 적절하게 필터링하는 전략이 필요합니다.

<관련 포스팅 보기> 유전학 중요개념 정리: Germline vs. Somatic mutation

Germ-line의 경우에는 부모로 부터 한쌍씩 유전형을 물려받기 때문에 검출되는 변이의 상대 빈도는 ~50% 또는 ~100%일 수 밖에 없습니다. 반면, 암 세포의 경우에는 다양한 변이들이 섞여 있기 때문에 (tumor heterogeneity) 다양한 상대 빈도로 검출이 됩니다. 따라서, 변이를 필터링할 경우, 이러한 점을 염두해 두고 환자들에서 의미있는 병적 변이들을 검출하게 됩니다.

4) 집단 내 변이 빈도에 따른 filter 전략: 매우 드문 희귀 유전 질환의 변이를 검출하고자 하는 경우, 해당 변이의 집단 내 변이 빈도에 따라 필터링하는 전략도 유효합니다. 1000 Genome project 또는 ExAC과 같은 유전체 database는 인구 집단에서 해당 변이의 빈도에 대한 정보를 제공해주기 때문에, 이미 알려진 변이 빈도를 기반으로 인구 집단에서 흔하게 존재하는 변이(1% 이상)는 필터링하고 남은 변이들을 대상으로 임상적 평가를 확인하는 것이 좋습니다.

변이빈도와 효과 크기
일반적으로 희귀 유전질환의 경우에는 집단 내 변이 빈도가 매우 작고, 효과 크기가 큰 변이에 의해 유발되는 것으로 생각되고 있기 때문에, NGS 검사를 통해 검출된 흔한 변이들은 크게 임상적인 의미가 없는 경우가 많습니다.

5) 유전체 데이터 베이스를 활용한 Clinical annotation: 최근 다양한 생명정보학 및 유전체 툴들이 개발되어 검출된 변이의 특성 및 정보들을 자동으로 처리해주고 있습니다. 이러한 툴들을 보조적으로 잘 활용하면 변이 판독에 소요되는 시간을 최소화하면서, 동시에 효과적으로 판정할 수 있습니다. 그러나, 경우에 따라서 이러한 판정들이 항상 옳은 것은 아니기 때문에 변이의 판정 및 판독에는 다양한 경험을 바탕으로 한 전문가의 수기 판독이 필요하게 됩니다.

가장 대표적으로 많이 사용되는 툴은 Annovar이며, annovar 내에서도 다양한 툴들이 존재하기 때문에, 사용자가 필요에 따라 이를 선택할 수 있습니다.

Annovar 홈페이지 방문하기