제 19차 CBMC 희귀질환 센터 화상 컨퍼런스 강의 자료

제 19차 CBMC 희귀질환 센터 화상 컨퍼런스

Complex molecular alterations involving chromosome 8p uniparental disomy
: lessons and implications on clinical practice and research

일시: 2020년 11월 18일 (수), 12:40~13:20

두개골 조기 유합증 관련 연구를 하면서 발견한 재미난 케이스인데, Case report 논문이라도 작성해야지 하다가 우선순위에서 밀리면서 벌써 2년이 넘어가네요. 이 케이스를 보면서 상당히 많은 걸 공부하고 배웠는데, 마침 지난번에 불러주셨던 차병원 희귀질환 센터 컨퍼런스 발표 기회가 있어서, 해당 케이스를 슬라이드로 정리해 보았습니다.

Novel 유전자를 발견한 것은 아니지만, UPD에 대한 이해, 염색체 구조 이상, Genotype-phenotype correlation, Exome sequencing을 전반적으로 모두 아우르는,= 임상 유전학을 공부하기 매우 좋은 케이스이기에, 관련 발표 자료 공유합니다. 강의 자료가 필요하신 분들을 위해 블로그에 업로드 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

NGS 결과의 임상 적용: Genotype-phenotype correlation

SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

[유전학 중요개념 정리] Haploinsufficiency와 pLI score, Dominant Negative

Exome sequencing을 위해 고려할 요소들: capture kit와 target coverage 선택

Exome (엑솜)이란 유전자의 exon 영역을 모두 포함하는 집합체를 말합니다. 최근 가격적으로 시퀀싱 비용이 많이 떨어지면서, 연구 목적의 엑솜 시퀀싱이 광범위하게 사용되고 있는 것 같습니다. 사실 시퀀싱 이후의 데이터 분석도 중요한 과정이긴 하지만, 많은 사람들이 간과하고 있는 것이 그보다 상위 단계에 있는 시퀀싱 데이터 생산 계획 과정입니다. 여기서 말하는 시퀀싱 데이터 생산 계획이라 함은, 목적에 맞는 적절한 시퀀싱 장비 선정, 엑솜 키트 선택, 적절한 target coverage depth 선정 등을 모두 포함합니다.

Overview-of-whole-exome-sequencing-pipeline-SNV-single-nucleotide-variant

Whole exome 은 일반적으로 모든 exon 영역을 지칭하지만, 사실 아직까지도 전체 유전자의 정체(?)를 정확히 모르고 있는 시점에서 논란이 많이 남아있는 부분이 있습니다. 일반적으로 시퀀싱 장비는 Illumina 사의 장비가 가장 보편적으로 이용되고 있기 때문에 차치하고라도, 유전체 (genome)에서 Exome 부분만 capture 하는데 사용되는 키트도 아래와 같이 다양한 제품이 존재합니다. 아래의 표에서 가장 눈여겨 볼 부분은 Target Region의 크기인데, 일반적으로 Exome이라고 말하는 부분의 크기도 39 ~ 64 Mb로 차이가 나는 것을 볼 수 있습니다. 이는 여러가지 기술적인 이유로 타겟 영역을 서로 다르게 디자인한 부분과 엑손 영역의 타겟 유전자의 수도 차이가 있기 때문입니다.

관련 포스팅 보기>

NGS Target enrichment method: Hybridization vs. Amplicon capture

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

Exome kit.jpg

시장의 선두 주자는 A사 였으나, 최근에 많은 회사에서 경쟁적으로 capture 효율과 coverage 를 개선시킨 저렴한 가격의 kit를 개발하여 공급하고 있습니다. I사의 경우에는 UK Biobank의 Exome sequencing에 이용되어, 호환성에서 장점이 있습니다. 사실 서로의 제품이 더 좋다고 광고하는 상황에서 Exome capture kit 선택은 쉽지 않지만, 최소 DNA 요구량, 관심이 있는 주요 유전자에서의 Coverage 정도, 그리고 가격 등의 요소를 종합적으로 고려하여 최적의 키트를 선택하는 것이 좋습니다. 제품마다 유전자별로 cover 되는 효율에 차이가 있는데, 특히나 관심이 있는 유전자들이 잘 cover 되지 않는 제품이라면, 검체에서 해당 변이를 검출하는 민감도에 큰 차이를 보일 수 있습니다. 특히나 낮은 수준으로 존재하는 종양의 변이들을 검출하는 연구 목적의 검사에서는 변이 검출 유무의 중요한 요소로 작용할 수도 있기 때문입니다.

일반적으로 시퀀싱 비용은 생산되는 데이터의 크기에 비례하여 증가하게 됩니다. 이때, 타겟 영역의 크기캡쳐 키트의 효율, 그리고 원하는 Coverage depth를 이용하면, 대략적으로 필요한 시퀀싱 데이터의 크기를 계산할 수 있습니다. 예를 들어, 위 표의 Agilent SureSelect V6 Exome kit를 이용하여, 100×의 depth로 시퀀싱을 하고 싶다고 가정하고, 일반적인 target capture 효율 (0.6 ~ 0.7)을 적용해봅시다. 아래 계산에 의해 총 10Gb의 데이터를 생산해야 원하는 coverage를 달성함을 계산할 수 있습니다.

(시퀀싱 데이터 크기) = (타겟 영역의 크기) × (Depth) / (On-target ratio)

(시퀀싱 데이터 크기) = 60 Mb × 100 / 0.6 = 10 Gb

 

시퀀싱을 위한 총 비용은 위 표의 capture kit 가격과 생산되는 데이터의 크기, 그리고 이용되는 시퀀싱 장비 및 검체 처리에 사용되는 시약의 가격 등이 합쳐져서 결정됩니다. 이 중에서 이용자가 결정할 수 있는 부분은 capture kit의 종류전체 시퀀싱 데이터의 크기 이기 때문에, 위의 내용들을 잘 숙지하여 필요한 만큼의 데이터를 효율적으로 생산하는 것이 중요합니다. 위의 내용은 Genohub의 Whole Exome Sequencing Guide의 내용을 정리한 것입니다. 마지막으로, 위에서 언급한 내용들을 정리하면서, 포스팅을 마치도록 하겠습니다.

Considerations for Whole Exome Sequencing

1. What sequencing instrument and read length should I choose for exome-seq?
2. How much sequencing coverage do I need for exome sequencing?
3. How do I calculate the sequencing coverage or depth required for my whole exome sequencing study?
4. Which exome sequencing capture kit should I use for my study?
5. How can I compare the annotation and exome capture design between each kit?

 

[Reference]

Genohub: Whole Exome Sequencing Guide

Goh, Gerald, and Murim Choi. “Application of whole exome sequencing to identify disease-causing variants in inherited human diseases.” Genomics & informatics 10.4 (2012): 214.

NGS 데이터를 이용한 CNV 분석

Copy Number Variation (CNV)는 Single Nucleotide Variation (SNV)과 더불어, 유전적 다양성을 나타내는 주요한 원인으로 생각되고 있습니다. 유전자 sequence의 염기 하나가 치환된 SNV와 달리 CNV는 유전자 전체 또는 일부의 copy가 중복되거나 줄어들수도 있기 때문에 훨씬 넓은 영역에서 나타나는 Structural variation의 일종입니다.

관련 포스팅 보기 -> 유전학 중요개념 정리: Structural variation 및 Copy-number variation

일반적으로 NGS는 SNV를 보기 위한 목적으로 검사를 시행하지만, 해당 데이터를 활용하면 CNV 분석도 할 수 있기 때문에, 오늘은 NGS 데이터를 활용한 CNV 분석 방법에 대해 포스팅하고자 합니다.

NGS CNV
[그림1. NGS 데이터를 이용하여 CNV를 검출하는 원리] CNV 검출을 위해서는 mapping 되는 read 간의 정보, 그리고 각 영역에 mapping된 read의 depth 정보를 활용하게 됩니다.

위의 그림은 CNV 분석을 위한 NGS 데이터의 5가지 활용 원리를 나타내주고 있습니다. 그러나 가장 핵심이 되는 원리는 Read depth입니다. Target sequencing과 같이 Read depth가 충분한 경우에, 다른 검체들에 비해 해당 영역의 depth가 월등히 떨어지거나, 또는 월등히 높은 경우에는 해당 영역의 deletion 또는 duplication을 의심할 수 있습니다.

target_coverage_nd_FGFR2_4
[그림2. FGFR2 유전자의 Coverage (위) 및 Reference의 depth로 normalized한 depth (아래)를 나타내는 도표] 다른 검체들보다 Normalized depth가 월등히 높은 검체 (P27)는 해당 영역의 duplication, 월등히 낮은 검체 (P33)는 해당 영역의 deletion이 존재하는 것으로 의심할 수 있다.

사실 NGS 데이터는 CNV를 목적으로 한 것이 아니라, SNV 검출 목적의 데이터를 부수적으로 활용하는 것이기 때문에 많은 제한점이 있습니다. 따라서, 임상적으로 CNV 검사 목적의 NGS는 권장되지 않으며 적절한 가이드라인도 존재하지 않기 때문에 다양한 Computational tool 들이 개발되어 서로의 장점을 홍보하는 상황입니다. 다음은 다양하게 개발된 대표적인 CNV 검출 tool 들을 정리한 표입니다. 많은 경우  BAM 파일을 활용하는 것을 볼 수 있으며 대부분 R package를 제공하고 있어, 사용이 용이합니다.

NGS CNV2
[그림 3. CNV 검출을 위한 다양한 컴퓨터 툴] 어떠한 툴이 우수한가에 대해서는 명확하게 정립된 결론이 없기 때문에, 적절한 상황에 맞게 툴들을 활용하는 것이 필요합니다.
위의 표와 같이 다양한 툴들이 존재하지만, 실제로 몇가지 툴들을 사용하여 봤을 때, 결과들이 제각각이었고, 서로 일치하는 정도도 높지 않았습니다.  다양한 알고리즘을 활용함에도 불구하고, 위양성으로 보고되어 믿기 어려운 경우가 많았습니다. 가장 정확한 방법은 직접 그림 2와 같이 해당 영역의 coverage plot과 normalized depth를 보고 종합적으로 판단하는 것이었습니다. 아직까지 컴퓨터 툴들에 개선의 여지가 많음에도 불구하고, NGS 데이터를 활용하면 CNV에 대한 정보도 일부 얻을 수 있기 때문에 NGS는 더 폭넓게 활용될 것으로 전망이 됩니다.

[Reference]

Zhao, Min, et al. “Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives.” BMC bioinformatics 14.11 (2013): S1.