Exome sequencing을 위해 고려할 요소들: capture kit와 target coverage 선택

Exome (엑솜)이란 유전자의 exon 영역을 모두 포함하는 집합체를 말합니다. 최근 가격적으로 시퀀싱 비용이 많이 떨어지면서, 연구 목적의 엑솜 시퀀싱이 광범위하게 사용되고 있는 것 같습니다. 사실 시퀀싱 이후의 데이터 분석도 중요한 과정이긴 하지만, 많은 사람들이 간과하고 있는 것이 그보다 상위 단계에 있는 시퀀싱 데이터 생산 계획 과정입니다. 여기서 말하는 시퀀싱 데이터 생산 계획이라 함은, 목적에 맞는 적절한 시퀀싱 장비 선정, 엑솜 키트 선택, 적절한 target coverage depth 선정 등을 모두 포함합니다.

Overview-of-whole-exome-sequencing-pipeline-SNV-single-nucleotide-variant

Whole exome 은 일반적으로 모든 exon 영역을 지칭하지만, 사실 아직까지도 전체 유전자의 정체(?)를 정확히 모르고 있는 시점에서 논란이 많이 남아있는 부분이 있습니다. 일반적으로 시퀀싱 장비는 Illumina 사의 장비가 가장 보편적으로 이용되고 있기 때문에 차치하고라도, 유전체 (genome)에서 Exome 부분만 capture 하는데 사용되는 키트도 아래와 같이 다양한 제품이 존재합니다. 아래의 표에서 가장 눈여겨 볼 부분은 Target Region의 크기인데, 일반적으로 Exome이라고 말하는 부분의 크기도 39 ~ 64 Mb로 차이가 나는 것을 볼 수 있습니다. 이는 여러가지 기술적인 이유로 타겟 영역을 서로 다르게 디자인한 부분과 엑손 영역의 타겟 유전자의 수도 차이가 있기 때문입니다.

관련 포스팅 보기>

NGS Target enrichment method: Hybridization vs. Amplicon capture

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

Exome kit.jpg

시장의 선두 주자는 A사 였으나, 최근에 많은 회사에서 경쟁적으로 capture 효율과 coverage 를 개선시킨 저렴한 가격의 kit를 개발하여 공급하고 있습니다. I사의 경우에는 UK Biobank의 Exome sequencing에 이용되어, 호환성에서 장점이 있습니다. 사실 서로의 제품이 더 좋다고 광고하는 상황에서 Exome capture kit 선택은 쉽지 않지만, 최소 DNA 요구량, 관심이 있는 주요 유전자에서의 Coverage 정도, 그리고 가격 등의 요소를 종합적으로 고려하여 최적의 키트를 선택하는 것이 좋습니다. 제품마다 유전자별로 cover 되는 효율에 차이가 있는데, 특히나 관심이 있는 유전자들이 잘 cover 되지 않는 제품이라면, 검체에서 해당 변이를 검출하는 민감도에 큰 차이를 보일 수 있습니다. 특히나 낮은 수준으로 존재하는 종양의 변이들을 검출하는 연구 목적의 검사에서는 변이 검출 유무의 중요한 요소로 작용할 수도 있기 때문입니다.

일반적으로 시퀀싱 비용은 생산되는 데이터의 크기에 비례하여 증가하게 됩니다. 이때, 타겟 영역의 크기캡쳐 키트의 효율, 그리고 원하는 Coverage depth를 이용하면, 대략적으로 필요한 시퀀싱 데이터의 크기를 계산할 수 있습니다. 예를 들어, 위 표의 Agilent SureSelect V6 Exome kit를 이용하여, 100×의 depth로 시퀀싱을 하고 싶다고 가정하고, 일반적인 target capture 효율 (0.6 ~ 0.7)을 적용해봅시다. 아래 계산에 의해 총 10Gb의 데이터를 생산해야 원하는 coverage를 달성함을 계산할 수 있습니다.

(시퀀싱 데이터 크기) = (타겟 영역의 크기) × (Depth) / (On-target ratio)

(시퀀싱 데이터 크기) = 60 Mb × 100 / 0.6 = 10 Gb

 

시퀀싱을 위한 총 비용은 위 표의 capture kit 가격과 생산되는 데이터의 크기, 그리고 이용되는 시퀀싱 장비 및 검체 처리에 사용되는 시약의 가격 등이 합쳐져서 결정됩니다. 이 중에서 이용자가 결정할 수 있는 부분은 capture kit의 종류전체 시퀀싱 데이터의 크기 이기 때문에, 위의 내용들을 잘 숙지하여 필요한 만큼의 데이터를 효율적으로 생산하는 것이 중요합니다. 위의 내용은 Genohub의 Whole Exome Sequencing Guide의 내용을 정리한 것입니다. 마지막으로, 위에서 언급한 내용들을 정리하면서, 포스팅을 마치도록 하겠습니다.

Considerations for Whole Exome Sequencing

1. What sequencing instrument and read length should I choose for exome-seq?
2. How much sequencing coverage do I need for exome sequencing?
3. How do I calculate the sequencing coverage or depth required for my whole exome sequencing study?
4. Which exome sequencing capture kit should I use for my study?
5. How can I compare the annotation and exome capture design between each kit?

 

[Reference]

Genohub: Whole Exome Sequencing Guide

Goh, Gerald, and Murim Choi. “Application of whole exome sequencing to identify disease-causing variants in inherited human diseases.” Genomics & informatics 10.4 (2012): 214.

NGS Target enrichment method: Hybridization vs. Amplicon capture

우리가 흔히 차세대 염기 서열 시퀀싱이라고 부르는 NGS 기술에서 가장 현실적으로 중요한 요소는 아직까지는 ‘비용 (cost)’일 것입니다. 시퀀싱 비용이 점점 떨어지고 있기는 하지만, 여전히 가격대비 효율성을 고려할 때 임상적인 목적으로는 질병 특이적인 타겟 패널 시퀀싱 (Targeted panel Sequencing)을, 그리고 연구용으로 이용할 때는 엑솜 시퀀싱 (Whole Exome Sequencing)을 주로 이용하고 있습니다.  타겟 패널 시퀀싱과 엑솜 시퀀싱은 시퀀싱 과정에서 게놈 시퀀싱과는 다른 점이 있는데, 바로 Target enrichment 과정의 유무입니다. 그래서 이번 포스팅은 시퀀싱 과정 중 Target enrichment 방법과 원리, 그리고 각 방법별 장단점을 정리해보고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

게놈 시퀀싱과 달리 엑솜 시퀀싱을 포함하는 타겟 시퀀싱은 전체 유전체의 매우 적은 부분을 시퀀싱하는 방법입니다. (참고로 엑솜 영역은 전체 유전체의 2~3% 미만입니다.) 따라서, 원하는 해당 부위만 특이적으로 capture를 해야합니다. 즉, 엉뚱한 부위에 가서 프로브가 붙어서 시퀀싱 데이터를 생산하면 안된다는 소리입니다. 이를 위해서는 타겟으로 하는 영역을 적절하게 검출하고 분리하는 방법이 필요한데, 민감도와 특이도를 모두 높히기 위해 일반적으로 Target enrichment (타겟 영역만 선택적으로 분리하여 증폭시키는 방법) 과정이 포함되어 있습니다.

Target enrichment는 크게 아래와 같은 3가지 방법들이 사용되고 있습니다.

1) Hybrid capture 방법, 2) Selective Circularization 방법, 3) PCR 기반 Amplicon 방법

1

Hybrid capture는 타겟 영역에 특이적인 capture probe로 구성되어 원하는 부분만 caputre하는 방법이고, Circularization 방법은 probe가 circle 형태로 달라 붙어 원하는 부위를 증폭한 후에 연결하는 방법입니다. 마지막으로 Amplicon 방법은 원하는 타겟 영역을 PCR로 증폭시켜서 분석하는 방법에 기반합니다. 이 때 catpure 방법의 가장 중요한 요소는 크게 아래와 같습니다.

 

  • Sensitivity: 얼마나 민감하게 원하는 타겟 영역들을 잘 검출할 수 있는가?
  • Specificity: 타겟 영역 특이적으로 검출이 되는가? = 타겟 영역 이외의 영역 (Off-target)을 증폭하거나 검출하지는 않는가?
  • Coverage uniformity: 다수의 타겟 영역을 증폭할 때, 모든 타겟 영역들이 bias 없이 고르게 증폭되는가? > 특정 영역만 depth가 낮게 증폭된다면 해당 영역을 검출하는데 문제가 됩니다.

 

가장 대표적인 Hybrid capture와 Amplicon 방법의 장단점을 정리하면 아래와 같습니다. 다만, 요즘 추세는 대부분 Hybrid capture 방법으로 가고 있는 것 같습니다. Hybrid capture 방법의 단점으로는 상대적으로 DNA 검체량이 조금 더 많이 필요하고, 좀 더 작업 과정이 복잡하여 까다롭다는 점을 들 수 있겠습니다. 따라서 최근 개발되는 엑솜 시퀀싱 capture 패널은 대부분 이러한 단점들을 개선하여 요구되는 검체 최소량을 줄이고, 전체 엑손 영역을 고르게 검출할 수 있다는 점을 부각시킨 제품들로 출시가 되고 있습니다.

 

improved-reagents-methods-for-target-enrichment-in-next-generation-sequencing-5-638

 

[Reference]

Mertes, Florian, et al. “Targeted enrichment of genomic DNA regions for next-generation sequencing.” Briefings in functional genomics 10.6 (2011): 374-386.

 

마지막으로 비록 조금 오래된 영상이기는 하지만, 슬라이드 정리가 잘 된 유투브 영상이 있어 첨부합니다.