Exome (엑솜)이란 유전자의 exon 영역을 모두 포함하는 집합체를 말합니다. 최근 가격적으로 시퀀싱 비용이 많이 떨어지면서, 연구 목적의 엑솜 시퀀싱이 광범위하게 사용되고 있는 것 같습니다. 사실 시퀀싱 이후의 데이터 분석도 중요한 과정이긴 하지만, 많은 사람들이 간과하고 있는 것이 그보다 상위 단계에 있는 시퀀싱 데이터 생산 계획 과정입니다. 여기서 말하는 시퀀싱 데이터 생산 계획이라 함은, 목적에 맞는 적절한 시퀀싱 장비 선정, 엑솜 키트 선택, 적절한 target coverage depth 선정 등을 모두 포함합니다.
Whole exome 은 일반적으로 모든 exon 영역을 지칭하지만, 사실 아직까지도 전체 유전자의 정체(?)를 정확히 모르고 있는 시점에서 논란이 많이 남아있는 부분이 있습니다. 일반적으로 시퀀싱 장비는 Illumina 사의 장비가 가장 보편적으로 이용되고 있기 때문에 차치하고라도, 유전체 (genome)에서 Exome 부분만 capture 하는데 사용되는 키트도 아래와 같이 다양한 제품이 존재합니다. 아래의 표에서 가장 눈여겨 볼 부분은 Target Region의 크기인데, 일반적으로 Exome이라고 말하는 부분의 크기도 39 ~ 64 Mb로 차이가 나는 것을 볼 수 있습니다. 이는 여러가지 기술적인 이유로 타겟 영역을 서로 다르게 디자인한 부분과 엑손 영역의 타겟 유전자의 수도 차이가 있기 때문입니다.
관련 포스팅 보기>
NGS Target enrichment method: Hybridization vs. Amplicon capture
시장의 선두 주자는 A사 였으나, 최근에 많은 회사에서 경쟁적으로 capture 효율과 coverage 를 개선시킨 저렴한 가격의 kit를 개발하여 공급하고 있습니다. I사의 경우에는 UK Biobank의 Exome sequencing에 이용되어, 호환성에서 장점이 있습니다. 사실 서로의 제품이 더 좋다고 광고하는 상황에서 Exome capture kit 선택은 쉽지 않지만, 최소 DNA 요구량, 관심이 있는 주요 유전자에서의 Coverage 정도, 그리고 가격 등의 요소를 종합적으로 고려하여 최적의 키트를 선택하는 것이 좋습니다. 제품마다 유전자별로 cover 되는 효율에 차이가 있는데, 특히나 관심이 있는 유전자들이 잘 cover 되지 않는 제품이라면, 검체에서 해당 변이를 검출하는 민감도에 큰 차이를 보일 수 있습니다. 특히나 낮은 수준으로 존재하는 종양의 변이들을 검출하는 연구 목적의 검사에서는 변이 검출 유무의 중요한 요소로 작용할 수도 있기 때문입니다.
일반적으로 시퀀싱 비용은 생산되는 데이터의 크기에 비례하여 증가하게 됩니다. 이때, 타겟 영역의 크기와 캡쳐 키트의 효율, 그리고 원하는 Coverage depth를 이용하면, 대략적으로 필요한 시퀀싱 데이터의 크기를 계산할 수 있습니다. 예를 들어, 위 표의 Agilent SureSelect V6 Exome kit를 이용하여, 100×의 depth로 시퀀싱을 하고 싶다고 가정하고, 일반적인 target capture 효율 (0.6 ~ 0.7)을 적용해봅시다. 아래 계산에 의해 총 10Gb의 데이터를 생산해야 원하는 coverage를 달성함을 계산할 수 있습니다.
(시퀀싱 데이터 크기) = (타겟 영역의 크기) × (Depth) / (On-target ratio)
(시퀀싱 데이터 크기) = 60 Mb × 100 / 0.6 = 10 Gb
시퀀싱을 위한 총 비용은 위 표의 capture kit 가격과 생산되는 데이터의 크기, 그리고 이용되는 시퀀싱 장비 및 검체 처리에 사용되는 시약의 가격 등이 합쳐져서 결정됩니다. 이 중에서 이용자가 결정할 수 있는 부분은 capture kit의 종류와 전체 시퀀싱 데이터의 크기 이기 때문에, 위의 내용들을 잘 숙지하여 필요한 만큼의 데이터를 효율적으로 생산하는 것이 중요합니다. 위의 내용은 Genohub의 Whole Exome Sequencing Guide의 내용을 정리한 것입니다. 마지막으로, 위에서 언급한 내용들을 정리하면서, 포스팅을 마치도록 하겠습니다.
Considerations for Whole Exome Sequencing
1. What sequencing instrument and read length should I choose for exome-seq?
2. How much sequencing coverage do I need for exome sequencing?
3. How do I calculate the sequencing coverage or depth required for my whole exome sequencing study?
4. Which exome sequencing capture kit should I use for my study?
5. How can I compare the annotation and exome capture design between each kit?
[Reference]