[논문소개] 면역억제제 Tacrolimus의 약물 유전체 연구

작년부터 미국에 오기 전까지 부랴 부랴 동시에 4개의 논문을 쓰고 있었는데, 그중 2개 논문의 온라인 출판이 완료 되었습니다. 그래서 앞의 논문을 소개한 김에, 함께 출판된 다른 약물 유전체 연구도 소개를 해볼까 합니다. 이번 연구의 프로젝트도 약리학 교실에 처음 박사 과정으로 들어오면서 부터 시작했던 프로젝트인데, 장기 이식 후의 면역 억제제로 널리 사용하는 Tacrolimus와 관련된 약물 유전체 연구입니다. 개인적으로는 처음으로 본격적으로 NGS 패널과 Microarray인 한국인칩을 분석하면서 진행했던 프로젝트입니다.

[관련 논문 보기]

https://journals.lww.com/transplantjournal/Abstract/9000/Unraveling_the_Genomic_Architecture_of_the_CYP3A.95339.aspx

논문의 제목은 “Unraveling the Genomic Architecture of the CYP3A Locus and ADME Genes for Personalized Tacrolimus Dosing“으로, 장기 이식 수술 후 면역 억제 반응을 위해 사용하는 Tacrolimus의 약물 대사에 관여하는 약물 유전자의 변이들과 개인간의 약물 농도의 변화를 살펴봄으로써, 유전자의 기능에 따라 환자 개인별 최적 처방 용량을 guide하기 위해 진행했던 연구입니다.

[관련 포스팅 보기]

사실 본 연구 주제는 그동안 많은 연구자들이 달려들어서 진행해왔고, CYP3A5의 변이 (rs776746)가 Tacrolimus 대사능과 관련이 있다는 것이 매우 잘 알려져 왔으나, 해당 변이로는 개인간 편차의 50% 정도 밖에 설명할 수가 없어서, 추가적으로 다른 유전자를 발굴하는 것이 많은 연구자들이 목표였습니다. 이번 연구에서는 약물 유전자 전체를 스크리닝할 수 있는 약물 유전체 NGS 패널 (PGx panel) 과 한국인 특이 변이를 탐색할 수 있는 한국인칩 (Korean Chip)를 이용하여, 해당 문제를 풀려고 하였습니다.

연구 결과, 역시 기존에 알려져 있던 CYP3A5의 rs776746 변이 가 제일 중요한 인자로 작용함을 확인했고, 개인별로 드물게 존재하는 CYP3A5, CYP3A4의 희귀 변이 (rare variant)를 이용하면, 추가적으로 rs776746 의 변이가 설명하지 못했던 개인간 편차를 더 잘 설명할 수 있음을 확인하였습니다. 이 결과는 개별 맞춤 약물 처방을 하는데, 개인별로 드물게 존재하는 희귀 변이 (rare variant)를 고려하는 것이 매우 중요함을 시사합니다.

특히, 연구의 분석을 위해서, 서울대 이승근 교수님께서 개발하신 SKAT이라는 분석 방법을 이용하였는데, 이 tool을 이용하여 최초로 CYP1A1 유전자의 희귀 변이들과 Tacrolimus 개인간 편차와의 연관성을 확인하였습니다. 다만, 이번 연구를 통해 다시 한번 약물의 대사는 매우 복잡하고 다양한 인자들이 confounder로 작용하기 때문에 개별 유전형 외에도 유전자 발현에 영향을 미치는 다양한 환경적 변수들을 고려해야함을 깨달을 수 있었습니다. 본 연구 결과가 면역 억제제 Tacrolimus를 투여 받는 환자들이 개별 약물 유전형에 따라서, 부작용이 발생하지 않는 최적의 처방 용량을 결정하는데 도움이 되고, 이를 통해 정밀 의료 (Precision Medicine) 가 실현될 수 있기를 기대합니다.

[관련 Commentary 보기]

https://journals.lww.com/transplantjournal/Citation/9000/COMMENTARY__Unraveling_the_Genomic_Architecture_of.95395.aspx

NGS Target enrichment method: Hybridization vs. Amplicon capture

우리가 흔히 차세대 염기 서열 시퀀싱이라고 부르는 NGS 기술에서 가장 현실적으로 중요한 요소는 아직까지는 ‘비용 (cost)’일 것입니다. 시퀀싱 비용이 점점 떨어지고 있기는 하지만, 여전히 가격대비 효율성을 고려할 때 임상적인 목적으로는 질병 특이적인 타겟 패널 시퀀싱 (Targeted panel Sequencing)을, 그리고 연구용으로 이용할 때는 엑솜 시퀀싱 (Whole Exome Sequencing)을 주로 이용하고 있습니다.  타겟 패널 시퀀싱과 엑솜 시퀀싱은 시퀀싱 과정에서 게놈 시퀀싱과는 다른 점이 있는데, 바로 Target enrichment 과정의 유무입니다. 그래서 이번 포스팅은 시퀀싱 과정 중 Target enrichment 방법과 원리, 그리고 각 방법별 장단점을 정리해보고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

게놈 시퀀싱과 달리 엑솜 시퀀싱을 포함하는 타겟 시퀀싱은 전체 유전체의 매우 적은 부분을 시퀀싱하는 방법입니다. (참고로 엑솜 영역은 전체 유전체의 2~3% 미만입니다.) 따라서, 원하는 해당 부위만 특이적으로 capture를 해야합니다. 즉, 엉뚱한 부위에 가서 프로브가 붙어서 시퀀싱 데이터를 생산하면 안된다는 소리입니다. 이를 위해서는 타겟으로 하는 영역을 적절하게 검출하고 분리하는 방법이 필요한데, 민감도와 특이도를 모두 높히기 위해 일반적으로 Target enrichment (타겟 영역만 선택적으로 분리하여 증폭시키는 방법) 과정이 포함되어 있습니다.

Target enrichment는 크게 아래와 같은 3가지 방법들이 사용되고 있습니다.

1) Hybrid capture 방법, 2) Selective Circularization 방법, 3) PCR 기반 Amplicon 방법

1

Hybrid capture는 타겟 영역에 특이적인 capture probe로 구성되어 원하는 부분만 caputre하는 방법이고, Circularization 방법은 probe가 circle 형태로 달라 붙어 원하는 부위를 증폭한 후에 연결하는 방법입니다. 마지막으로 Amplicon 방법은 원하는 타겟 영역을 PCR로 증폭시켜서 분석하는 방법에 기반합니다. 이 때 catpure 방법의 가장 중요한 요소는 크게 아래와 같습니다.

 

  • Sensitivity: 얼마나 민감하게 원하는 타겟 영역들을 잘 검출할 수 있는가?
  • Specificity: 타겟 영역 특이적으로 검출이 되는가? = 타겟 영역 이외의 영역 (Off-target)을 증폭하거나 검출하지는 않는가?
  • Coverage uniformity: 다수의 타겟 영역을 증폭할 때, 모든 타겟 영역들이 bias 없이 고르게 증폭되는가? > 특정 영역만 depth가 낮게 증폭된다면 해당 영역을 검출하는데 문제가 됩니다.

 

가장 대표적인 Hybrid capture와 Amplicon 방법의 장단점을 정리하면 아래와 같습니다. 다만, 요즘 추세는 대부분 Hybrid capture 방법으로 가고 있는 것 같습니다. Hybrid capture 방법의 단점으로는 상대적으로 DNA 검체량이 조금 더 많이 필요하고, 좀 더 작업 과정이 복잡하여 까다롭다는 점을 들 수 있겠습니다. 따라서 최근 개발되는 엑솜 시퀀싱 capture 패널은 대부분 이러한 단점들을 개선하여 요구되는 검체 최소량을 줄이고, 전체 엑손 영역을 고르게 검출할 수 있다는 점을 부각시킨 제품들로 출시가 되고 있습니다.

 

improved-reagents-methods-for-target-enrichment-in-next-generation-sequencing-5-638

 

[Reference]

Mertes, Florian, et al. “Targeted enrichment of genomic DNA regions for next-generation sequencing.” Briefings in functional genomics 10.6 (2011): 374-386.

 

마지막으로 비록 조금 오래된 영상이기는 하지만, 슬라이드 정리가 잘 된 유투브 영상이 있어 첨부합니다.

 

NGS 데이터를 이용한 CNV 분석

Copy Number Variation (CNV)는 Single Nucleotide Variation (SNV)과 더불어, 유전적 다양성을 나타내는 주요한 원인으로 생각되고 있습니다. 유전자 sequence의 염기 하나가 치환된 SNV와 달리 CNV는 유전자 전체 또는 일부의 copy가 중복되거나 줄어들수도 있기 때문에 훨씬 넓은 영역에서 나타나는 Structural variation의 일종입니다.

관련 포스팅 보기 -> 유전학 중요개념 정리: Structural variation 및 Copy-number variation

일반적으로 NGS는 SNV를 보기 위한 목적으로 검사를 시행하지만, 해당 데이터를 활용하면 CNV 분석도 할 수 있기 때문에, 오늘은 NGS 데이터를 활용한 CNV 분석 방법에 대해 포스팅하고자 합니다.

NGS CNV
[그림1. NGS 데이터를 이용하여 CNV를 검출하는 원리] CNV 검출을 위해서는 mapping 되는 read 간의 정보, 그리고 각 영역에 mapping된 read의 depth 정보를 활용하게 됩니다.

위의 그림은 CNV 분석을 위한 NGS 데이터의 5가지 활용 원리를 나타내주고 있습니다. 그러나 가장 핵심이 되는 원리는 Read depth입니다. Target sequencing과 같이 Read depth가 충분한 경우에, 다른 검체들에 비해 해당 영역의 depth가 월등히 떨어지거나, 또는 월등히 높은 경우에는 해당 영역의 deletion 또는 duplication을 의심할 수 있습니다.

target_coverage_nd_FGFR2_4
[그림2. FGFR2 유전자의 Coverage (위) 및 Reference의 depth로 normalized한 depth (아래)를 나타내는 도표] 다른 검체들보다 Normalized depth가 월등히 높은 검체 (P27)는 해당 영역의 duplication, 월등히 낮은 검체 (P33)는 해당 영역의 deletion이 존재하는 것으로 의심할 수 있다.

사실 NGS 데이터는 CNV를 목적으로 한 것이 아니라, SNV 검출 목적의 데이터를 부수적으로 활용하는 것이기 때문에 많은 제한점이 있습니다. 따라서, 임상적으로 CNV 검사 목적의 NGS는 권장되지 않으며 적절한 가이드라인도 존재하지 않기 때문에 다양한 Computational tool 들이 개발되어 서로의 장점을 홍보하는 상황입니다. 다음은 다양하게 개발된 대표적인 CNV 검출 tool 들을 정리한 표입니다. 많은 경우  BAM 파일을 활용하는 것을 볼 수 있으며 대부분 R package를 제공하고 있어, 사용이 용이합니다.

NGS CNV2
[그림 3. CNV 검출을 위한 다양한 컴퓨터 툴] 어떠한 툴이 우수한가에 대해서는 명확하게 정립된 결론이 없기 때문에, 적절한 상황에 맞게 툴들을 활용하는 것이 필요합니다.
위의 표와 같이 다양한 툴들이 존재하지만, 실제로 몇가지 툴들을 사용하여 봤을 때, 결과들이 제각각이었고, 서로 일치하는 정도도 높지 않았습니다.  다양한 알고리즘을 활용함에도 불구하고, 위양성으로 보고되어 믿기 어려운 경우가 많았습니다. 가장 정확한 방법은 직접 그림 2와 같이 해당 영역의 coverage plot과 normalized depth를 보고 종합적으로 판단하는 것이었습니다. 아직까지 컴퓨터 툴들에 개선의 여지가 많음에도 불구하고, NGS 데이터를 활용하면 CNV에 대한 정보도 일부 얻을 수 있기 때문에 NGS는 더 폭넓게 활용될 것으로 전망이 됩니다.

[Reference]

Zhao, Min, et al. “Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives.” BMC bioinformatics 14.11 (2013): S1.

NGS Targeted Gene Panel 디자인을 위한 고려 사항

과거에 생거 시퀀싱으로 유전자의 일부에서 변이를 검출하던 단계에서 벗어나, 최근의 유전자 서열의 검사는 대부분 NGS로 넘어갔습니다. 특히 병원의 검사실에서는 저렴해진 시퀀싱 비용을 바탕으로 특정 질병에 대한 선택적인 유전자 패널 (Customized Targeted Gene Panel)을 구성하여, 해당 환자에서 유전자 변이와 질병과의 관계를 검사하고 있는 상황입니다. 이에 오늘은 이러한 Targeted Gene Panel을 디자인할 때 고려해야할 내용들에 대해서 포스팅하고자 합니다.

 

I. Target gene vs. Exome panel

Fig 1

Target gene panel은 특정 질병 또는 형질과 관련된 유전자 (최소 수개~최대 수백개)를 대상으로 구성된 패널을 말하고, Exome 패널은 전체 모든 Exon 영역(Whole Exome), 임상적 질환과 관련된 모든 유전자의 Exon 영역 (Clinical Exome), 또는 임상 연구와 관련된 모든 유전자의 Exon 영역 (Research Exome)으로 구성된 패널을 말합니다. 일반적으로 Target gene panel의 유전자 수가 더 적기 때문에 더 좋은 퀄리티의 데이터(high depth, wide coverage)를 저렴하게 얻을 수 있는 반면, Exome panel은 좀 더 다양한 유전자에 대한 광범위한 데이터를 얻기에 용이합니다.

관련 포스팅 보기 > NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

II. 얼마나 많은 수의, 그리고 어떤 유전자를 포함할 것인가?

일반적으로 유전자 수가 많아질수록, 더 많은 후보 유전자의 변이를 검출할 수 있어 민감도는 높아지지만, 시퀀싱의 depth가 낮아지고 분석 과정에서 불필요한 위양성 결과를 얻을 확률도 높아집니다. 더불어 유전자 수가 많아질수록 분석에 필요한 비용 및 시간도 높아지게 됩니다. 반면 꼭 필요한 유전자만 포함할 경우에는 검사의 특이도가 높아지고, 불필요한 비용과 시간을 절약할 수 있습니다. 그러나, 패널의 검사 비용이 유전자수에 비례하여 똑같이 증가하는 것은 아니기 때문에, 적절한 유전자를 포함하는 패널을 디자인하는 것이 중요합니다.

Fig 2
[유전자 수 변화에 따른 NGS 검사 비용] NGS 패널은 초기 비용이 가장 크게 들어가고, 이후 타깃 유전자 개수 증가에 따른 추가 비용의 증가폭은 크지 않습니다. 따라서 효율적인 패널 디자인을 위해서는, 적절한 수의 유전자 개수를 포함시키는 것이 중요합니다.

  1. 검사 목적 – 임상 검사용 vs. 연구용 : 유전자 선정에 가장 중요한 것은 해당 유전자와 형질(질병) 간의 명확한 관계가 정립되어 있는가?에 있습니다. 검사 목적이 임상 환자의 진단에 있다면 이러한 유전자들만 포함하는 것이 맞습니다. 그러나, 검사 목적이 연구용으로 새로운 유전자의 역할을 규명하거나 아직 명확하게 정립되어 있지 않은 후보 유전자의 역할에 있다면, 이러한 유전자들도 추가적으로 포함시킬 수 있습니다.
  2. 유전자 선정 과정 : 타깃 시퀀싱 패널을 디자인할 때, 어떠한 유전자를 포함하고, 포함하지 않을 것인지는 상당히 중요한 이슈입니다. 이 과정은 실제 환자를 보는 임상의의 의견과 실제 검사실에서의 다양한 고려 사항 (기술적 고려사항, 검사 결과의 QC 등) 을 종합적으로 판단하는 것이 좋습니다. 또한 검사 이후의 판독의의 의견도 중요한 고려 사항입니다. 또한 다른 검사실의 실제 경험과 결과를 참고하여, 해당 유전자의 변이의 검출률, 진단률 등을 고려하는 것이 좋습니다.
  3. 타깃 유전자 프로브 간의 상호 작용: 유전자 영역 선정이 끝난 이후 실제 타겟 영역의 프로브를 디자인하는 경우, 각 프로브 간의 상호 작용 또는 간섭이 발생할 수 있습니다. 다음과 같은 지표들에 영향이 없는지를 고려하여 유전자 간의 조합도 적절하게 조정하는 것이 필요합니다.  표적내 시퀀싱 비율 (On target %), 최소 시퀀싱 깊이 (Minimal Depth of Coverage), 최소요구 depth 이상 비율 (% Target regions above minimal depth), 염기 질 지수 (Base calling Quality)
  4. Copy Number Variant 분석을 포함할 것인가?: NGS를 이용한 Copy Number Variant (이하 CNV) 분석에 대해서는 아직 그 임상적 활용에 대해 명확히 정립된 바가 없으나, 보조적으로 NGS 결과를 참고하는 추세입니다. 이 경우, 해당 영역의 coverage 및 depth data가 중요하게 됩니다. 이러한 데이터를 활용하고자 한다면, 좀 더 해당 데이터의 퀄리티 확보에 대해, 패널 디자인에서 함께 생각해보는 것이 좋습니다.

 

III. 실제 패널 디자인 과정

  1. 문헌 조사 (Literature review): 관련 질환 및 포함 시킬 유전자들에 대한 문헌 (논문 등)을 조사합니다. 많은 경우, 실제로 어떤 유전자를 포함하여 패널을 구성하고 검사를 했는지에 관한 보고된 논문 자료가 많기 때문에 해당 내용을 참고하기 용이합니다.
  2. 유전자 검사 기관에서 시행하고 있는 NGS 패널 서비스 확인: 최근에는 많은 유전자 검사 기관에서 대표적인 질환에 대한 패널을 서비스를 제공하고 있습니다. 따라서 각 유전자 검사 기관에서 어떤 질환과 유전자들에 대해서 서비스하고 있는지 확인해봅니다. 많은 기관에서 공통적으로 검사하는 유전자들은 무엇인지, 추가된 유전자들은 무엇인지 확인해볼 수 있습니다.
  3. 기타 유용한 웹 자료: 이외에도 다양한 자료 source를 활용할 수 있는데, 그 중에서도 Panel App에 대해서 소개해 보고자 합니다. 아래 사이트는 여러가지 질환과 유전자들에 대해서 패널을 구성하고자 할 때, 전문가들이 그 근거에 대해서 curation 된 결과를 제공해줍니다. 따라서 어떠한 유전자를 포함할 것인가? 말 것인가? 에 대해 고민할 경우 참고할만합니다. 이미 많은 질환에 대해서 구성된 패널이 큰 골격이 짜여져 있으며, 해당 유전자 정보도 다운 받을 수 있기 때문에 패널 디자인시 참고하기 좋습니다.

PanelApp 사이트 방문하기: Genomics England PanelApp

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

지난 포스팅에서는 임상의의 입장에서 NGS 검사를 통한 변이의 해석을 이해하기 위한 기초적인 내용들을 언급했습니다.

<관련 포스팅 보기>

임상의를 위한 NGS 레포트 해석의 이해

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

그러나, 언급된 내용들이 기초적이고 많이 부족하다고 느껴, 이번 포스팅에서는 타깃 시퀀싱 패널의 분석시 고려할 내용 및 팁 등을 언급해 보고자 합니다.

1) 검사 데이터의 Quality check: 사실 환자를 보는 의사의 입장에서는 최종 결과만 확인하기 때문에 가장 간과하기 쉬운 단계입니다. 그러나 본인이 직접 데이터를 분석하고 해석하고자 한다면, 가장 중요한 단계입니다. 확인해야할 여러 파라미터들이 있습니다만, 가장 기본적으로 target region의 coverage 및 depth를 확인해야합니다. 이는 우리가 검사하고자 하는 영역을 타깃 시퀀싱 패널이 얼마나 잘 디자인되어 검출하는지를 나타내주는 지표입니다. 경우에 따라 다르지만, 일반적으로 100X 이상의 depth로 원하는 영역의 99% 이상 커버(100X over target ratio > 99%)한다면 디자인이 매우 잘된 것으로 생각할 수 있습니다.

doc-1024x216

1
매우 잘 디자인된 타깃 시퀀싱 패널의 성능 결과 예: 평균 depth도 매우 많고, 원하는 영역을 골고루 잘 커버하는 것을 알 수 있다.

2) 검출된 변이가 true signal인가? false positive 인가?: 위와 같이 잘 디자인된 시퀀싱 패널이라 하더라도, micro-insertion 또는 deletion이 일어나는 경우에는 reference 패널과 read의 시퀀스 차이가 크기 때문에 엉뚱한 곳에 가서 read가 붙는 일이 일어날 수 있습니다. 그 결과 엉뚱한 위양성 변이가 검출되기도 합니다.

따라서 임상적으로 중요한 변이가 검출된 경우에는 (특히 frameshift mutation), 실제로 해당 변이를 IGV 와 같은 genome viewer를 통해서 직접 눈으로 확인해보는 것이 중요합니다.

2
국내의 모 NGS 검사 업체에서 전달받은 결과에서 보고한 한 환자의 검체에서 무더기로 검출된 변이. 검출된 변이의 빈도가 1% 정도로 매우 적기 때문에 noise signal로 판단할 수 있었지만, 이렇게 작은 빈도라 하더라도 somatic mutation을 타깃으로 하는 cancer panel이었다고 하면 이야기는 완전히 달라집니다.

Mutation-visualization-in-the-Integrative-Genomics-Viewer-IGV-browser-showing
경우에 따라서는 위와 같이 IGV를 통해 실제로 deletion 된 영역이 있고, read들이 올바르게 달라붙었는지를 눈으로 직접 확인해보는 것도 필요합니다.

3) 검사 목적에 따른 변이의 filter 전략: 타깃 시퀀싱 패널은 크게 2가지 유전 질환과 관련하여 생식 세포 돌연변이 (germ-line mutation) 또는 de novo mutation을 검출하거나 암 환자에서 체세포 돌연변이 (somatic mutation)을 검출할 목적으로 디자인됩니다. 이 두 가지는 구분하여 NGS 검사에서 검출된 변이를 적절하게 필터링하는 전략이 필요합니다.

<관련 포스팅 보기> 유전학 중요개념 정리: Germline vs. Somatic mutation

Germ-line의 경우에는 부모로 부터 한쌍씩 유전형을 물려받기 때문에 검출되는 변이의 상대 빈도는 ~50% 또는 ~100%일 수 밖에 없습니다. 반면, 암 세포의 경우에는 다양한 변이들이 섞여 있기 때문에 (tumor heterogeneity) 다양한 상대 빈도로 검출이 됩니다. 따라서, 변이를 필터링할 경우, 이러한 점을 염두해 두고 환자들에서 의미있는 병적 변이들을 검출하게 됩니다.

4) 집단 내 변이 빈도에 따른 filter 전략: 매우 드문 희귀 유전 질환의 변이를 검출하고자 하는 경우, 해당 변이의 집단 내 변이 빈도에 따라 필터링하는 전략도 유효합니다. 1000 Genome project 또는 ExAC과 같은 유전체 database는 인구 집단에서 해당 변이의 빈도에 대한 정보를 제공해주기 때문에, 이미 알려진 변이 빈도를 기반으로 인구 집단에서 흔하게 존재하는 변이(1% 이상)는 필터링하고 남은 변이들을 대상으로 임상적 평가를 확인하는 것이 좋습니다.

변이빈도와 효과 크기
일반적으로 희귀 유전질환의 경우에는 집단 내 변이 빈도가 매우 작고, 효과 크기가 큰 변이에 의해 유발되는 것으로 생각되고 있기 때문에, NGS 검사를 통해 검출된 흔한 변이들은 크게 임상적인 의미가 없는 경우가 많습니다.

5) 유전체 데이터 베이스를 활용한 Clinical annotation: 최근 다양한 생명정보학 및 유전체 툴들이 개발되어 검출된 변이의 특성 및 정보들을 자동으로 처리해주고 있습니다. 이러한 툴들을 보조적으로 잘 활용하면 변이 판독에 소요되는 시간을 최소화하면서, 동시에 효과적으로 판정할 수 있습니다. 그러나, 경우에 따라서 이러한 판정들이 항상 옳은 것은 아니기 때문에 변이의 판정 및 판독에는 다양한 경험을 바탕으로 한 전문가의 수기 판독이 필요하게 됩니다.

가장 대표적으로 많이 사용되는 툴은 Annovar이며, annovar 내에서도 다양한 툴들이 존재하기 때문에, 사용자가 필요에 따라 이를 선택할 수 있습니다.

Annovar 홈페이지 방문하기

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

임상 검사 및 연구 목적의 검사로 시행하는 염기서열 분석 방법은 기존의 생거 시퀀싱에서 차세대 염기서열 분석법 (Next-generation sequencing; 이하 NGS)로 빠르게 바뀌어서, 이제는 대부분 NGS로 생산된 엄청난 유전체 데이터가 쏟아지고 있습니다. 하지만 이러한 데이터의 생산보다 더 중요한 것은 어떠한 목적과 목표를 가지고 생산된 데이터를 활용할 것인가에 있다고 하겠습니다. 그래서 이번 포스팅에서는 NGS 기술을 이용하여 DNA 시퀀싱을 하는 대표적인 3가지 검사법에 대해서 비교 및 정리하고자 합니다.

관련 포스팅 보기>

NGS 타깃 시퀀싱 패널 검사의 분석 및 해석시 고려할 사항

NGS Targeted Gene Panel 디자인을 위한 고려 사항

Exome sequencing을 위해 고려할 요소들: capture kit와 target coverage 선택

SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

 

Genomic_comparison3

I. Whole Genome Sequencing (WGS)

유전체 전체의 시퀀스를 모두 검사하는 방법입니다. 유전체 전부를 보기 때문에, 개별 시퀀스의 깊이 (depth)는 낮아지지만, 이론적으로 유전체 모든 영역의 SNP (Single Nucleotide Polymorphism), INDEL (Insertion & Deletion), SV (Splicing variant), CNV (Copy number variant) 등을 확인할 수 있습니다 (물론 short-read에서는 repetitive 영역을 모두 보는 것은 불가능합니다). 단, 검사 단가가 비싸고 생산된 유전체의 크기가 매우 커서 분석 및 저장에도 많은 비용이 들어갑니다. 그러나 non-coding 영역의 regulatory variant를 발굴하고, 전체 유전체 영역을 동일하게 가정하는 Genome-wide Null 분석이 가능한 장점이 있습니다.

 

II. Whole Exome Sequencing (WES)

유전체 중에서 단백질을 직접 코딩하는 엑손 영역 (Exome; 엑솜)의 유전체만을 분석하는 방법입니다. 사람의 경우, Exome은 전체 유전체의 2% 미만이기 때문에 WGS보다 생산되는 데이터의 크기가 작아, 저장 및 연산 용량도 줄어들고 가격도 저렴합니다. WGS을 분석하더라도 많은 경우, non-coding 영역의 변이는 해석이 어렵고 크게 의미 있는 결과를 얻는 경우가 많지 않기 때문에 WES이 더 경제적이고 더 높은 depth를 얻을 수 있는 장점이 있습니다. 하지만, 타겟 영역을 제외한 부위 (Intergenic 또는 Intron 영역의 regulatory variant)는 검출이 어렵습니다.

 

III. Targeted Gene Sequencing (TGS)

특정 질병 또는 목적에 부합하는 유전자들로만 구성된 Customized 패널을 구성하여 검사하는 방법입니다. 상대적으로 좁은 영역의 유전체만을 대상으로 하기 때문에, 적은 용량의 데이터를 생산해도 높은 시퀀싱 Depth를 얻을 수 있고, 가격적으로도 가장 저렴합니다. 효율적으로 원하는 유전자들로 입맛에 맞게 유전자 패널을 구성하여, 데이터의 연산 및 저장 용량도 줄일 수 있습니다. 대표적으로 약물 대사에 관련된 유전자로 구성된 약물 유전체 패널, 암 발생과 관련된 유전자들로 구성된 고형암 패널 등이 있습니다. 타겟으로 하는 유전자가 명확하고 보고자 하는 영역이 명확한 경우에 가장 적절하여, 임상 검사실에서 가장 많이 사용하는 검사 방법입니다.

NGS modalities
[유전체 검사의 범위에 따른 가격, 용도 및 도구] 더 폭넓은 유전체를 검사할수록 가격은 일반적으로 더 비싸지고, Depth는 낮아지게 됩니다. 검사 목적에 따라 적절한 modality를 활용하는 것이 중요합니다.
 

위의 3가지 검사법을 결정해야할 때 고려해야할 요소는 크게 다음과 같습니다.

  1. 검사 목적: 진단용인가? 연구용인가? 연구용이라면, 연구 대상의 유전자가 제한된 연구인가 또는 새롭게 발굴하는 것이 목적인가?
  2. 분석 대상: 특정 유전자에 한정할 것인가? 해석이 용이한 엑손 영역에서 새로운 유전자를 발굴할 것인가? 전체 유전체에서 탐색적으로 연구할 것인가?
  3. 검체 이용 및 시퀀싱 깊이: 어떠한 검체를 이용할 것이며, 시퀀싱 깊이는 어느 정도가 적절한가?
  4. 검사 비용 및 분석 능력: 시퀀싱 결과 생산된 데이터의 크기가 매우 크기 때문에 이것을 분석하는 컴퓨팅 파워 및 용량, 전체적인 비용도 고려해야 합니다.

올해부터 한시적으로 임상 검사의 목적으로는 타겟 시퀀싱 패널 (TGS)에 대해서 보험 급여가 인정되어 임상 검사실에서 시행되고 있고, WES 및 WGS의 경우에는 진단의 목적보다는 연구 목적으로 새로운 후보 유전자 또는 영역을 발굴하는 목적으로 많이 사용하고 있습니다. 위의 3가지 외에도 최근에는 Clinical Exome Sequencing이라고 하여, 전체 엑손 영역 중에서 임상적으로 질병과 연관된 유전자들로만 구성된 일종의 광범위 타겟 시퀀싱 패널과 같은 검사도 WES보다 좀 더 저렴하게 검사가 가능합니다.

또한, 연구자의 입장에서 비용 만을 생각하면 시퀀싱보다는 micro-array 기반의 검사가 더 저렴하고 간편한 경우도 있기 때문에 (e.g. 한국인칩 ㅠㅠ), 목적에 적합한 검사를 선택하는 것이 중요하다고 할 수 있겠습니다. Array 검사법과 시퀀싱 검사법의 비교는 나중 포스팅에서 다루도록 하겠습니다.

 

[References]

https://blog.genohub.com/2015/02/21/whole-genome-sequencing-wgs-vs-whole-exome-sequencing-wes/

https://blog.genohub.com/2016/10/24/targeted-gene-panels-vs-whole-exome-sequencing/