구조 변이 annotation tool: AnnotSV

유전체 정보로 부터 임상적으로 중요한 변이를 검출하기 위해서는 NGS 시퀀싱 기기의 read 정보로부터 변이 검출까지의 파이프 라인 못지 않게, 얻어낸 수많은 변이로 부터 병인에 중요한 역할을 할 것으로 생각되는 후보 변이를 필터링하는 전략이 매우 중요하게 됩니다. 따라서 적절한 데이터 베이스로 부터 Annotation을 하는 과정은 매우 중요하게 되는데, 이번 포스팅은 다양한 변이 중에서 구조 변이 (Structural variation; SV)을 대상으로 Annotation을 할 수 있는 도구 중에 하나인 AnnotSV에 대해서 소개하고자 합니다. AnnotSV는 이전에 소개했던 Annovar의 CNV (copy number variant) 버젼에 해당한다고 볼 수 있습니다.

[관련 포스팅 보기]

AnnotSV는 다양한 구조 변이의 Annotation 기능 뿐만 아니라, ACMG (American College of Medical Genetics)에서 권장하는 구조 변이의 판독 기준에 따라서, 해당 변이의 중요도를 5가지 카테고리로 구분해줍니다. Input으로는 bed 파일 또는 vcf 파일을 받으며, 다양한 유전자, 조절 인자, 기존에 알려진 병적 변이, 질병과의 연관성 등을 기준으로 ACMG class를 보고해줍니다. 위 그림은 AnnotSV의 이러한 분석 과정을 보여주고 있습니다.

[bed 파일의 기본 구조] bed 파일은 1) 염색체 번호 (Chromosome), 2) 시작 지점 (Start), 3) 끝 지점 (End)의 3가지 기본적인 정보를 토대로 유전체 내의 특정 범위에 대한 정보를 제공해줍니다.

구조 변이 (CNV)의 경우, 적은 수의 염기 변이 (SNV)보다 short-read sequencing을 이용하는 경우, 기술적으로 검출하는 해상도의 한계가 있으며 (deletion보다 duplication 검출이 어려움. 충분한 Depth와 Supporting read가 확보되어야 하며, 이 때문에 translocation도 검출이 어려움.) 변이의 해석도 더 어려운 경우가 많습니다. 따라서, 적절한 한계점을 인지하고 적절한 분석 방법론을 적용하는 것이 중요하며, 현재도 많은 부분들이 현재 진행형으로 연구가 되고 있는 분야입니다.

다만, 최근 ACMG에서 구조 변이의 임상적 해석을 위한 Criteria를 제시해주어, 많은 부분 임상적으로 활용이 가능해진 부분이 있습니다. (아래 참고 논문: Riggs, Erin Rooney, et al. Genetics in Medicine 22.2 (2020): 245-257) 그동안 구조 변이의 해석에 여러가지 어려운 점들이 많았는데, 최근 이 쪽 분야도 많은 툴들과 방법론 들이 개발되고 있는 것 같습니다. 그런 점에서 AnnotSV는 구조 변이를 연구하고 해석하는 입장에서 매우 유용한 툴임이 분명합니다.

[References]

AnnotSV Github: https://github.com/lgmgeo/AnnotSV

AnnotSV Homepage: https://www.lbgi.fr/AnnotSV/

Geoffroy, Véronique, et al. “AnnotSV: an integrated tool for structural variations annotation.” Bioinformatics 34.20 (2018): 3572-3574.

Geoffroy, Véronique, et al. “AnnotSV and knotAnnotSV: a web server for human structural variations annotations, ranking and analysis.” Nucleic Acids Research (2021).

Riggs, Erin Rooney, et al. “Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen).” Genetics in Medicine 22.2 (2020): 245-257.

유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

Exome sequencing을 위해 고려할 요소들: capture kit와 target coverage 선택

Exome (엑솜)이란 유전자의 exon 영역을 모두 포함하는 집합체를 말합니다. 최근 가격적으로 시퀀싱 비용이 많이 떨어지면서, 연구 목적의 엑솜 시퀀싱이 광범위하게 사용되고 있는 것 같습니다. 사실 시퀀싱 이후의 데이터 분석도 중요한 과정이긴 하지만, 많은 사람들이 간과하고 있는 것이 그보다 상위 단계에 있는 시퀀싱 데이터 생산 계획 과정입니다. 여기서 말하는 시퀀싱 데이터 생산 계획이라 함은, 목적에 맞는 적절한 시퀀싱 장비 선정, 엑솜 키트 선택, 적절한 target coverage depth 선정 등을 모두 포함합니다.

Overview-of-whole-exome-sequencing-pipeline-SNV-single-nucleotide-variant

Whole exome 은 일반적으로 모든 exon 영역을 지칭하지만, 사실 아직까지도 전체 유전자의 정체(?)를 정확히 모르고 있는 시점에서 논란이 많이 남아있는 부분이 있습니다. 일반적으로 시퀀싱 장비는 Illumina 사의 장비가 가장 보편적으로 이용되고 있기 때문에 차치하고라도, 유전체 (genome)에서 Exome 부분만 capture 하는데 사용되는 키트도 아래와 같이 다양한 제품이 존재합니다. 아래의 표에서 가장 눈여겨 볼 부분은 Target Region의 크기인데, 일반적으로 Exome이라고 말하는 부분의 크기도 39 ~ 64 Mb로 차이가 나는 것을 볼 수 있습니다. 이는 여러가지 기술적인 이유로 타겟 영역을 서로 다르게 디자인한 부분과 엑손 영역의 타겟 유전자의 수도 차이가 있기 때문입니다.

관련 포스팅 보기>

NGS Target enrichment method: Hybridization vs. Amplicon capture

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

Exome kit.jpg

시장의 선두 주자는 A사 였으나, 최근에 많은 회사에서 경쟁적으로 capture 효율과 coverage 를 개선시킨 저렴한 가격의 kit를 개발하여 공급하고 있습니다. I사의 경우에는 UK Biobank의 Exome sequencing에 이용되어, 호환성에서 장점이 있습니다. 사실 서로의 제품이 더 좋다고 광고하는 상황에서 Exome capture kit 선택은 쉽지 않지만, 최소 DNA 요구량, 관심이 있는 주요 유전자에서의 Coverage 정도, 그리고 가격 등의 요소를 종합적으로 고려하여 최적의 키트를 선택하는 것이 좋습니다. 제품마다 유전자별로 cover 되는 효율에 차이가 있는데, 특히나 관심이 있는 유전자들이 잘 cover 되지 않는 제품이라면, 검체에서 해당 변이를 검출하는 민감도에 큰 차이를 보일 수 있습니다. 특히나 낮은 수준으로 존재하는 종양의 변이들을 검출하는 연구 목적의 검사에서는 변이 검출 유무의 중요한 요소로 작용할 수도 있기 때문입니다.

일반적으로 시퀀싱 비용은 생산되는 데이터의 크기에 비례하여 증가하게 됩니다. 이때, 타겟 영역의 크기캡쳐 키트의 효율, 그리고 원하는 Coverage depth를 이용하면, 대략적으로 필요한 시퀀싱 데이터의 크기를 계산할 수 있습니다. 예를 들어, 위 표의 Agilent SureSelect V6 Exome kit를 이용하여, 100×의 depth로 시퀀싱을 하고 싶다고 가정하고, 일반적인 target capture 효율 (0.6 ~ 0.7)을 적용해봅시다. 아래 계산에 의해 총 10Gb의 데이터를 생산해야 원하는 coverage를 달성함을 계산할 수 있습니다.

(시퀀싱 데이터 크기) = (타겟 영역의 크기) × (Depth) / (On-target ratio)

(시퀀싱 데이터 크기) = 60 Mb × 100 / 0.6 = 10 Gb

 

시퀀싱을 위한 총 비용은 위 표의 capture kit 가격과 생산되는 데이터의 크기, 그리고 이용되는 시퀀싱 장비 및 검체 처리에 사용되는 시약의 가격 등이 합쳐져서 결정됩니다. 이 중에서 이용자가 결정할 수 있는 부분은 capture kit의 종류전체 시퀀싱 데이터의 크기 이기 때문에, 위의 내용들을 잘 숙지하여 필요한 만큼의 데이터를 효율적으로 생산하는 것이 중요합니다. 위의 내용은 Genohub의 Whole Exome Sequencing Guide의 내용을 정리한 것입니다. 마지막으로, 위에서 언급한 내용들을 정리하면서, 포스팅을 마치도록 하겠습니다.

Considerations for Whole Exome Sequencing

1. What sequencing instrument and read length should I choose for exome-seq?
2. How much sequencing coverage do I need for exome sequencing?
3. How do I calculate the sequencing coverage or depth required for my whole exome sequencing study?
4. Which exome sequencing capture kit should I use for my study?
5. How can I compare the annotation and exome capture design between each kit?

 

[Reference]

Genohub: Whole Exome Sequencing Guide

Goh, Gerald, and Murim Choi. “Application of whole exome sequencing to identify disease-causing variants in inherited human diseases.” Genomics & informatics 10.4 (2012): 214.

Tumor Mutation Burden의 계산과 영향을 미치는 인자들

이전에 언급했던 면역항암제 (Immunotherapy) 의 성공과 더불어, 최근에는 어떠한 암 환자에서 면역 항암제가 효과적으로 쓰일 수 있을지를 예측하는 동반 진단 (Companion Diagnostics) 마커 발굴에 많은 관심이 쏠리고 있습니다. 지금까지 알려진 바로는 다양한 요인들이 면역항암제의 반응성에 영향을 미친다고 보고되고 있는데, 대표적인 인자로 알려진 것들에는 현미부수체 불안정성 종양 (MSI-H; Micro-satellite instability high tumor), PD-L1 발현 종양, 종양 돌연변이 부하 (Tumor Mutation Burden; TMB)가 높은 종양, 환자의 면역 인자 (특정 HLA-allele 등)이 반응성과 잘 연관되어 있다고 알려져 있습니다.

특히, Tumor Mutation Burden의 경우, TMB이 높을수록, 단백질의 변이에 의한 신항원(Neo-antigen)의 발현 확률도 높아지고, 이질적인 항원 발현에 의한 면역 반응으로 종양 세포가 제거될 확률도 높아지게 될 것이기 때문에, 이미 이전부터 당연하게 예측되는 결과 이기도 했습니다. 이러한 면역 항암제의 반응성과의 연관성 때문에, 최근에는 많은 연구에서 계산된 TMB을 함께 요구하고, 임상적으로도 환자 치료시 활용하려고 시도하고 있습니다. 이에 Tumor Mutation Burden의 의미와 영향을 미치는 인자들, 그리고 계산 방법에 대해서 정리해보겠습니다.

F2.large

관련 포스팅 보기>

면역 항암제, Immune checkpoint inhibitor의 원리 및 종류

동반 진단, Companion diagnostics란 무엇인가?

TMB은 종양 내에 얼마나 많은 돌연변이가 발생했는가?를 수치화한 것으로 얼핏 생각하면 매우 단순한 개념처럼 보이기도 합니다. 그러나 매우 이질적이도 다양한 종양처럼, TMB을 정의하는 것도 그렇게 단순하지가 않습니다.

 

I. Tumor Mutation Burden의 정의

TMB은 원래 처음 전장 엑솜 시퀀싱 (Exome sequencing)에 의해서, 1Mb당 검출된 모든 종양 돌연변이의 개수를 수치화한 값으로 정의하였습니다. 즉, (분자 = 돌연변이의 총 갯수)/(분모 = 엑손 영역의 총 길이)가 됩니다. 여기서 문제가 발생하는데, 아직까지 표준화된 정의가 없습니다.

  1.  분자항의 변이의 영역을 어디까지 포함할 것인가? : 논문에 따라서 변이를 counting할 때, Non-synonymous variant만 포함하는 논문도 있고, Non-sense, frame-shift를 전부 포함하는 논문도 존재합니다. (그렇다면 small insertion과 deletion은요??)
  2. 분모항의 엑손 영역은 어떻게 정의할 것인가? : 엑솜 영역은 전체 유전체의 약 2% 정도로 단백질을 코딩하는 부위로 정의를 하는데, 이전에 언급한대로 엑솜 시퀀싱은 타겟시퀀싱과 동일하게 enrichment kit를 사용하여, 해당 엑손 부위만 증폭 시킵니다. 그러나 문제는 시중에 나와있는 다양한 회사의 키트들에서 엑손 영역이라고 말하는 부위가 서로 100% 일치하지 않습니다. 즉, 어떤 회사의 엑손 키트를 사용하였는가에 따라서도, 분모의 값이 달라지게 됩니다. (사실 아직까지도 100% 유전자라고 하는 부위의 정의도 확립되어 있지 않습니다.) 일반적으로 엑솜 영역의 크기는 5~60 Mb 정도 됩니다.

관련 포스팅 보기>

NGS Target enrichment method: Hybridization vs. Amplicon capture

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

[유전학 중요개념 정리] Germline vs. Somatic mutation

 

II. Tumor Mutation Burden에 영향을 미치는 인자들

다음으로, TMB의 개념은 시퀀싱에 기반한 방법이기 때문에, 검사의 민감도가 결과에 절대적으로 영향을 미칩니다. 종양은 종양 이질성 (Tumor heterogeneity)으로 인해, 다양한 변이를 가진 미세 군집이 존재하게 됩니다. 따라서, 검체의 어떤 부분을 시퀀싱하는가?, 얼마나 더 민감하게 검사를 하는가?에 따라서, 해당 변이가 검출될수도, 되지 않을수도 있습니다. 따라서 종양 세포의 비율과 순도 (purity), DNA 추출 과정, 그리고 시퀀싱의 측면에서 Coverage 또는 Depth가 매우 중요하게 작용합니다. 즉, 일반적으로 Depth가 높아지면, 더 민감하게 검출이 되므로 TMB 값은 커지기 마련입니다. 다음으로, 검사 자체의 측면 이외에도 시퀀싱 데이터를 처리하면서 Bioinformatics pipeline에서 분석을 할 때, VAF (Variant allele frequency) cut-off를 얼마로 설정할 것인가에 따라서도 값이 매우 달라지게 됩니다. 즉, 시퀀싱 에러와 미세 군집 사이를 적절하게 구분짓는 최적의 cut-off 설정 또한 검사자에게 요구 됩니다. 더불어, matched normal sample의 유무에 따라, 적절하게 Germline variant를 filtering 하는 것도 매우 중요하다고 할 수 있겠습니다.

 

III. Target panel을 이용한 Tumor Mutation Burden 계산

최근에는 엑솜 시퀀싱이 아닌, 일부 유전자를 타겟으로 하는 타겟 패널에서 TMB을 계산하기도 합니다. 전체 유전자는 대략 2만여개 정도로 알려져 있는데, 수백개의 유전자로 이루어진 패널에서 이를 같은 방식으로 계산하는 것이기 때문에, 일부가 전체를 대표하게 됩니다. 따라서, 패널의 크기가 크면 클수록 엑솜 시퀀싱과 비슷한 결과를 보이게 됩니다. 여기서 최소 몇개의 유전자로 이루어진 얼마나 큰 패널로 검사를 시행해야 거의 동일하고 비슷한 값을 얻을 수 있는가?에 대한 문제가 발생하게 됩니다. 아래는 다양한 타겟 패널과 분석 플랫폼을 비교한 표입니다. 여기서 가장 중요한 것은 어떤 플랫폼으로 검사하는가에 따라서 검사 결과가 매우 다르다는 점입니다. 아래 그림은 서로 다른 영역을 타겟으로 하는 다양한 패널에서 계산되는 TMB의 차이를 나타내주고 있습니다.

mdy495f2

2

 

따라서, 마지막으로 임상의사 선생님들께 남기고 싶은 얘기는 TMB의 절대값은 의미가 없다 라는 점입니다. 즉, 어떠한 플랫폼에서 어떠한 검사 기준을 적용하여, 어떻게 검체를 처리했는가에 따라서 TMB의 값은 매우 크게 달라질 수 있기 때문에, 같은 플랫폼 내에서 서로를 비교하는 상대값으로써 더 의미가 크다고 할 수 있겠습니다. 또한, TMB을 임상적으로 활용하기 위해서는 검사실에서 SOP를 수립하고, 표준화된 정의와 기준을 수립하는 것도 앞으로 매우 중요하겠습니다.

 


[Reference]

Chan, Timothy A., et al. “Development of tumor mutation burden as an immunotherapy biomarker: utility for the oncology clinic.” Annals of Oncology 30.1 (2018): 44-56.

Meléndez, Bárbara, et al. “Methods of measurement for tumor mutational burden in tumor tissue.” Translational lung cancer research 7.6 (2018): 661.

Braun, David A., Kelly P. Burke, and Eliezer M. Van Allen. “Genomic approaches to understanding response and resistance to immunotherapy.” Clinical Cancer Research 22.23 (2016): 5642-5650.

[참석 후기] 2019 대한진단유전학회 학술대회

sub_top

프로그램 목록>

5월 29, 30일간 K 호텔에서 진행된 대한진단유전학회 학술대회에 참석하였습니다. 기억이 잊혀지기 전에 몇가지 인상 깊었던 내용들에 대해서 정리하고 가고자 합니다.

우선 많은 임상과에서 연자 선생님들이 초청되어서, 실제 진료에 NGS 검사 결과를 적용한 사례들을 발표해주셨는데, 아직까지는 갈 길이 멀어보이지만, 그래도 검사를 통해서 더 나은 진료와 치료를 받을 수 있었던  케이스들을 통해서 정밀 의료라는 큰 흐름은 계속 발전해 나갈 것으로 기대가 됩니다. 특히, 어느 정도 경험이 쌓인 분들은 변이 판독과 Genotype-Phenotype correlation에 대해서 많은 고민을 하고 계신 것 같습니다. 그러나 여전히 검출되는 수많은 변이의 임상적 의미에 대한 판독 부분은 시간이 더 필요할 것으로 보입니다.

관련 포스팅 보기>

NGS 결과의 임상 적용: Genotype-phenotype correlation

특히, 분자 유전학적 메커니즘에 따라서 치료제가 개발된 경우에 치료 효과를 기대할 수 있는 환자들을 선별하고 해당 환자들이 눈에 띄는 임상적 호전을 보이는 몇몇 대표적인 케이스들은 상당히 인상 깊었습니다. 다만, 아직까지는 검사 대비 효용성이나 검사를 위한 가이드 라인 수립, 검사 후 치료에 대한 보험 적용 문제 등 넘어야할 산은 매우 많아 보였습니다.

더불어 암 환자들의 혈액에 존재하는 매우 미량의 DNA, 일명 순환 종양 DNA (Circulating tumor DNA; CtDNA),를 검출하여 조기 진단 및 치료 반응 추적 등에 활용하고자 하는 연구가 많이 진행되고 있는데, 이번 학회에서는 CtDNA에 대한 많은 관심과 진행되고 있는 연구에 대해서 살펴볼 수 있었습니다. 특히나 암 환자의 경우 조직을 이용하여 진행되었던 많은 검사들의 무게 중심이 궁극적으로는 혈액 검사를 이용하는 쪽으로 옮겨가고 있다는 느낌이었습니다. CtDNA의 경우는 워낙 핫한 분야이기 때문에 다음에 기회가 되면, 관련 내용을 리뷰해 보도록 하겠습니다.

이외에도 Human Microbiome 분야와 post-GWAS 분야 (SNP 발굴을 넘어서, meta-analysis 및 complex trait에 대한 polygenic risk score 수립을 통한 예측) 등도 주로 다루어졌습니다. 개인적으로는 전반적으로 최근에 많은 관심이 쏟아지는 주제에 대해서 고르게 구성된 유익했던 학회였습니다.

닥터 프리즈너 속 헌팅턴병의 유전학: 삼염기 반복 질환과 Anticipation

최근에 챙겨보고 있는 드라마 ‘닥터 프리즈너‘를 보다보니, 다양한 유전병들이 등장하더군요. 특히 등장 인물들 간의 팽팽한 긴장감을 조성하는 소재로 ‘헌팅턴병‘이 등장해서 놀랐습니다. 오늘 마지막회를 앞두고,  이번 포스팅에는 삼염기 반복 질환 (Trinucleotide repeat disorder)의 하나인 유전학적으로도 매우 흥미로운 질병 중에 하나인 헌팅턴병에 대해서 포스팅을 남겨보고자 합니다.

20190321154611275593
KBS 수목 드라마 ‘닥터 프리즈너’ 속 태강 그룹 이재준은 헌팅턴병이라는 유전 질환을 가진 것으로 드러납니다.

헌팅턴병과 헌팅틴 유전자

헌팅턴 병 또는 헌팅턴 무도병은 그 이름에서 알 수 있듯이, George Huntington이라는 의사에 의해서 처음 기술된 질환으로, 마치 춤을 추듯 무도회장에서 손발을 저는 증상을 특징으로 하는 상염색체 우성 (AD) 질환입니다. 최근에서야 해당 질환은 헌팅틴 (Huntingtin; HD)이라는 단백의 삼염기 반복에 이상에 의해 뇌세포가 영향을 받아 발생한다는 사실을 알게 되었습니다. 즉, 헌팅틴 단백은 Glutamine(Q)을 지정하는 CAG 염기가 반복되는 구간이 있는데, 이 부분의 길이가 길어지면 질병이 발생한다는 것입니다. 일반적으로 이러한 반복 구간은 유전자의 엑손 영역보다는 비전사 지역에 흔하게 존재하고, 이전에 다뤘던 STR (short tandem repeat)이라는 부분으로 많이 존재하는데 헌팅턴 유전자의 경우는 특이하게 엑손 영역에 이러한 서열이 존재하는 것입니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Tandem repeat: STR and VNTR

 

gene-mutation-that-causes-huntington-disease
[헌팅턴병의 유전학] 헌팅턴병은 4번 염색체 단완에 존재하는 헌팅틴 유전자 속 CAG repeat (삼염기 반복)이 비정상적으로 길어져 발생하게 됩니다.
hd

헌팅틴 유전자의 CAG repeat이 비정상적으로 길어지게 되면 뉴론의 퇴화를 유도하고, 헌팅턴병이 발현하게 됩니다.

삼염기 반복 질환과 Anticipation

헌팅턴병의 경우에는 위의 그림과 같이 CAG 서열이 반복되게 되는데, 이러한 반복 서열이 40개를 넘어가게 되면 무조건 질병이 발생하게 됩니다. 그리고 35~40개의 서열의 경우에는 투과도 (Penetrance)가 감소하고, 일반인들은 10~25개의 반복 서열을 가지는 것으로 되어있습니다. 재미있는 것은 닥터 프리즈너 속 태강 그룹의 회장과 이재준의 관계처럼, 남자 환자 (아버지)의 유전질환이 자식에게 물려질 경우, 그 증상의 발생이나 중증도가 훨씬 심해진다는 것입니다. 즉, 아버지의 유전질환이 자식에게 물려질 경우 훨씬 심한 질환으로 발생할 것이라는 것을 예상 (Anticipation)할 수 있게 됩니다. 

redesignarticle_codev-2013-07-03-4e21490415-AlleleTable

이는 헌팅틴 유전자의 반복 서열이 자식에게 물려질 때, 일반적으로 아버지의 경우는 대부분 더 길어지게 되고, 어머니의 경우에는 거의 차이가 없게 되는데 기인합니다. 이러한 부모의 차이는 아직까지 정확한 원인을 알지 못하지만, 유전자 각인 (Genomic imprinting)이 영향이 있을 것으로 생각하고 있습니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

즉, 아버지 환자일 경우는 안그래도 긴데 더 길어질 것이고, 그래서 증상이 훨씬 더 심해질 것이라는 것이 예측 가능하게 되는 것이죠. 헌팅턴병과 비슷한 메카니즘을 가지는 다양한 삼염기 반복 질환이 존재합니다. 아래 표는 이러한 질환의 예와 해당 반복 서열을 나타내주고 있습니다. 대부분이 신경계 또는 근육 관련 이상 운동 질환인 것을 알 수 있습니다.

pierce_table_17_1_large_2

다시 드라마 얘기로 돌아오면, 태강 그룹 회장의 헌팅틴 유전자를 물려받은 이재준은 반복 서열의 길이가 더 길어져, 더 이른 나이에 더 심한 증상을 앓을 것이라는 것이 예측 가능하게 되는 것입니다. 드라마 속 오정희가 가짜로 앓게 되는 판코니 빈혈의 경우도, 혈액학적 관점에서 재미있는 질환이지만, 해당 포스팅은 다음에 기회가 되면 남기기로 하고 이번 글은 여기까지 입니다.

 

[References]

NIH Genetic Home References : Huntington disease

Andrew, Susan E., et al. “The relationship between trinucleotide (CAG) repeat length and clinical features of Huntington’s disease.” Nature genetics 4.4 (1993): 398.

Kremer, Berry, et al. “A worldwide study of the Huntington’s disease mutation: the sensitivity and specificity of measuring CAG repeats.” New England Journal of Medicine 330.20 (1994): 1401-1406.

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점

차세대 염기서열 분석 방법 (이하 NGS) 의 개발은 다양한 원리를 토대로 동시에 엄청난 양의 유전체를 시퀀싱할 수 있는 방법들을 제시하였는데, 각자 개발한 방법들을 토대로 설립된 회사들과 시장의 변화는 마치 삼국지를 보는 것과 같았습니다. 5~6년전만 하더라도 군웅할거의 절대 지존이 없는 상황에서, 마치 조조가 천하를 통일하듯 현재는 Flow cell 기반의 IlluminaShort Read Sequencing 방법이 거의 시장을 독식한 상황입니다. 이중 Minor 한 portion은 중국의 카피캣 MGI가 저렴한 가격을 무기로 치고 올라오고 있으며, 조금 다른 영역에서 PacBiOLong Read Sequencing과 편의성과 소형화에 중점을 둔 Oxford Nanopore가 존재하고 있습니다. 그런 의미에서 오늘은 PacBiO의 Long Read Sequenicng 방법의 원리와 장, 단점에 대해서 정리해 보고자 합니다.

관련 포스팅 보기>

[참석 후기] Human Genome Meeting 2019

 

RS2

위의 그림은 Sequell II 장비의 모습을 보여주고 있습니다. (네, 무식하게 큽니다.. 냉장고 크기 정도 됩니다.) 3년전에 UCL의 HLA informatics group에 연수를 갔을때 버젼 1을 봤었는데, 최근에 버젼 2가 나와서 8배 더 빨라졌다며 광고를 하고 있네요..

 

SMRT seq

위 그림은 SMRT 시퀀싱의 원리를 보여주고 있습니다. DNA를 긴 read로 미리 준비해서 adaptor를 붙여서 Circle의 형태로 만들어준 후에, 실제로 시퀀싱을 읽어들이는 ZMW (Zero-mode waveguide)에서 반복적으로 시퀀스를 읽어들이게 됩니다. 매우 작은 하나의 ZMW는 하나의 시퀀스 리더로 작용하고, 무수히 많은 ZMW가 모여서 하나의 SMRT cell을 구성하게 됩니다. 각각의 ZMW에서는 4가지 염기서열에 따라서 서로 다른 신호를 주기 때문에 시퀀스를 구분할 수 있으며, 원형으로 계속 돌면서 반복적으로 읽어들이기 때문에 (adaptor 시퀀스는 일종의 표식으로 작용) 시퀀스 에러를 줄이는 장점이 있다고 광고하고 있습니다. 아래는 이해를 위한 유튜브 영상을 첨부합니다.

 

비록 현재의 시퀀싱 시장은 높은 정확도와 가성비를 장점으로 하는 Short Read 시퀀싱이 대부분을 차지하고 있지만, 정확한 Human Genome Reference 수립을 위한 De novo assembly를 하기위해서는 Long Read 시퀀싱은 필수로 이용되고 있으며, 기타 Short Read 기반의 많은 단점들이 존재하는 영역에서는 여전히 Long Read 만의 장점이 있기 때문에 장,단점이 있는 이용 분야를 잘 이해하는 것이 중요하다고 할 수 있습니다. Short ReadDepth가 높아서 Error rate가 낮다는 점과 같은 Read를 읽을 때 가격적으로 훨씬 저렴하다는 점이 임상적으로 활용하는데 있어서는 아직 우세를 보이는 주요한 이유가 됩니다.

아래 표는 Short Read의 단점과 Long Read가 활약할 수 있는 분야를 정리한 표입니다. 반복 서열이 많거나, Polymorphism이 많이 존재하는 영역, GC 비율이 높아서 시퀀싱이 어려운 영역 (HLA 영역 또는 PKD 유전자 등), 구조 변이 검출 등에서는 Long Read 시퀀싱이 훨씬 우수한 성능을 보여주고 있으며, 가격적인 부분만 점점 낮아진다면, 추후에는 Long Read로 대세가 기울지 않을까 감히 예상해봅니다.

RS2_00000.jpg

 

[References]

PacBiO SMRT sequencing

Pollard, Martin O., et al. “Long reads: their purpose and place.” Human molecular genetics 27.R2 (2018): R234-R241.

NGS Target enrichment method: Hybridization vs. Amplicon capture

우리가 흔히 차세대 염기 서열 시퀀싱이라고 부르는 NGS 기술에서 가장 현실적으로 중요한 요소는 아직까지는 ‘비용 (cost)’일 것입니다. 시퀀싱 비용이 점점 떨어지고 있기는 하지만, 여전히 가격대비 효율성을 고려할 때 임상적인 목적으로는 질병 특이적인 타겟 패널 시퀀싱 (Targeted panel Sequencing)을, 그리고 연구용으로 이용할 때는 엑솜 시퀀싱 (Whole Exome Sequencing)을 주로 이용하고 있습니다.  타겟 패널 시퀀싱과 엑솜 시퀀싱은 시퀀싱 과정에서 게놈 시퀀싱과는 다른 점이 있는데, 바로 Target enrichment 과정의 유무입니다. 그래서 이번 포스팅은 시퀀싱 과정 중 Target enrichment 방법과 원리, 그리고 각 방법별 장단점을 정리해보고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

 

게놈 시퀀싱과 달리 엑솜 시퀀싱을 포함하는 타겟 시퀀싱은 전체 유전체의 매우 적은 부분을 시퀀싱하는 방법입니다. (참고로 엑솜 영역은 전체 유전체의 2~3% 미만입니다.) 따라서, 원하는 해당 부위만 특이적으로 capture를 해야합니다. 즉, 엉뚱한 부위에 가서 프로브가 붙어서 시퀀싱 데이터를 생산하면 안된다는 소리입니다. 이를 위해서는 타겟으로 하는 영역을 적절하게 검출하고 분리하는 방법이 필요한데, 민감도와 특이도를 모두 높히기 위해 일반적으로 Target enrichment (타겟 영역만 선택적으로 분리하여 증폭시키는 방법) 과정이 포함되어 있습니다.

Target enrichment는 크게 아래와 같은 3가지 방법들이 사용되고 있습니다.

1) Hybrid capture 방법, 2) Selective Circularization 방법, 3) PCR 기반 Amplicon 방법

1

Hybrid capture는 타겟 영역에 특이적인 capture probe로 구성되어 원하는 부분만 caputre하는 방법이고, Circularization 방법은 probe가 circle 형태로 달라 붙어 원하는 부위를 증폭한 후에 연결하는 방법입니다. 마지막으로 Amplicon 방법은 원하는 타겟 영역을 PCR로 증폭시켜서 분석하는 방법에 기반합니다. 이 때 catpure 방법의 가장 중요한 요소는 크게 아래와 같습니다.

 

  • Sensitivity: 얼마나 민감하게 원하는 타겟 영역들을 잘 검출할 수 있는가?
  • Specificity: 타겟 영역 특이적으로 검출이 되는가? = 타겟 영역 이외의 영역 (Off-target)을 증폭하거나 검출하지는 않는가?
  • Coverage uniformity: 다수의 타겟 영역을 증폭할 때, 모든 타겟 영역들이 bias 없이 고르게 증폭되는가? > 특정 영역만 depth가 낮게 증폭된다면 해당 영역을 검출하는데 문제가 됩니다.

 

가장 대표적인 Hybrid capture와 Amplicon 방법의 장단점을 정리하면 아래와 같습니다. 다만, 요즘 추세는 대부분 Hybrid capture 방법으로 가고 있는 것 같습니다. Hybrid capture 방법의 단점으로는 상대적으로 DNA 검체량이 조금 더 많이 필요하고, 좀 더 작업 과정이 복잡하여 까다롭다는 점을 들 수 있겠습니다. 따라서 최근 개발되는 엑솜 시퀀싱 capture 패널은 대부분 이러한 단점들을 개선하여 요구되는 검체 최소량을 줄이고, 전체 엑손 영역을 고르게 검출할 수 있다는 점을 부각시킨 제품들로 출시가 되고 있습니다.

 

improved-reagents-methods-for-target-enrichment-in-next-generation-sequencing-5-638

 

[Reference]

Mertes, Florian, et al. “Targeted enrichment of genomic DNA regions for next-generation sequencing.” Briefings in functional genomics 10.6 (2011): 374-386.

 

마지막으로 비록 조금 오래된 영상이기는 하지만, 슬라이드 정리가 잘 된 유투브 영상이 있어 첨부합니다.

 

암유전체 분석: Driver mutation prediction tools

이전 포스팅에서 암에서 발생하는 mutation을 driverpassenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Driver vs. Passenger mutation in cancer

[유전학 중요개념 정리] Mutational signature

사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다.  Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

1
[Somatic variant 변이 판독을 위한 AMP/ASCO/CAP guideline에 따른 Tier classification]
 

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.

  1. 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
  2. Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
  3. 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)

 

이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.

I. COSMIC (https://cancer.sanger.ac.uk/cosmic)

Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.

 

II. cBioPortal (http://www.cbioportal.org/)

다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.

 

III. OncoKB (https://oncokb.org/)

Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.

 

IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)

이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.

 

V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)

가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.

 

위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.

관련 포스팅 보기>

약물유전체 정밀의료의 실현, F-CAP 프로젝트

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

[References]

Li, Marilyn M., et al. “Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists.” The Journal of molecular diagnostics 19.1 (2017): 4-23.

Genetic Testing Registry: 유전 검사 의뢰 기관 찾기

환자의 검체를 이용해서 진단용 또는 연구용으로 시행하고자 하는 유전 검사가 있는데, 시행하는 기관이나 업체가 없는 경우에는 어디에 의뢰해야할지 참으로 난감합니다. 유명하고 많이 시행하는 검사의 경우에는 경쟁 업체가 많아서 이러한 어려움이 없지만, 희귀 질환의 경우에는 찾기가 쉽지 않습니다. 그래서 추후에 저와 같은 시행 착오를 겪지 않도록, 연구자 분들께 Genetic Testing Registry (GTR)에 대해서 소개 및 정리하고자 합니다.

NCBI에서 제공하는 사이트 중에 Genetic Testing Registry (https://www.ncbi.nlm.nih.gov/gtr/) 에 가면, 관련 유전자와 검사 종류별로 해당 유전 검사를 제공하는 업체 또는 기관이 등록되어 있어 검색할 수 있습니다. 즉, 우리 나라에서 시행하지 않는 유전 검사가 있어서, 해외의 수탁 기관에라도 의뢰하고자 할 때는 해당 검사 Service를 제공하는 업체 또는 기관에 대한 정보를 얻을 수 있습니다.

gtr
GTR 홈페이지 (https://www.ncbi.nlm.nih.gov/gtr/): 해당 페이지에서 검색하고자 하는 유전자 또는 검사 방법을 검색하면, 등록된 믿을만한 검사 업체 또는 기관들이 나옵니다.

 

마지막으로 한가지 개인적인 의견을 덧붙이면, 해외에 비싼 돈으로 직접 의뢰를 하는 것이기 때문에 되도록 인증을 받은 믿을 만한 기관에 의뢰하는게 중요합니다. 해당 검사 기관이 CLIA 인증 또는 CAP 정도관리를 받고 있는지 확인하여, 인증을 받은 검사 기관에서 검사를 하는 것을 추천합니다. 미국의 대표적인 Reference Laboratory 들은 가격은 상대적으로 비싸긴 하지만, 대부분 인증을 받고, 신뢰할 만한 검사 결과를 제공합니다.

아래 페이지에는 GTR을 사용하는 방법에 대한 자세한 설명이 유튜브 영상으로 올라와 있어서 함께 올립니다.