[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

De novo mutation (DNM; Of new의 라틴어 표기)은 양쪽 부모로부터 물려 받은 inherited variant와 달리, 글자 그대로 proband에서 새롭게 나타난 변이를 일컫습니다. 따라서, 환자에서 검출된 DNM은 질병의 원인일 가능성이 높습니다. 이러한 이유 때문에, 변이 판독을 위한 ACMG guideline에서도 DNM 여부를 Pathogenicity의 Strong Evidence 중 하나인 PS2 (De novo, both maternity and paternity confirmed, in a patient with the disease and no family history) criteria에 포함시키고 있습니다.

이전에 변이 판독을 위한 기초적인 포스팅에서 DNM에 대해서 간단히 언급한 적이 있는데, 이번 포스팅에서는 DNM의 발생 과정과 질병 발생에서의 의의에 대해서 Reference 논문들의 내용을 중심으로 정리해 보고자 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Germline vs. Somatic mutation

임상의를 위한 NGS 레포트 해석의 이해

NGS 결과의 임상 적용: Genotype-phenotype correlation

 

I. De novo mutation의 발생 기전

DNM은 아래와 같은 크게 3가지 과정에서 발생할 수 있습니다. 수정란이 1개의 세포로부터 Germline isolation이 일어나는 것은 10여개의 세포로 분열한 이후 입니다. 해당 과정은 매우 빠르게 일어나며, 일반 세포분열보다 2배 정도 빠르게 일어나고, 그 과정에서 mutation도 빠르게 발생합니다. 따라서, 1) 부모의 Germline이 구축되기 전, mutation이 발생 (Parental postzygotic mutation)하면 발생한 Mutation은 부모의 체내에서 Mosaicism으로 존재하게 됩니다. 이 경우, 부모에서 Mosaic로 존재하는 mutation이 아이에서 DNM처럼 검출될 수 있습니다. 2) 부모의 생식 세포 (Germline 구축 이후)에 mutation이 발생 (Germline mutation)하면, 아이에게 그대로 전달이 되며, 대부분의 DNM (~89%)은 이러한 과정으로 발생합니다. 부모의 나이가 많아질수록, 생식세포에 축적되는 mutation도 많아지기 때문에, 일반적으로 DNM의 개수도 증가하게 됩니다. 마지막으로 부모의 생식 세포에 mutation이 없더라도, 3) 아이의 수정란이 분열하는 과정에서 DNM이 발생 (Postzygotic mutation)할 수 있습니다.

DNM_Figure1

DNM_Figure2

 

II. De novo mutation의 검출 방법

DNM_technology

DNM을 검출하기 위해서는 환자 외에도 양쪽 부모의 유전체 정보를 모두 알아야합니다. (Trio-family sequencing) 따라서 비용적인 측면에서도 환자 1명을 시퀀싱할때보다 산술적으로 3배더 필요하게 됩니다. 환자와 양쪽 부모를 모두 시퀀싱 한 후에, 실제 시퀀싱 데이터에서 DNM을 call하는 것도 쉽지만은 않은데, 여러 가지 기술적인 한계와 문제가 함께 존재하게 됩니다. 현재는 이러한 한계를 극복학기 위해 short-read 기반의 시퀀싱 데이터에 다양한 algorithm을 적용하여, DNM call의 정확도를 높히는 다양한 방법론들이 개발되고 있습니다. 추후에 점점 더 정확한 시퀀싱 방법론, Long-read를 통한 haplo-type phasing이 가능하게 되면, 이 부분은 점점 개선될 것으로 생각됩니다.

 

III. De novo mutation의 해석 및 질병 발생학적 의의

DNM_Table1

위의 표는 부모로부터 물려받는 inherited variantsDNM의 특성을 비교하여 보여주고 있습니다. 일반적으로, 30억쌍의 염기 중에서 De novo로 발생하는 SNV는 44-82개 정도이고, Exon영역의 Coding variant로 존재하는 DNM은 1~2개 정도로 매우 드뭅니다. 이렇게 드물게 일어나는 과정이기 때문에, 환자에서만 존재하는 돌연변이는 양쪽 부모의 유전적 소인을 무시하면 질병 발생에 매우 중요한 역할을 할 것 (High damaging capacity)이라고 예상할 수 있습니다. 그러나 이렇게 발생하는 mutation 도 random 하게 발생하며, 실제로는 부모로부터 전달받는 inherited variant와 상호 작용을 알 수 없기 때문에, 그 정확한 의미를 해석하는 것은 쉽지 않습니다.

Reference의 마지막 세번째 Nature Genetics 논문은 자폐증 (Autistic spectrum disorder, ASD) 환자 군에서 DNM의 해석을 위한 통계학적 방식을 제안하고 있는데, 실제 유전자별로 무작위적으로 발생하는 mutational process와 비교하여, 질병군에서 실제로 유의미하게 더 많이 발생하는 DNM이 있는 유전자를 검출하여, 질병의 원인 유전자를 발굴하고 있습니다. 다만, 이러한 방식은 엑솜 영역에 평균 1~2개 정도 발생하는 DNM의 개수를 고려할 때, 매우 많은 수의 환자로 구성된 코호트가 필요함을 생각할 수 있습니다.

DNM_Table2

논문에서 사용된 tool은 denovolyzer (http://denovolyzer.org/) 라고 하는 R package로 개발되어, 아래 논문에 잘 설명되어 있으므로 참고하시기 바랍니다.

Ware, James S., et al. “Interpreting de novo variation in human disease using denovolyzeR.” Current protocols in human genetics 87.1 (2015): 7-25.

[References]

Goldmann, J. M., J. A. Veltman, and C. Gilissen. “De novo mutations reflect development and aging of the human germline.” Trends in Genetics (2019).

Acuna-Hidalgo, Rocio, Joris A. Veltman, and Alexander Hoischen. “New insights into the generation and role of de novo mutations in health and disease.” Genome biology 17.1 (2016): 241.

Samocha, Kaitlin E., et al. “A framework for the interpretation of de novo mutation in human disease.” Nature genetics 46.9 (2014): 944.

암유전체 분석: Driver mutation prediction tools

이전 포스팅에서 암에서 발생하는 mutation을 driverpassenger로 구분하는 개념에 대해서 언급했습니다. 이번에는 실제로 시퀀싱을 진행했을 때 검출되는 많은 변이들을 실제 암 발생의 driver와 passenger를 구분하는 방법과 다양한 툴들에 대해서 정리해 보고자합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Driver vs. Passenger mutation in cancer

[유전학 중요개념 정리] Mutational signature

사실 Somatic mutation이나 Germline mutation이나 질병 발생의 원인 유전자와 변이를 찾는 방법이라는 데에서 큰 틀의 접근 방법은 동일합니다.  Germline 변이를 판독하는 큰 틀을 제시하는 가이드라인이 ACMG guideline이라고 한다면, Cancer 변이 판독의 기준으로는 흔히 AMP/ASCO/CAP guideline의 Tier system이 사용되고 있습니다. 즉, 개별 변이들을 아래와 같이 증거 수준과 임상적 중요도 등에 따라 Tier 1~4로 구분을 하여, 중요도가 높은 변이들을 임상적으로 활용하는 것이지요. 하지만, 이 역시도 한계가 많고 구분도 모호하기 때문에, 실질적으로 검출된 변이들의 driver mutation을 예측할 수 있는 다양한 툴들이 개발되고 있습니다.

1
[Somatic variant 변이 판독을 위한 AMP/ASCO/CAP guideline에 따른 Tier classification]

NGS를 시행하게 되면, 다양한 변이들이 쏟아져 나오게 됩니다. 이때 해당 변이의 판독은 크게 아래와 같은 접근법을 이용하게 됩니다.

  1. 기존의 암에서 자주 보고된 알려진 변이인가? Database에 이미 널리 알려진 변이 (매우 소수)
  2. Database에 등록 되어 있지는 않지만, 정상 인구 집단에서는 관찰되지 않는 매우 드문 변이인가? (Population genetics 관점에서 allele frequency)
  3. 여러가지 in-silico prediction tool이 해당 변이의 deleterious effect를 예측하고 있고, 해당 변이가 단백질의 매우 중요한 3차원적 위치에 있는 경우 (Mutational hot-spot, Functional genetics 관점에서 protein의 기능 및 domain)

 

이러한 접근법에 근거하여 다양한 tool들이 개발되고 있으며, 대표적으로 널리 쓰이는 몇가지 tool들을 소개하며, 이번 포스팅은 마치고자 합니다. NGS 검사를 통해 검출된 변이에 아래의 DB에서 제공하는 다양한 정보를 annotation하고, 이에 근거하여 driver mutation을 예측하게 됩니다.

I. COSMIC (https://cancer.sanger.ac.uk/cosmic)

Wellcome Sanger Institute에서 제공하고 있는 암 유전체 관련 DB입니다. 보통 개별 변이마다 DB에 등록되면서 COSMIC ID가 부여되는데, 가장 방대한 DB를 구축하고 있어서 새로운 변이들을 확인할 때 가장 먼저 살펴보게 되는 DB입니다.

 

II. cBioPortal (http://www.cbioportal.org/)

다양한 암종과 TCGA cancer genome 데이터를 기반으로 하여, 보고된 다양한 mutation에 대한 정보들을 제공하고 있습니다. 대표적이고 유명한 paper들에 사용된 cancer genome DB를 포함하고 있고, 실제 유전자들의 functional domain과 hot-spot 정보들을 함께 제공하고 있어서 유용하게 이용할 수 있는 DB입니다.

 

III. OncoKB (https://oncokb.org/)

Memorial Sloan Kattering Cancer Center에서 구축한 DB로 조금 더 임상적으로 중요한 변이들이 명확하게 curation 되어 있습니다. 임상적으로 중요하고 근거 수준이 명확한 변이들을 Level에 따라서 잘 정리한 장점이 있으나, 변이 데이터는 상대적으로 조금 빈약한 편입니다.

 

IV. Cancer Genome Interpreter (https://www.cancergenomeinterpreter.org)

이미 구축된 다양한 DB와 기존 논문 보고 데이터들을 통합하여, 변이들의 driver mutation 여부를 종합적으로 잘 판독해주는 툴로 유용하게 사용할 수 있습니다. 다만, 프로그램이 공개되어 있지 않고 서버에 직접 본인의 데이터를 업로드하여야 하고 한번에 업로드할 수 있는 변이의 수가 5,000개로 제한되어 있는 점은 단점이라고 할 수 있습니다.

 

V. MutaGene (https://www.ncbi.nlm.nih.gov/research/mutagene/)

가장 최근에 개발된 tool로 Python package도 제공되어 있어, 따로 서버에 자료를 올리지 않고 설치해서 바로 사용할 수 있는 장점이 있습니다. Driver mutation 예측 외에도 Mutational signature 분석도 함께 할 수 있어서, 유용한 정보를 제공하고 있습니다.

 

위의 내용을 살펴보면, 아직까지 완벽한 변이 판독 방법은 없구나 하는 것을 느끼게 됩니다. 사실 이전에 약물 유전자와 관련된 연구에 대해 포스팅 했었는데, 비슷한 연구가 암 관련 유전자에 대해서도 함께 진행 중입니다. 따라서 최근의 연구 추세는 다양한 변이의 임상적 판독을 위한 충분한 정보를 제공할 수 있는 대용량 변이 판독 방법에 집중되고 있으며, Functional genomics 분야의 큰 부분을 차지하며 연구비가 몰리고 있는 상황입니다.

관련 포스팅 보기>

약물유전체 정밀의료의 실현, F-CAP 프로젝트

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

[References]

Li, Marilyn M., et al. “Standards and guidelines for the interpretation and reporting of sequence variants in cancer: a joint consensus recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists.” The Journal of molecular diagnostics 19.1 (2017): 4-23.

[유전학 중요개념 정리] Mutational signature

암 발생의 대부분은 Somatic mutation으로 생각하고 있습니다. 사람이 살아가면서 다양한 주변 환경에 노출되고 이로 인해 DNA 손상을 받게되면서, 돌연변이가 축적이 되고 어느 한계를 넘어서는 순간 암세포로 자라나게 된다는 개념이지요. 이러한 암유전체 분야에서는 다양한 암종에서 어떤한 돌연변이가 발생하는지에 대한 Mutational signature 연구가 많이 되어 있는데, 2013년에 Nature에 관련 논문이 실린 이후 암 유전체 분야에서 Mutational signature 연구는 거의 필수로 요구되는 분위기인 듯 합니다.

여기서 Mutational signature특정 암종에서 발생하는 돌연변이의 종류에는 특정 패턴이 존재한다는 개념입니다. 구체적으로 돌연변이의 발생 원인 (mutagen exposure)에 노출된 후, 이러한 특정 DNA 손상 기전에 의해 아래와 같은 패턴(Mutational signature)이 나타나고, 결과적으로 암종으로 발생한다는 개념인 것이죠.

nature12477-f2
[Mutational Signature] 암종별로 발생하는 염기 치환 돌연변이들을 특징별로 다양한 패턴으로 나타낸 그림입니다.

이러한 연구는 아래 Science에 실린 논문과 같이 흡연에 의한 특정 암 발생의 위험도가 증가하는 것을 설명하는 많은 근거를 제공해줍니다. 즉, DNA 손상이 어떠한 기전에 의해서 발생했는지에 대한 흔적을 통해서, 암 발생의 원인과 기전에 대한 유추를 가능하게 합니다. 따라서 최근의 대부분의 암유전체 분석 논문에서는 거의 필수적으로 해당 분석 결과를 제시하는 추세입니다.

Picture1
[Mutational signature 활용 예] 흡연에 의한 대표적인 돌연변이 발생 패턴과 이를 통해, 관련 암종들의 발생 위험도가 증가함을 설명해준 논문의 Figure 입니다.

이러한 Mutational signature에 대한 정보는 아래의 Sanger Institute에서 제공하는 COSMIC 웹 사이트에서 더 자세하게 나와 있습니다.

COSMIC 웹사이트 방문하기: Signatures of Mutational Processes in Human Cancer

다음 포스팅에서는 이러한 Mutational signature 분석과 관련된 R package와 코드에 대해서 정리하기로 하고, 이번 포스팅은 여기에서 마치도록 하겠습니다.

 


[Reference]

Alexandrov, Ludmil B., et al. “Signatures of mutational processes in human cancer.” Nature 500.7463 (2013): 415.

Alexandrov, Ludmil B., et al. “Mutational signatures associated with tobacco smoking in human cancer.” Science 354.6312 (2016): 618-622.

 

암유전체 분석: Waterfall plot

최근에 종양 내과에 계신 선배와 함께 담관암 (Biliary tract cancer) 환자들의 암유전체 (Cancer Genomics) 관련 NGS 분석을 시작했습니다. 확실히 작년부터 다양한 질환과 환자들의 다양한 유전체 데이터를 접하다보니, 데이터셋의 특성에 따라서 분석 및 접근 방법이 많이 다른 것을 느낍니다. 사실 그동안 저는 주로 Germline variant 분석을 했었는데, Somatic variant 가 더 중요한 암 환자들을 분석하기 위해서는 추가로 더 공부하고 알아야 할 내용들이 많은 것 같습니다. 특히 암과 같은 경우는 선천적으로 가지고 있는 Germline variant와 살면서 축적된 Somatic mutation을 종합적으로 함께 고려해야하기 때문에, 더 복잡한 측면이 있는 것 같습니다.

관련 포스팅 보기 > [유전학 중요개념 정리] Germline vs. Somatic mutation

오늘은 암유전체 분석 관련 논문들의 Figure 1을 차지하는 Waterfall plot을 만드는 법을 잘 소개하고 있는 페이지가 있어 관련 내용을 스크랩 합니다.

다운로드

Waterfall plot: 환자군에서 나타나는 Mutation을 유전자별로 나타내어, 전체 암 유전체의 특성을 잘 나타내주는 plot으로 마치 폭포가 떨어지는 모양과 비슷한데서 그 이름의 유래가 있습니다.

관련 설명 링크 가기:

Waterfall plot: introduction

Introduction to waterfall plots (Griffith Lab)

 

이제 연구자들에게 Bioconductor와 R과 같은 프로그램은 필수죠. 다행히 저와 같은 코드를 잘 모르는 사람을 위해서 R package가 잘 만들어져 있습니다. 위 페이지에서 소개하는 필수 코드를 약간 정리하여 올립니다.


library(GenVisR)
setwd("c:/BTC_R/sample")

# Load data file
mutationData <- read.csv("BKM120_mutationdata.csv")
clinicalData <- read.csv("BKM120_clinical.csv")
mutationBurden <- read.csv("BKM120_mutationburden.csv")

# Reformat the mutation data for waterfall()
mutationData <- mutationData[,c("patient", "gene.name", "trv.type", "amino.acid.change")]
colnames(mutationData) <- c("sample", "gene", "variant_class", "amino.acid.change")

# Create a vector to save mutation priority order for plotting
mutation_priority <- as.character(unique(mutationData$variant_class))

# Create an initial plot
waterfall(mutationData, fileType = "Custom", variant_class_order=mutation_priority)

# Define a mutation hierarchy
mutationHierarchy <- c("nonsense", "frame_shift_del", "frame_shift_ins", "in_frame_del", "splice_site_del", "splice_site", "missense", "splice_region", "rna")

# define colours for all mutations
mutationColours <- c("nonsense"='#4f00A8', "frame_shift_del"='#A80100', "frame_shift_ins"='#CF5A59', "in_frame_del"='#ff9b34', "splice_site_del"='#750054', "splice_site"='#A80079', "missense"='#009933', "splice_region"='#ca66ae', "rna"='#888811')

# Find which samples are not in the mutationBurden data frame
# First, let's look at the sample names in the mutationData and mutationBurden
mutationData$sample
mutationBurden$sample

# Now, determine the non-overlap between these values
sampleVec <- unique(mutationData$sample)
sampleVec[!sampleVec %in% mutationBurden$sample]

# Fix mutationBurden to match mutationData
mutationBurden$sample <- gsub("^WU(0)+", "", mutationBurden$sample)

# Check for non-overlap again
sampleVec[!sampleVec %in% mutationBurden$sample]
# reformat clinical data to long format
library(reshape2)
clinicalData_2 <- clinicalData[,c(1,2,3,5)]
colnames(clinicalData_2) <- c("sample", "Months on Study", "Best Response", "Treatment Setting")
clinicalData_2 <- melt(data=clinicalData_2, id.vars=c("sample"))

# find which samples are not in the mutationBurden data frame
sampleVec <- unique(mutationData$sample)
sampleVec[!sampleVec %in% clinicalData$sample]

# fix mutationBurden to match mutationData
clinicalData_2$sample <- gsub("^WU(0)+", "", clinicalData_2$sample)

# create the waterfall plot
waterfall(mutationData, fileType = "Custom", variant_class_order=mutationHierarchy, mainPalette=mutationColours, mutBurden=mutationBurden, clinData=clinicalData_2, clinLegCol=3, clinVarCol=c('0-6'='#ccbadc', '6.1-12'='#9975b9', '12.1+'='#663096', 'Partial Response'='#c2ed67', 'Progressive Disease'='#E63A27', 'Stable Disease'='#e69127', '1'='#90ddee', '2'='#649aa6', '3+'='#486e77'), clinVarOrder=c('1', '2', '3+', 'Partial Response', 'Stable Disease', 'Progressive Disease', '0-6', '6.1-12', '12.1+'), section_heights=c(1, 5, 1), mainLabelCol="amino.acid.change", mainLabelSize = 3)
# Create a sample ordering
sample_ordering <- c("19", "5", "31", "22", "12", "2", "32", "8", "28", "18", "4", "24", "23", "17", "11", "14")

# Create a gene ordering
gene_ordering <- c("CDH1", "MALAT1", "RUNX1", "NCOR1", "GATA3", "FOXA1", "ESR1", "CBFB", "TBX3", "TAB1", "MED12", "XBP1", "TP53", "RB1CC1", "BRCA2", "ATM", "SMARCD1", "MLL3", "MLL2", "ARID1A", "FBXW7", "CAV1", "MAP3K1", "MAP2K4", "NOTCH4", "PDGFRA", "ERBB3", "ERBB2", "RELN", "MAGI3", "MTOR", "AKT2", "AKT1", "PTEN", "PIK3CA")

# Create a gene ordering
waterfall(mutationData, fileType = "Custom", variant_class_order=mutationHierarchy, mainPalette=mutationColours, mutBurden=mutationBurden, clinData=clinicalData_2, clinLegCol=3, clinVarCol=c('0-6'='#ccbadc', '6.1-12'='#9975b9', '12.1+'='#663096', 'Partial Response'='#c2ed67', 'Progressive Disease'='#E63A27', 'Stable Disease'='#e69127', '1'='#90ddee', '2'='#649aa6', '3+'='#486e77'), clinVarOrder=c('1', '2', '3+', 'Partial Response', 'Stable Disease', 'Progressive Disease', '0-6', '6.1-12', '12.1+'), section_heights=c(1, 5, 1), mainLabelCol="amino.acid.change", mainLabelSize=3, sampOrder=sample_ordering, geneOrder=gene_ordering)

 

GenVisR Bioconductor 페이지 바로가기

 

[Reference]

Skidmore, Zachary L., et al. “GenVisR: genomic visualizations in R.” Bioinformatics 32.19 (2016): 3012-3014.

[유전학 중요개념 정리] Germline vs. Somatic mutation

가끔 주위 선생님들과 NGS 검사를 통해 발견된 변이에 대해서 이야기를 할 때, Germ-lineSomatic mutation, 두 가지 개념의 차이를 잘 모르는 경우를 종종 보아와서, 이번 포스팅에서는 Germline mutation (생식 세포 돌연변이)Somatic mutation (체세포 돌연변이)의 개념과 임상적 중요성에 대해서 정리하려고 합니다. 생식 세포 돌연변이와 체세포 돌연변이는 크게 2가지 개념에서 구분할 수 있습니다.

somatic-vs-germline_med

  1. Inheritance: 부모로부터 물려받은 변이인가? 살아가면서 새로 발생하고 축적된 돌연변이 인가?
  2. Mosaicism: 개체의 모든 세포들이 공유하는 변이인가? 특정 세포에만 발생된 변이인가?

우리의 몸은 처음에는 하나의 세포에서 기원했지만, 장기나 조직 별로 각 세포를 구성하고 발현하는 유전체는 동일하지 않습니다. 임상적인 관점에서 위의 2가지 구분은 대상 질환의 검사 방법 및 분석 방법에도 차이를 발생시킵니다. 가령, 부모로 부터 물려받은 유전 질환에 대해서 검사하고 싶다면 Germ-line mutation을 target으로 해야하고, 어떤 암 환자 조직에서 발생한 mutation을 검사하고 싶다면 Somatic mutation을 target으로 해야 합니다. (물론 Cancer의 경우에도 생식세포에서 발생하는 Germ-line mutation이 중요한 Hereditary cancer syndrome의 경우도 있긴 합니다만, 대부분의 일반 장기에서 발생하는 경우 Somatic mutation이 주요 원인입니다.)

특히 암의 경우에는 조직을 구성하는 세포들이 정상 세포와 암세포간에 Mosaicism을 이루고, 같은 암세포라 하더라도 가지고 있는 돌연변이들이 모두 다릅니다. 이를 Tumor Heterogeneity (종양 이질성) 라고 부릅니다.

Screen-Shot-2016-11-11-at-17.27.01
같은 종양 조직 안에서도 무수히 많은 종양세포 군집이 뒤섞여 있습니다. 이를 Tumor Heterogeneity라고 부릅니다.

그렇다면, 위의 구분이 검사에서 왜 중요할까요? NGS 검사를 통해서, 암의 원인이 되는 변이를 찾고자 한다고 가정해보겠습니다. 그리고 암 환자의 조직을 수술을 통해서 검사를 보냈다고 가정해 봅시다. 보통은 조직에서 DNA를 추출하고, DNA 절편을 만들어서 NGS 검사를 진행합니다. 그리고 기기에서는 각 절편을 기준이 되는 Reference Genome에 Assembly를 구성해서, 환자의 Sequence를 읽게 됩니다.

이때 Depth of Coverage라는 개념이 있게 되는데, 어느 한 지역을 얼마나 많은 절편으로 읽었는가? 하는 개념이 됩니다. 즉, Depth가 깊을수록, 그 지역의 누클레오타이드는 더 확실하고 명확하게 됩니다. 그런데 간혹 기기에서 시퀀싱 에러가 발생하는 경우도 있게 됩니다. 만약 한번의 시퀀싱 에러가 발생했는데, 그 부위의 depth가 2라면, Error rate는 50%가 되지만, depth가 200이라면 Error rate는 0.5%가 됩니다. 그런데 암세포의 변이를 찾는 검사에서 돌연변이가 전체 조직 세포의 5%에만 존재한다고 생각해 봅시다. 이 변이를 검출하기 위해서는 적어도 depth가 20은 되어야 1개의 변이가 나타날 것입니다. 그런데 depth가 20일때, 이러한 변이가 검출되었다면 이것이 에러인지 진짜인지 어떻게 알 수 있을까요? 그래서 Somatic mutation을 검출하는 검사는 일반적으로 더 높은 Read Depth를 요구합니다. (이를 위해 Deep sequencing이 요구되며, 일반적으로 500~1,000X 이상으로 읽게 됩니다. 임상적으로 Germline 이 target인 경우는 더 적은 depth로도 충분하게 됩니다.)

F2.large
NGS 검사의 특성상 위치별로 Coverage 및 Depth가 다르게 되며, 이는 SNP 검사 결과의 신뢰도와 error rate 등에 영향을 주게 됩니다.

반대로 Germ-line mutation을 target으로 변이를 검출하려고 한다고 생각해봅시다. 그런데 어느 부위에서 A가 10번, T가 90번 읽혔습니다. 그러면 이 변이는 Somatic mutation 또는 시퀀싱 에러의 가능성이 매우 높기 때문에 분석에서 제외하는게 좋습니다. 왜냐하면 Germ-line은 부모로 부터 물려받았기 때문에 Homozygete 또는 Heterozygote의 2가지 경우만 있을 것이고, SNP을 읽었을 때 50:50으로 읽히거나 (Heterozygote), 100%로 동일하게 (Homozygote) 읽혀야 하기 때문입니다. 이렇듯 위의 두가지 개념을 구분하는 것은, NGS 검사를 통해 해석할 때 매우 중요합니다.

 


[References]

Rizzo, Jason M., and Michael J. Buck. “Key principles and clinical applications of” next-generation” DNA sequencing.” Cancer prevention research (2012): canprevres-0432.