구조 변이 annotation tool: AnnotSV

유전체 정보로 부터 임상적으로 중요한 변이를 검출하기 위해서는 NGS 시퀀싱 기기의 read 정보로부터 변이 검출까지의 파이프 라인 못지 않게, 얻어낸 수많은 변이로 부터 병인에 중요한 역할을 할 것으로 생각되는 후보 변이를 필터링하는 전략이 매우 중요하게 됩니다. 따라서 적절한 데이터 베이스로 부터 Annotation을 하는 과정은 매우 중요하게 되는데, 이번 포스팅은 다양한 변이 중에서 구조 변이 (Structural variation; SV)을 대상으로 Annotation을 할 수 있는 도구 중에 하나인 AnnotSV에 대해서 소개하고자 합니다. AnnotSV는 이전에 소개했던 Annovar의 CNV (copy number variant) 버젼에 해당한다고 볼 수 있습니다.

[관련 포스팅 보기]

AnnotSV는 다양한 구조 변이의 Annotation 기능 뿐만 아니라, ACMG (American College of Medical Genetics)에서 권장하는 구조 변이의 판독 기준에 따라서, 해당 변이의 중요도를 5가지 카테고리로 구분해줍니다. Input으로는 bed 파일 또는 vcf 파일을 받으며, 다양한 유전자, 조절 인자, 기존에 알려진 병적 변이, 질병과의 연관성 등을 기준으로 ACMG class를 보고해줍니다. 위 그림은 AnnotSV의 이러한 분석 과정을 보여주고 있습니다.

[bed 파일의 기본 구조] bed 파일은 1) 염색체 번호 (Chromosome), 2) 시작 지점 (Start), 3) 끝 지점 (End)의 3가지 기본적인 정보를 토대로 유전체 내의 특정 범위에 대한 정보를 제공해줍니다.

구조 변이 (CNV)의 경우, 적은 수의 염기 변이 (SNV)보다 short-read sequencing을 이용하는 경우, 기술적으로 검출하는 해상도의 한계가 있으며 (deletion보다 duplication 검출이 어려움. 충분한 Depth와 Supporting read가 확보되어야 하며, 이 때문에 translocation도 검출이 어려움.) 변이의 해석도 더 어려운 경우가 많습니다. 따라서, 적절한 한계점을 인지하고 적절한 분석 방법론을 적용하는 것이 중요하며, 현재도 많은 부분들이 현재 진행형으로 연구가 되고 있는 분야입니다.

다만, 최근 ACMG에서 구조 변이의 임상적 해석을 위한 Criteria를 제시해주어, 많은 부분 임상적으로 활용이 가능해진 부분이 있습니다. (아래 참고 논문: Riggs, Erin Rooney, et al. Genetics in Medicine 22.2 (2020): 245-257) 그동안 구조 변이의 해석에 여러가지 어려운 점들이 많았는데, 최근 이 쪽 분야도 많은 툴들과 방법론 들이 개발되고 있는 것 같습니다. 그런 점에서 AnnotSV는 구조 변이를 연구하고 해석하는 입장에서 매우 유용한 툴임이 분명합니다.

[References]

AnnotSV Github: https://github.com/lgmgeo/AnnotSV

AnnotSV Homepage: https://www.lbgi.fr/AnnotSV/

Geoffroy, Véronique, et al. “AnnotSV: an integrated tool for structural variations annotation.” Bioinformatics 34.20 (2018): 3572-3574.

Geoffroy, Véronique, et al. “AnnotSV and knotAnnotSV: a web server for human structural variations annotations, ranking and analysis.” Nucleic Acids Research (2021).

Riggs, Erin Rooney, et al. “Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen).” Genetics in Medicine 22.2 (2020): 245-257.

광고

제 19차 CBMC 희귀질환 센터 화상 컨퍼런스 강의 자료

제 19차 CBMC 희귀질환 센터 화상 컨퍼런스

Complex molecular alterations involving chromosome 8p uniparental disomy
: lessons and implications on clinical practice and research

일시: 2020년 11월 18일 (수), 12:40~13:20

두개골 조기 유합증 관련 연구를 하면서 발견한 재미난 케이스인데, Case report 논문이라도 작성해야지 하다가 우선순위에서 밀리면서 벌써 2년이 넘어가네요. 이 케이스를 보면서 상당히 많은 걸 공부하고 배웠는데, 마침 지난번에 불러주셨던 차병원 희귀질환 센터 컨퍼런스 발표 기회가 있어서, 해당 케이스를 슬라이드로 정리해 보았습니다.

Novel 유전자를 발견한 것은 아니지만, UPD에 대한 이해, 염색체 구조 이상, Genotype-phenotype correlation, Exome sequencing을 전반적으로 모두 아우르는,= 임상 유전학을 공부하기 매우 좋은 케이스이기에, 관련 발표 자료 공유합니다. 강의 자료가 필요하신 분들을 위해 블로그에 업로드 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

NGS 결과의 임상 적용: Genotype-phenotype correlation

SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

[유전학 중요개념 정리] Haploinsufficiency와 pLI score, Dominant Negative

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점

차세대 염기서열 분석 방법 (이하 NGS) 의 개발은 다양한 원리를 토대로 동시에 엄청난 양의 유전체를 시퀀싱할 수 있는 방법들을 제시하였는데, 각자 개발한 방법들을 토대로 설립된 회사들과 시장의 변화는 마치 삼국지를 보는 것과 같았습니다. 5~6년전만 하더라도 군웅할거의 절대 지존이 없는 상황에서, 마치 조조가 천하를 통일하듯 현재는 Flow cell 기반의 IlluminaShort Read Sequencing 방법이 거의 시장을 독식한 상황입니다. 이중 Minor 한 portion은 중국의 카피캣 MGI가 저렴한 가격을 무기로 치고 올라오고 있으며, 조금 다른 영역에서 PacBiOLong Read Sequencing과 편의성과 소형화에 중점을 둔 Oxford Nanopore가 존재하고 있습니다. 그런 의미에서 오늘은 PacBiO의 Long Read Sequenicng 방법의 원리와 장, 단점에 대해서 정리해 보고자 합니다.

관련 포스팅 보기>

[참석 후기] Human Genome Meeting 2019

 

RS2

위의 그림은 Sequell II 장비의 모습을 보여주고 있습니다. (네, 무식하게 큽니다.. 냉장고 크기 정도 됩니다.) 3년전에 UCL의 HLA informatics group에 연수를 갔을때 버젼 1을 봤었는데, 최근에 버젼 2가 나와서 8배 더 빨라졌다며 광고를 하고 있네요..

 

SMRT seq

위 그림은 SMRT 시퀀싱의 원리를 보여주고 있습니다. DNA를 긴 read로 미리 준비해서 adaptor를 붙여서 Circle의 형태로 만들어준 후에, 실제로 시퀀싱을 읽어들이는 ZMW (Zero-mode waveguide)에서 반복적으로 시퀀스를 읽어들이게 됩니다. 매우 작은 하나의 ZMW는 하나의 시퀀스 리더로 작용하고, 무수히 많은 ZMW가 모여서 하나의 SMRT cell을 구성하게 됩니다. 각각의 ZMW에서는 4가지 염기서열에 따라서 서로 다른 신호를 주기 때문에 시퀀스를 구분할 수 있으며, 원형으로 계속 돌면서 반복적으로 읽어들이기 때문에 (adaptor 시퀀스는 일종의 표식으로 작용) 시퀀스 에러를 줄이는 장점이 있다고 광고하고 있습니다. 아래는 이해를 위한 유튜브 영상을 첨부합니다.

 

비록 현재의 시퀀싱 시장은 높은 정확도와 가성비를 장점으로 하는 Short Read 시퀀싱이 대부분을 차지하고 있지만, 정확한 Human Genome Reference 수립을 위한 De novo assembly를 하기위해서는 Long Read 시퀀싱은 필수로 이용되고 있으며, 기타 Short Read 기반의 많은 단점들이 존재하는 영역에서는 여전히 Long Read 만의 장점이 있기 때문에 장,단점이 있는 이용 분야를 잘 이해하는 것이 중요하다고 할 수 있습니다. Short ReadDepth가 높아서 Error rate가 낮다는 점과 같은 Read를 읽을 때 가격적으로 훨씬 저렴하다는 점이 임상적으로 활용하는데 있어서는 아직 우세를 보이는 주요한 이유가 됩니다.

아래 표는 Short Read의 단점과 Long Read가 활약할 수 있는 분야를 정리한 표입니다. 반복 서열이 많거나, Polymorphism이 많이 존재하는 영역, GC 비율이 높아서 시퀀싱이 어려운 영역 (HLA 영역 또는 PKD 유전자 등), 구조 변이 검출 등에서는 Long Read 시퀀싱이 훨씬 우수한 성능을 보여주고 있으며, 가격적인 부분만 점점 낮아진다면, 추후에는 Long Read로 대세가 기울지 않을까 감히 예상해봅니다.

RS2_00000.jpg

 

[References]

PacBiO SMRT sequencing

Pollard, Martin O., et al. “Long reads: their purpose and place.” Human molecular genetics 27.R2 (2018): R234-R241.

SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

[유전학 중요개념 정리] Complex DNA rearrangement: Chromothripsis, Chromoanasynthesis, and Chromoplexy

이번 포스팅은 genomic DNA가 다양한 구조적 변이 (Structural variation)를 발생시키는 메커니즘 중 최근에 Cancer genetics 연구를 통해 중요하게 다뤄지게 된 Chromothripsis, Chromoanasynthesis, 그리고 Chromoplexy에 대해서 정리해보고자 합니다.

최근에 유전적 다양성을 설명하는 방법으로 Copy number variation (CNV)에 대해서도 많은 연구가 되고 있는데, 특히 암세포를 다양한 유전적 연구 툴을 이용하여 연구한 결과 많은 구조적 변이들이 획득되는 것을 알게 되었습니다. 연구자들은 이러한 구조적 변이 (complex DNA arrangement)가 어떠한 메커니즘에 대해서 발생하는지에 대해 관심을 갖게 되었고, 암세포에서 특히 많이 나타나는 다양하고 복잡한 구조적 이상이 획득되는 메커니즘으로 제안된 것이 오늘 다루고자 하는 위의 3가지 기전입니다.

관련 포스팅 보기 > [유전학 중요개념 정리] Structural variation 및 Copy-number variation

먼저 Terminology가 생소하여, 단어의 의미부터 정리하고 넘어가겠습니다.

Figure1

Chromo- (Chromosome) + -thripsis (shattered into pieces): 염색체가 여러 단편으로 쪼개지다.

Chromo- (Chromosome) + -anasynthesis (reconstitution, resynthesis): 염색체가 추가적으로 다시 구성되다.

Chromo- (Chromosome) + -plexy (crippling or serious occurrence): 염색체의 손상으로 인한 심각한 재배열, 주로 chain of translocation과 부수적인 deletion으로 구성됨.

Figure2
[그림1] 복잡한 DNA 재배열의 세 가지 제안된 메커니즘

Chromothripsis한번의 갑작스러운 DNA 손상에 의해, DNA가 여러 단편으로 쪼개지고 이것이 복구 과정을 통해서 다시 합쳐질 때의 오류로 인해 일부가 소실 (deletion) 되거나 방향이 뒤바뀌는 (inversion) 과정을 말합니다. 따라서 주로 복잡한 DNA 재배열 과정 중에서도 Copy number의 loss를 설명하는 주요 메커니즘입니다. 반대로 Copy number의 gainChromoanasynthesis로 설명하는데, 염색체 합성 과정 중 재배열된 template에 의해 합성이 되면서, Copy number의 다양한 획득이 나타나게 됩니다. 마지막으로 Chromoplexy는 주로 염색체간의 translocation 과정이 일련의 chain으로 나타나면서 발생하고, 일련의 과정에서 일부 deletion이 수반되기도 합니다.

Figure3
[그림 2] Micronuclei의 형성과 complex DNA rearrangement의 발생

위와 같은 구조적 이상을 일으키는 원인은 주로 Micronuclei의 발생으로 설명하고 있습니다. 세포 분열 과정 중에서 제대로 분열이 되지 않으면서 생성된 소핵체가 세포 내에 존재하였다가, DNA 복제 과정에 영향을 미쳐 위와 같은 구조적 이상을 일으키는데 관여한다는 설명입니다.

 

[References]

Zhang, Cheng-Zhong, Mitchell L. Leibowitz, and David Pellman. “Chromothripsis and beyond: rapid genome evolution from complex chromosomal rearrangements.” Genes & development 27.23 (2013): 2513-2530.

Shen, Michael M. “Chromoplexy: a new category of complex rearrangements in the cancer genome.” Cancer Cell 23.5 (2013): 567-569.

Leibowitz, Mitchell L., Cheng-Zhong Zhang, and David Pellman. “Chromothripsis: a new mechanism for rapid karyotype evolution.” Annual review of genetics 49 (2015): 183-211.

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

최근에 논문 작업때문에 블로그를 좀 소홀히 했는데, 어느새 방문자 수가 10,000명을 넘었네요. 그래도 제 블로그를 찾는 분들이 계신 것 같아, 최근에 공부했던 Copy neutral loss of heterozygosity (CN-LOH)에 대해 정리하는 포스팅을 남깁니다.

우선 단어의 의미를 살펴보면, CN-LOH는 앞선 포스팅에서 언급한 UPD와 의미가 동일합니다. 다만, UPD의 경우는 주로 선천적인 질환에서 세포 분열의 문제에서 일어난 상태를 나타낸다면, CN-LOH는 주로 후천적으로 획득된 상태를 가리킬 때 사용합니다. 따라서 주로 Cancer Genetics에서 연구가 많이 되어 있습니다.

관련 포스팅 > [유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

Copy neutral (복제수에 변화가 없는) + loss of heterozygosity (이형접합성을 잃은 상태)

즉, CN-LOH는 양쪽의 상동 염색체의 유전적 구성을 완전히 동일하게 만들어, 유전적 다양성을 감소시키고 이로 인해서, 상동염색체 간의 상호 보완적인 역활을 소실시킴으로써 질병 발생의 메커니즘으로 작용할 수가 있습니다.

이러한 CN-LOH는 과거의 검사 방법으로는 거의 검출이 불가능하였습니다. 최근 SNP array 기술의 발달로 거의 전체 유전자 영역에서의 genotype 정보를 얻는게 가능하게 되면서, 이러한 영역을 검출하는 것이 가능하게 되었습니다.

관련 포스팅 > [유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

assay 비교
[그림 1] 검사 방법별 염색체의 구조 변화 검출 가능 정도 비교. CN-LOH의 경우는 genotyping 정보가 필요하기 때문에 SNP array와 Whole genome sequencing 방법을 통해서만 검출이 가능한 것을 알 수 있습니다.
 

아래 그림은 이러한 CN-LOH의 type을 분류하여 나타내주고 있습니다. 발생되는 위치에 따라, 또는 염색체의 개수에 따라 분류가 되고, 이러한 상태가 발생하는 원인에 따라 세포 발생 초기 단계에서의 event 또는 인종적 차이에 따른 정상적인 존재 또는 암세포 발생에 따른 증식 등 원인도 다양합니다.

CN-LOH1
[그림 2] CN-LOH 또는 UPD의 타입에 따른 분류
 

이러한 CN-LOH는 다양한 기전에 의해서 발생할 수 있는데, 주로는 아래와 같은 과정에서 형성되는 것으로 생각되고 있습니다.

CN-LOH2
[그림 3] CN-LOH의 생성 기전. (A) 세포 분열 단계에서의 재조합 (B) 염색체 일부 소실 후 복구 과정에서 인접 상동 염색체를 복제하면서 발생
CN-LOH3
[그림 4] CN-LOH에 의한 질병 발생 메커니즘
CN-LOH이 발생할 경우, 만약 해당 영역에 위치한 유전자의 한쌍이 정상이고 한쌍이 병적 변이를 포함하는 경우였다면 원래는 정상 보인자로 존재해야할 사람이, 병적 변이를 포함한 부분이 복제되어 CN-LOH가 된다면 질병을 일으킬 수 있습니다. 또한 Genomic imprinting이라고 하는 기전을 통해 실제 발현이 되거나 억제되는 영역이 한쪽에만 존재하게 되는데, 이부분이 양쪽에 존재하게 되면, 유전자의 발현이 완전히 억제되거나 증폭되는 효과를 일으켜 역시 질병을 나타낼 수 있습니다. (그림 4. 노란색 영역)

관련 내용이 아주 많지만, 주요 Reference만 정리하고 오늘 포스팅은 여기까지하고 마치도록 하겠습니다.

 

[References]

O’Keefe, Christine, Michael A. McDevitt, and Jaroslaw P. Maciejewski. “Copy neutral loss of heterozygosity: a novel chromosomal lesion in myeloid malignancies.” Blood 2010; 115(14) : 2731–2739.

Conlin, Laura K., et al. “Mechanisms of mosaicism, chimerism and uniparental disomy identified by single nucleotide polymorphism array analysis.” Human molecular genetics 2010; 19(7) : 1263-1275.

NGS 데이터를 이용한 CNV 분석

Copy Number Variation (CNV)는 Single Nucleotide Variation (SNV)과 더불어, 유전적 다양성을 나타내는 주요한 원인으로 생각되고 있습니다. 유전자 sequence의 염기 하나가 치환된 SNV와 달리 CNV는 유전자 전체 또는 일부의 copy가 중복되거나 줄어들수도 있기 때문에 훨씬 넓은 영역에서 나타나는 Structural variation의 일종입니다.

관련 포스팅 보기 -> 유전학 중요개념 정리: Structural variation 및 Copy-number variation

일반적으로 NGS는 SNV를 보기 위한 목적으로 검사를 시행하지만, 해당 데이터를 활용하면 CNV 분석도 할 수 있기 때문에, 오늘은 NGS 데이터를 활용한 CNV 분석 방법에 대해 포스팅하고자 합니다.

NGS CNV
[그림1. NGS 데이터를 이용하여 CNV를 검출하는 원리] CNV 검출을 위해서는 mapping 되는 read 간의 정보, 그리고 각 영역에 mapping된 read의 depth 정보를 활용하게 됩니다.

위의 그림은 CNV 분석을 위한 NGS 데이터의 5가지 활용 원리를 나타내주고 있습니다. 그러나 가장 핵심이 되는 원리는 Read depth입니다. Target sequencing과 같이 Read depth가 충분한 경우에, 다른 검체들에 비해 해당 영역의 depth가 월등히 떨어지거나, 또는 월등히 높은 경우에는 해당 영역의 deletion 또는 duplication을 의심할 수 있습니다.

target_coverage_nd_FGFR2_4
[그림2. FGFR2 유전자의 Coverage (위) 및 Reference의 depth로 normalized한 depth (아래)를 나타내는 도표] 다른 검체들보다 Normalized depth가 월등히 높은 검체 (P27)는 해당 영역의 duplication, 월등히 낮은 검체 (P33)는 해당 영역의 deletion이 존재하는 것으로 의심할 수 있다.

사실 NGS 데이터는 CNV를 목적으로 한 것이 아니라, SNV 검출 목적의 데이터를 부수적으로 활용하는 것이기 때문에 많은 제한점이 있습니다. 따라서, 임상적으로 CNV 검사 목적의 NGS는 권장되지 않으며 적절한 가이드라인도 존재하지 않기 때문에 다양한 Computational tool 들이 개발되어 서로의 장점을 홍보하는 상황입니다. 다음은 다양하게 개발된 대표적인 CNV 검출 tool 들을 정리한 표입니다. 많은 경우  BAM 파일을 활용하는 것을 볼 수 있으며 대부분 R package를 제공하고 있어, 사용이 용이합니다.

NGS CNV2
[그림 3. CNV 검출을 위한 다양한 컴퓨터 툴] 어떠한 툴이 우수한가에 대해서는 명확하게 정립된 결론이 없기 때문에, 적절한 상황에 맞게 툴들을 활용하는 것이 필요합니다.
위의 표와 같이 다양한 툴들이 존재하지만, 실제로 몇가지 툴들을 사용하여 봤을 때, 결과들이 제각각이었고, 서로 일치하는 정도도 높지 않았습니다.  다양한 알고리즘을 활용함에도 불구하고, 위양성으로 보고되어 믿기 어려운 경우가 많았습니다. 가장 정확한 방법은 직접 그림 2와 같이 해당 영역의 coverage plot과 normalized depth를 보고 종합적으로 판단하는 것이었습니다. 아직까지 컴퓨터 툴들에 개선의 여지가 많음에도 불구하고, NGS 데이터를 활용하면 CNV에 대한 정보도 일부 얻을 수 있기 때문에 NGS는 더 폭넓게 활용될 것으로 전망이 됩니다.

[Reference]

Zhao, Min, et al. “Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives.” BMC bioinformatics 14.11 (2013): S1.

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

일반적으로 사람의 염색체는 부모로부터 한쌍씩 물려받아 23쌍, 총 46개를 갖게 됩니다. 이러한 염색체의 수적 이상 또는 구조적 이상이 발생하는 경우 염색체 이상에 의한 질환을 갖게 됩니다. 가장 대표적인 것이 Trisomy 21 syndrome (다운 증후군)입니다.

이러한 염색체의 이상을 가장 거시적으로 검사하는 것이 흔히 염색체 검사라고 부르는 핵형 검사 (Karyotyping) 입니다.  핵형 검사는 일반적으로 혈액 검체로부터 백혈구를 분리하여, colchicine으로 처리하고 세포 분열의 중기 (metaphase)에 분열이 멈춘 염색체들을 Giemsa와 같은 dye로 염색하여 관찰합니다. (염색체 라는 이름도 염색되는 물질이라는 의미에서 여기에서 유래하였습니다.)

compare[핵형 검사 과정] 중기 세포의 염색체를 현미경으로 찍어서, 전문가가 전부 수작업으로 분류하고 이상이 없는지를 판독해야 합니다.

핵형 검사는 보통 현미경을 통해서, 눈으로 염색체의 band를 구분하여 사람이 직접 판독하기 때문에, 살펴볼 수 있는 해상도에 한계가 있습니다. 일반적으로 잘 훈련된 전문 검사자가 검출할 수 있는 염색체의 구조적 이상은 5Mb 정도라고 알려져 있습니다. 이렇듯, 현미경을 통해 확인할 수이 있는 염색체의 구조적 이상Microscopic level structural variation 이라고 합니다. 대부분 이러한 이상을 가진 환자는 다양한 기형 및 임상 증상을 나타내게 됩니다. 물론 일부에서는 아무런 형질 이상도 나타내지 않을 수도 있습니다.

그러나 많은 경우, 다양한 임상 증후군을 보이는 환자들에서 핵형 검사를 시행하여도 대부분 정상 결과를 보이는 경우가 많습니다. 이 중 일부는 현미경으로 발견되지 않는 더 작은 부위의 염색체의 구조적 이상, 즉 Sub-microscopic structural variation인 경우가 있을 수 있습니다.

Structural variation (SV)은 유전체에서 약 1kb 이상되는 유전체의 변화를 일컫는데, 이러한 SV이 중요한 이유는 유전자의 한 부위의 핵산 변화에 의한 단일 염기 변이 (Single nucleotide variant, SNV) 보다 mutation rate이 더 빠르고, 형질 변화에 더 큰 영향을 미칠 수 있기 때문입니다. 다음은 대표적인 Structural variation의 종류를 나타내주고 있습니다.

nmeth.1858-F1

마지막으로 SV중에서도 중요한 Copy-number variation (CNV)에 대해 알아보고, 포스팅을 마치겠습니다. Microscopic- 또는 Sub-microscopic- SV의 경우는, 대부분 심한 기형이나 문제를 갖고 태어나게 되므로 정상인에서는 거의 나타나는 경우가 없습니다. 그러나 CNV의 경우는 정상인에서도 많이 갖고 있는 정상 변이를 포함하고 있습니다. 즉, SNV과 동시에 CNV는 정상인에서의 다양한 형질의 차이를 일부 설명하고 있으며, 유전적 진화와 변이의 축적에서도 중요한 역할을 차지합니다.

이러한 CNV는 유전자 단위 또는 exon 단위로 더 작은 수준에서 존재하기나기 때문에, 검출 및 진단을 위해서는 다른 도구가 필요합니다. 전통적으로는 PCR 기술을 이용한 방법, FISH probe를 이용한 방법, MLPA, array CGH 등 다양한 방법을 이용하였지만, 최근에는 NGS 기술의 발달로 NGS를 이용한 CNV 검출도 널리 시행되고 있는 상황입니다. 다음 포스팅에서는 NGS 검사를 이용한 이러한 CNV 검출에 대해서 살펴보도록 하겠습니다.