Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq

약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes

I. Haplotype, Linkage Disequilibrium

HaplotypeHaploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.

btz503f1
[Haplotype의 발생 및 구조] 우리는 부모의 염색체 쌍으로부터 각각 1개씩 감수분열 과정을 거친 재조합된 염색체를 물려받게 되며, 이러한 무수한 과정을 거친, 인종별로 다양한 패턴의 Haplotype이 존재하게 됩니다.
재미있는 것은 이러한 패턴 (haplotype block)은 생물 종과 인종에 따라서 특이적이고, 보존되어 있다는데 있습니다. 같은 블록 내의 유전형은 무리로 함께 유전되는 경향이 있기 때문에, 유전 방식은 random하게 발생하지 않으며, 이를 연관 불균형 (Linkage Disequilibrium, LD)이라고 부르게 됩니다. 따라서, 인간의 완전한 유전체 지도에 앞서, 인종에 따른 이러한 Haplotype Map을 만드는 프로젝트가 진행되었는데, 이를 ‘HapMap Project‘ 라고 합니다. 아래 그림은 이러한 HapMap Project를 통해 밝혀진, 인간의 염색체 상에서 나타나는 LD block의 패턴을 나타낸 그림입니다.

LD block

재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.

hapmap

실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.

Figure 4

II. Haplotype phasing

Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.

cis, trans

이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.

haplotype test

haplotyping

Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.


[References]

International HapMap Consortium. “A haplotype map of the human genome.” Nature 437.7063 (2005): 1299.

Wang, Jianbin, et al. “Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm.” Cell 150.2 (2012): 402-412.

Wang, Ning, et al. “Distribution of recombination crossovers and the origin of haplotype blocks: the interplay of population history, recombination, and mutation.” The American Journal of Human Genetics 71.5 (2002): 1227-1234.

Snyder, Matthew W., et al. “Haplotype-resolved genome sequencing: experimental methods and applications.” Nature Reviews Genetics 16.6 (2015): 344-358.

Xu, Peng, et al. “MRLR: unraveling high-resolution meiotic recombination by linked reads.” Bioinformatics 36.1 (2020): 10-16.

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점

차세대 염기서열 분석 방법 (이하 NGS) 의 개발은 다양한 원리를 토대로 동시에 엄청난 양의 유전체를 시퀀싱할 수 있는 방법들을 제시하였는데, 각자 개발한 방법들을 토대로 설립된 회사들과 시장의 변화는 마치 삼국지를 보는 것과 같았습니다. 5~6년전만 하더라도 군웅할거의 절대 지존이 없는 상황에서, 마치 조조가 천하를 통일하듯 현재는 Flow cell 기반의 IlluminaShort Read Sequencing 방법이 거의 시장을 독식한 상황입니다. 이중 Minor 한 portion은 중국의 카피캣 MGI가 저렴한 가격을 무기로 치고 올라오고 있으며, 조금 다른 영역에서 PacBiOLong Read Sequencing과 편의성과 소형화에 중점을 둔 Oxford Nanopore가 존재하고 있습니다. 그런 의미에서 오늘은 PacBiO의 Long Read Sequenicng 방법의 원리와 장, 단점에 대해서 정리해 보고자 합니다.

관련 포스팅 보기>

[참석 후기] Human Genome Meeting 2019

 

RS2

위의 그림은 Sequell II 장비의 모습을 보여주고 있습니다. (네, 무식하게 큽니다.. 냉장고 크기 정도 됩니다.) 3년전에 UCL의 HLA informatics group에 연수를 갔을때 버젼 1을 봤었는데, 최근에 버젼 2가 나와서 8배 더 빨라졌다며 광고를 하고 있네요..

 

SMRT seq

위 그림은 SMRT 시퀀싱의 원리를 보여주고 있습니다. DNA를 긴 read로 미리 준비해서 adaptor를 붙여서 Circle의 형태로 만들어준 후에, 실제로 시퀀싱을 읽어들이는 ZMW (Zero-mode waveguide)에서 반복적으로 시퀀스를 읽어들이게 됩니다. 매우 작은 하나의 ZMW는 하나의 시퀀스 리더로 작용하고, 무수히 많은 ZMW가 모여서 하나의 SMRT cell을 구성하게 됩니다. 각각의 ZMW에서는 4가지 염기서열에 따라서 서로 다른 신호를 주기 때문에 시퀀스를 구분할 수 있으며, 원형으로 계속 돌면서 반복적으로 읽어들이기 때문에 (adaptor 시퀀스는 일종의 표식으로 작용) 시퀀스 에러를 줄이는 장점이 있다고 광고하고 있습니다. 아래는 이해를 위한 유튜브 영상을 첨부합니다.

 

비록 현재의 시퀀싱 시장은 높은 정확도와 가성비를 장점으로 하는 Short Read 시퀀싱이 대부분을 차지하고 있지만, 정확한 Human Genome Reference 수립을 위한 De novo assembly를 하기위해서는 Long Read 시퀀싱은 필수로 이용되고 있으며, 기타 Short Read 기반의 많은 단점들이 존재하는 영역에서는 여전히 Long Read 만의 장점이 있기 때문에 장,단점이 있는 이용 분야를 잘 이해하는 것이 중요하다고 할 수 있습니다. Short ReadDepth가 높아서 Error rate가 낮다는 점과 같은 Read를 읽을 때 가격적으로 훨씬 저렴하다는 점이 임상적으로 활용하는데 있어서는 아직 우세를 보이는 주요한 이유가 됩니다.

아래 표는 Short Read의 단점과 Long Read가 활약할 수 있는 분야를 정리한 표입니다. 반복 서열이 많거나, Polymorphism이 많이 존재하는 영역, GC 비율이 높아서 시퀀싱이 어려운 영역 (HLA 영역 또는 PKD 유전자 등), 구조 변이 검출 등에서는 Long Read 시퀀싱이 훨씬 우수한 성능을 보여주고 있으며, 가격적인 부분만 점점 낮아진다면, 추후에는 Long Read로 대세가 기울지 않을까 감히 예상해봅니다.

RS2_00000.jpg

 

[References]

PacBiO SMRT sequencing

Pollard, Martin O., et al. “Long reads: their purpose and place.” Human molecular genetics 27.R2 (2018): R234-R241.

[참석 후기] Human Genome Meeting 2019

HUGO와 유전체학회 (KOGO) 공동으로 진행하는 HGM 2019 학회가 마침 바로 연구실 앞 이화여대에서 진행되어 참석하였습니다. 연구실에서 가까워서 관심이 있는 세션만 잠깐가서 들었는데, 국제 학회로 진행되었으나 그 규모가 기대한 것에 비해서 그렇게 크지는 않았습니다. 참석한 대부분의 외국인들은 가까운 아시아 국가가 많았고, 제출된 초록의 수나 부스의 규모 등도 국내 유전체 학회가 훨씬 풍성하다 싶을 정도로 국제 학회라는 규모 치고는 부족한 것이 많아 보였습니다.

hugi

PacBiO가 메인 스폰서 중 하나라서 그런지 Long Read Sequencing 장비에 대한 광고와 케이스 발표가 많았고, 특히 유전 질환 중 진단이 되지 않는 케이스 중 많은 경우 구조 변이 (Structural variation)에 의한 것이 많을 것으로 생각되는데, Short Read Sequencing에서 진단이 어려웠던 케이스를 Long Read Sequencing을 이용하여 구조 변이를 검출하고 진단한 사례는 인상적이었습니다. 역시나 비용이 가장 중요한 문제일 것으로 생각되지만, 시퀀싱 비용이 점점 떨어지면 장기적으로는 Long Read Sequencing의 시대가 되지 않을까 합니다. 그런 면에서 Illumina PacBio를 인수 합병한 것은 장기적으로는 신의 한수가 아닐까 점쳐 봅니다.

더불어 최근에 가성비를 앞서 요새 무서운 속도로 치고 올라오는 중국의 MGI 사의 공격적인 마케팅도 눈에 띄었는데, 이미 많은 부분 중국 기업들이 앞서가고 있는 것 같아서, 안타까운 마음이 듭니다. 다음 포스팅은 이번 학회에서 많이 광고했던 Long Read Sequencing의 원리와 장단점에 대해서 정리하기로 하고, 참석 후기를 마치도록 하겠습니다.