DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.
관련 포스팅 보기>
DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination
plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View
PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq
약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes
I. Haplotype, Linkage Disequilibrium
Haplotype은 Haploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.
재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.
실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.
II. Haplotype phasing
Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.
이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.
Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.