Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq

약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes

I. Haplotype, Linkage Disequilibrium

HaplotypeHaploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.

btz503f1
[Haplotype의 발생 및 구조] 우리는 부모의 염색체 쌍으로부터 각각 1개씩 감수분열 과정을 거친 재조합된 염색체를 물려받게 되며, 이러한 무수한 과정을 거친, 인종별로 다양한 패턴의 Haplotype이 존재하게 됩니다.
재미있는 것은 이러한 패턴 (haplotype block)은 생물 종과 인종에 따라서 특이적이고, 보존되어 있다는데 있습니다. 같은 블록 내의 유전형은 무리로 함께 유전되는 경향이 있기 때문에, 유전 방식은 random하게 발생하지 않으며, 이를 연관 불균형 (Linkage Disequilibrium, LD)이라고 부르게 됩니다. 따라서, 인간의 완전한 유전체 지도에 앞서, 인종에 따른 이러한 Haplotype Map을 만드는 프로젝트가 진행되었는데, 이를 ‘HapMap Project‘ 라고 합니다. 아래 그림은 이러한 HapMap Project를 통해 밝혀진, 인간의 염색체 상에서 나타나는 LD block의 패턴을 나타낸 그림입니다.

LD block

재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.

hapmap

실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.

Figure 4

II. Haplotype phasing

Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.

cis, trans

이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.

haplotype test

haplotyping

Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.


[References]

International HapMap Consortium. “A haplotype map of the human genome.” Nature 437.7063 (2005): 1299.

Wang, Jianbin, et al. “Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm.” Cell 150.2 (2012): 402-412.

Wang, Ning, et al. “Distribution of recombination crossovers and the origin of haplotype blocks: the interplay of population history, recombination, and mutation.” The American Journal of Human Genetics 71.5 (2002): 1227-1234.

Snyder, Matthew W., et al. “Haplotype-resolved genome sequencing: experimental methods and applications.” Nature Reviews Genetics 16.6 (2015): 344-358.

Xu, Peng, et al. “MRLR: unraveling high-resolution meiotic recombination by linked reads.” Bioinformatics 36.1 (2020): 10-16.

광고

[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

De novo mutation (DNM; Of new의 라틴어 표기)은 양쪽 부모로부터 물려 받은 inherited variant와 달리, 글자 그대로 proband에서 새롭게 나타난 변이를 일컫습니다. 따라서, 환자에서 검출된 DNM은 질병의 원인일 가능성이 높습니다. 이러한 이유 때문에, 변이 판독을 위한 ACMG guideline에서도 DNM 여부를 Pathogenicity의 Strong Evidence 중 하나인 PS2 (De novo, both maternity and paternity confirmed, in a patient with the disease and no family history) criteria에 포함시키고 있습니다.

이전에 변이 판독을 위한 기초적인 포스팅에서 DNM에 대해서 간단히 언급한 적이 있는데, 이번 포스팅에서는 DNM의 발생 과정과 질병 발생에서의 의의에 대해서 Reference 논문들의 내용을 중심으로 정리해 보고자 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Germline vs. Somatic mutation

임상의를 위한 NGS 레포트 해석의 이해

NGS 결과의 임상 적용: Genotype-phenotype correlation

 

I. De novo mutation의 발생 기전

DNM은 아래와 같은 크게 3가지 과정에서 발생할 수 있습니다. 수정란이 1개의 세포로부터 Germline isolation이 일어나는 것은 10여개의 세포로 분열한 이후 입니다. 해당 과정은 매우 빠르게 일어나며, 일반 세포분열보다 2배 정도 빠르게 일어나고, 그 과정에서 mutation도 빠르게 발생합니다. 따라서, 1) 부모의 Germline이 구축되기 전, mutation이 발생 (Parental postzygotic mutation)하면 발생한 Mutation은 부모의 체내에서 Mosaicism으로 존재하게 됩니다. 이 경우, 부모에서 Mosaic로 존재하는 mutation이 아이에서 DNM처럼 검출될 수 있습니다. 2) 부모의 생식 세포 (Germline 구축 이후)에 mutation이 발생 (Germline mutation)하면, 아이에게 그대로 전달이 되며, 대부분의 DNM (~89%)은 이러한 과정으로 발생합니다. 부모의 나이가 많아질수록, 생식세포에 축적되는 mutation도 많아지기 때문에, 일반적으로 DNM의 개수도 증가하게 됩니다. 마지막으로 부모의 생식 세포에 mutation이 없더라도, 3) 아이의 수정란이 분열하는 과정에서 DNM이 발생 (Postzygotic mutation)할 수 있습니다.

DNM_Figure1

DNM_Figure2

 

II. De novo mutation의 검출 방법

DNM_technology

DNM을 검출하기 위해서는 환자 외에도 양쪽 부모의 유전체 정보를 모두 알아야합니다. (Trio-family sequencing) 따라서 비용적인 측면에서도 환자 1명을 시퀀싱할때보다 산술적으로 3배더 필요하게 됩니다. 환자와 양쪽 부모를 모두 시퀀싱 한 후에, 실제 시퀀싱 데이터에서 DNM을 call하는 것도 쉽지만은 않은데, 여러 가지 기술적인 한계와 문제가 함께 존재하게 됩니다. 현재는 이러한 한계를 극복학기 위해 short-read 기반의 시퀀싱 데이터에 다양한 algorithm을 적용하여, DNM call의 정확도를 높히는 다양한 방법론들이 개발되고 있습니다. 추후에 점점 더 정확한 시퀀싱 방법론, Long-read를 통한 haplo-type phasing이 가능하게 되면, 이 부분은 점점 개선될 것으로 생각됩니다.

 

III. De novo mutation의 해석 및 질병 발생학적 의의

DNM_Table1

위의 표는 부모로부터 물려받는 inherited variantsDNM의 특성을 비교하여 보여주고 있습니다. 일반적으로, 30억쌍의 염기 중에서 De novo로 발생하는 SNV는 44-82개 정도이고, Exon영역의 Coding variant로 존재하는 DNM은 1~2개 정도로 매우 드뭅니다. 이렇게 드물게 일어나는 과정이기 때문에, 환자에서만 존재하는 돌연변이는 양쪽 부모의 유전적 소인을 무시하면 질병 발생에 매우 중요한 역할을 할 것 (High damaging capacity)이라고 예상할 수 있습니다. 그러나 이렇게 발생하는 mutation 도 random 하게 발생하며, 실제로는 부모로부터 전달받는 inherited variant와 상호 작용을 알 수 없기 때문에, 그 정확한 의미를 해석하는 것은 쉽지 않습니다.

Reference의 마지막 세번째 Nature Genetics 논문은 자폐증 (Autistic spectrum disorder, ASD) 환자 군에서 DNM의 해석을 위한 통계학적 방식을 제안하고 있는데, 실제 유전자별로 무작위적으로 발생하는 mutational process와 비교하여, 질병군에서 실제로 유의미하게 더 많이 발생하는 DNM이 있는 유전자를 검출하여, 질병의 원인 유전자를 발굴하고 있습니다. 다만, 이러한 방식은 엑솜 영역에 평균 1~2개 정도 발생하는 DNM의 개수를 고려할 때, 매우 많은 수의 환자로 구성된 코호트가 필요함을 생각할 수 있습니다.

DNM_Table2

논문에서 사용된 tool은 denovolyzer (http://denovolyzer.org/) 라고 하는 R package로 개발되어, 아래 논문에 잘 설명되어 있으므로 참고하시기 바랍니다.

Ware, James S., et al. “Interpreting de novo variation in human disease using denovolyzeR.” Current protocols in human genetics 87.1 (2015): 7-25.

[References]

Goldmann, J. M., J. A. Veltman, and C. Gilissen. “De novo mutations reflect development and aging of the human germline.” Trends in Genetics (2019).

Acuna-Hidalgo, Rocio, Joris A. Veltman, and Alexander Hoischen. “New insights into the generation and role of de novo mutations in health and disease.” Genome biology 17.1 (2016): 241.

Samocha, Kaitlin E., et al. “A framework for the interpretation of de novo mutation in human disease.” Nature genetics 46.9 (2014): 944.

약물유전체 Annotation tool: PharmCAT

제가 있는 연구실의 주요 연구 테마는 약물 유전학인데, 저는 어쩌다 보니 운이 좋게도 암종 (Cancer), 선천성 희귀 유전 질환 (Rare Disease), 약물유전체 (Pharmacogenomics) 시퀀싱 데이터를 모두 분석할 기회가 있었습니다. 사실 이 3가지 분야는 유전체 기술을 통한 정밀 의료 실현을 위해 연구자들이 집중하고 있는 주요 카테고리인데, 공통점도 있지만 성격이 많이 다릅니다. 특히, Cancer, Rare Disease와 구분되는 Pharmacogenomics의 가장 큰 차이는 연구 집단이 환자가 아닌 정상 일반인이라는데 있습니다. 이 차이점은 Variant interpretation 접근 과정에서도 큰 차이를 보이는데, 1) 일반적으로 환자의 원인 변이를 찾을 때, Allele Frequency에 의한 variant filtering을 통해 rare variant를 찾는 것 뿐 아니라, 인구 집단에 따른 Common variant도 무시하기가 어렵고,  2) 약물 대사와 관련된 유전자의 발현은 다양한 요소에 영향을 받기 때문에, 한 두개의 유전형으로 기능을 평가한다는 것이 거의 불가능합니다.

이러한 유전체 정보를 통합적으로 활용하기 위해서, 다양한 변이에 기반한 약물 유전형을 annotation 하기 위한 도구가 개발되고 있는데, 이름하여 PharmCAT (Clinical Annotation Tool) 이라고 부르게 되었습니다. 일반적으로 시퀀싱 정보는 이전에 언급한 Annovar를 이용하여, Annotation을 진행하지만, 약물 유전학적 접근에서는 annovar의 annotation 정보로는 임상적인 활용까지 부족한 부분이 많은 것이 사실입니다. 그래서 이번 포스팅에서는 다른 유전체 정보와 구분되는 약물 유전체 정보의 특성과 PharmCAT의 개발 상황에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

약물유전체학 연구 네트워크: PGRN

CPIC Guideline: 유전체 정보를 활용한 약물 처방에 관한 임상 근거 지침

약물 유전체 연구가 어려운 이유

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

 

다양한 약물 유전자의 변이와 조합, Haplotype status

CYP2C19

발생 과정에서 핵심적인 역할을 하는 유전자는 상대적으로 변이가 적습니다. 그에 비해 약물 유전자는 주변 환경과 식이 등의 영향을 받아서, 인종과 개별에 따라서 매우 다양한 변이를 가지고 있습니다. 대표적인 예로, 96%의 사람들이 중요한 약물 유전자들인 CPIC-Level A 유전자들에 최소 1개 이상의 변이를 가진 것으로 보고되고 있습니다. 이러한 변이의 수 뿐만 아니라, 배수체 (Haplotype, Diploid n = 2) 상태에 따라, 변이가 cis- 또는 trans- 위치인지에 따라서 다양한 조합이 존재하게 됩니다. 위의 그림은 이러한 변이의 종류와 조합에 따른 CYP2C19 유전자의 약물 유전형 상태를 나타내고 있습니다. 단순히 시퀀싱 데이터를 통해서, 개인의 약물 유전형을 추정하는 것이 쉽지 않은 이유입니다. 더불어 약물 유전자들의 경우에는 Star nomenclature를 통해서, 유전형을 표시하는데 시퀀싱 데이터에서 바로 Star allele (ex> *1A, *2B, *3 등등)로 읽어 들이기가 쉽지 않습니다.

약물 유전자 변이와 유전형에 대한 Star nomenclature 정보 보기>

https://www.pharmvar.org/

 

PharmCAT Project

PharmCAT

PharmCAT은 위와 같은 어려움을 극복하여, 시퀀싱 데이터를 통해 개인별 약물 유전형을 추정하고, 최종적으로는 그에 맞는 약물 처방 가이드 라인을 제공하여, 정밀 의료를 현실화 하려고 하는 프로젝트입니다. 일반적인 Annotation 과정 외에도 Haplotype 정보를 통합한 약물 유전형 추정 및, 이를 통합한 약물 처방 가이드 라인 제공이 합쳐진 Pipeline을 구축하는 것이 목표입니다. 현재는 아직 개발 단계의 테스트 버젼만 제공하고 있으나, 곧 어느 정도의 파이프 라인이 구축되지 않을까 생각됩니다. 다만, 아직까지는 약물 유전형에 따른 충분한 임상 정보와 가이드 라인이 구축되어 있지 않아서, 약물 유전체 연구가 더 활발하게 이루어져야 진정한 의미의 정밀 의료가 실현 될 수 있지 않을까 생각됩니다.

 


[References]

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics (2019).

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics 107.1 (2020): 203-210.

Kalman, Lisa V., et al. “Pharmacogenetic allele nomenclature: international workgroup recommendations for test result reporting.” Clinical Pharmacology & Therapeutics 99.2 (2016): 172-185.


PharmCAT Web-sources:

http://pharmcat.org/

https://www.pharmgkb.org/page/pharmcat

https://github.com/PharmGKB/PharmCAT

[유전학 중요개념 정리] Haploinsufficiency와 pLI score, Dominant Negative

특정 유전자의 기능과 관련된 연구를 하다 보면, 유전 방식이 전통적인 멘델의 유전 법칙 (Mendelian trait)을 따르는 경우는 많지 않다는 걸 쉽게 발견하게 됩니다. 즉, 유전자의 기능은 교과서에서 배우는 상염색체 우성 또는 열성 (Autosomal dominant or recessive), X 염색체 연관 유전 (X-linked) 방식처럼 자로 잰듯, 딱 맞아 떨어지는 경우는 매우 제한적이고 정형화된 경우라는 것이죠. 따라서 오늘은 유전자의 기능을 설명할 때 나오는 중요한 개념인 Haploinsufficiency의 개념과 pLI score의 의미에 대해서 살펴보고자 합니다.

우선, 단어의 의미부터 짚고 넘어가겠습니다.

Haplo- : Haplo-는 흔히, Halplotype (일배체)에서 많이 들어본 단어입니다. 인간의 경우, 양쪽 부모로 부터 한쪽씩 유전체를 받아 이배체 (Diploidy, 2n)를 이룹니다. 따라서 여기서의 haplo는 두 짝의 유전체 중에 한 짝을 의미합니다.

-insufficiency: 불충분하다.

보통 Haplo-insufficiency는 유전자의 기능을 설명할 때 많이 사용되는데, 그 의미는 글자 그대로 유전자의 기능이 정상적으로 작동하기위해서는 두 쪽의 유전자 중에 한 쪽만 정상으로 가지고 있으면, 유전자 기능을 나타내기에 불충분하다는 뜻이 됩니다.

1
Dominant inheritance를 설명하는 두가지 모델인 HaploinsufficiencyDominant negative

Haploinsufficiency는 흔히 AD (autosomal dominant) 유전 방식을 설명할 때 많이 나오는 개념입니다만, AD 유전 방식을 따르는 유전자들이 항상 haploinsufficient 한 것은 아닙니다. 즉, Dominant 유전 방식을 설명할 때 하나의 모델로서 어떤 유전자가 정상 작동하기위해서는 2 copy의 유전자 모두에서 2 dose에 해당하는 product가 생성되어야 하는데, 그 dose가 줄게되면 정상적으로 기능을 나타내지 못하게 된다는 개념인 것이죠. 또 다른 모델로서 흔히 함께 나오는 것이 위 그림의 Dominant negative 모델입니다. 즉, mutant가 하나라도 나오면 그 것에 의해 기능이 영향을 받는다는 설명입니다.

 

마지막으로 pLI score의 의미와 그 해석에 대해 얘기하고 포스팅을 마치고자 합니다. pLI score에 대해서는 아래와 같이 설명이 되어 있습니다.

  • pLI: The probability of being loss-of-function intolerant (intolerant of both heterozygous and homozygous loss-of-function variants)
2
DECIPHER Genome Browser를 이용한 유전자들을 살펴보면, 유전자들이 pLI score에 따라 다르게 coloring 되어있는 것을 살펴 볼 수 있습니다. 즉, 빨간 색으로 나타난 유전자들은 변이가 발생하면 유전자의 기능을 잃는데 더 취약한 유전자들이라고 볼 수 있습니다.

DECIPHER Genome Browser 바로 가기

pLI는 위에서 언급한 유전자의 유전 양식을 예상할 수 있는 지표가 됩니다. 즉, pLI는 해당 유전자에 LOF (loss-of-function)이 발생했을 때 (=즉 기능적으로 망가졌을 때), 정상적으로 작동하지 않을 확률을 나타낸  것으로 해당 유전자가 Haploinsufficiency를 가질 확률을 대변한다고 생각하면 됩니다. 다른 말로하면 pLI score가 높은 유전자들은 one copy에라도 mutation이 발생하면 기능에 지대한 영향을 미칠 확률이 높다고 볼 수 있겠습니다.

pLI score는 모든 유전자들에 대해 PTV (Protein-truncating variant)를 살펴본 아래 reference 논문의 ExAc dataset을 바탕으로 계산되었습니다. 해당 score는 in-silico tool로 개발하여 예상 및 예측한 값이기 때문에 pLI score가 항상 맞는 것은 아니라는 점은 염두에 두어야겠습니다. 그러나, pLI score는 처음 보는 유전자의 유전 형식 또는 기능을 예상할 때 참고할 때 좋은 용도로 활용할 수 있습니다. 비슷한 개념으로 아래와 같은 score 도 존재하므로 같이 알아두면 유용합니다.

  • pRec : the probability of being intolerant of homozygous
  • pNull : the probability of being tolerant of both heterozygous and homozygous loss-of-function variants

 

[Reference]

Lek, Monkol, et al. “Analysis of protein-coding genetic variation in 60,706 humans.” Nature 536.7616 (2016): 285-291.