Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq

약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes

I. Haplotype, Linkage Disequilibrium

HaplotypeHaploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.

btz503f1
[Haplotype의 발생 및 구조] 우리는 부모의 염색체 쌍으로부터 각각 1개씩 감수분열 과정을 거친 재조합된 염색체를 물려받게 되며, 이러한 무수한 과정을 거친, 인종별로 다양한 패턴의 Haplotype이 존재하게 됩니다.
재미있는 것은 이러한 패턴 (haplotype block)은 생물 종과 인종에 따라서 특이적이고, 보존되어 있다는데 있습니다. 같은 블록 내의 유전형은 무리로 함께 유전되는 경향이 있기 때문에, 유전 방식은 random하게 발생하지 않으며, 이를 연관 불균형 (Linkage Disequilibrium, LD)이라고 부르게 됩니다. 따라서, 인간의 완전한 유전체 지도에 앞서, 인종에 따른 이러한 Haplotype Map을 만드는 프로젝트가 진행되었는데, 이를 ‘HapMap Project‘ 라고 합니다. 아래 그림은 이러한 HapMap Project를 통해 밝혀진, 인간의 염색체 상에서 나타나는 LD block의 패턴을 나타낸 그림입니다.

LD block

재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.

hapmap

실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.

Figure 4

II. Haplotype phasing

Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.

cis, trans

이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.

haplotype test

haplotyping

Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.


[References]

International HapMap Consortium. “A haplotype map of the human genome.” Nature 437.7063 (2005): 1299.

Wang, Jianbin, et al. “Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm.” Cell 150.2 (2012): 402-412.

Wang, Ning, et al. “Distribution of recombination crossovers and the origin of haplotype blocks: the interplay of population history, recombination, and mutation.” The American Journal of Human Genetics 71.5 (2002): 1227-1234.

Snyder, Matthew W., et al. “Haplotype-resolved genome sequencing: experimental methods and applications.” Nature Reviews Genetics 16.6 (2015): 344-358.

Xu, Peng, et al. “MRLR: unraveling high-resolution meiotic recombination by linked reads.” Bioinformatics 36.1 (2020): 10-16.

광고

약물유전체 Annotation tool: PharmCAT

제가 있는 연구실의 주요 연구 테마는 약물 유전학인데, 저는 어쩌다 보니 운이 좋게도 암종 (Cancer), 선천성 희귀 유전 질환 (Rare Disease), 약물유전체 (Pharmacogenomics) 시퀀싱 데이터를 모두 분석할 기회가 있었습니다. 사실 이 3가지 분야는 유전체 기술을 통한 정밀 의료 실현을 위해 연구자들이 집중하고 있는 주요 카테고리인데, 공통점도 있지만 성격이 많이 다릅니다. 특히, Cancer, Rare Disease와 구분되는 Pharmacogenomics의 가장 큰 차이는 연구 집단이 환자가 아닌 정상 일반인이라는데 있습니다. 이 차이점은 Variant interpretation 접근 과정에서도 큰 차이를 보이는데, 1) 일반적으로 환자의 원인 변이를 찾을 때, Allele Frequency에 의한 variant filtering을 통해 rare variant를 찾는 것 뿐 아니라, 인구 집단에 따른 Common variant도 무시하기가 어렵고,  2) 약물 대사와 관련된 유전자의 발현은 다양한 요소에 영향을 받기 때문에, 한 두개의 유전형으로 기능을 평가한다는 것이 거의 불가능합니다.

이러한 유전체 정보를 통합적으로 활용하기 위해서, 다양한 변이에 기반한 약물 유전형을 annotation 하기 위한 도구가 개발되고 있는데, 이름하여 PharmCAT (Clinical Annotation Tool) 이라고 부르게 되었습니다. 일반적으로 시퀀싱 정보는 이전에 언급한 Annovar를 이용하여, Annotation을 진행하지만, 약물 유전학적 접근에서는 annovar의 annotation 정보로는 임상적인 활용까지 부족한 부분이 많은 것이 사실입니다. 그래서 이번 포스팅에서는 다른 유전체 정보와 구분되는 약물 유전체 정보의 특성과 PharmCAT의 개발 상황에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

약물유전체학 연구 네트워크: PGRN

CPIC Guideline: 유전체 정보를 활용한 약물 처방에 관한 임상 근거 지침

약물 유전체 연구가 어려운 이유

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

 

다양한 약물 유전자의 변이와 조합, Haplotype status

CYP2C19

발생 과정에서 핵심적인 역할을 하는 유전자는 상대적으로 변이가 적습니다. 그에 비해 약물 유전자는 주변 환경과 식이 등의 영향을 받아서, 인종과 개별에 따라서 매우 다양한 변이를 가지고 있습니다. 대표적인 예로, 96%의 사람들이 중요한 약물 유전자들인 CPIC-Level A 유전자들에 최소 1개 이상의 변이를 가진 것으로 보고되고 있습니다. 이러한 변이의 수 뿐만 아니라, 배수체 (Haplotype, Diploid n = 2) 상태에 따라, 변이가 cis- 또는 trans- 위치인지에 따라서 다양한 조합이 존재하게 됩니다. 위의 그림은 이러한 변이의 종류와 조합에 따른 CYP2C19 유전자의 약물 유전형 상태를 나타내고 있습니다. 단순히 시퀀싱 데이터를 통해서, 개인의 약물 유전형을 추정하는 것이 쉽지 않은 이유입니다. 더불어 약물 유전자들의 경우에는 Star nomenclature를 통해서, 유전형을 표시하는데 시퀀싱 데이터에서 바로 Star allele (ex> *1A, *2B, *3 등등)로 읽어 들이기가 쉽지 않습니다.

약물 유전자 변이와 유전형에 대한 Star nomenclature 정보 보기>

https://www.pharmvar.org/

 

PharmCAT Project

PharmCAT

PharmCAT은 위와 같은 어려움을 극복하여, 시퀀싱 데이터를 통해 개인별 약물 유전형을 추정하고, 최종적으로는 그에 맞는 약물 처방 가이드 라인을 제공하여, 정밀 의료를 현실화 하려고 하는 프로젝트입니다. 일반적인 Annotation 과정 외에도 Haplotype 정보를 통합한 약물 유전형 추정 및, 이를 통합한 약물 처방 가이드 라인 제공이 합쳐진 Pipeline을 구축하는 것이 목표입니다. 현재는 아직 개발 단계의 테스트 버젼만 제공하고 있으나, 곧 어느 정도의 파이프 라인이 구축되지 않을까 생각됩니다. 다만, 아직까지는 약물 유전형에 따른 충분한 임상 정보와 가이드 라인이 구축되어 있지 않아서, 약물 유전체 연구가 더 활발하게 이루어져야 진정한 의미의 정밀 의료가 실현 될 수 있지 않을까 생각됩니다.

 


[References]

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics (2019).

Sangkuhl, Katrin, et al. “Pharmacogenomics Clinical Annotation Tool (Pharm CAT).” Clinical Pharmacology & Therapeutics 107.1 (2020): 203-210.

Kalman, Lisa V., et al. “Pharmacogenetic allele nomenclature: international workgroup recommendations for test result reporting.” Clinical Pharmacology & Therapeutics 99.2 (2016): 172-185.


PharmCAT Web-sources:

http://pharmcat.org/

https://www.pharmgkb.org/page/pharmcat

https://github.com/PharmGKB/PharmCAT

전장 유전체 연관 분석, GWAS란 무엇인가?

어제 정신과 전문의 친구와 점심을 먹었습니다. 제가 병원 연구실에서 유전체 연구를 하는 것을 듣고, 함께 연구할 아이디어에 대해서 이야기를 나누자고 만났는데, 안타깝게도 GWAS에 대한 개념이 전혀 없더군요. 지금은 바야흐로 GWAS의 시대입니다. 그래서 이번 글을 유전학 전공자가 아닌 일반인도 쉽게 이해할 수 있도록 전장 유전체 연관 분석 (Genome Wide Association Study; GWAS)의 개념과 연구 방법론에 대해서 글을 써 보고자 합니다.

저는 새로운 개념을 배울 때 항상 그 이름이 의미하는 바를 이해하려고 노력합니다. 그런 의미에서 GWAS라는 이름부터 파헤쳐보겠습니다.

Genome Wide = 전장 유전체 : 모든 유전체 위치에 대해서,

Association Study = 연관 분석: 관심을 가진 형질(Target phenotype)연관성을 갖는 유전적 위치를 찾는다.

GWAS
[GWAS 분석 방법의 개념] 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 유전 정보를 서로 비교하여, case에서 더 많은 빈도를 갖는 = 연관성을 가진 유전자를 찾게 됩니다.
앞선 글에서 최근의 유전학 연구는 각 유전자 위치와 관련된 형질을 밝혀 그 발현 기전을 이해하는데 집중되고 있다는 말을 했습니다. GWAS는 그러한 유전자와 연관된 형질을 찾는 하나의 탐색 (Exploratory) 방법을 말합니다. 사실 무수히 많은 형질이 어떤 유전자와 관련되어 있는지 실험적으로 찾아내는 것은 정말로 어렵습니다. GWAS는 모든 유전자 위치에 대해 연관성의 정도를 분석하기 때문에, 관심있는 형질 또는 질환에 1차적으로 관련되어 있는 후보 유전자를 찾아내는 데 매우 유용한 탐색 도구 (screening method)가 됩니다.

GWAS는 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾게 됩니다. 한 가지 중요한 내용은 GWAS에서 찾아낸 유전자라 하더라도, 그것이 항상 원인 유전자는 아니라는 점입니다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정입니다.

따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색 > 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) > 동물 & 세포 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행됩니다. 이러한 GWAS 연구의 역사도 10년이 넘었습니다. GWAS는 강력한 툴 임에 틀림이 없지만, 그 원리가 통계적 연관성 분석에 기인하는 것이기 때문에 그 한계점도 분명히 인식하는 것이 중요합니다. 따라서 명확한 Case와 Control군을 확보하고, 통계적으로 분석이 가능한 충분한 수의 환자수를 확보하는 점도 중요하겠습니다. 하지만 현실에서는 이것이 쉽지만은 않죠.

linkage_disequilibrium
우리는 부모로 부터 두 쌍의 염색체 쌍 (상동 염색체)을 물려 받아 무작위적으로 재조합이 일어나게 됩니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 LD block이라고 부릅니다.

더불어 GWAS 분석 방법을 이해하는 데 중요한 개념이 있는데, 흔히 LD (Linkage Disequilibrium)라고 부르는 ‘연관 비평형’ 입니다. 우리는 부모로부터 한 쌍씩 유전자를 물려받게 되는데, 생식 세포는 분열되면서 같은 세포 내에서도 끊임없이 유전형의 재배열이 일어납니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 ‘LD block’이라고 부릅니다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 동일한 연관성을 보인 p 값을 보이기 됩니다. LD block의 존재는 다음과 같이 4가지를 시사합니다.

  1. GWAS 분석은 30억쌍의 모든 염기 서열에 대해서 할 필요가 없다. 같은 LD block에서 대표적인 하나의 마커만 이용해도 된다. > 분석 위치의 수가 축소화 됩니다.
  2. GWAS 연관 분석으로 후보 위치를 찾았다 하더라도, 정확한 원인 유전자의 위치는 LD block 내에 존재한 다른 위치일 수 있다. > GWAS로 찾아낸 후보 위치 근처의 유전형을 상세하게 다시 살펴봐야 하는 이유입니다.
  3. GWAS에 흔히 이용되는 Manhattan plot (맨하탄 플롯)에서 시그널이 하나의 탑처럼 주위에서 모두 높게 나오는 이유가 됩니다.
  4. 흔히 Imputation이라고 부르는 과정을 통해, 같은 LD block 내의 검사하지 않은 부위의 유전형도 추정이 가능해집니다.

Manhattan_Plot
[Manhattan plot] GWAS 분석 결과 의미 있는 시그널이 마치 맨하탄 가에 위치한 고층 빌딩들처럼 나온다고 하여 맨하탄 플롯 이라는 이름이 붙게 되었습니다.
마지막으로 GWAS에 관한 글은 GWAS catalog를 소개하면서 마치도록 하겠습니다. 지금 까지 무수히 많은 형질에 대한 GWAS 연구가 진행되었고, 최근에는 일반적인 형질에 대해서 UK biobank에 유전 정보와 형질이 공개되면서, 많은 부분 형질과 유전형 간의 GWAS 연구 및 관계가 드러나는 중입니다. 하지만 다시 한번 강조하면, 연관성과 인과 관계는 다릅니다. 따라서 확실한 생물학적 메카니즘으로 이를 설명하기 위해서는 후속 연구가 중요하게 됩니다. 이러한 GWAS 연구를 통해 형질과 유전자 위치의 관계가 명확하게 드러난 데이터를 모아 놓은 것이 GWAS catalog입니다. GWAS catalog는 지금도 계속 업데이트 되는 중이며, 나중에는 많은 질병과 유전병에 대해서 정보가 추가되기를 기대합니다.

아래 유튜브 자료에 GWAS catalog에 관한 내용이 잘 소개되어 있어 참고하면 좋을 것 같습니다.

[References]

Bush, William S., and Jason H. Moore. “Genome-wide association studies.” PLoS computational biology 8.12 (2012).

MacArthur, Jacqueline, et al. “The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog).” Nucleic acids research 45.D1 (2017): D896-D901.

http://www.ebi.ac.uk/gwas/