GTEx portal: eqtl, sqtl database

최근의 많은 연구는 Multi-omics data를 활용하여, 대부분 non-coding region에 존재하는 GWAS에서 발굴한 질환 관련 loci가 유전자 발현 수준 (Transcriptome) 또는 발현 조절 (Epigenome)과 관련된 곳임을 입증함으로써, 질병 메커니즘을 설명하려는 방향으로 나가고 있습니다. 특히, 그동안 설명이 되지 않았던 많은 Complex Trait Disease의 경우, 이러한 접근 방법이 추가적으로 많은 생물학적 이해를 가져왔습니다.

[관련 포스팅 보기]

특히, 유전자의 발현과 조절의 경우에는 세포 특이적 (cell type-specific)으로 일어나는 경우가 많기 때문에, 위와 같은 연구를 위해서는 질환 발생을 설명할 수 있는 적절한 세포 수준에서의 Multi-omics 데이터가 확보되어야 합니다. 이러한 연구를 위해 가장 널리 활용되고 있는 곳은 GTEx portal (https://gtexportal.org/) 인데, 현재까지 54개의 조직에서의 유전자 발현량과 유전형과의 관계에 대한 database 를 제공해주고 있습니다.

특히, GTEx의 경우에는 누적된 샘플들을 이용하여, 통계적으로 유전자의 발현과 관계된 Expression Quantitative Trait Loci (eQTL)sQTL (Splicing Quantitative Trait Loci)을 계산하여, 제공하고 있습니다. 추가로, cis-eQTL이 존재하는 eGene과 cis-sQTL이 존재하는 sGene에 대한 정보도 제공합니다.

다만, 대부분 유전자의 발현량과 조절은 세포의 종류에 따라 달라지게 됩니다. 따라서, bulk RNA-seq에서 계산한 eQTL과 sQTL과 달리, 최근에는 세포의 종류를 구분하여 eQTL과 sQTL을 계산하고, 이를 구분하여 cell-type interaction이 있기 때문에 ieQTLisQTL이라고 부르고 있습니다. 아래 그림의 C는 전체적으로는 유전자 발현량에 영향이 없지만, Keratinocyte에서 CNTN1의 발현량이 달라지는 ieQTL의 효과를 보여주고 있습니다. 현재 GTEx에서는 조직 수준으로 이를 구분하여 제공하고 있지만, 추후에는 single-cell resoulution으로 모든 세포의 종류에 따른 개별 eQTL과 sQTL database가 구축되지 않을까 기대해 봅니다.

[Reference]

GTEx portal (https://gtexportal.org/)

GTEx Consortium. “The GTEx Consortium atlas of genetic regulatory effects across human tissues.” Science 369.6509 (2020): 1318-1330.

Kim-Hellmuth, Sarah, et al. “Cell type–specific genetic regulation of gene expression across human tissues.” Science 369.6509 (2020).

[유전학 중요개념 정리] Complex Trait and Polygenic Risk Score

시퀀싱 기술과 같은 유전학적 연구 도구의 발달은 많은 유전학적 질환에 대한 이해를 가능케하고 있습니다. 그러나 다른 한편으로는 모든 형질과 질환에 대한 이해를 2차원적인 염기 서열로 회귀시켜서 이해하는 사고의 고착화를 유발하고 있는 것 같습니다. 가령 임상에서 환자 검체를 이용하여 연구를 하려고 하시는 선생님들의 경우, 일단 모르겠으니까 시퀀싱부터 해보자 하는 모습을 자주 접하게 됩니다. 저는 지난 3년간 정상인부터 다양한 코호트의 환자군들의 시퀀싱 데이터를 다양하게 접하고 분석을 해보았는데, 그러면서 가장 크게 배우고 느낀 것은 연구 대상 코호트의 유전학적 조성에 대해서 이해하고 그에 맞는 연구 도구를 사용하는 것이 매우 중요하다는 것입니다. 그런 의미에서 이번 포스팅은 복합 형질 또는 양적 형질 (Complex trait or Quantitative trait)GWAS 시대에서 Complex trait을 설명하고자 하는 하나의 방법인 Polygenic Risk Score (PRS)에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전학 중요개념 정리] eQTL

41576_2018_83_Fig1_HTML

복합 형질이란 말 그대로 표현형을 결정하는데 다양한 요소들이 관여하는 형질을 말합니다. 대표적으로 키, 지능, 대부분의 질환 등을 포함하며, 유전학적 요인 외에도 다양한 환경적 요인들이 관여하게 됩니다. 유전학적으로 동일하다고 할 수 있는 일란성 쌍둥이의 경우에도, 기본적인 유전적 틀이 동일하더라도, 어느 시기에 어떤 자극을 통해서 유전자가 발현되고 조절되는가에 따라서 차이를 보이는 것입니다.

특히 GWAS 연구를 통해서 찾은 SNP의 경우는 대부분 유전자의 코딩 영역이 아닌 곳에 위치하는 경우가 많은데, 이는 유전자의 산물인 단백질을 직접 결정하는 부위 (코딩 영역) 외에 유전자를 발현시키는 것을 조절하는 부위 (eQTL)들이 많은 형질의 차이에 관여함을 시사합니다.

GWAS 연구 방법은 많은 한계점이 있는데, 저는 선형적 회귀 방법에서 오는 한계점이 가장 크다고 생각합니다. 즉, 모든 대상들은 유전자 염기 서열이라고 하는, 하나의 동일한 줄로 쭈욱 세우고, (맨하탄 플롯의 x 축) 그 안에서 SNP을 서로 비교하는 것은, 형질이라고 하는 하나의 결과를 너무 단순화해서 생각하기 때문이라는 것이죠. 이러한 2차원적인 접근법은 개인별로 흔하게 존재하는 구조 변이에 대해서는 고려할 수가 없고, 실제로 존재하는 3차원적인 공간적 구조, 4차원적인 유전자 발현의 시간적 효과 등을 모두 무시하게 됩니다. GWAS 연구 방법은 성공도 거두었지만, 동시에 많은 실패를 맛본 연구자들은 다양한 시도를 하게 되는데, 그 중에 하나가 Polygenic Risk Score를 통한 Risk Stratification 입니다. 즉, 위에서 언급한 대로 대부분의 형질은 다양한 요소들이 영향을 미치므로, GWAS 연구를 통해서 1~2개의 SNP을 찾는데 실패한 질환에 대해서, 다양한 SNP들의 조합을 통해서 그 효과와 영향을 예측하겠다는 것이지요.

PRS_00000

이러한 Score의 계산은 다양한 방법들이 제안되었으나, 기본적으로 GWAS 연관성 분석을 통해서 산출되는 effect size, β 값을 이용하게 됩니다. 영향을 미치는 다양한 SNP들의 effect size들의 조합을 선형 회귀 방법을 통해서 합치고, LD block에 대한 영향을 보정해줌으로써 예측 모델을 생성하게 되는 것이지요. 위의 그림은 PRS를 계산하는 이러한 전체적인 방법에 대해서 잘 나타내주고 있습니다. 최근에는 다양한 통계적 방법을 통한 보정과 접근과 동시에 비선형적인 효과를 활용할 수 있는 머신 러닝 접근법도 다양하게 시도되고 있습니다. 그러나 이러한 접근법도 위에서 언급한 GWAS 자체의 한계점을 보완할 뿐 근본적인 문제는 그대로 안고 있기 때문에, 크게 성공을 거두기는 어려워 보입니다. 그럼에도 불구하고, 최근에 당뇨, 심혈관 질환, 유방암 등의 질환에서 많은 유용성을 보였다는 Nature Genetics의 아래 논문은 고무적으로 보입니다.

PRS_00001
관상 동맥 질환의 위험도를 예측하는 Polygenic score와 그에 따른, 질환의 유병률을 나타낸 그림.

PRS
환자가 가지고 있는 임상적으로 추정 가능한 위험도 (Clinical Risk) 와 유전적 위험도 (Polygenic Risk) 를 함께 고려하면, 기존보다 좀 더 정확하고 유용한 진료와 치료가 가능할 것으로 예상됩니다.

[References]

Khramtsova, Ekaterina A., Lea K. Davis, and Barbara E. Stranger. “The role of sex in the genomics of human complex traits.” Nature Reviews Genetics (2018): 1.

Torkamani, Ali, Nathan E. Wineinger, and Eric J. Topol. “The personal and clinical utility of polygenic risk scores.” Nature Reviews Genetics 19.9 (2018): 581.

Khera, Amit V., et al. “Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations.” Nature genetics 50.9 (2018): 1219.

Choi, Shing Wan, Timothy Shin-Heng Mak, and Paul F. O’Reilly. “Tutorial: a guide to performing polygenic risk score analyses.” Nature Protocols 15.9 (2020): 2759-2772.

[유전학 중요개념 정리] eQTL

올해 마지막 포스팅으로 유전자 발현을 조절하는데 관여하는 eQTL (expression quantitative trait loci) 에 대해 공부한 내용을 정리하고자 합니다.

사실 개체의 표현형을 결정하는데 있어, 전통적인 멘델의 유전 법칙을 따라 유전형이 표현형을 명확히 나누는 경우는 많지 않습니다. 그럼에도 불구하고 많은 사람들은 유전자의 유전형 (genotype)을 이용하여 표현형의 차이를 이해하는 노력을 끊임없이 하고 있습니다. 그러한 노력의 일환으로 eQTL은 유전형의 차이가 유전자 자체의 산물인 단백질(protein)의 구조 및 기능의 차이가 아니라, 발현량(expression level)에 차이를 미쳐서 표현형에 영향을 준다고 생각하는데서 출발합니다.

그림1
eQTL의 개념은 특정 위치의 유전형이 유전자 발현 수준에 영향을 미쳐, 질병 발생 또는 표현형에 영향을 줄 것이라 가정에서 출발합니다.

eQTL의 개념은 그동안 유전자의 coding region에 집중되어 있던 변이 탐구의 영역을 non-coding region으로 확장시키고, 더불어 그동안 진행되어 왔던 많은 GWAS 연구에서 발굴되었던 많은 non-coding region에 위치한 SNP들의 해석에 대한 한 가지 가능성을 제시해 줍니다.

GWAS의 개념에 대한 포스팅 보기 -> 전장 유전체 연관 분석, GWAS란 무엇인가?

즉, 그 동안의 많은 GWAS 연구들에서 발견된 많은 후보 유전자 영역들은 대부분 단백질을 코딩하는 영역이 아니라서 그 생물학적 역할에 대한 해석이 어려웠는데, 이 중 일부는 유전자 발현을 조절하는 eQTL일 가능성이 있다는 것이죠. 이러한 접근법에서 시작된 연구들 중 일부는 실제로 질병을 대상으로 발굴된 GWAS 마커가 eQTL 임을 밝히기도 하였습니다. 아래는 이렇게 밝혀진 질병 발생 또는 형질 연구와 관련된 eQTL을 정리한 표입니다.

그림4

  eQTL을 통한 유전자 발현 조절은 크게 2가지 조절 기작이 제안되었는데, 흔히 cis- 와 trans- effect로 구분합니다. cis-effect의 경우는 인접 유전자의 promoter에 위치한 영역의 유전형의 차이가 직접적으로 유전자 발현량에 차이를 주는 경우를 말하며, trans-effect의 경우는 1차적으로 조절 유전자 (regulatory)의 어떤 변이 또는 산물의 양이 2차적으로 최종 타겟 유전자의 발현량에 영향을 주는 경우를 말합니다. 아래는 이러한 cis-와 trans-effect에 의한 eQTL의 개념을 잘 보여주고 있습니다.

1

eQTL은 non-coding region의 변이가 regulatory variant (유전자 발현 조절에 관여하는 변이) 라는 가정에서 출발합니다. 이를 이해하기 위한 다음 논의는 Genomics (유전체)에서 Transcriptomics (전사체)로 자연스럽게 옮겨갑니다. 다음 포스팅에서는 이러한 개념들을 위해 필수적으로 이해가 필요한 Omics와 regulatory variant의 역할을 발굴하는 연구 방법론에 대해 정리하기로 하고, 이번 포스팅은 여기서 마칩니다.

 

[References]

Montgomery, Stephen B., and Emmanouil T. Dermitzakis. “From expression QTLs to personalized transcriptomics.” Nature Reviews Genetics 12.4 (2011): 277-282.

Albert, Frank W., and Leonid Kruglyak. “The role of regulatory variation in complex traits and disease.” Nature Reviews Genetics 16.4 (2015): 197-212.

Zhang, Feng, and James R. Lupski. “Non-coding genetic variants in human disease.” Human molecular genetics 24.R1 (2015): R102-R110.