Non-coding 영역의 GWAS 신호 해석: 3C, 4C, Hi-C technique

오늘은 최근에 읽었던 논문에 대해 정리할 겸, Chromosome Conformation Capture (CCC, 3C) 연구 방법에 대해 포스팅해보고자 합니다. 저희 연구실에서도 약물 반응에 대한 GWAS 연구를 종종 하고 있는데, GWAS 데이터 분석의 가장 큰 장애물은 데이터 결과를 적절히 해석하고 의미 있는 정보를 도출해 내는데 있다고 할 수 있습니다.

GWAS 연구 방법에 대한 포스팅 보기 -> 전장 유전체 연관 분석, GWAS란 무엇인가?

하지만 안타깝게도 많은 경우에 있어 GWAS 연구에서 얻어낸 신호를 적절히 해석하는 것은 다음과 같은 이유로 쉽지 않습니다.

  1. GWAS 연구는 연관 분석이기 때문에, 통계학적 분석 방법에 기반한다. 따라서, GWAS 신호는 분석 데이터에 의존하며, 얻어진 신호가 항상 생물학적으로 새로운 정보를 주지는 못한다. 다시 말하면, 분석에 사용된 데이터의 수와 데이터의 질이 중요하며, 신호 자체가 위양성 (false positive)일 가능성도 있기 때문에, 독립적인 validation cohort가 요구되는 이유입니다.
  2. 실제 유전학적으로 중요한 변이는 GWAS 신호를 보이는 동일 LD Block 내의 다른 위치에 존재할 수 있다. GWAS는 일종의 스캐닝 방법이기 때문에, 실제 유전 변이의 위치를 찾기 위해서는 신호를 보이는 LD block 내의 모든 변이들을 더 샅샅히 뒤져봐야 합니다.
  3. GWAS 신호가 non-coding 영역에 위치하는 경우, 해석이 어렵다. GWAS 신호가 특정 유전자와 관련된 변이에서 나타나는 경우에는 해석이 어렵지 않지만, 신호를 보이는 위치 주위에 전혀 유전자가 없는 경우 (inter-genic region) 또는 intron 영역에 위치하는 경우 등은 그 GWAS 신호를 해석하기가 쉽지 않습니다.

 

이번 포스팅은 위의 3번과 같은 경우에, 위에서 언급한 Chromosome Conformation Capture (CCC, 3C) 연구 방법을 이용하여 의미를 도출하는 것에 대해 알아보고자 합니다. 위의 GWAS 연구에서 얻어진 신호가 non-coding 영역에 위치하는 경우의 해석은, 해당 영역이 유전자 발현의 조절에 관련 (regulatory variant)되어 있다고 가정하는 데서 시작합니다. 또한 이러한 유전자 발현은 유전자가 위치한 염색체의 3차원적인 상호 작용에 의해서 일어난다는 개념입니다.

유전자 발현의 조절 eQTL의 개념 보기 -> 유전학 중요개념 정리: eQTL

 

3C_3

 

3C_1
[3C 연구 방법론의 개념 및 모식도] 염색체의 3차원적인 상호 작용을 보기 위해, 세포 주기 상의 간기 (interphase)에서 chromatin cross-linking 일어나는 시기에 포름알데히드 처리하여 고정(Fixation)시키고, 이를 여러 조각으로 나누어 (Fragmentation), 각 조각을 분석(Sequencing)함으로써 서로 상호 작용하는 위치를 확인하는 방법이 3C 연구 방법론의 기본 개념입니다. Chromosome Conformation Capture는 분석 대상 및 방법에 따라, 세부적으로 3C, 4C, Hi-C 등으로 구분됩니다.

위의 그림은 이러한 3C 연구 방법에 대해서 잘 보여주고 있습니다. 즉, 3C 연구 방법은 3차원 공간상의 상호 작용이 일어나는 세포 주기에서 염색체를 고정시켜서 분석함으로써, 실제로 해당 위치의 염색체가 어떤 부위와 상호 작용을 하는지를 알아보는 방법이라고 할 수 있습니다. 이러한 방법을 이용하면, GWAS 연구를 통해 얻어낸 신호가 어떤 부위와 상호 작용을 하는지, 상호 작용을 하는 유전자가 있는지를 확인할 수 있습니다. 또한 해당 위치가 실제 유전자 발현 조절에 관여되어 있다는 사실을 확인하면, 이전에는 알지 못했던 non-coding 영역의 변이에 대해서 더 폭넓은 해석이 가능해지게 됩니다.

3C_2
[Chromosome Conformation Capture를 통해 얻어진 데이터] 유전자가 Sequence 상에서 서로 가까이 위치할 경우, 서로 상호 작용할 확률이 높으나, 본 연구 방법은 3차원적인 염색체 구조 또한 고려하기 때문에, 실제 유전자 지도 상에서 서로 멀리 떨어져 있더라도 상호 작용을 하는 영역을 찾아내는데 유용한 방법입니다.

마지막으로 실제 위의 연구 방법론을 이용하여, 수행된 연구들을 소개하고 마치고자 합니다. [참고 문헌 3] 아래 연구에서는 위에서 소개한 Hi-C 연구 방법을 이용하여, 실제로 자가 면역 질환 발생의 위험도와 연관되었던 변이들에 대한 해석을 제공해주고 있습니다.

3C_4_00000

 

[참고 문헌]

Dekker, Job, Marc A. Marti-Renom, and Leonid A. Mirny. “Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data.” Nature Reviews Genetics 14.6 (2013): 390-403.

Belton, Jon-Matthew, et al. “Hi–C: a comprehensive technique to capture the conformation of genomes.” Methods 58.3 (2012): 268-276.

McGovern, Amanda, et al. “Capture Hi-C identifies a novel causal gene, IL20RA, in the pan-autoimmune genetic susceptibility region 6q23.” Genome biology 17.1 (2016): 212.

[유전학 중요개념 정리] eQTL

올해 마지막 포스팅으로 유전자 발현을 조절하는데 관여하는 eQTL (expression quantitative trait loci) 에 대해 공부한 내용을 정리하고자 합니다.

사실 개체의 표현형을 결정하는데 있어, 전통적인 멘델의 유전 법칙을 따라 유전형이 표현형을 명확히 나누는 경우는 많지 않습니다. 그럼에도 불구하고 많은 사람들은 유전자의 유전형 (genotype)을 이용하여 표현형의 차이를 이해하는 노력을 끊임없이 하고 있습니다. 그러한 노력의 일환으로 eQTL은 유전형의 차이가 유전자 자체의 산물인 단백질(protein)의 구조 및 기능의 차이가 아니라, 발현량(expression level)에 차이를 미쳐서 표현형에 영향을 준다고 생각하는데서 출발합니다.

그림1
eQTL의 개념은 특정 위치의 유전형이 유전자 발현 수준에 영향을 미쳐, 질병 발생 또는 표현형에 영향을 줄 것이라 가정에서 출발합니다.

eQTL의 개념은 그동안 유전자의 coding region에 집중되어 있던 변이 탐구의 영역을 non-coding region으로 확장시키고, 더불어 그동안 진행되어 왔던 많은 GWAS 연구에서 발굴되었던 많은 non-coding region에 위치한 SNP들의 해석에 대한 한 가지 가능성을 제시해 줍니다.

GWAS의 개념에 대한 포스팅 보기 -> 전장 유전체 연관 분석, GWAS란 무엇인가?

즉, 그 동안의 많은 GWAS 연구들에서 발견된 많은 후보 유전자 영역들은 대부분 단백질을 코딩하는 영역이 아니라서 그 생물학적 역할에 대한 해석이 어려웠는데, 이 중 일부는 유전자 발현을 조절하는 eQTL일 가능성이 있다는 것이죠. 이러한 접근법에서 시작된 연구들 중 일부는 실제로 질병을 대상으로 발굴된 GWAS 마커가 eQTL 임을 밝히기도 하였습니다. 아래는 이렇게 밝혀진 질병 발생 또는 형질 연구와 관련된 eQTL을 정리한 표입니다.

그림4

  eQTL을 통한 유전자 발현 조절은 크게 2가지 조절 기작이 제안되었는데, 흔히 cis- 와 trans- effect로 구분합니다. cis-effect의 경우는 인접 유전자의 promoter에 위치한 영역의 유전형의 차이가 직접적으로 유전자 발현량에 차이를 주는 경우를 말하며, trans-effect의 경우는 1차적으로 조절 유전자 (regulatory)의 어떤 변이 또는 산물의 양이 2차적으로 최종 타겟 유전자의 발현량에 영향을 주는 경우를 말합니다. 아래는 이러한 cis-와 trans-effect에 의한 eQTL의 개념을 잘 보여주고 있습니다.

1

eQTL은 non-coding region의 변이가 regulatory variant (유전자 발현 조절에 관여하는 변이) 라는 가정에서 출발합니다. 이를 이해하기 위한 다음 논의는 Genomics (유전체)에서 Transcriptomics (전사체)로 자연스럽게 옮겨갑니다. 다음 포스팅에서는 이러한 개념들을 위해 필수적으로 이해가 필요한 Omics와 regulatory variant의 역할을 발굴하는 연구 방법론에 대해 정리하기로 하고, 이번 포스팅은 여기서 마칩니다.

 

[References]

Montgomery, Stephen B., and Emmanouil T. Dermitzakis. “From expression QTLs to personalized transcriptomics.” Nature Reviews Genetics 12.4 (2011): 277-282.

Albert, Frank W., and Leonid Kruglyak. “The role of regulatory variation in complex traits and disease.” Nature Reviews Genetics 16.4 (2015): 197-212.

Zhang, Feng, and James R. Lupski. “Non-coding genetic variants in human disease.” Human molecular genetics 24.R1 (2015): R102-R110.