GTEx portal: eqtl, sqtl database

최근의 많은 연구는 Multi-omics data를 활용하여, 대부분 non-coding region에 존재하는 GWAS에서 발굴한 질환 관련 loci가 유전자 발현 수준 (Transcriptome) 또는 발현 조절 (Epigenome)과 관련된 곳임을 입증함으로써, 질병 메커니즘을 설명하려는 방향으로 나가고 있습니다. 특히, 그동안 설명이 되지 않았던 많은 Complex Trait Disease의 경우, 이러한 접근 방법이 추가적으로 많은 생물학적 이해를 가져왔습니다.

[관련 포스팅 보기]

특히, 유전자의 발현과 조절의 경우에는 세포 특이적 (cell type-specific)으로 일어나는 경우가 많기 때문에, 위와 같은 연구를 위해서는 질환 발생을 설명할 수 있는 적절한 세포 수준에서의 Multi-omics 데이터가 확보되어야 합니다. 이러한 연구를 위해 가장 널리 활용되고 있는 곳은 GTEx portal (https://gtexportal.org/) 인데, 현재까지 54개의 조직에서의 유전자 발현량과 유전형과의 관계에 대한 database 를 제공해주고 있습니다.

특히, GTEx의 경우에는 누적된 샘플들을 이용하여, 통계적으로 유전자의 발현과 관계된 Expression Quantitative Trait Loci (eQTL)sQTL (Splicing Quantitative Trait Loci)을 계산하여, 제공하고 있습니다. 추가로, cis-eQTL이 존재하는 eGene과 cis-sQTL이 존재하는 sGene에 대한 정보도 제공합니다.

다만, 대부분 유전자의 발현량과 조절은 세포의 종류에 따라 달라지게 됩니다. 따라서, bulk RNA-seq에서 계산한 eQTL과 sQTL과 달리, 최근에는 세포의 종류를 구분하여 eQTL과 sQTL을 계산하고, 이를 구분하여 cell-type interaction이 있기 때문에 ieQTLisQTL이라고 부르고 있습니다. 아래 그림의 C는 전체적으로는 유전자 발현량에 영향이 없지만, Keratinocyte에서 CNTN1의 발현량이 달라지는 ieQTL의 효과를 보여주고 있습니다. 현재 GTEx에서는 조직 수준으로 이를 구분하여 제공하고 있지만, 추후에는 single-cell resoulution으로 모든 세포의 종류에 따른 개별 eQTL과 sQTL database가 구축되지 않을까 기대해 봅니다.

[Reference]

GTEx portal (https://gtexportal.org/)

GTEx Consortium. “The GTEx Consortium atlas of genetic regulatory effects across human tissues.” Science 369.6509 (2020): 1318-1330.

Kim-Hellmuth, Sarah, et al. “Cell type–specific genetic regulation of gene expression across human tissues.” Science 369.6509 (2020).

[유전학 중요개념 정리] 오믹스 (Omics) 와 단일 세포 시퀀싱 (Single cell sequencing)

현재 있는 미국의 연구실은 다양한 Omics 데이터를 종합적으로 분석하여, 소아 신증후군의 정밀 의료 실현을 위한 연구를 진행하고 있습니다. 아래의 관련 포스팅과 같이, 다양한 유전체 연구 결과 대부분의 복합질환 질병 발생은 유전체의 유전자 발현을 조절하는 부분, 그리고 non-coding 영역에 존재함을 확인하게 되었습니다. 이에 연구자들은 이러한 부분이 어떠한 기작을 통해서, 질병을 발생을 시키는지에 대한 연구를 진행하고 있으며, 이러한 연구 방법론의 하나로 다양한 오믹스 관련 생명 정보들을 통합적으로 분석하고 있습니다. 오늘은 (최근에 미국의 PI와 관련 리뷰 논문을 준비하게 되어,) 오믹스 관련 분석 중에서 중요한 단일 세포 시퀀싱 (Single Cell Sequencing) 기술에 대해서 정리하는 포스팅을 남기고자 합니다.

[관련 포스팅 보기]

Omics의 개념

단일 세포 시퀀싱을 언급하기에 앞서, Omics 의 개념에 대해서 간단히 정리하고자 합니다. -ome은 집합체 (집단, 묶음)를 의미하는 접미어로 Genome (유전자의 집합체 = 유전체), Epigenome (후성 유전인자의 집합체 = 후성유전체), Transcriptome (전사인자의 집합체 = 전사체), Proteome (단백질의 집합체 = 단백체) 등 일반적으로 생물 유래의 집합체를 모두 총칭합니다. 아래 그림과 같이, 이외에도 Metabolome (대사체), Microbiome (미생물군유전체) 등을 포함하고 있습니다. 인간의 유전자 서열 (Genome)은 고정되어 있지만, 조직과 세포 종류에 따라서 유전자의 발현이 달라지고, 그에 따라 단백질의 양과 기능도 달라지게 됩니다. 즉, 유전자 서열을 해독하는 것 이상으로 훨씬 더 복잡한 유전자의 조절 기작을 이해하는 것이 질병 발생 메커니즘을 밝혀, 치료에 적용하는데 매우 중요하게 됩니다. 따라서, 유전자 서열 만으로는 설명이 되지 않는 많은 부분들은 그 보다 더 높은 차원에 존재하는 다양한 Omics들을 분석함으로써 이해하고자 하는 것이 Omics의 목표입니다.

단일 세포 분석이 왜 중요한가? Bulk vs. Single cell

우리 몸의 모든 세포는 체세포 변이 (Somatic mutation)를 제외하고 기본적으로 동일한 유전자의 염기 서열 (Germline)을 공유하고 있습니다. 그러나 조직과 기관에 따라 다양한 세포군이 서로 다른 기능을 수행하면서 생명현상을 이어나가고 있습니다. 따라서 세포의 종류에 따라 세포 특이적인 유전자의 발현 패턴의 차이를 확인하는 것은 매우 중요하게 됩니다. 그러나 전통적인 Bulk RNA-seq (전사체 시퀀싱)의 경우는 모든 세포들을 하나로 pooling하여 유전자의 발현량의 평균 값만을 구할 수 있게 됩니다. 그에 반해 단일 세포 시퀀싱 (Single cell RNA-seq)은 개별 세포를 세포의 종류에 따라 분류하고, 개별 세포의 발현량을 구할 수 있기 때문에 더 정확하게 개별 세포의 유전자 발현량의 차이를 알 수 있다는 장점이 있습니다. 특히나 종양 세포와 같은 경우에는 이질성 (Tumor heterogeneity)이 매우 크기 때문에, 집단의 유전자 발현이 개별 세포를 모두 대표하기 어려운 경우가 많습니다. 이러한 장점으로 인해, 최근에는 단일 세포의 다양한 omics data를 profiling하는 것이 점점 폭넓게 연구되고 있습니다.

[Bulk vs. Single cell RNA 시퀀싱의 비교] 기술적 발전으로 인해, 개별 세포의 유전자 발현 패턴을 더 정확하게 검출할 수 있게 되었습니다.

어떻게 단일 세포로 분리하는가?

[세포를 단일 세포로 분류하는 다양한 방법들]

위 그림은 세포들을 개별 세포로 분리하는 다양한 기술들을 보여주고 있습니다. 최근 널리 쓰이는 가장 대표적인 기술은 세포들을 개별 미세 유체 방울로 분리하는 Microfluidic droplet 기반의 기술 (Chromium 10X)과 비슷하게 하나의 plate에서 미세하게 세포를 흘려 분리하는 Microfluidic plate 기반의 기술 (Fluidigm C1)이 있습니다. Fluidigm C1 기술은 구분할 수 있는 세포의 수는 적지만 더 폭넓고 많은 전사체 시퀀싱 결과를 얻을 수 있다는 장점이 있고, Chromium 기술은 그에 반해 더 많은 수의 세포를 얻을 수 있지만, 얻을 수 있는 시퀀싱 리드의 정보는 제한적이라는 차이가 있습니다. 아래 표와 같이 연구자들은 실험의 목적에 따라서 각 방법의 장단점을 파악하고 사용하는 것이 좋겠습니다.

다음 포스팅에서는 이러한 단일 세포 분석 기술을 바탕으로 Epigenome과 Transcriptome을 분석하는데 중요한 개념인 scATAC-seq에 대해서 정리하도록 하겠습니다.

[ References ]

Murphy, Rachel. “An Integrative Approach to Assessing Diet–Cancer Relationships.” Metabolites 10.4 (2020): 123.

Kolodziejczyk, Aleksandra A., et al. “The technology and biology of single-cell RNA sequencing.” Molecular cell 58.4 (2015): 610-620.

Kashima, Yukie, et al. “Single-cell sequencing techniques from individual to multiomics analyses.” Experimental & Molecular Medicine 52.9 (2020): 1419-1427.

[유전학 중요개념 정리] Long intergenic non-coding RNA (lincRNA)의 특징과 생물학적 기능

최근 임상 유전학 연구들은 시퀀싱 기술의 발달을 바탕으로 차세대 염기서열 분석법 (이하, NGS)을 이용한 엑솜 시퀀싱 (Exome sequencing) 으로 다양한 유전자의 변이 발굴 및 생물학적 기능 변화, 질병 메커니즘 입증 등의 패러다임으로 흘러가고 있습니다. 그러나 인간 유전체 30억쌍 염기 중에서 실제로 단백질을 생성하는 코딩 영역은 1~2% 정도로 매우 제한적이고, 이 부위의 변이가 실제로 관찰되는 표현형의 다양한 차이를 충분히 설명해주지 못합니다. 코딩 영역의 변이들의 의미와 기능 변화를 명확히 밝히는 것은 분명히 현재 진행형이면서 나아가야할 방향이 맞지만, 유전체 연구의 미개척 영역, 신대륙은 non-coding 영역이라고 생각합니다. 그런 의미에서 이번 포스팅은 코딩 영역이 전사되어 생성되는 mRNA와는 비슷하면서도 다른 Long intergenic non-coding RNA (lincRNA)의 특징과 기능들에 대해서 정리해보고자 합니다.

lincRNA는 그 이름에서도 유추할 수 있듯이, long = 200 nt 이상 / intergenic = gene과 gene 사이에 위치하는 / non-coding = 단백질을 직접 코딩하지 않는 / RNA를 가리킵니다. lincRNA가 중요한 점은 유전체의 51.8%는 전사가 일어나는데, 그 중에서 실제로 1.2%만이 단백질을 생성하고 나머지의 많은 부분을 lincRNA가 차지하기 때문입니다. RNA 시퀀싱을 통해서, 많은 수의 전사체 (Transcriptome)들이 연구되고 발견되고 있으나, 아직도 정확하게 lincRNA의 전체 갯수와 영역, 기능은 많은 부분 베일에 쌓여있습니다.

table1

아래 그림은 mRNA와 lincRNA의 유사성과 차이점을 잘 보여주고 있습니다.  lincRNA는 a) 전사 과정에서 잘리거나 일찍 종결이 발생하기도 하고, b) 세포 내의 핵에 주로 위치하며, nuclear exosome에 의해 처리됩니다. c) 또한, mRNA와 구별되는 점은 methylation pattern인데, 주로 promoter 근처의 H3K9me3 형태를 띈다고 합니다.

Fig1

lincRNA유전자의 조직 특이적 발현을 조절하는데 중요하게 기여하는 것으로 생각되는데, 최근 연구에 의하면 Genomic Imprinting 과정에도 관여하며, 특정 질병의 발생 측면에서도 기여하는 바가 크다고 예상하고 있습니다. 아래 그림은 lincRNA의 다양한 기능을 나타내주고 있습니다. a) 염색질의 3차원적인 구조를 형성하고 조절하는 기능, b, c) mRNA를 안정화하거나, 전사 기능을 활성화 또는 억제하는 기능, d, e) 단백질 또는 RNA 미끼처럼 직접 작용하여 결합함으로써 세포의 분화와 증식을 조절하는 기능.

관련 포스팅 보기>

[유전학 중요개념 정리] eQTL

[유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

[유전학 중요개념 정리] 유전체 발현에서의 CTCF의 역할과 기능

Fig3.jpg

위와 같은 조절 기능과 더불어, lincRNA는 자체로도 전사와 번역의 기능도 가지는데, 아래 그림에서 이를 통한 다양한 조절 기능들을 보여주고 있습니다.

Fig4.jpg

마지막으로 lncRNA에 대한 정보를 포함하는 대표적인 Database를 소개하면서 포스팅을 마무리하고자 합니다. 아직 많은 부분이 밝혀져 있지 않아서, 충분한 정보가 쌓이는데는 시간이 필요해 보입니다.

lncRNA Database 바로 가기>

RNAcentral (https://rnacentral.org/)

LNCipedia (https://lncipedia.org/)

LncBook (http://bigd.big.ac.cn/lncbook/index)

 

[Reference]

Ransohoff, Julia D., Yuning Wei, and Paul A. Khavari. “The functions and unique features of long intergenic non-coding RNA.” Nature reviews Molecular cell biology 19.3 (2018): 143.