DNA methylation과 CpG island

지난 포스팅에서는 Epigenetics에 대한 기본 개념과 이해를 위한 Chromatin과 Histone 단백의 구조에 대해서 정리했습니다. 오늘은 그 연장선에서 Epigenetics의 중심을 이루는 DNA의 메틸화 (Methylation)에 관여하는 분자들과 CpG island, 그 조절 기전에 대해서 조금 더 자세하게 다뤄볼까 합니다.

관련 포스팅 보기>

Epigenetics의 개념과 Chromatin structure, Histone modification

DNA 손상 복구 기전과 타겟 치료 항암제

 

I. DNA Methylation이 일어나는 장소와 관여하는 분자들

Mammalian genome 대부분의 DNA 메틸화는 CG dinucleotide의 Cytosine의 5번 탄소에서 일어납니다. Cytosine과 Guanine이 phosphate로 연결되어 있기 때문에, 흔히 CpG site라고 부르기도 합니다. 이러한 DNA 메틸화는 Cytosine 5-Methylcytosine (5-mC)으로 만듭니다.  5mC는 다른 DNA 분자보다 불안정하여 mutation이 일어나기 쉽고, spontaneous deamination에 의해서, Thymine으로 잘 바뀝니다.

600px-Cytosine_becomes_thymine

따라서, 우리 몸에는 DNA 메틸화를 시키는데 관여하는 효소와 함께, 메틸기를 빠르게 떼어주거나 C > T로 바뀐 염기를 원래대로 복구 시켜주는데 관여하는 효소가 함께 존재하게 됩니다. 아래 그림의 DNMT (DNA Methyl Transferase) 효소들이 DNA를 메틸화시켜주는 효소로, TET (ten–eleven translocation) enzyme이 DNA를 따시 떼어내는 효소로 작용하고, C > T로 바뀐 염기를 원래대로 복구 시켜주는 기전에는 AID/APOBEC (activation-induced cytidine deaminase/apolipoprotein B mRNA-editing enzyme complex) Base Excision Repair (BER) 메커니즘이 관여하게 됩니다.

1

3

2

II. CpG island

위에서 언급한 CpG site 들은 유전체 내에서 random 하게 분포하는 것이 아니라, 특정한 패턴을 이루는데, 특히 몰려있으면서 마치 섬을 이루는 곳CpG island라고 부릅니다. 최근에는 아래의 조건을 만족하는 경우를 CpG island로 부르게 되었습니다.

  1. 길이가 200bp 이상
  2. GC content가 50% 이상
  3. observed to expected CpG ratio 가 0.6 이상

DNAme_landscape

대부분의 CpG island는 유전자 자체의 코딩 영역에는 거의 존재하지 않고, upstream의 조절 부위 (regulatory region), 특히 Promoter 영역에 존재하여, 유전자의 발현과 밀접하게 관련이 됩니다. 일반적으로 CpG island의 메틸화가 되면 유전자 발현에 관여하는 여러 transcription factor의 접근을 막고, 동시에 메틸화된 CpG site에 결합하는 MBD (Methyl-CpG-binding domain proteins) 단백들이 유전자 발현을 억제하게 됩니다.

 

III. 발생 과정의 DNA 메틸화와 암 발생에서의 CpG island

4

발생 과정은 다양한 유전자가 발현하면서, 형태를 만들어 가는 과정입니다. 따라서, 발생 과정은 그 어느 때보다도 다양하고 복잡하게 DNA 메틸화가 일어나게 됩니다. 위 그림은 발생 시기와 성별, 그리고 조직의 종류에 따라 DNA 메틸화가 어떻게 나타나는지를 간략하게 나타내주고 있습니다. 이러한 유전자의 발현 패턴에 영향을 미치는 DNA의 메틸화의 이상은 발생 과정의 이상에 의한 여러 가지 질병과 기형을 유발할 수 있습니다.

 

1-s2.0-S0168952513001959-gr1

발생 과정과 비슷하게, CpG island는 암 발생 과정에도 관여하게 되는데, 흔히 암 억제 유전자 (Tumor suppressor gene, TSG)의 CpG island에 과다한 메틸화에 의해 발현이 억제되거나, 암 발생 유전자 (Oncogene)의 발현이 증가되는데, CpG island의 잘못된 메틸화가 관여할 수 있습니다.

 

[References]

Moore, Lisa D., Thuc Le, and Guoping Fan. “DNA methylation and its basic function.” Neuropsychopharmacology 38.1 (2013): 23-38.

Ambrosi, Christina, Massimiliano Manzo, and Tuncay Baubec. “Dynamics and context-dependent roles of DNA methylation.” Journal of molecular biology 429.10 (2017): 1459-1475.

Greenberg, Maxim VC, and Deborah Bourc’his. “The diverse roles of DNA methylation in mammalian development and disease.” Nature reviews Molecular cell biology (2019): 1-18.

Stirzaker, Clare, et al. “Mining cancer methylomes: prospects and challenges.” Trends in Genetics 30.2 (2014): 75-84.

광고

[실험실 노트] Real Time-PCR의 원리와 qPCR primer를 이용한 CNV 확인

오늘은 RT-PCR (Real-Time Polymerase Chain Reaction)의 기본적인 원리와 실험적으로 이용하기 위한 resource들을 정리하는 포스팅을 남기고자 합니다.

 

I. Realtime-PCR과 PCR의 차이

Realtime PCR (RT-PCR)은 그 이름에서 알 수 있듯이, 실시간 (Real-Time)으로 증폭 산물 (PCR product)을 Monitoring 한다는 것이 PCR과 가장 큰 차이입니다. 일반적으로 RT-PCR은 정량 (Quantitation)이 가능하기 때문에 qPCR이라고도 합니다.

  • RT-PCR은 일반적으로 RNA에서 cDNA를 만든 후에 PCR을 진행하는 Reverse-Transcription PCR을 지칭합니다. 그러나, 경우에 따라 Realtime PCR도 약자로 줄여서 RT-PCR이라고 부르기도 하기 때문에, Reverse-transcription과 Real-time을 구분하여 혼동하시지 말기를 바랍니다. 이 글에서의 RT-PCR은 Real-time PCR을 지칭하는 것으로 하도록 하겠습니다.

이 때 일반적으로 Monitoring을 형광을 이용하게 되는데, DNA에 비특이적으로 끼어들어가 형광을 나타내는 SYBRQuencher를 이용하여, PCR 합성이 진행되면 형광을 나타내도록 하는 Taqman probe 등이 많이 사용됩니다.

TaqMan-Gene-Expression-Assay-720
[Taqman probe의 작동 원리]
최종 산물을 이용하는 PCR과 다르게 RT-PCR은 최초의 DNA 량을 역으로 정량 (또는 반정량)할 수 있다는 장점이 있습니다. 이를 위해서는 아래의 RT-PCR amplification curve를 잘 이해하는 것이 중요합니다. 일반적으로 PCR은 1 cycle이 돌 때마다 효율이 100% 라고 가정하면, 2배씩 증폭됩니다. 그러나, 실제로는 PCR에 dNTP들이 점점 소모되기 때문에 반응이 진행되면서 효율은 점점 떨어지게 되고, 아래와 같은 형태의 curve를 이루게 됩니다. 이때, 처음 증폭 산물을 검출할 수 있는 Threshold를 넘는 지점의 Cycle 수를 Ct 값이라고 이야기하고, Ct 값은 처음 DNA양과 역비례하게 됩니다. (즉, 처음 DNA 양이 많으면 증폭을 적게 시켜도 검출이 되고, 처음 DNA 양이 적으면 많이 증폭 시켜야 검출 한계를 넘게됩니다.)

PCR

II. qPCR primer design 및 활용 (Delta-delta Ct method)

qPCR은 PCR을 해서 증폭 산물을 얻는 것이 아니라, 해당 위치만 효율적으로 증폭시켜 추적하는 것이 목적이기 때문에 길이는 너무 길지 않는 것이 좋습니다. 따라서 target의 위치는 80~150 bp 정도로 되도록 하고, Melting curve analysis를 통해서 하나의 산물만 증폭되는 것을 확인합니다. 타겟 산물의 Tm은 65~95도 정도 되도록, GC나 AT rich region을 피합니다. 아래 2개의 사이트에서는 해당 유전자의 시퀀스를 넣으면 자동으로 primer를 디자인하여 주기 때문에 유용하게 사용 가능합니다. 더불어 하나의 미세한 팁은, Origene에서는 유전자별로 미리 디자인된 qPCR용 primer를 판매하면서 해당 시퀀스를 공개하고 있습니다. 따라서, 해당 시퀀스를 따와서 합성 주문하는 것도 한가지 팁이 됩니다. (다만, 가끔 잘못 올라온 경우도 있어서 합성 주문 전에 미리 잘 확인해볼 필요가 있습니다.) 최종 주문 전에 이전에 소개했던 툴 등을 이용하여, Hairpin structure, in-silico PCR 등을 돌려보는 것이 도움이 됩니다. 사실 이런 모든 과정이 귀찮다면, 마지막의 PrimerBank에서 검색해서 제시된 primer를 이용하면 됩니다.

관련 포스팅 보기>

[실험실 노트] Sanger sequencing Primer design

[qPCR primer design을 위한 툴]

GenScript RT PCR primer design tool

Eurofin qPCR primer design tool

OriGene pre-designed primer 정보 얻기

PrimerBank Database 활용 – **

일반적으로 RT-PCR은 정량 (Quantitation)이 가능하기 때문에 qPCR이라고도 하며, 일반적으로는 유전자 발현 상대량 (mRNA expression)을 구하거나, Copy-Number Variation을 확인하는 데 사용 가능합니다. 이 때, 중요한 개념은 ∆Ct method 인데, 서로 다른 2개의 target이라 하더라도 증폭되는 비율의 차이는 서로 다른 샘플 간에도 일정하다는 원리를 이용하는 것입니다. 이를 수식으로 나타내면 아래와 같습니다.

∆Ct = Ct (Gene of interest) – Ct (Reference gene)

즉, 하나의 샘플 안에서 서로 다른 2개의 타겟을 디자인해서 증폭하면, 위치 간에 증폭 효율이 있기 때문에 Ct 값에 차이가 필연적으로 존재합니다. 그러나 이 차이는 Gene of interest와 Reference gene간의 상대량에 변화가 없다면, 서로 다른 샘플 간이라 하더라도 일정해야 합니다. 그러나, 둘 간의 상대량에 변화가 발생하면 ∆Ct 값도 변화하게 되고, 따라서 ∆Ct의 차이 (∆∆Ct)를 계산하면, 원하는 타겟 (Gene of interest)의 상대량을 구할 수 있게 됩니다.

마지막으로 이러한 원리 (Delta-delta Ct method)를 이용하여, Copy-Number Variation을 구할 수 있는 실험에 대해서 잘 설명하고 있는 유튜브 영상을 남깁니다.

 

[References]

Ma, Lijiang, and Wendy K. Chung. “Quantitative analysis of copy number variants based on real‐time LightCycler PCR.” Current protocols in human genetics 80.1 (2014): 7-21.

How To Perform The Delta-Delta Ct Method

 

[유전학 중요개념 정리] Enhancer, Super-enhancer

최근 많은 유전체 연구가 유전체의 3차원적인 구조와 직접 단백질을 coding 하지 않는 non-coding region의 역할과 질병 발생 메커니즘에 이뤄지면서, 유전체에 대한 이해의 폭이 넓어지고 있습니다. 최근에는 과거의 단순하게 A,T,G,C로 이루어진 염기 서열의 2차원적인 시각에서 벗어나, 유전자의 발현 기작은 훨씬 복잡하게 이뤄진다는 것을 알게 되었습니다. 사실 이러한 이유 때문에 GWAS 또는 NGS를 이용하여 유전자의 염기 서열을 확인하는 것으로는 유전형과 실제 표현형 간의 괴리가 크지 않았나 하는 생각입니다. 이러한 이유 때문에, 저는 DTC 검사로 단순한 몇개의 SNP을 검사해서 개인의 다양한 표현형을 예측해준다는 회사들에 회의적입니다. 오늘은 유전체 영역 중 non-coding region 에 위치하면서, 실제로 유전자들의 발현을 조절하는 EnhancerSuper-enhancer의 개념을 정리하는 포스팅을 남기고자 합니다.

관련 포스팅 보기 > DTC 유전자 검사의 딜레마: 과학과 산업 사이

우선 들어가기에 앞서, Enhancer의 개념에 대해서 살펴보겠습니다. 유전자의 발현은 유전자의 위쪽에 존재하는 Promotor의 transcription binding site에 신호 전달 물질을 통해서 이뤄지는데, enhancer는 이러한 promotor와 작용함으로써 유전자 발현을 조절하는 부위입니다. Super-enhancer는 그 이름에서 유추할 수 있듯이, 이러한 enhancer의 작용이 특별히 더 강한 그룹을 의미하는데, 더 자세한 정의는 아래에서 살펴보겠습니다. 조직별로 유전자 발현 패턴은 서로 상이하게 되는데, 이러한 유전자의 발현 양상의 차이는 결국 다양한 enhancer들의 작용 기작과 관계되어 나타난다는 것이 현재까지의 관찰입니다.

molce-40-3-169f1
[Enhancer를 통한 유전자의 발현 조절] Enhancer는 직접적으로 유전자를 발현하는 promotor와의 상호작용을 통해, 조직 특이적으로 유전자의 발현을 조절하는 역할을 합니다.
아래 모식도는 Super-enhancer를 어떻게 정의하는지에 대해서 보여주고 있습니다. ChIP-seq이라고 하는 방법을 이용하여, 유전체 상의 enhancer가 위치하는 곳을 알아내고, 이러한 enhancer들을 위치별로 clustering 하여, 실제 유전자 발현 과정을 반영한다고 생각되는 마커 (Med1)가 얼마나 강하게 나타나는지를 확인하여, 상위 3%에 해당하는 부위를 super-enhancer라고 정의하고 있습니다. 이러한 정의는 임의적이고 아직까지 논란이 많지만, enhancer 부위 중에서 특별히 강한 enhancer로 작용하는 부위를 대표한다고 생각하면 되겠습니다.

ChIP-seq에 대한 포스팅 보기 > Non-coding 영역의 GWAS 신호 해석: 3C based method

ng.3167-F1
[Super-enhancer를 확인하는 3 단계 과정] ChIP-seq을 통해, enhancer 부위를 확인하고 이 영역 중에서 특별히 더 강한 Med1 enrichment를 보이는 부위를 super-enhancer로 정의합니다.
위에서 정의한 super-enhancer는 질병 발생 메커니즘에 대한 다양한 정보를 제공합니다. 특히 왜 특정한 조직이나 기관에서만 유전자의 이상으로 특이적인 질환이 연관되어 발생하는지, GWAS 연구를 통해 질환과 연관되어 나타나는 non-coding 영역의 SNP은 어떠한 의미를 갖는지에 대해서 실마리를 제공해줍니다. 아래 그림은 실제로 다양한 질환에 대한 GWAS 연구를 통해 확인된 non-coding SNP들이 특정 조직에서만 특이적으로 존재하는 super-enhancer 주위에 더 몰려있는 것을 볼 수 있습니다. 이는 간접적으로 super-enhancer를 통해서 조직 특이적으로 중요하게 발현되는 유전자들에 이러한 non-coding SNP들이 영향을 미쳐 질병 발생을 일으키는데 관여함을 시사합니다.

Figure4_130828
[GWAS 연구를 통해 확인된 SNP과 enhancer, super-enhancer와의 관계] GWAS 연구를 통해서 연관성이 확인된 SNP의 대부분은 non-coding 영역에 위치하고, 연구 결과 질병과 관련있는 조직의 super-enhancer 영역 근처에 존재하는 것으로 확인되었습니다.

[References]

Hnisz, Denes, et al. “Super-enhancers in the control of cell identity and disease.” Cell 155.4 (2013): 934-947.

Pott, Sebastian, and Jason D. Lieb. “What are super-enhancers?.” Nature Genetics 47.1 (2015): 8.

Tandem Repeat Polymorphism과 유전자 발현 조절 메커니즘 (eSTR)

유전학에서 흔하게 이야기하는 용어 중에 Missing Heritability라는 것이 있습니다. 유전적으로 동일한 쌍둥이 연구를 통해, 형질의 차이를 살펴보니 환경적 요인 등 후천적 효과를 제외하면 형질의 최대 7~80 %까지는 유전적으로 설명이 가능하다고 밝혀졌는데, 실제로 SNV와 CNV와 같은 유전적 변이로는 이를 전부 설명하지 못했죠. 특히 최근 광범위하게 연구된 유전학 연구 툴인 GWAS와 NGS를 이용하여서도 이러한 heritability를 전부 설명하지 못했습니다. 연구자들은 이렇게 잃어버린 나머지 유전적 기여의 원인과 메커니즘을 찾기 위해 많은 연구를 진행했고, 오늘 정리할 내용이 Tandem Repeat Polymorphism eSTR (expression Short Tandem Repeat) 입니다.

관련 포스팅 보기 >

[유전학 중요개념 정리] Tandem repeat: STR and VNTR

[유전학 중요개념 정리] eQTL

Tandem Repeat의 개념은 지난 포스팅에서 정리하였는데, Tandem Repeat Polymorphism은 개인별 Tandem Repeat  길이의 차이로 인해 다양한 유전자 발현 정도도 조절이 되어 개인별 차이를 나타낸다는 개념입니다. 유전자 발현을 조절하는 SNP (Single Nucleotide Polymorphism)으로 eQTL에 대해서 정리한 바가 있는데, 최근 연구에 의하면 eSTR도 유전자 발현을 조절하는데 많은 부분 관여하여, Missing Heritability 중 일부를 설명한다고 합니다.

1
[eSTR이 유전자 발현에 미치는 효과] STR의 길이에 따라, 유전자 발현량에 차이를 보이는 STR을 통계적으로 검출하여, 실제로 해당 부위가 유전자 발현량에 영향을 미친다는 것을 확인하였습니다.

 

I. STR이 유전자 발현을 조절하는 메커니즘

2

STR이 유전자 발현에 영향을 미치는 다양한 메커니즘들이 제안되었는데, 현재까지는 1) Transcription factor binding site를 형성하거나, 2) Reculatory element까지의 물리적 거리에 영향을 미치거나, 3) DNA 2차 구조를 형성하는 방법, 4) splicing 과정에 영향 또는 toxic RNA 형성 등을 통해 유전자 발현에 영향을 미친다고 알려져 있습니다.

 

II. Genome wide profiling method for STR

원래 STR을 검출하는 가장 고전적이고 정확한 방법은 해당 부위를 PCR하여, 전기영동을 통해 size (분자량)를 확인하여 몇번 반복되었는지를 확인하는 것입니다. 그러나 시퀀싱 기술이 발달하면서, NGS 기술을 통해서도 STR을 확인하는 다양한 방법들이 제안되었습니다. 그러나 아직까지 NGS를 이용하여 STR을 확인하는 방법에는 아래와 같은 한계가 존재합니다.

  1. 대부분의 STR은 intron 영역에 존재하기 때문에 WGS (whole genome sequencing) data가 필요하다.
  2. Illumina platform 방식의 짧은 read (100~300bp)를 이용한 방식으로는 길게 반복되는 tandem repeat 검출이 어렵다.

그럼에도 불구하고 다양한 Bioinformatics tool 들이 개발되어, 이러한 한계를 극복하고 있습니다. 아래는 NGS data를 이용하여 Tandem Repeat을 검출하는 다양한 툴들을 보여주고 있습니다.

3

 

[References]

Gymrek, Melissa, et al. “Abundant contribution of short tandem repeats to gene expression variation in humans.” Nature genetics 48.1 (2016): 22.

Gymrek, Melissa. “A genomic view of short tandem repeats.” Current opinion in genetics & development 44 (2017): 9-16.