GTEx portal: eqtl, sqtl database

최근의 많은 연구는 Multi-omics data를 활용하여, 대부분 non-coding region에 존재하는 GWAS에서 발굴한 질환 관련 loci가 유전자 발현 수준 (Transcriptome) 또는 발현 조절 (Epigenome)과 관련된 곳임을 입증함으로써, 질병 메커니즘을 설명하려는 방향으로 나가고 있습니다. 특히, 그동안 설명이 되지 않았던 많은 Complex Trait Disease의 경우, 이러한 접근 방법이 추가적으로 많은 생물학적 이해를 가져왔습니다.

[관련 포스팅 보기]

특히, 유전자의 발현과 조절의 경우에는 세포 특이적 (cell type-specific)으로 일어나는 경우가 많기 때문에, 위와 같은 연구를 위해서는 질환 발생을 설명할 수 있는 적절한 세포 수준에서의 Multi-omics 데이터가 확보되어야 합니다. 이러한 연구를 위해 가장 널리 활용되고 있는 곳은 GTEx portal (https://gtexportal.org/) 인데, 현재까지 54개의 조직에서의 유전자 발현량과 유전형과의 관계에 대한 database 를 제공해주고 있습니다.

특히, GTEx의 경우에는 누적된 샘플들을 이용하여, 통계적으로 유전자의 발현과 관계된 Expression Quantitative Trait Loci (eQTL)sQTL (Splicing Quantitative Trait Loci)을 계산하여, 제공하고 있습니다. 추가로, cis-eQTL이 존재하는 eGene과 cis-sQTL이 존재하는 sGene에 대한 정보도 제공합니다.

다만, 대부분 유전자의 발현량과 조절은 세포의 종류에 따라 달라지게 됩니다. 따라서, bulk RNA-seq에서 계산한 eQTL과 sQTL과 달리, 최근에는 세포의 종류를 구분하여 eQTL과 sQTL을 계산하고, 이를 구분하여 cell-type interaction이 있기 때문에 ieQTLisQTL이라고 부르고 있습니다. 아래 그림의 C는 전체적으로는 유전자 발현량에 영향이 없지만, Keratinocyte에서 CNTN1의 발현량이 달라지는 ieQTL의 효과를 보여주고 있습니다. 현재 GTEx에서는 조직 수준으로 이를 구분하여 제공하고 있지만, 추후에는 single-cell resoulution으로 모든 세포의 종류에 따른 개별 eQTL과 sQTL database가 구축되지 않을까 기대해 봅니다.

[Reference]

GTEx portal (https://gtexportal.org/)

GTEx Consortium. “The GTEx Consortium atlas of genetic regulatory effects across human tissues.” Science 369.6509 (2020): 1318-1330.

Kim-Hellmuth, Sarah, et al. “Cell type–specific genetic regulation of gene expression across human tissues.” Science 369.6509 (2020).

[유전학 중요개념 정리] 오믹스 (Omics) 와 단일 세포 시퀀싱 (Single cell sequencing)

현재 있는 미국의 연구실은 다양한 Omics 데이터를 종합적으로 분석하여, 소아 신증후군의 정밀 의료 실현을 위한 연구를 진행하고 있습니다. 아래의 관련 포스팅과 같이, 다양한 유전체 연구 결과 대부분의 복합질환 질병 발생은 유전체의 유전자 발현을 조절하는 부분, 그리고 non-coding 영역에 존재함을 확인하게 되었습니다. 이에 연구자들은 이러한 부분이 어떠한 기작을 통해서, 질병을 발생을 시키는지에 대한 연구를 진행하고 있으며, 이러한 연구 방법론의 하나로 다양한 오믹스 관련 생명 정보들을 통합적으로 분석하고 있습니다. 오늘은 (최근에 미국의 PI와 관련 리뷰 논문을 준비하게 되어,) 오믹스 관련 분석 중에서 중요한 단일 세포 시퀀싱 (Single Cell Sequencing) 기술에 대해서 정리하는 포스팅을 남기고자 합니다.

[관련 포스팅 보기]

Omics의 개념

단일 세포 시퀀싱을 언급하기에 앞서, Omics 의 개념에 대해서 간단히 정리하고자 합니다. -ome은 집합체 (집단, 묶음)를 의미하는 접미어로 Genome (유전자의 집합체 = 유전체), Epigenome (후성 유전인자의 집합체 = 후성유전체), Transcriptome (전사인자의 집합체 = 전사체), Proteome (단백질의 집합체 = 단백체) 등 일반적으로 생물 유래의 집합체를 모두 총칭합니다. 아래 그림과 같이, 이외에도 Metabolome (대사체), Microbiome (미생물군유전체) 등을 포함하고 있습니다. 인간의 유전자 서열 (Genome)은 고정되어 있지만, 조직과 세포 종류에 따라서 유전자의 발현이 달라지고, 그에 따라 단백질의 양과 기능도 달라지게 됩니다. 즉, 유전자 서열을 해독하는 것 이상으로 훨씬 더 복잡한 유전자의 조절 기작을 이해하는 것이 질병 발생 메커니즘을 밝혀, 치료에 적용하는데 매우 중요하게 됩니다. 따라서, 유전자 서열 만으로는 설명이 되지 않는 많은 부분들은 그 보다 더 높은 차원에 존재하는 다양한 Omics들을 분석함으로써 이해하고자 하는 것이 Omics의 목표입니다.

단일 세포 분석이 왜 중요한가? Bulk vs. Single cell

우리 몸의 모든 세포는 체세포 변이 (Somatic mutation)를 제외하고 기본적으로 동일한 유전자의 염기 서열 (Germline)을 공유하고 있습니다. 그러나 조직과 기관에 따라 다양한 세포군이 서로 다른 기능을 수행하면서 생명현상을 이어나가고 있습니다. 따라서 세포의 종류에 따라 세포 특이적인 유전자의 발현 패턴의 차이를 확인하는 것은 매우 중요하게 됩니다. 그러나 전통적인 Bulk RNA-seq (전사체 시퀀싱)의 경우는 모든 세포들을 하나로 pooling하여 유전자의 발현량의 평균 값만을 구할 수 있게 됩니다. 그에 반해 단일 세포 시퀀싱 (Single cell RNA-seq)은 개별 세포를 세포의 종류에 따라 분류하고, 개별 세포의 발현량을 구할 수 있기 때문에 더 정확하게 개별 세포의 유전자 발현량의 차이를 알 수 있다는 장점이 있습니다. 특히나 종양 세포와 같은 경우에는 이질성 (Tumor heterogeneity)이 매우 크기 때문에, 집단의 유전자 발현이 개별 세포를 모두 대표하기 어려운 경우가 많습니다. 이러한 장점으로 인해, 최근에는 단일 세포의 다양한 omics data를 profiling하는 것이 점점 폭넓게 연구되고 있습니다.

[Bulk vs. Single cell RNA 시퀀싱의 비교] 기술적 발전으로 인해, 개별 세포의 유전자 발현 패턴을 더 정확하게 검출할 수 있게 되었습니다.

어떻게 단일 세포로 분리하는가?

[세포를 단일 세포로 분류하는 다양한 방법들]

위 그림은 세포들을 개별 세포로 분리하는 다양한 기술들을 보여주고 있습니다. 최근 널리 쓰이는 가장 대표적인 기술은 세포들을 개별 미세 유체 방울로 분리하는 Microfluidic droplet 기반의 기술 (Chromium 10X)과 비슷하게 하나의 plate에서 미세하게 세포를 흘려 분리하는 Microfluidic plate 기반의 기술 (Fluidigm C1)이 있습니다. Fluidigm C1 기술은 구분할 수 있는 세포의 수는 적지만 더 폭넓고 많은 전사체 시퀀싱 결과를 얻을 수 있다는 장점이 있고, Chromium 기술은 그에 반해 더 많은 수의 세포를 얻을 수 있지만, 얻을 수 있는 시퀀싱 리드의 정보는 제한적이라는 차이가 있습니다. 아래 표와 같이 연구자들은 실험의 목적에 따라서 각 방법의 장단점을 파악하고 사용하는 것이 좋겠습니다.

다음 포스팅에서는 이러한 단일 세포 분석 기술을 바탕으로 Epigenome과 Transcriptome을 분석하는데 중요한 개념인 scATAC-seq에 대해서 정리하도록 하겠습니다.

[ References ]

Murphy, Rachel. “An Integrative Approach to Assessing Diet–Cancer Relationships.” Metabolites 10.4 (2020): 123.

Kolodziejczyk, Aleksandra A., et al. “The technology and biology of single-cell RNA sequencing.” Molecular cell 58.4 (2015): 610-620.

Kashima, Yukie, et al. “Single-cell sequencing techniques from individual to multiomics analyses.” Experimental & Molecular Medicine 52.9 (2020): 1419-1427.

유전학 연구에서의 표현형: Phenotype is king, genotype is queen

유전학 연구자들 사이에서 가장 유명한 격언이 있습니다. “유전형이 여왕이라면, 표현형이 왕이다.” 이 문장은 유전형도 매우 중요하지만, 결국 더 중요한 것은 표현형이라는 내용을 함축적으로 담고 있습니다.

“Phenotype is king, genotype is queen.”

많은 사람들은 유전 정보만 얻으면, 개인 맞춤 치료와 정밀 의료를 실현할 수 있을 것처럼 떠들어 대는 미디어의 광고를 보면서, 이를 곧이 곧대로 받아들이곤 합니다. 그러나 유전 정보를 얻기 쉬워진 현재 시점에서의 진정한 병목 지점 (Bottle neck, rate limiting step)은 오히려 충분하고 효과적이며 꼼꼼한 표현형에 대한 정보 수집입니다. 유전형과 다르게 표현형 정보는 수집이 매우 까다롭고 귀찮습니다. 더불어, 같은 것을 지칭하는 표현형이라 하더라도 객관적인 기술이나 정량화하여 나타내는 것이 어려울 수도 있으며, 측정 자체가 모호한 경우도 많습니다.  그래서 사실 제가 연구실에서 보내는 많은 시간의 노가다도 이런 표현형 정보에 대한 수집 (이라고 쓰고 환자 차트 리뷰 라고 적는다)에 쓰입니다. (여담이지만, 공동 연구를 하시는 임상 선생님들이 전달해주시는 표현형 정보는 많은 경우, 틀리거나 이른바 정밀 의료를 위한 연구에는 부족한 경우가 매우 많습니다. 이 때문에 저는 환자를 전부 다시 리뷰하고 표현형 정보를 수집하곤 합니다. 그러다 빡쳐서 이글을 쓰는 것은 아닙니다..)

유전학 도구들의 기술적 발달로 유전 정보, 이른바 유전형 (Genotype)을 얻는 것은 매우 쉬워졌습니다. 연구자들은 이러한 유전형을 바탕으로 유전자 발현의 변화 (RNA level), 유전자 산물인 단백질의 기능 변화 (Protein level), 세포 및 조직의 변화 (Cell & Tissue), 그리고 최종적으로 도출되는 표현형 (Phenotype)까지의 긴 여정을 유전형 만을 이용해서 예측하는 것을 목표로 많은 연구를 진행하고 있습니다. 위의 긴 여정에서 한 단계씩 차원이 높아질 때마다, 변수와 복잡도는 기하급수적으로 증가하고, 실제로 예측은 점점 더 어려워집니다. 따라서, 이러한 복잡도의 차원을 낮춰서 조금 더 단순하게 개별 과정에서의 변화를 살펴보기 위한 방법이 다양한 Omics 기반의 연구입니다. 하지만 그럼에도 정말로 중요한 유전형의 변화는 심각한 표현형의 변화를 초래하게 되고, 이러한 큰 흐름속에서 질병의 병인 기전을 이해하고, 이를 바탕으로 치료제 개발을 진행하게 됩니다.

Fig-1-Data-integration-from-multiple-Omics-platforms-genomics-transcriptomics_W640
Genome에서 Phenome에 이르기까지의 긴 여정의 실타래를 푸는 일이야 말로, 정밀 의료 실현을 위해 선행되어야할 조건들입니다.

유전학 연구 방법론은 크게 Forward Genetics (정유전학) 와 Reverse Genetics (역유전학)로 구분이 되는데, 전자는 특정 표현형으로 부터 원인 유전자를 찾는 방식이고, 후자는 특정 유전자가 어떠한 표현형의 변화를 초래하는지 찾는 접근 방식으로 아래 그림은 유전형 <-> 표현형의 관계와 연구 접근 방식을 잘 나타내주고 있습니다. 전통적으로 유전 정보를 찾기 어려웠던 과거에는 표현형으로 부터 연관된 유전자를 찾는 정유전학적 접근이 대부분이었다면, 유전 정보를 쉽게 얻을 수 있는 오늘 날에는 기능이 밝혀지지 않은 많은 유전자들이 어떠한 표현형에 관여하는지를 찾는 역유전학 연구 방법이 대세가 되었습니다.

Fig-2-Forwards-vs-reverse-genetics-tools-for-the-identification-and-characterization_W640
[유전학 연구 방법론] Forward and Reverse Genetics에서의 표현형과 유전형의 관계
최근에는 이에 따라, 표현형의 중요성이 점점 더 부각되고 있으며, 표현형 (Phenotype)의 모음을 Phenome 이라고 부릅니다. GWAS 접근법과 유사하게, 특정 유전자 위치 (고정 변수)에 대해 모든 표현형을 탐색하여 연관 관계를 찾는 분석 방법을 Phenome wide association study (이른바, PheWAS)라고 부릅니다. 이를 위해서는 적절한 Phenome database가 구축되어야 하는데, 이러한 Database 중에 유전학 연구에 많이 사용되는 대표적인 곳으로는 Human Phenotype Ontology (HPO), Mouse Phenome Database (MPO) 등이 있습니다.

Human Phenotype Ontology (HPO) > 바로가기

Mouse Phenome Database (MPO) > 바로가기

 

마지막으로 다시 한번 표현형의 중요성에 대해 언급하고, 이번 포스팅을 마치고자 합니다. 아래의 논문에 소개된 사례는  잘못된 유전자 검사로 인한 오진단 사례와 관련하여, 표현형이 얼마나 중요한지를  단적으로 잘 보여주고 있습니다.

They concluded, “Remember the mantra that ‘phenotype is king, genotype is queen,’ and if the subjectively and objectively ascertained phenotype is not matching the alleged genotype, stop and reassess. In other words, phenotyping still matters most.

McCarthy, Michael. “Phenotype is king, researchers say, after 20 family members have condition misdiagnosed.” (2016): i5884.

Ackerman, Jaeger P., et al. “The promise and peril of precision medicine: phenotyping still matters most.” Mayo Clinic Proceedings. Vol. 91. No. 11. Elsevier, 2016.

관련 포스팅 보기>

[유전학 중요개념 정리] Muller’s morph와 gain of function, loss of function variant

NGS 결과의 임상 적용: Genotype-phenotype correlation

전장 유전체 연관 분석, GWAS란 무엇인가?

 


[References]

Ben-Amar, Anis, et al. “Reverse genetics and high throughput sequencing methodologies for plant functional genomics.” Current Genomics 17.6 (2016): 460-475.

Oti, Martin, Martijn A. Huynen, and Han G. Brunner. “The biological coherence of human phenome databases.” The American Journal of Human Genetics 85.6 (2009): 801-808.

참조 유전체 Reference Genome: GRCh38, GRCh19, KOREF

사실 저희 연구실의 분석 파이프 라인은 아직도 대부분 GRCh19 (Hg19)Reference Genome으로 사용하고 있었는데, Ensemble Browser를 포함해서 새로 나오는 몇몇 Bioinformatics tool들이 더 이상 Hg19를 지원하지 않는다고 하는 바람에, 부랴 부랴 파이프 라인을 GRCh38 (Hg38)로 바꾸게 되었습니다. 단순히 Reference Genome을 바꾼다는 의미 외에도 많은 곳들을 전부 뜯어 고쳐야 했기에, 생각보다 꽤 귀찮고 복잡한 작업이 되어 버렸습니다. 그래서 이번에는 참조 유전체 (Reference Genome)에 대한 포스팅을 작성해 볼까 합니다.

 

I. 참조 유전체 Reference Genome

유전체 분석 과정 중에 Reference Genome은 매우 매우 아주 중요합니다. 분석의 시발점이자 기준점이고, 변이를 찾고 연산하는데 쓰이기 때문입니다. Reference Genome은 변이를 Calling하는 과정에서도, RNA-Seq의 mapping 및 구조 변이 등의 분석에서도 기준이 됩니다. 특히, de novo assembly가 아닌 fragmented sequence를 이용하는 short-read sequencing 방식에서는 Reference Genome을 이용해서 해당 fragment가 어디서 유래했는지를 역으로 Align하게 됩니다.

reference

현재 인간의 참조 유전체는 20명의 기증자로 부터 DNA를 받아, 시퀀싱을 진행한 후에 구성을 하였는데 70%의 유전체 영역은 RPC-11이라고 부르는 단일 샘플에서 유래한다고 합니다.  더구나, 이 사람은 당뇨의 고위험군에 속하는 사람이었다고 하니, 많은 유전체 연구에 쓰이는데 문제가 있을 수 밖에 없습니다. 최근에 개별 인종을 대표하는 참조 유전체를 만드는 프로젝트의 이유입니다.

 

II. Genome Reference Consortium

GRC

참조 유전체를 만들기 위한 프로젝트는 Genome Reference Consortium (GRC)에서 진행하였는데, 인간 (h, human), 쥐 (m, mouse), 제브라 물고기 (z, zebrafish), 닭 (c, chicken) 4개의 대표 종을 선정하여, 참조 유전체를 구성하였습니다. 따라서, GRC 뒤에 붙은 영문 소문자는 참조 유전체의 종 (species)를 가리키고, 숫자는 해당 참조 유전체의 버젼을 가리킨다고 할 수 있습니다.

GRCh

즉, GRCh19는 인간의 참조 유전체 19 버젼이고, GRCm39는 쥐의 참조 유전체 39버젼을 가리킵니다. 위의 그림에서 보듯이, 현재 인간의 가장 최신 참조 유전체는 GRCh38 버젼이라고 할 수 있습니다.

Genome Reference Consortium 바로 가기> 

cyp3a5

일반적으로 어떤 SNP의 위치를 가리키는데, 염색체 번호염기 서열 번호를 좌표로 이용하게 됩니다. 염기의 번호는 참조 유전체를 기준으로 부여되는데, 참조 유전체에 따라서 염기의 번호도 바뀌게 됩니다. 가령 약물 대사에 매우 중요한 CYP3A5 유전자의 위의 변이 rs776746은 GRCh38버젼에서는 7번 염색체의 99,672,916번째에 위치한 염기이지만, GRCh19버젼에서는 99,270,539번째에 위치한 염기가 됩니다.

 

III. Consensus Genome

많은 수의 인간 DNA를 시퀀싱을 하면서, 우리는 각자 매우 많은 희귀 변이들이 존재하는 것을 알게 되었고, 더이상 건강한 지원자 몇명의 샘플이 인구 집단 전체를 대표하는 것이 힘들다는 것을 알게 되었습니다. 그래서 최근에는 많은 수의 샘플을 시퀀싱하여, 모든 변이의 위치에서 인구 집단에서 가장 흔한 변이를 지정한 가상의 참조 유전체를 구성하는 방법 (Consensus Genome)이 제안되었습니다. 모든 변이가 평균 값인 이러한 인간은 실제로는 존재하지 않지만, 이러한 가상의 유전체를 구성함으로써, 실제로 불필요하게 call되는 변이의 수를 줄일 수가 있게 됩니다.

consensus genome

 

IV. 인종 특이적 Consensus Genome의 활용

consensus genome_00000

위에서 제안된 Consensus Genome과 더불어, 인종 및 집단에 따라서도 가장 흔하게 존재하는 변이가 매우 다양하게 분포하기 때문에, 인종 특이적인 Reference Genome을 구성하는 것이 중요하게 생각되고 있습니다. 한국인에서도 비슷하게 consensus Korean Reference Genome (KOREF)이 구성되었고, 현재 공개가 되어 다운로드가 가능합니다.

Korean Reference Genome 바로 가기>

다만, 아직까지는 인종 특이적인 Genome을 이용할 경우에 발생하는 여러가지 유전체 분석 도구와의 호환성 문제 및 해석 과정의 혼동 등의 문제로 널리 쓰이고 있지는 않고 있는 상황입니다. 특히, 학계의 매우 보수적인 특성으로 인해 현재는 Hg38과 Hg19를 함께 쓰는 경우가 가장 많습니다.

 


[References]

Ballouz, Sara, Alexander Dobin, and Jesse A. Gillis. “Is it time to change the reference genome?.” Genome biology 20.1 (2019): 1-9.

Cho, Yun Sung, et al. “An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes.” Nature communications 7.1 (2016): 1-13.

Reference genome: defining human difference

 

유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq

약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes

I. Haplotype, Linkage Disequilibrium

HaplotypeHaploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.

btz503f1
[Haplotype의 발생 및 구조] 우리는 부모의 염색체 쌍으로부터 각각 1개씩 감수분열 과정을 거친 재조합된 염색체를 물려받게 되며, 이러한 무수한 과정을 거친, 인종별로 다양한 패턴의 Haplotype이 존재하게 됩니다.
재미있는 것은 이러한 패턴 (haplotype block)은 생물 종과 인종에 따라서 특이적이고, 보존되어 있다는데 있습니다. 같은 블록 내의 유전형은 무리로 함께 유전되는 경향이 있기 때문에, 유전 방식은 random하게 발생하지 않으며, 이를 연관 불균형 (Linkage Disequilibrium, LD)이라고 부르게 됩니다. 따라서, 인간의 완전한 유전체 지도에 앞서, 인종에 따른 이러한 Haplotype Map을 만드는 프로젝트가 진행되었는데, 이를 ‘HapMap Project‘ 라고 합니다. 아래 그림은 이러한 HapMap Project를 통해 밝혀진, 인간의 염색체 상에서 나타나는 LD block의 패턴을 나타낸 그림입니다.

LD block

재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.

hapmap

실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.

Figure 4

II. Haplotype phasing

Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.

cis, trans

이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.

haplotype test

haplotyping

Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.


[References]

International HapMap Consortium. “A haplotype map of the human genome.” Nature 437.7063 (2005): 1299.

Wang, Jianbin, et al. “Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm.” Cell 150.2 (2012): 402-412.

Wang, Ning, et al. “Distribution of recombination crossovers and the origin of haplotype blocks: the interplay of population history, recombination, and mutation.” The American Journal of Human Genetics 71.5 (2002): 1227-1234.

Snyder, Matthew W., et al. “Haplotype-resolved genome sequencing: experimental methods and applications.” Nature Reviews Genetics 16.6 (2015): 344-358.

Xu, Peng, et al. “MRLR: unraveling high-resolution meiotic recombination by linked reads.” Bioinformatics 36.1 (2020): 10-16.

Rare variant association analysis: SKAT, SKAT-O, Burden test

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

plink를 이용한 GWAS 분석에 대한 지난 포스팅에 이어서, 이번에는 SKAT을 이용한 rare variant 분석에 대한 포스팅을 정리해보고자 합니다. 유전자에 존재하는 변이(Variant)는 인구 집단 내의 분포 빈도 (Allele frequency)에 따라서, 흔한 변이 (Common variant)희귀 변이 (Rare variant)로 구분됩니다. 전장 유전체 연관 분석 (Genome-wide association study, GWAS)은 이러한 변이 중에서 일반적으로 인구 집단 내에 변이 빈도 분포가 5% 이상인 흔한 변이를 대상으로 하게 되는데, 대부분의 흔한 변이들은 유전학적 선택압 (Selective pressure)이 작은 변이들이기 때문에, 효과 크기 (Effect size)가 작은 것들이 대부분입니다.

 

41586_2009_Article_BFnature08494_Fig1_HTML

따라서 Common variant를 이용한 GWAS 분석으로, 설명이 안되는 유전력을 갖는 질환에 대해서 “Missing heritability“라는 용어가 등장하게 되었습니다. 이후의 후속 연구들에서는, Missing heritability를 설명하기 위해서, 변이의 빈도가 매우 드물지만, 효과 크기가 훨씬 큰 Rare variant 들이 조명을 받게 됩니다.

Missing heritability에 관한 Nature 사설 보기>

Maher, B. Personal genomes: The case of the missing heritability. Nature 456, 18–21 (2008)

Missing heritability

다만 Rare variant의 경우는, 변이 자체의 빈도가 매우 드물기 때문에 통계적으로 변이의 영향을 비교하기 위해서는 매우 큰 수의 표본이 필요한 한계가 있습니다. 이러한 한계를 극복하기 위해서, 같은 유전자 내에 존재하는 희귀 변이를 유전자 또는 특정 구역의 단위로 집합 시켜서 분석하는 방법이 제안되었는데, 이것이 Gene-level aggregation test 입니다. 즉, GWAS에서는 개별 SNP의 효과를 변이 단위로 분석이 진행되었다면 (Single variant association test), rare variant의 경우는 여러 개의 variant를 Gene 단위로 그룹화하여, Gene의 효과를 비교 분석 (Multiple variant association test)하는 분석을 진행하게 됩니다.

gene aggregation

이와 같은 분석에서 중요한 점은 ‘어떠한 기준으로 변이를 유전자 단위로 그룹화 할 것인가?’ 하는 문제가 발생하게 되는데, 일반적으로 변이 빈도의 threshold 설정 (MAF 5% vs 1%), 변이의 Functional classification 등을 사용자가 임의로 설정하여 분석을 진행하게 됩니다. 더불어, 각 희귀 변이의 효과들이 동일하지 않기 때문에 개별 변이의 효과를 보정해주는 방법으로 Rare variant allele frequency, In-silico prediction score 등을 이용하게 됩니다. 아래는 이러한 희귀 변이 분석 방법과 각 분석 방법의 장, 단점, 그리고 분석 software를 정리한 표입니다.

rare variant association

위 표의 희귀 변이를 위한 다양한 분석 도구 중에서 오늘은 R package로 개발된 대표적인 분석 도구로 사용되는 Sequence Kernal Association Test (SKAT)에 대해서, 간단히 정리하고 마치도록 하겠습니다. Burden test의 경우는 변이들의 효과 방향이 일정하고, 대부분이 원인 변이이 경우에 더 강력한 통계 검정 방법이고, SKAT의 경우는 각 변이들의 효과 방향이 제각각이거나, 원인 변이의 비율이 적은 경우에 더 강력한 통계 검정 방법입니다.  SKAT-O이 둘의 효과를 통계적으로 최적화하는 optimized rho value를 계산하여, 양쪽의 장단점을 모두 이용하는 방법입니다.

마지막으로 ‘SKAT’ R package를 이용을 위한 code를 공유합니다. 분석에 앞서, 이전 plink 분석 포스팅에서 언급했던 Bed, Bim, Fam 파일 및 phenotype data를 포함하는 PED 파일이 input data로 준비되어야 합니다. 마지막으로 Rare variant 변이들은 어떤 기준으로 그룹화할지에 대한 정보를 지정한 SetID 파일을 생성하여야 합니다. 자세한 내용은 SKAT 패키지의 manual을 참조하시기 바랍니다.


library(SKAT)

setwd("/plink_result")
file_name <- "my_plink"

File.Bed <- paste(file_name,".bed",sep = "")
File.Bim <- paste(file_name,".bim",sep = "")
File.Fam <- paste(file_name,".fam",sep = "")
File.SSD <- paste(file_name,".SSD",sep = "")
File.Info <- paste(file_name,".info",sep = "")
File.SetID <- paste(file_name,".SetID",sep = "")

Generate_SSD_SetID(File.Bed, File.Bim, File.Fam, File.SetID, File.SSD, File.Info)

SSD.INFO <- Open_SSD(File.SSD, File.Info)
FAM <- Read_Plink_FAM(File.Fam, Is.binary=FALSE)
COV <- Read_Plink_FAM_Cov(File.Fam,"pheno_data.ped", Is.binary=FALSE, flag1=0, cov_header=TRUE)

# continuous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="C")
# dichotomous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="D")

# SKAT
out.skat <- SKAT.SSD.All(SSD.INFO, obj)
#SKAT-O
out.skato <- SKAT.SSD.All(SSD.INFO, obj, method="optimal")
#Burden test
out.burden <- SKAT.SSD.All(SSD.INFO, obj, r.corr=1)

data <- cbind(out.skat$results,out.skato$results,out.burden$results)
write.table(data,"SKAT_results.txt",col.names=T,row.names=F,quote=F,sep="\t")

Close_SSD()

 

 


[References]

‘SKAT’ R package

SKAT GitHub: https://github.com/leeshawn/SKAT

Lee, Seunggeung, et al. “Rare-variant association analysis: study designs and statistical tests.” The American Journal of Human Genetics 95.1 (2014): 5-23.

Lee, Seunggeun, et al. “Optimal unified approach for rare-variant association testing with application to small-sample case-control whole-exome sequencing studies.” The American Journal of Human Genetics 91.2 (2012): 224-237.

Bansal, Vikas, et al. “Statistical analysis strategies for association studies involving rare variants.” Nature Reviews Genetics 11.11 (2010): 773-785.

 

DNA methylation과 CpG island

지난 포스팅에서는 Epigenetics에 대한 기본 개념과 이해를 위한 Chromatin과 Histone 단백의 구조에 대해서 정리했습니다. 오늘은 그 연장선에서 Epigenetics의 중심을 이루는 DNA의 메틸화 (Methylation)에 관여하는 분자들과 CpG island, 그 조절 기전에 대해서 조금 더 자세하게 다뤄볼까 합니다.

관련 포스팅 보기>

Epigenetics의 개념과 Chromatin structure, Histone modification

DNA 손상 복구 기전과 타겟 치료 항암제

 

I. DNA Methylation이 일어나는 장소와 관여하는 분자들

Mammalian genome 대부분의 DNA 메틸화는 CG dinucleotide의 Cytosine의 5번 탄소에서 일어납니다. Cytosine과 Guanine이 phosphate로 연결되어 있기 때문에, 흔히 CpG site라고 부르기도 합니다. 이러한 DNA 메틸화는 Cytosine 5-Methylcytosine (5-mC)으로 만듭니다.  5mC는 다른 DNA 분자보다 불안정하여 mutation이 일어나기 쉽고, spontaneous deamination에 의해서, Thymine으로 잘 바뀝니다.

600px-Cytosine_becomes_thymine

따라서, 우리 몸에는 DNA 메틸화를 시키는데 관여하는 효소와 함께, 메틸기를 빠르게 떼어주거나 C > T로 바뀐 염기를 원래대로 복구 시켜주는데 관여하는 효소가 함께 존재하게 됩니다. 아래 그림의 DNMT (DNA Methyl Transferase) 효소들이 DNA를 메틸화시켜주는 효소로, TET (ten–eleven translocation) enzyme이 DNA를 따시 떼어내는 효소로 작용하고, C > T로 바뀐 염기를 원래대로 복구 시켜주는 기전에는 AID/APOBEC (activation-induced cytidine deaminase/apolipoprotein B mRNA-editing enzyme complex) Base Excision Repair (BER) 메커니즘이 관여하게 됩니다.

1

3

2

II. CpG island

위에서 언급한 CpG site 들은 유전체 내에서 random 하게 분포하는 것이 아니라, 특정한 패턴을 이루는데, 특히 몰려있으면서 마치 섬을 이루는 곳CpG island라고 부릅니다. 최근에는 아래의 조건을 만족하는 경우를 CpG island로 부르게 되었습니다.

  1. 길이가 200bp 이상
  2. GC content가 50% 이상
  3. observed to expected CpG ratio 가 0.6 이상

DNAme_landscape

대부분의 CpG island는 유전자 자체의 코딩 영역에는 거의 존재하지 않고, upstream의 조절 부위 (regulatory region), 특히 Promoter 영역에 존재하여, 유전자의 발현과 밀접하게 관련이 됩니다. 일반적으로 CpG island의 메틸화가 되면 유전자 발현에 관여하는 여러 transcription factor의 접근을 막고, 동시에 메틸화된 CpG site에 결합하는 MBD (Methyl-CpG-binding domain proteins) 단백들이 유전자 발현을 억제하게 됩니다.

 

III. 발생 과정의 DNA 메틸화와 암 발생에서의 CpG island

4

발생 과정은 다양한 유전자가 발현하면서, 형태를 만들어 가는 과정입니다. 따라서, 발생 과정은 그 어느 때보다도 다양하고 복잡하게 DNA 메틸화가 일어나게 됩니다. 위 그림은 발생 시기와 성별, 그리고 조직의 종류에 따라 DNA 메틸화가 어떻게 나타나는지를 간략하게 나타내주고 있습니다. 이러한 유전자의 발현 패턴에 영향을 미치는 DNA의 메틸화의 이상은 발생 과정의 이상에 의한 여러 가지 질병과 기형을 유발할 수 있습니다.

 

1-s2.0-S0168952513001959-gr1

발생 과정과 비슷하게, CpG island는 암 발생 과정에도 관여하게 되는데, 흔히 암 억제 유전자 (Tumor suppressor gene, TSG)의 CpG island에 과다한 메틸화에 의해 발현이 억제되거나, 암 발생 유전자 (Oncogene)의 발현이 증가되는데, CpG island의 잘못된 메틸화가 관여할 수 있습니다.

 

[References]

Moore, Lisa D., Thuc Le, and Guoping Fan. “DNA methylation and its basic function.” Neuropsychopharmacology 38.1 (2013): 23-38.

Ambrosi, Christina, Massimiliano Manzo, and Tuncay Baubec. “Dynamics and context-dependent roles of DNA methylation.” Journal of molecular biology 429.10 (2017): 1459-1475.

Greenberg, Maxim VC, and Deborah Bourc’his. “The diverse roles of DNA methylation in mammalian development and disease.” Nature reviews Molecular cell biology (2019): 1-18.

Stirzaker, Clare, et al. “Mining cancer methylomes: prospects and challenges.” Trends in Genetics 30.2 (2014): 75-84.

Epigenetics의 개념과 Chromatin structure, Histone modification

최근에 연구를 진행하다보니, Epigenetics에 대해서 더 충분히 이해할 필요가 있다고 느꼈습니다. 사실 ‘Epigenetics‘는 우리 말로는 ‘후성 유전학‘이라고 부르는데, 이 단어만 들어서는 도통 개념이 잘 와닿지가 않습니다. 그래서 이번 포스팅은 Epigenetics의 개념 이해를 위한 기본적인 Chromatin과 Histone의 구조, 그리고 modification 들에 대해서 정리해보고자 합니다.

 

chromatinstructurefigure1

Epigenetics

‘Epi-‘라는 접두어는 보통 경계의 말단, 끄트머리를 의미 합니다. 그래서 전통적인 DNA 염기 서열의 변화에 따른 유전학 (Genetics)과 구분하기 위해서, Epigenetics는 ‘DNA 염기 서열의 변화 없이’ 나타나는 모든 유전학적 변화를 포괄하는 개념입니다. Epigenetics의 개념은 발생학(Development)과 깊은 관련이 있는데, 발생 과정에서 왜 동일한 DNA sequence를 가진 유전자들의 발현이 세포마다 서로 달라지고, 배 발생 형태가 갖추어 지는지에 대한 의문에서 출발했습니다. 이러한 의문은 같은 주형을 가지고도 유전자의 발현 스위치를 어떻게 On-Off 시키는지에 대한 연구를 통해서, 염색체 (Chromatin)의 구조와 이를 구성하는 히스톤 단백의 변화 (Histone modification)의 중요성을 밝혔고, 그래서 Epigenetics를 이루는 테마는 DNA methylation, 그리고 Histone modification에 따른 기능 변화가 주를 이룹니다.

 

Chromatin, Histone structure

Epigenetics를 제대로 이해하기 위해서는 DNA methylationHistone modification이 일어나는 장소인 염색질과 히스톤 단백의 구조를 정확히 알고 있는게 중요합니다. 세포의 핵 내 DNA는 실타래와 같은 염색질의 형태로 존재하는데, 이러한 유전 정보의 발현은 상당히 복잡한 과정을 통해서 상당히 정교하게 조절됩니다.

 

fnbeh-11-00041-g001

biology-1538761143

히스톤 단백은 4개의 H2A, H2B, H3, H4의 Core 단백과 H1, H5의 Linker 단백으로 이루어져있습니다. Core 단백은 각각 2개씩, 총 8개의 octamer가 하나의 nucleosome bead를 구성합니다. ‘H3K4me3’와 같은 histone modification을 가르킬 때의 H3가 히스톤 단백의 core protein을 말합니다. 이러한 히스톤 단백의 주위를 DNA 시퀀스가 감고 있는데, 하나의 히스톤 단백의 주위를 약 145~147 bp의 DNA가 감싸고 있습니다.

Capture-6

유전자가 발현되기 위해서는 DNA시퀀스와 히스톤 단백의 실타래가 풀려서, 발현 시키고자 하는 유전자의 시퀀스 주위로 다른 단백들이 공간적으로 접근할 수 있어야 합니다. 따라서 유전자 발현이 활발한 부위 (Euchromatin)는 Chromatin 실타래가 풀려서 성긴 구조를 이루고, 염색을 해도 희미하게 보이게 됩니다.  반대로 유전자 발현이 이루어지지 않을 때는, Chromatin도 매우 compact 하게 압축되어 있기 때문에, 세포를 염색했을 때 진하게 보이게 되며 이러한 부위를 ‘Heterochromatin‘ 영역이라고 부릅니다.

 

Histone modification

Histone-modifications-are-major-biochemical-features-of-chromatin-Histone-can-experience

Histone 단백의 잔기들은 다양한 modification이 가능한데, 위의 그림 B와 같이 Core Histone의 번호와, 아미노산 잔기의 위치에 따른 번호, 그리고 modifcation의 종류를 이용하여 나타냅니다. 대표적인 변화로는 Methylation, Acetylation, Phosphorylation 등이 포함되는데, MethylationAcetylation은 알칼리성 잔기인 Lysine (K)과 Arginine (R)에서, Phosphorylation은 -OH 잔기를 포함하는 Serine (S), Threonine (T), Tyrosine (Y) 잔기에서 일어납니다. 위 그림의 A는 이러한 잔기의 위치와 변화를 보여주고 있습니다.

Histone modification은 유전자의 발현을 촉진하거나, 억제하는 등 그 생물학적인 역할이 모두 다릅니다. 이러한 다양한 역할과 그 조합들로 인해서, 주변 환경과의 상호 작용 및 그에 따른 매우 정교한 조절이 가능해지게 됩니다. 다음 포스팅에서는 Histone modification의 종류와 그에 따른 생물학적인 기능을 정리해보고, 이번 포스팅은 여기서 마치도록 하겠습니다.

 

[References]

Felsenfeld, Gary. “A brief history of epigenetics.” Cold Spring Harbor perspectives in biology 6.1 (2014): a018200.

Cedar, Howard, and Yehudit Bergman. “Linking DNA methylation and histone modification: patterns and paradigms.” Nature Reviews Genetics 10.5 (2009): 295-304.

Prakash, Kirti, and David Fournier. “Evidence for the implication of the histone code in building the genome structure.” Biosystems 164 (2018): 49-59.

 

 

 

DNA 손상 복구 기전과 타겟 치료 항암제

지난번 포스팅에서는 de novo mutation의 발생과 의의에 대해서 정리하였습니다. 관련 연구를 진행하다보니, 조금 더 근본적으로 de novo mutation을 발생시키는 DNA의 손상과 복구 기전에 대한 깊은 이해가 필요함을 느꼈습니다. (공부는 끝이 없습니다.) 사실 DNA 복구 기전의 문제는 많은 질환과 관련이 있는데, 대표적으로 암은 이러한 DNA 복구에 문제가 있는 것으로 잘 알려진 질환입니다. 그래서 DNA 손상과 복구에 대한 대부분의 연구는 암을 중심으로 이루어져 왔습니다. 그렇지만 암 이외에도 많은 유전 질환 또한 DNA 복구 문제와 연관성이 보고되고 있습니다. 그래서 이번 포스팅은 DNA가 손상되었을 때 이를 복구하는 여러가지 방법과 관련 단백을 정리하고, 암종의 맞춤 치료에 대한 의의에 대해 정리해보고자 합니다.

 

DNA 손상의 종류

DNA damage

생명체의 중요한 유전 정보를 지니고 있는 DNA는 이중 가닥으로 이루어져 있기 때문에, 손상의 종류에 따라서 복구되는 기전도 차이가 나게 됩니다. DNA의 손상은 DNA 복제 과정의 에러와 같은 세포의 내인적 요인과 외부의 환경적 요인에 노출되면서 발생하는 다양한 손상 (Environmental mutagen) 등이 복합적으로 작용하여 일어나게 됩니다. 이때, 가닥의 한쪽만 손상 (Single-strand break; SSB)이 이루어진 경우는 상보적인 반대쪽 가닥의 정보를 이용하여 복구를 할 수 있지만, 양쪽 가닥이 모두 손상 (Double-strand break; DSB)된 경우는 인접한 상동 염색체의 정보를 이용하여야 복구가 가능해집니다. 이외에도 이전에 정리했던 Chromothripsis나 Kataegis와 같은 event가 발생하면, 훨씬 더 복잡한 패턴의 대규모의 손상이 발생할 수 있습니다.

 

DNA 복구 기전과 관련된 주요 분자

아래 그림은 DNA의 손상을 복구하는 여러 기전과 관련 분자들을 정리하여 보여주고 있습니다. 암 유전학에서 재미있는 것은 이러한 손상 복구 기전과 연관된 분자들 중 어떠한 것에 문제가 있는가에 따라서 질환의 경과나 치료제의 반응 정도 등에 차이가 난다는 점입니다. 사실 암과 관련된 맞춤 치료 및 표적 치료제 (Targeted agent)도 이러한 개념에 근거하여, 관련 암종의 분자 프로파일 (molecular profile)을 작성하고 최적의 치료 옵션을 찾는데에 있습니다.

  • Base excision repair: DNA의 산화적 손상 (ROS)을 복구하는 가장 기본적인 기전으로, 손상된 염기를 잘라내고 다시 복구합니다.
  • Nucleotide excision repair (NER): 여러 개의 base로 이루어진 조금 더 큰 nucleotide 단위의 손상을 복구하는 기전으로, UV, Tobacco, ROS, Radiation과 같은 다양한 환경적인 mutagen에 대응하는 복구 기전입니다.
  • Mismatch mediated repair (MMR): DNA 복제 과정에서 필연적으로 발생하는 replication error에 대한 복구 기전으로, 잘못 복제된 DNA를 교정해줍니다. 이러한 기전에 문제가 있는 경우, Lynch syndrome 또는 HNPCC (Hereditary nonpolyposis colorectal cancer)라고 하는 가족성 암 증후군을 일으키는 것으로 잘 알려져 있습니다.
  • DNA double-strand break repair: 이중 가닥 손상에 대해서는 다양한 복구 기전이 존재하는데, 크게 NHEJ (Non-homologous end joining)HDR (Homology directed repair) 기전이 존재합니다. 간단히 정리하면 NHEJ는 손상된 부분을 그냥 연결해주는 방식이고, 그렇기 때문에 INDEL이 발생하게 됩니다. 유전자 가위인 CRISPR-Cas9 이 이러한 방식으로 INDEL을 유도하게 됩니다. 반대로, HDR은 인접한 상동 염색체의 동일 부분의 유전 정보를 활용하여 복구하는 기전으로, BRCA1/2 또는 FANC family가 주요한 역할을 하는데, 안젤리나 졸리의 예방적 유방 절제술로 유명해진 유전성 유방 난소암 증후군 (Hereditary Breast Ovarian Cancer; HBOC)이나 판코니 빈혈 (Fanconi Anemia)이 이러한 분자의 문제로 발생하는 것이 잘 알려져 있습니다.

DNA repair

DNA repair_2

 

DNA 복구 기전 문제와 암종의 타겟 맞춤 치료

DNA 손상을 제대로 복구하지 못하여 발생한 암은 문제가 있는 기전에 따라서, 타겟 치료제에 대한 반응성도 달라지게 됩니다. 아래 그림은 이러한 기전과 타겟 치료제의 관계를 보여주고 있습니다. 가장 대표적으로 Homolgy directed repair (HDR)에 문제가 있어서 발생한 암종들은 Platinum 계열의 항암제PARP inhibitor에 잘 듣는 것으로 알려져 있고, Mismatch repair (MMR)에 문제가 있는 암종들은 면역 항암제 (Immune Checkpoint Inhibitor)에 대한 반응성이 좋은 것으로 보고 되고 있습니다. 이러한 분자 기전과 연관된 분자에 따라서, 환자의 반응성을 예측하고 치료 옵션을 수립하는 것이 환자별 맞춤 치료와 정밀 의료의 방향성으로 제시되고 있습니다.

F1.large

 

관련 포스팅 보기>

[유전학 중요개념 정리] De novo mutation의 발생 기전과 질병 발생학적 의의

[유전학 중요개념 정리] Complex DNA rearrangement: Chromothripsis, Chromoanasynthesis, and Chromoplexy

닥터 프리즈너 속 헌팅턴병의 유전학: 삼염기 반복 질환과 Anticipation

면역 항암제, Immune checkpoint inhibitor의 원리 및 종류

 

[References]

Jalal, Shadia, Jennifer N. Earley, and John J. Turchi. “DNA repair: from genome maintenance to biomarker and therapeutic target.” Clinical cancer research 17.22 (2011): 6973-6984.

Morgan, Meredith A., and Theodore S. Lawrence. “Molecular pathways: overcoming radiation resistance by targeting DNA damage response pathways.” Clinical Cancer Research 21.13 (2015): 2898-2904.

Corcoran, Niall M., et al. “Molecular pathways: Targeting DNA repair pathway defects enriched in metastasis.” Clinical Cancer Research 22.13 (2016): 3132-3137.