Rare variant association analysis: SKAT, SKAT-O, Burden test

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

plink를 이용한 GWAS 분석에 대한 지난 포스팅에 이어서, 이번에는 SKAT을 이용한 rare variant 분석에 대한 포스팅을 정리해보고자 합니다. 유전자에 존재하는 변이(Variant)는 인구 집단 내의 분포 빈도 (Allele frequency)에 따라서, 흔한 변이 (Common variant)희귀 변이 (Rare variant)로 구분됩니다. 전장 유전체 연관 분석 (Genome-wide association study, GWAS)은 이러한 변이 중에서 일반적으로 인구 집단 내에 변이 빈도 분포가 5% 이상인 흔한 변이를 대상으로 하게 되는데, 대부분의 흔한 변이들은 유전학적 선택압 (Selective pressure)이 작은 변이들이기 때문에, 효과 크기 (Effect size)가 작은 것들이 대부분입니다.

 

41586_2009_Article_BFnature08494_Fig1_HTML

따라서 Common variant를 이용한 GWAS 분석으로, 설명이 안되는 유전력을 갖는 질환에 대해서 “Missing heritability“라는 용어가 등장하게 되었습니다. 이후의 후속 연구들에서는, Missing heritability를 설명하기 위해서, 변이의 빈도가 매우 드물지만, 효과 크기가 훨씬 큰 Rare variant 들이 조명을 받게 됩니다.

Missing heritability에 관한 Nature 사설 보기>

Maher, B. Personal genomes: The case of the missing heritability. Nature 456, 18–21 (2008)

Missing heritability

다만 Rare variant의 경우는, 변이 자체의 빈도가 매우 드물기 때문에 통계적으로 변이의 영향을 비교하기 위해서는 매우 큰 수의 표본이 필요한 한계가 있습니다. 이러한 한계를 극복하기 위해서, 같은 유전자 내에 존재하는 희귀 변이를 유전자 또는 특정 구역의 단위로 집합 시켜서 분석하는 방법이 제안되었는데, 이것이 Gene-level aggregation test 입니다. 즉, GWAS에서는 개별 SNP의 효과를 변이 단위로 분석이 진행되었다면 (Single variant association test), rare variant의 경우는 여러 개의 variant를 Gene 단위로 그룹화하여, Gene의 효과를 비교 분석 (Multiple variant association test)하는 분석을 진행하게 됩니다.

gene aggregation

이와 같은 분석에서 중요한 점은 ‘어떠한 기준으로 변이를 유전자 단위로 그룹화 할 것인가?’ 하는 문제가 발생하게 되는데, 일반적으로 변이 빈도의 threshold 설정 (MAF 5% vs 1%), 변이의 Functional classification 등을 사용자가 임의로 설정하여 분석을 진행하게 됩니다. 더불어, 각 희귀 변이의 효과들이 동일하지 않기 때문에 개별 변이의 효과를 보정해주는 방법으로 Rare variant allele frequency, In-silico prediction score 등을 이용하게 됩니다. 아래는 이러한 희귀 변이 분석 방법과 각 분석 방법의 장, 단점, 그리고 분석 software를 정리한 표입니다.

rare variant association

위 표의 희귀 변이를 위한 다양한 분석 도구 중에서 오늘은 R package로 개발된 대표적인 분석 도구로 사용되는 Sequence Kernal Association Test (SKAT)에 대해서, 간단히 정리하고 마치도록 하겠습니다. Burden test의 경우는 변이들의 효과 방향이 일정하고, 대부분이 원인 변이이 경우에 더 강력한 통계 검정 방법이고, SKAT의 경우는 각 변이들의 효과 방향이 제각각이거나, 원인 변이의 비율이 적은 경우에 더 강력한 통계 검정 방법입니다.  SKAT-O이 둘의 효과를 통계적으로 최적화하는 optimized rho value를 계산하여, 양쪽의 장단점을 모두 이용하는 방법입니다.

마지막으로 ‘SKAT’ R package를 이용을 위한 code를 공유합니다. 분석에 앞서, 이전 plink 분석 포스팅에서 언급했던 Bed, Bim, Fam 파일 및 phenotype data를 포함하는 PED 파일이 input data로 준비되어야 합니다. 마지막으로 Rare variant 변이들은 어떤 기준으로 그룹화할지에 대한 정보를 지정한 SetID 파일을 생성하여야 합니다. 자세한 내용은 SKAT 패키지의 manual을 참조하시기 바랍니다.


library(SKAT)

setwd("/plink_result")
file_name <- "my_plink"

File.Bed <- paste(file_name,".bed",sep = "")
File.Bim <- paste(file_name,".bim",sep = "")
File.Fam <- paste(file_name,".fam",sep = "")
File.SSD <- paste(file_name,".SSD",sep = "")
File.Info <- paste(file_name,".info",sep = "")
File.SetID <- paste(file_name,".SetID",sep = "")

Generate_SSD_SetID(File.Bed, File.Bim, File.Fam, File.SetID, File.SSD, File.Info)

SSD.INFO <- Open_SSD(File.SSD, File.Info)
FAM <- Read_Plink_FAM(File.Fam, Is.binary=FALSE)
COV <- Read_Plink_FAM_Cov(File.Fam,"pheno_data.ped", Is.binary=FALSE, flag1=0, cov_header=TRUE)

# continuous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="C")
# dichotomous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="D")

# SKAT
out.skat <- SKAT.SSD.All(SSD.INFO, obj)
#SKAT-O
out.skato <- SKAT.SSD.All(SSD.INFO, obj, method="optimal")
#Burden test
out.burden <- SKAT.SSD.All(SSD.INFO, obj, r.corr=1)

data <- cbind(out.skat$results,out.skato$results,out.burden$results)
write.table(data,"SKAT_results.txt",col.names=T,row.names=F,quote=F,sep="\t")

Close_SSD()

 

 


[References]

‘SKAT’ R package

SKAT GitHub: https://github.com/leeshawn/SKAT

Lee, Seunggeung, et al. “Rare-variant association analysis: study designs and statistical tests.” The American Journal of Human Genetics 95.1 (2014): 5-23.

Lee, Seunggeun, et al. “Optimal unified approach for rare-variant association testing with application to small-sample case-control whole-exome sequencing studies.” The American Journal of Human Genetics 91.2 (2012): 224-237.

Bansal, Vikas, et al. “Statistical analysis strategies for association studies involving rare variants.” Nature Reviews Genetics 11.11 (2010): 773-785.

 

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

유전체 연구에 있어서 연구 디자인 (Study Design)과 형질 (Phenotype) 은 매우 중요합니다. 특히 약물 유전체 연구에 있어서의 관심 형질은 체내 약물 농도나 대사능, 부작용의 발생 여부 등이기 때문에 더욱더 정확한 표현형을 수집하기가 어려운 점이 있습니다. 최근에 논문을 쓰면서, GWAS (Genome-wide association study)를 돌리고, Manhattan plot을 그릴 일이 있어서, 관련 분석 과정을 정리해볼까 합니다.

관련 포스팅 보기>

 

I. PLINK

1-s2.0-S0002929707613524-gr4_lrg

대부분의 GWASSNP array를 이용하여, 대표 유전자 마커를 이용한 표현형 연관성 연구로 진행이 되는데, 이때 주로 사용하는 Tool이 plink입니다. (해당 tool이 논문으로 나온게 2007년이니까 벌써 10년도 넘은 소프트웨어입니다..) 그러나 아직도 쓰이고 있다는 건, 그만큼 많은 연구자들이 쓴다는 것이고, 대표적인 소프트웨어라고 할 수 있습니다. (1.9 버젼이 나온 이후, 2.0 버젼을 베타 테스트하고 있다고 한지도 꽤 오래 되었는데, 그 이후 업데이트가 매우 느리게 진행되고 있는 것이 단점입니다.) 물론, BI tool 답게 많은 경쟁 소프트웨어들이 나왔는데 (ex. EPACTS), 아직도 대부분의 논문에서 plink를 쓰는 것을 보면, 대부분의 분석을 하는데 plink만 있어도 크게 무리가 없기 때문이 아닐까 합니다. plink의 사용법은 plink 홈페이지 (PLINK: Whole genome data analysis toolset)의 tutorial page에 매우 자세하게 소개가 되어 있어서, 그때 그때 필요한 내용들을 찾아서 쓰면 됩니다.

plink 다운로드 및 설치>

<VCF 파일 압축 및 인덱싱>

bgzip -c [myvcf.vcf] > [myvcf.vcf.gz]
tabix -p vcf -f [myvcf.vcf.gz]

<PED, MAP 파일 or BED, BIM, FAM 파일 만들기>

plink 실행을 위해서는 PED & MAP file 또는 binary 형식으로 변환된 BED, BIM, FAM file이 필요합니다. 일반적으로 SNP array 데이터를 생산하면 만들어주기 때문에 따로 준비할 필요는 없습니다. 간혹 NGS로 생산된 시퀀싱 데이터로 plink로 실행하고 싶은 경우, vcf 파일을 위의 형식으로 변환하면 좋은데, 아래와 같은 command가 유용합니다.

plink --noweb --vcf [myvcf.vcf.gz] --recode --out myplink
plink --noweb --vcf [myvcf.vcf.gz] --recode --make-bed --out myplink

<PLINK 파일 기본 QC>

plink --file myplink --missing-genotype N --make-bed --mind 0.05 --maf 0.05 --geno 0.1 --hwe 1e-6 --recode --out myplink.QC

missing genotype 여부, genotyping calling rate, minor allele feqeuncy, HWE (Hardy-Weinberg equilibrium) cut-off 기준으로 이를 위반하는 SNP들은 모두 날려버리는 quality control 과정입니다.

<plink를 이용한 연관 분석>

plink를 이용한 연관 분석은 통계 모형에 기반하기 때문에 우선적으로 어떤 모델을 이용하여, 어떻게 분석을 할지를 고려해야 합니다. Genetic inheritance mode (Additive, Dominant, Recessive)와 분석 형질이 Dichotomous trait인지 Continuous trait 인지에 따라서 Case-control, linear regression, logistic regression model 등을 적용할 수 있습니다. 더불어, 보정을 위한 공변량(covariate)으로 무엇을 선택할 것인지도 중요합니다.

분석을 위한 Input Phenotype data를 준비하는 과정도 중요한데, 다음 페이지에서 자세하게 소개가 되어 있습니다.

[분석을 위한 command]

plink --noweb --bfile [mydata] --[additive/dominant/recessive] --[assoc/linear/logistic] --pheno [phenotype_file] --pheno-name [phenotype_name] --covar [covariates_file] --covar-name [covariates_name] --out [result_file]

위의 command에 적절한 inheritance mode [additive/dominant/recessive]와 분석 모델 [assoc/linear/logistic]을 골라서, 분석을 실행하면 됩니다. 특정 SNP에 대한 Conditioning을 원하는 경우, –cond [SNP ID]를 추가합니다.

위의 분석 과정을 거치면, 모든 SNP 위치에 대한 Beta 및 P value가 계산됩니다. Beta는 해당 SNP의 Effect size를 나타내는 통계량이고, P value는 해당 SNP의 통계적 유의도를 의미합니다. Manhattan plot은 일반적으로 여기서 계산된 P value에 -log를 취한 형태로 그리게 됩니다.

II. Manhattan Plot 그리기

Manhattan Plot을 그리는 방법도 다양하지만, 여기서는 제일 간편한 qqman R package를 이용하도록 하겠습니다. 자세한 option은 아래 Reference의 자료들을 참고 바랍니다.

library(qqman)

## plink 결과 파일 불러오기
data &amp;amp;lt;- read.table("plink_result", header = T, stringsAsFactors=F)

## Manhattan plot 그리기
manhattan(data, main = "Manhattan Plot", ylim = c(0, 40), cex = 0.8, cex.axis = 0.9, col = c("grey", "skyblue"))

## QQ plot 그리기
qq(data$P)
GWAS

위의 패키지를 이용하면, 위와 같은 Manhattan plot을 손쉽게 만들 수 있습니다.

III. HaploView

마지막으로, SNP 정보의 linkage 여부에 따른 LD block의 시각화를 위한 Haploview에 대해서 간단히 정리하고, 포스팅을 마치도록 하겠습니다.

Haploview 4.2 Download

plink --noweb --bfile [mydata] --extract [Gene_SNP_list] --recodeHV --out [Gene_haploview]

plink의 위의 command를 이용하여, Haploview를 원하는 SNP의 list에 대해 ped 및 info 파일을 생성합니다. 이를 HaploView 프로그램을 통해 loading해주면, 생성된 LD block과  계산된Haplotype 조회가 가능합니다. 아래 그림은 HaploView를 이용하여, 생성된 LD block 입니다.

Figure S5

[References]

PLINK: Whole genome data analysis toolset

Purcell, Shaun, et al. “PLINK: a tool set for whole-genome association and population-based linkage analyses.” The American journal of human genetics 81.3 (2007): 559-575.

Chang, Christopher C., et al. “Second-generation PLINK: rising to the challenge of larger and richer datasets.” Gigascience 4.1 (2015): s13742-015.

qqman R package GitHub

Manhattan plot in R: a review

[유전학 중요개념 정리] Complex Trait and Polygenic Risk Score

시퀀싱 기술과 같은 유전학적 연구 도구의 발달은 많은 유전학적 질환에 대한 이해를 가능케하고 있습니다. 그러나 다른 한편으로는 모든 형질과 질환에 대한 이해를 2차원적인 염기 서열로 회귀시켜서 이해하는 사고의 고착화를 유발하고 있는 것 같습니다. 가령 임상에서 환자 검체를 이용하여 연구를 하려고 하시는 선생님들의 경우, 일단 모르겠으니까 시퀀싱부터 해보자 하는 모습을 자주 접하게 됩니다. 저는 지난 3년간 정상인부터 다양한 코호트의 환자군들의 시퀀싱 데이터를 다양하게 접하고 분석을 해보았는데, 그러면서 가장 크게 배우고 느낀 것은 연구 대상 코호트의 유전학적 조성에 대해서 이해하고 그에 맞는 연구 도구를 사용하는 것이 매우 중요하다는 것입니다. 그런 의미에서 이번 포스팅은 복합 형질 또는 양적 형질 (Complex trait or Quantitative trait)GWAS 시대에서 Complex trait을 설명하고자 하는 하나의 방법인 Polygenic Risk Score (PRS)에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전학 중요개념 정리] eQTL

41576_2018_83_Fig1_HTML

복합 형질이란 말 그대로 표현형을 결정하는데 다양한 요소들이 관여하는 형질을 말합니다. 대표적으로 키, 지능, 대부분의 질환 등을 포함하며, 유전학적 요인 외에도 다양한 환경적 요인들이 관여하게 됩니다. 유전학적으로 동일하다고 할 수 있는 일란성 쌍둥이의 경우에도, 기본적인 유전적 틀이 동일하더라도, 어느 시기에 어떤 자극을 통해서 유전자가 발현되고 조절되는가에 따라서 차이를 보이는 것입니다.

특히 GWAS 연구를 통해서 찾은 SNP의 경우는 대부분 유전자의 코딩 영역이 아닌 곳에 위치하는 경우가 많은데, 이는 유전자의 산물인 단백질을 직접 결정하는 부위 (코딩 영역) 외에 유전자를 발현시키는 것을 조절하는 부위 (eQTL)들이 많은 형질의 차이에 관여함을 시사합니다.

GWAS 연구 방법은 많은 한계점이 있는데, 저는 선형적 회귀 방법에서 오는 한계점이 가장 크다고 생각합니다. 즉, 모든 대상들은 유전자 염기 서열이라고 하는, 하나의 동일한 줄로 쭈욱 세우고, (맨하탄 플롯의 x 축) 그 안에서 SNP을 서로 비교하는 것은, 형질이라고 하는 하나의 결과를 너무 단순화해서 생각하기 때문이라는 것이죠. 이러한 2차원적인 접근법은 개인별로 흔하게 존재하는 구조 변이에 대해서는 고려할 수가 없고, 실제로 존재하는 3차원적인 공간적 구조, 4차원적인 유전자 발현의 시간적 효과 등을 모두 무시하게 됩니다. GWAS 연구 방법은 성공도 거두었지만, 동시에 많은 실패를 맛본 연구자들은 다양한 시도를 하게 되는데, 그 중에 하나가 Polygenic Risk Score를 통한 Risk Stratification 입니다. 즉, 위에서 언급한 대로 대부분의 형질은 다양한 요소들이 영향을 미치므로, GWAS 연구를 통해서 1~2개의 SNP을 찾는데 실패한 질환에 대해서, 다양한 SNP들의 조합을 통해서 그 효과와 영향을 예측하겠다는 것이지요.

PRS_00000

이러한 Score의 계산은 다양한 방법들이 제안되었으나, 기본적으로 GWAS 연관성 분석을 통해서 산출되는 effect size, β 값을 이용하게 됩니다. 영향을 미치는 다양한 SNP들의 effect size들의 조합을 선형 회귀 방법을 통해서 합치고, LD block에 대한 영향을 보정해줌으로써 예측 모델을 생성하게 되는 것이지요. 위의 그림은 PRS를 계산하는 이러한 전체적인 방법에 대해서 잘 나타내주고 있습니다. 최근에는 다양한 통계적 방법을 통한 보정과 접근과 동시에 비선형적인 효과를 활용할 수 있는 머신 러닝 접근법도 다양하게 시도되고 있습니다. 그러나 이러한 접근법도 위에서 언급한 GWAS 자체의 한계점을 보완할 뿐 근본적인 문제는 그대로 안고 있기 때문에, 크게 성공을 거두기는 어려워 보입니다. 그럼에도 불구하고, 최근에 당뇨, 심혈관 질환, 유방암 등의 질환에서 많은 유용성을 보였다는 Nature Genetics의 아래 논문은 고무적으로 보입니다.

PRS_00001
관상 동맥 질환의 위험도를 예측하는 Polygenic score와 그에 따른, 질환의 유병률을 나타낸 그림.

PRS
환자가 가지고 있는 임상적으로 추정 가능한 위험도 (Clinical Risk) 와 유전적 위험도 (Polygenic Risk) 를 함께 고려하면, 기존보다 좀 더 정확하고 유용한 진료와 치료가 가능할 것으로 예상됩니다.

[References]

Khramtsova, Ekaterina A., Lea K. Davis, and Barbara E. Stranger. “The role of sex in the genomics of human complex traits.” Nature Reviews Genetics (2018): 1.

Torkamani, Ali, Nathan E. Wineinger, and Eric J. Topol. “The personal and clinical utility of polygenic risk scores.” Nature Reviews Genetics 19.9 (2018): 581.

Khera, Amit V., et al. “Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations.” Nature genetics 50.9 (2018): 1219.

Choi, Shing Wan, Timothy Shin-Heng Mak, and Paul F. O’Reilly. “Tutorial: a guide to performing polygenic risk score analyses.” Nature Protocols 15.9 (2020): 2759-2772.

SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

[유전학 중요개념 정리] Enhancer, Super-enhancer

최근 많은 유전체 연구가 유전체의 3차원적인 구조와 직접 단백질을 coding 하지 않는 non-coding region의 역할과 질병 발생 메커니즘에 이뤄지면서, 유전체에 대한 이해의 폭이 넓어지고 있습니다. 최근에는 과거의 단순하게 A,T,G,C로 이루어진 염기 서열의 2차원적인 시각에서 벗어나, 유전자의 발현 기작은 훨씬 복잡하게 이뤄진다는 것을 알게 되었습니다. 사실 이러한 이유 때문에 GWAS 또는 NGS를 이용하여 유전자의 염기 서열을 확인하는 것으로는 유전형과 실제 표현형 간의 괴리가 크지 않았나 하는 생각입니다. 이러한 이유 때문에, 저는 DTC 검사로 단순한 몇개의 SNP을 검사해서 개인의 다양한 표현형을 예측해준다는 회사들에 회의적입니다. 오늘은 유전체 영역 중 non-coding region 에 위치하면서, 실제로 유전자들의 발현을 조절하는 EnhancerSuper-enhancer의 개념을 정리하는 포스팅을 남기고자 합니다.

관련 포스팅 보기 > DTC 유전자 검사의 딜레마: 과학과 산업 사이

우선 들어가기에 앞서, Enhancer의 개념에 대해서 살펴보겠습니다. 유전자의 발현은 유전자의 위쪽에 존재하는 Promotor의 transcription binding site에 신호 전달 물질을 통해서 이뤄지는데, enhancer는 이러한 promotor와 작용함으로써 유전자 발현을 조절하는 부위입니다. Super-enhancer는 그 이름에서 유추할 수 있듯이, 이러한 enhancer의 작용이 특별히 더 강한 그룹을 의미하는데, 더 자세한 정의는 아래에서 살펴보겠습니다. 조직별로 유전자 발현 패턴은 서로 상이하게 되는데, 이러한 유전자의 발현 양상의 차이는 결국 다양한 enhancer들의 작용 기작과 관계되어 나타난다는 것이 현재까지의 관찰입니다.

molce-40-3-169f1
[Enhancer를 통한 유전자의 발현 조절] Enhancer는 직접적으로 유전자를 발현하는 promotor와의 상호작용을 통해, 조직 특이적으로 유전자의 발현을 조절하는 역할을 합니다.
아래 모식도는 Super-enhancer를 어떻게 정의하는지에 대해서 보여주고 있습니다. ChIP-seq이라고 하는 방법을 이용하여, 유전체 상의 enhancer가 위치하는 곳을 알아내고, 이러한 enhancer들을 위치별로 clustering 하여, 실제 유전자 발현 과정을 반영한다고 생각되는 마커 (Med1)가 얼마나 강하게 나타나는지를 확인하여, 상위 3%에 해당하는 부위를 super-enhancer라고 정의하고 있습니다. 이러한 정의는 임의적이고 아직까지 논란이 많지만, enhancer 부위 중에서 특별히 강한 enhancer로 작용하는 부위를 대표한다고 생각하면 되겠습니다.

ChIP-seq에 대한 포스팅 보기 > Non-coding 영역의 GWAS 신호 해석: 3C based method

ng.3167-F1
[Super-enhancer를 확인하는 3 단계 과정] ChIP-seq을 통해, enhancer 부위를 확인하고 이 영역 중에서 특별히 더 강한 Med1 enrichment를 보이는 부위를 super-enhancer로 정의합니다.
위에서 정의한 super-enhancer는 질병 발생 메커니즘에 대한 다양한 정보를 제공합니다. 특히 왜 특정한 조직이나 기관에서만 유전자의 이상으로 특이적인 질환이 연관되어 발생하는지, GWAS 연구를 통해 질환과 연관되어 나타나는 non-coding 영역의 SNP은 어떠한 의미를 갖는지에 대해서 실마리를 제공해줍니다. 아래 그림은 실제로 다양한 질환에 대한 GWAS 연구를 통해 확인된 non-coding SNP들이 특정 조직에서만 특이적으로 존재하는 super-enhancer 주위에 더 몰려있는 것을 볼 수 있습니다. 이는 간접적으로 super-enhancer를 통해서 조직 특이적으로 중요하게 발현되는 유전자들에 이러한 non-coding SNP들이 영향을 미쳐 질병 발생을 일으키는데 관여함을 시사합니다.

Figure4_130828
[GWAS 연구를 통해 확인된 SNP과 enhancer, super-enhancer와의 관계] GWAS 연구를 통해서 연관성이 확인된 SNP의 대부분은 non-coding 영역에 위치하고, 연구 결과 질병과 관련있는 조직의 super-enhancer 영역 근처에 존재하는 것으로 확인되었습니다.

[References]

Hnisz, Denes, et al. “Super-enhancers in the control of cell identity and disease.” Cell 155.4 (2013): 934-947.

Pott, Sebastian, and Jason D. Lieb. “What are super-enhancers?.” Nature Genetics 47.1 (2015): 8.

약물 유전체 연구가 어려운 이유

저는 작년 2월부터 1년 반정도의 기간을 약물유전체 연구를 하고 있습니다. 지도 교수님이신 이민구 교수님과 다양한 약물 반응에 대한 유전적 바이오 마커를 발굴하는 연구를 하고 있는데, 생각보다 쉽지가 않고, 좋은 결과가 나오지 않고 있습니다. 그에 비해 최근에 선천성 기형의 일종인 두개골 조기유합증이라는 희귀질환에 대해 성형외과 및 신경외과와 공동연구에도 참여하고 있는데, 많은 환자들의 유전적 원인들을 확인할 수 있었습니다. 유전적 소인과 형질 간에는 어떠한 연관이 있는 것일까요? 이번 글은 흔히 말하는 Common diseaseRare disease 의 차이와 더불어, 지난 1년반정도의 기간을 약물 유전체 연구를 하며 느낀 점들과 왜 약물 유전체 연구가 어려운지에 대해서 정리해보고자 합니다.

기본적으로 약물 유전체 연구는 크게 여러 사람들이 동일한 약물을 먹었을 때 혈중 유효 농도가 다양하게 나타나는 것에서, 어떤 유전적 차이가 이러한 약물 대사에 기인하는지부작용 발생 유무의 위험도를 예측할 수 있는 유전적 바이오마커가 있는지에 관심을 갖춰 연구되고 있습니다.

관련 포스팅 > 약물 유전학은 왜 정밀의료에서 중요한가?

slide_42

I. 약물 반응은 복합 형질 (Complex trait)이다 : 기본적으로 약물의 대사 과정에는 다양한 약물 효소가 관련합니다. 또한 약물이 흡수되어 배출되기까지의 대사 과정 (ADME) 또는 약동학 (Pharmacokinetics) 과정에는 다양한 요소들이 관여하기 때문에, 한 두가지 유전적 소인이 형질에 결정적 차이를 나타내기 어렵습니다. 복합 형질로 가장 많이 연구되는 질병 중 하나가 2형 당뇨병 (Type 2 Diabetes mellitus; T2DM)인데, 당뇨병 발생의 원인과 그 유전적 요인에 대해서 많은 연구가 진행되었지만 여전히 속 시원한 유전적 원인에 대해서는 알지 못하고 있습니다. 특히 이러한 복합 형질에서 발굴된 유전적 마커들은 형질의 차이에 기여하는 정도가 매우 작아서, 대부분의 효과 크기 (Effect size)가 매우 작습니다. 그래서 그나마 연구가 잘되고 결과가 잘 나오는 것은 효과 크기가 매우 큰 한 두가지의 유전적 인자가 약물의 부작용 발생 유무에 영향을 미치는 경우입니다.

II. 약물 반응의 측정 자체가 어렵다 : 체내 약물 대사능에 영향을 주는 유전적 인자를 확인하고자 하는 연구의 경우, 일단 환자에서 해당 약물 농도 측정 자체가 매우 어렵습니다. 현실적으로 환자들에게는 의사들이 체중이나 대사능 등을 고려하여 약을 처방하기 때문에 복용한 약물의 양도 간격도 전부 달라지게 되며, 약물 농도라는 것도 매우 변동성이 심하기 때문에 언제 채혈하였는지, 다른 약과 함께 복용하였는지 (drug-drug interaction), 음주 & 흡연 여부, 성별 등 다양한 요소에 영향을 받게 됩니다. 기본적으로 이러한 요소들에 대한 명확한 통제가 어렵고, 보정을 한다고 하더라도 그 측정 약물 농도가 명확하게 그 사람의 약물 대사능을 대변하지도 못합니다. 즉, 처음부터 얻어지는 정보 자체에 매우 큰 변동성이 있기 때문에 해당 데이터와 유전적 정보 간의 연관성을 찾으려고 해도, 그 영향이 명확하게 큰 경우가 아니면 연관성을 찾기가 매우 어렵습니다.

III. 약물 대사 경로에는 다양한 대체자가 존재한다. : 이 세상에는 정말로 다양한 약물이 존재합니다. 기본적으로 약물은 간에서 대사되어 신장을 통해 배설된다고 알려져 있습니다만, 약물 개별로 보면 어떤 약물이 정확하게 어떠한 효소에 의해 대사되어 어떠한 형태로 배설되는지, 명확하게 알려져 있는 약물은 그리 많지 않습니다. 희귀 질환의 경우에는 생명에 필수적인 역할을 하는 어떠한 유전자에 문제가 생겨서 바로 질환으로 나타나는 경우가 많습니다. 이는 해당 유전자가 만들어내는 단백질이 중요한 역할을 하고, 다른 유전자가 대신 기능을 해주지 못하기 때문입니다. 반면에 약물 유전자가 만들어내는 약물 효소의 종류는 워낙 다양해서 한 두가지 효소에 문제가 생긴다고 하더라도, 비슷한 다른 효소가 이러한 역할을 대신해주게 됩니다. 그리고 대사 경로 자체가 한가지 방향으로만 정해져 있는 것이 아니라, 어떠한 길이 막히면 다른 길로 돌아갈 수 있는 대체 경로가 존재하게 됩니다. 즉, 약물 대사능은 한가지 유전자와의 1:1 대응이 아니라, 다수의 효소들이 관여하여 복합적으로 나타나기 때문에 동시에 고려해야할 요소들이 많아지게 됩니다. 이를 유전학적으로 나타내보면 다음과 같습니다.

  • A number of isoforms (e.g. Cytochrome P450 family, GST family)
  • Many different transcription mode in a single gene: alternative splicing

 

IV. 연구 방법의 한계 : 유전적 바이오 마커 발굴의 연구 방법으로 많이 사용하고 있는 것이 SNP array chip 또는 NGS를 통한 시퀀싱입니다. SNP array는 주로 GWAS 연구에 사용하기 때문에 인구집단에 흔하게 존재하는 common variant 연구에 사용하고, NGS 시퀀싱은 유전자의 개별 변이까지 모두 확인하기 때문에 rare variant 발굴에 사용하게 됩니다. 그러나 두 연구 방법 모두 한계가 있습니다. 앞에서 언급한 것처럼 복합형질에서 common variant는 그 효과 크기에 대부분 매우 작기 때문에 GWAS 연구로는 새로운 마커의 발굴이 쉽지 않은 편입니다. 반면 Rare variant 발굴에 유리한 NGS 방법으로는 rare variant를 발굴하여도 그 변이의 해석이 쉽지 않고, 더불어 통계적으로 의미 있는 결과를 얻기 위해 필요한 n수가 매우 커서 현실적으로 연구가 어렵게 됩니다.

관련 포스팅 >

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

전장 유전체 연관 분석, GWAS란 무엇인가?

유전자 변이의 해석: 대용량 기능 검사의 필요성

위에서 언급한 여러가지 이유들로 인해, 약물 유전체 연구는 정말 어려운 분야인 것 같습니다. 하지만 다른 한편으로는 정밀의료 분야의 발전으로 가장 많은 사람들이 혜택을 볼 수 있는 분야도 약물과 관련된 분야이기 때문에, 그만큼 의미가 크다고 할 수 있겠습니다. 이러한 여러가지 어려운 점에도 불구하고, 열심히 노력하고 있는 연구자들이 함께 좋은 연구가 나올 수 있었으면 하는 바람입니다.

SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

오늘은 최근에 연구를 하면서 확실하게 차이를 알게된 array CGHSNP array에 대해 정리하고, SNP array의 일종으로 많은 연구자들이 사용하고 있는 한국인칩에 대해서 소개하는 포스팅을 올리고자 합니다.

저는 이해하기 쉽게 정리하는 걸 선호하기 때문에 공통적으로 array의 개념부터 정리하겠습니다.

Affymetrix

array (= 배열) 검사: 여러개의 열에 각각 특정 sequence를 인식하는 탐식자 (probe)를 심어, 해당 부위를 검출하기 위한 목적으로 만든 검사 방법

두 검사 모두 array 기법을 이용하는 점은 공통이나 검사의 목적이나 응용 방법, 그리고 장, 단점 등등에 차이가 있습니다.

cgh_test.jpg
[array CGH (A) 와 SNP array (B) 비교] A는 control 물질과의 상대적 신호 세기를 이용하여 Copy number 검출이 목적인 반면, B는 oligo-probe를 이용하여 target 영역의 Genotype 검출이 목적이라는 점이 가장 다릅니다.
 

I. array CGH (comparative genomic hybridization)

array CGH는 원래 처음에는 암 조직을 이용한 연구에 많이 사용되었습니다. 암세포는 정상 세포와 달리 염색체의 구조적 이상이 많이 발생하게 되는데, 암세포에서 이러한 염색체 이상을 확인하기 위한 방법으로 array CGH를 이용하기 시작한 것이지요. 저도 10년 전에 의대 강의를 들을 때, 처음 array CGH와 FISH 검사 방법에 대해서 배웠던 기억이 어렴풋하게 납니다. array CGH가 이러한 염색체 이상을 확인할 수 있다는 것을 알게되면서, 그 다음으로 많이 이용된 분야는 신생아 기형 검사입니다. 다운 증후군이나 에드워드 증후군처럼 염색체 검사를 통한 수적 이상이 확실하게 확인되는 경우 이외에도, 염색체 이상이 의심되는 기형을 갖고 태어나는 신생아들에서 많은 경우, 염색체 미세 결실 또는 중복 (micro-deletion and duplication)이 관찰되는 경우가 많기 때문에 이러한 것을 검출하는데 이용되기 시작한 것이지요. 따라서 처음에는 탐식자의 크기가 크고 해상도도 낮았으나, 점점 probe의 갯수가 늘어나고 해상도도 개선되어 최근에는 매우 작은 크기의 염색체의 구조적 변이도 검출이 가능해졌습니다. 이와 더불어 구조적 변이 (Structural variation)CNV (Copy number variation) 검출도 가능하여, 임상 진단 외의 많은 연구 영역에서 활용되고 있습니다.  (그러나 아직까지도 검사 비용이 매우 비싼 것이 단점입니다.)

관련 포스팅 > [유전학 중요개념 정리] Structural variation 및 Copy-number variation

array CGH
[array CGH의 검사 원리] 환자 검체와 정상 대조군을 각각 다른 형광 물질로 표지하여 나오는 상대적인 신호를 검출하여, 해당 탐식자가 검출하는 염색체 부위에 수적 이상이 있는지를 확인하게 됩니다.

II. SNP (Single Nucleotide Polymorphism) array

array CGH와 달리, SNP array는 최근 GWAS (Genome-Wide Association Study)와 더불어 더 각광받게된 검사 방법입니다. 유전체의 특정 SNP을 타깃으로 하는 oligo probe를 매우 많이 포함하는 array를 개발하여, 거의 대부분의 유전체 영역을 커버하는 array를 개발하고 연구에 활용하고 있는 것이지요.

관련 포스팅 > 전장 유전체 연관 분석, GWAS란 무엇인가?

snp_schema
[SNP array의 검사 원리] 타겟 영역에 특이적으로 결합하는 수 많은 oligo probe가 해당 부위의 SNP genotyping 정보를 제공해주게 됩니다.

가장 유명하고 많이 쓰이는 SNP array는 Affymetrix 사의 Genome-Wide Human SNP array 6.0 버전인데, 90만개 이상의 SNP을 탐지하는 probe와 CNV 분석을 위한 별도의 94만개의 probe를 포함하여 약 180만개의 marker가 심어져 있습니다. SNP array를 통해서도 CNV 분석이 가능합니다만, CGH와 다르게 control이 있는 것이 아니기 때문에 B allele frequency (BAF) 라고 하는 genotype call 정보를 이용하며 분석 방법도 다르게 됩니다.

그림1

 

III. UK Biobank Array와 Korean Chip (the Korea Biobank Array)

UK Biobank는 연구 자원 활용 및 이를 통한 국민의 복지 증진을 목적으로 영국에서 운영하는 국가 단위의 프로젝트입니다. 이를 위해서, 엄청나게 많은 수(약 50만명)의 영국인을 대상으로 Array 기반 genotyping을 진행하였는데, 이때 이용한 SNP array가 흔히 말하는 UK Biobank Array 입니다. UK Biobank Array를 통한 genotyping 정보는 함께 보관된 수많은 임상 정보와 함께 종합적으로 활용이 되고 있는데, 현재도 연구의 재현 및 검증을 위하여 다른 나라의 연구자들이 분양을 받아 이용하고 있습니다.

우리 나라에서도 비슷한 목적으로 사업을 시작하여,  한국인에 맞춘 SNP array 칩이 제작되었는데, 이것이 한국인칩 (the Korea Biobank Array or Korean Chip)입니다. 기존의 비싼 가격과 Cover가 되는 SNP이 인종에 따른 차이를 반영하지 못하는 문제 등을 개선하여 한국인을 대상으로 더 효율적인 연구가 가능하도록 하였습니다. 자세한 정보는 한국인칩 컨소시엄 홈페이지 에 잘 소개되어 있는데 , 대략 83만개의 대표 마커를 포함하며 한국인 특이 희귀 변이(Rare variants)를 많이 추가한 것이 눈에 띕니다. 자세한 내용은 최근에 발표된 아래 논문을 참고하시기 바랍니다.

2

 

[References]

UK Biobank Arrays: https://www.thermofisher.com/order/catalog/product/902502

한국인칩 컨소시엄: https://www.koreanchip.org/project

Moon, Sanghoon, et al. “The Korea biobank array: design and identification of coding variants associated with blood biochemical traits.” Scientific reports 9.1 (2019): 1-11.

Non-coding 영역의 GWAS 신호 해석: 3C, 4C, Hi-C technique

오늘은 최근에 읽었던 논문에 대해 정리할 겸, Chromosome Conformation Capture (CCC, 3C) 연구 방법에 대해 포스팅해보고자 합니다. 저희 연구실에서도 약물 반응에 대한 GWAS 연구를 종종 하고 있는데, GWAS 데이터 분석의 가장 큰 장애물은 데이터 결과를 적절히 해석하고 의미 있는 정보를 도출해 내는데 있다고 할 수 있습니다.

GWAS 연구 방법에 대한 포스팅 보기 -> 전장 유전체 연관 분석, GWAS란 무엇인가?

하지만 안타깝게도 많은 경우에 있어 GWAS 연구에서 얻어낸 신호를 적절히 해석하는 것은 다음과 같은 이유로 쉽지 않습니다.

  1. GWAS 연구는 연관 분석이기 때문에, 통계학적 분석 방법에 기반한다. 따라서, GWAS 신호는 분석 데이터에 의존하며, 얻어진 신호가 항상 생물학적으로 새로운 정보를 주지는 못한다. 다시 말하면, 분석에 사용된 데이터의 수와 데이터의 질이 중요하며, 신호 자체가 위양성 (false positive)일 가능성도 있기 때문에, 독립적인 validation cohort가 요구되는 이유입니다.
  2. 실제 유전학적으로 중요한 변이는 GWAS 신호를 보이는 동일 LD Block 내의 다른 위치에 존재할 수 있다. GWAS는 일종의 스캐닝 방법이기 때문에, 실제 유전 변이의 위치를 찾기 위해서는 신호를 보이는 LD block 내의 모든 변이들을 더 샅샅히 뒤져봐야 합니다.
  3. GWAS 신호가 non-coding 영역에 위치하는 경우, 해석이 어렵다. GWAS 신호가 특정 유전자와 관련된 변이에서 나타나는 경우에는 해석이 어렵지 않지만, 신호를 보이는 위치 주위에 전혀 유전자가 없는 경우 (inter-genic region) 또는 intron 영역에 위치하는 경우 등은 그 GWAS 신호를 해석하기가 쉽지 않습니다.

 

이번 포스팅은 위의 3번과 같은 경우에, 위에서 언급한 Chromosome Conformation Capture (CCC, 3C) 연구 방법을 이용하여 의미를 도출하는 것에 대해 알아보고자 합니다. 위의 GWAS 연구에서 얻어진 신호가 non-coding 영역에 위치하는 경우의 해석은, 해당 영역이 유전자 발현의 조절에 관련 (regulatory variant)되어 있다고 가정하는 데서 시작합니다. 또한 이러한 유전자 발현은 유전자가 위치한 염색체의 3차원적인 상호 작용에 의해서 일어난다는 개념입니다.

유전자 발현의 조절 eQTL의 개념 보기 -> 유전학 중요개념 정리: eQTL

 

3C_3

 

3C_1
[3C 연구 방법론의 개념 및 모식도] 염색체의 3차원적인 상호 작용을 보기 위해, 세포 주기 상의 간기 (interphase)에서 chromatin cross-linking 일어나는 시기에 포름알데히드 처리하여 고정(Fixation)시키고, 이를 여러 조각으로 나누어 (Fragmentation), 각 조각을 분석(Sequencing)함으로써 서로 상호 작용하는 위치를 확인하는 방법이 3C 연구 방법론의 기본 개념입니다. Chromosome Conformation Capture는 분석 대상 및 방법에 따라, 세부적으로 3C, 4C, Hi-C 등으로 구분됩니다.
 

위의 그림은 이러한 3C 연구 방법에 대해서 잘 보여주고 있습니다. 즉, 3C 연구 방법은 3차원 공간상의 상호 작용이 일어나는 세포 주기에서 염색체를 고정시켜서 분석함으로써, 실제로 해당 위치의 염색체가 어떤 부위와 상호 작용을 하는지를 알아보는 방법이라고 할 수 있습니다. 이러한 방법을 이용하면, GWAS 연구를 통해 얻어낸 신호가 어떤 부위와 상호 작용을 하는지, 상호 작용을 하는 유전자가 있는지를 확인할 수 있습니다. 또한 해당 위치가 실제 유전자 발현 조절에 관여되어 있다는 사실을 확인하면, 이전에는 알지 못했던 non-coding 영역의 변이에 대해서 더 폭넓은 해석이 가능해지게 됩니다.

3C_2
[Chromosome Conformation Capture를 통해 얻어진 데이터] 유전자가 Sequence 상에서 서로 가까이 위치할 경우, 서로 상호 작용할 확률이 높으나, 본 연구 방법은 3차원적인 염색체 구조 또한 고려하기 때문에, 실제 유전자 지도 상에서 서로 멀리 떨어져 있더라도 상호 작용을 하는 영역을 찾아내는데 유용한 방법입니다.
 

마지막으로 실제 위의 연구 방법론을 이용하여, 수행된 연구들을 소개하고 마치고자 합니다. [참고 문헌 3] 아래 연구에서는 위에서 소개한 Hi-C 연구 방법을 이용하여, 실제로 자가 면역 질환 발생의 위험도와 연관되었던 변이들에 대한 해석을 제공해주고 있습니다.

3C_4_00000

 

[참고 문헌]

Dekker, Job, Marc A. Marti-Renom, and Leonid A. Mirny. “Exploring the three-dimensional organization of genomes: interpreting chromatin interaction data.” Nature Reviews Genetics 14.6 (2013): 390-403.

Belton, Jon-Matthew, et al. “Hi–C: a comprehensive technique to capture the conformation of genomes.” Methods 58.3 (2012): 268-276.

McGovern, Amanda, et al. “Capture Hi-C identifies a novel causal gene, IL20RA, in the pan-autoimmune genetic susceptibility region 6q23.” Genome biology 17.1 (2016): 212.

[유전학 중요개념 정리] eQTL

올해 마지막 포스팅으로 유전자 발현을 조절하는데 관여하는 eQTL (expression quantitative trait loci) 에 대해 공부한 내용을 정리하고자 합니다.

사실 개체의 표현형을 결정하는데 있어, 전통적인 멘델의 유전 법칙을 따라 유전형이 표현형을 명확히 나누는 경우는 많지 않습니다. 그럼에도 불구하고 많은 사람들은 유전자의 유전형 (genotype)을 이용하여 표현형의 차이를 이해하는 노력을 끊임없이 하고 있습니다. 그러한 노력의 일환으로 eQTL은 유전형의 차이가 유전자 자체의 산물인 단백질(protein)의 구조 및 기능의 차이가 아니라, 발현량(expression level)에 차이를 미쳐서 표현형에 영향을 준다고 생각하는데서 출발합니다.

그림1
eQTL의 개념은 특정 위치의 유전형이 유전자 발현 수준에 영향을 미쳐, 질병 발생 또는 표현형에 영향을 줄 것이라 가정에서 출발합니다.

eQTL의 개념은 그동안 유전자의 coding region에 집중되어 있던 변이 탐구의 영역을 non-coding region으로 확장시키고, 더불어 그동안 진행되어 왔던 많은 GWAS 연구에서 발굴되었던 많은 non-coding region에 위치한 SNP들의 해석에 대한 한 가지 가능성을 제시해 줍니다.

GWAS의 개념에 대한 포스팅 보기 -> 전장 유전체 연관 분석, GWAS란 무엇인가?

즉, 그 동안의 많은 GWAS 연구들에서 발견된 많은 후보 유전자 영역들은 대부분 단백질을 코딩하는 영역이 아니라서 그 생물학적 역할에 대한 해석이 어려웠는데, 이 중 일부는 유전자 발현을 조절하는 eQTL일 가능성이 있다는 것이죠. 이러한 접근법에서 시작된 연구들 중 일부는 실제로 질병을 대상으로 발굴된 GWAS 마커가 eQTL 임을 밝히기도 하였습니다. 아래는 이렇게 밝혀진 질병 발생 또는 형질 연구와 관련된 eQTL을 정리한 표입니다.

그림4

  eQTL을 통한 유전자 발현 조절은 크게 2가지 조절 기작이 제안되었는데, 흔히 cis- 와 trans- effect로 구분합니다. cis-effect의 경우는 인접 유전자의 promoter에 위치한 영역의 유전형의 차이가 직접적으로 유전자 발현량에 차이를 주는 경우를 말하며, trans-effect의 경우는 1차적으로 조절 유전자 (regulatory)의 어떤 변이 또는 산물의 양이 2차적으로 최종 타겟 유전자의 발현량에 영향을 주는 경우를 말합니다. 아래는 이러한 cis-와 trans-effect에 의한 eQTL의 개념을 잘 보여주고 있습니다.

1

eQTL은 non-coding region의 변이가 regulatory variant (유전자 발현 조절에 관여하는 변이) 라는 가정에서 출발합니다. 이를 이해하기 위한 다음 논의는 Genomics (유전체)에서 Transcriptomics (전사체)로 자연스럽게 옮겨갑니다. 다음 포스팅에서는 이러한 개념들을 위해 필수적으로 이해가 필요한 Omics와 regulatory variant의 역할을 발굴하는 연구 방법론에 대해 정리하기로 하고, 이번 포스팅은 여기서 마칩니다.

 

[References]

Montgomery, Stephen B., and Emmanouil T. Dermitzakis. “From expression QTLs to personalized transcriptomics.” Nature Reviews Genetics 12.4 (2011): 277-282.

Albert, Frank W., and Leonid Kruglyak. “The role of regulatory variation in complex traits and disease.” Nature Reviews Genetics 16.4 (2015): 197-212.

Zhang, Feng, and James R. Lupski. “Non-coding genetic variants in human disease.” Human molecular genetics 24.R1 (2015): R102-R110.

 

전장 유전체 연관 분석, GWAS란 무엇인가?

어제 정신과 전문의 친구와 점심을 먹었습니다. 제가 병원 연구실에서 유전체 연구를 하는 것을 듣고, 함께 연구할 아이디어에 대해서 이야기를 나누자고 만났는데, 안타깝게도 GWAS에 대한 개념이 전혀 없더군요. 지금은 바야흐로 GWAS의 시대입니다. 그래서 이번 글을 유전학 전공자가 아닌 일반인도 쉽게 이해할 수 있도록 전장 유전체 연관 분석 (Genome Wide Association Study; GWAS)의 개념과 연구 방법론에 대해서 글을 써 보고자 합니다.

저는 새로운 개념을 배울 때 항상 그 이름이 의미하는 바를 이해하려고 노력합니다. 그런 의미에서 GWAS라는 이름부터 파헤쳐보겠습니다.

Genome Wide = 전장 유전체 : 모든 유전체 위치에 대해서,

Association Study = 연관 분석: 관심을 가진 형질(Target phenotype)연관성을 갖는 유전적 위치를 찾는다.

GWAS
[GWAS 분석 방법의 개념] 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 유전 정보를 서로 비교하여, case에서 더 많은 빈도를 갖는 = 연관성을 가진 유전자를 찾게 됩니다.
앞선 글에서 최근의 유전학 연구는 각 유전자 위치와 관련된 형질을 밝혀 그 발현 기전을 이해하는데 집중되고 있다는 말을 했습니다. GWAS는 그러한 유전자와 연관된 형질을 찾는 하나의 탐색 (Exploratory) 방법을 말합니다. 사실 무수히 많은 형질이 어떤 유전자와 관련되어 있는지 실험적으로 찾아내는 것은 정말로 어렵습니다. GWAS는 모든 유전자 위치에 대해 연관성의 정도를 분석하기 때문에, 관심있는 형질 또는 질환에 1차적으로 관련되어 있는 후보 유전자를 찾아내는 데 매우 유용한 탐색 도구 (screening method)가 됩니다.

GWAS는 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾게 됩니다. 한 가지 중요한 내용은 GWAS에서 찾아낸 유전자라 하더라도, 그것이 항상 원인 유전자는 아니라는 점입니다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정입니다.

따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색 > 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) > 동물 & 세포 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행됩니다. 이러한 GWAS 연구의 역사도 10년이 넘었습니다. GWAS는 강력한 툴 임에 틀림이 없지만, 그 원리가 통계적 연관성 분석에 기인하는 것이기 때문에 그 한계점도 분명히 인식하는 것이 중요합니다. 따라서 명확한 Case와 Control군을 확보하고, 통계적으로 분석이 가능한 충분한 수의 환자수를 확보하는 점도 중요하겠습니다. 하지만 현실에서는 이것이 쉽지만은 않죠.

linkage_disequilibrium
우리는 부모로 부터 두 쌍의 염색체 쌍 (상동 염색체)을 물려 받아 무작위적으로 재조합이 일어나게 됩니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 LD block이라고 부릅니다.

더불어 GWAS 분석 방법을 이해하는 데 중요한 개념이 있는데, 흔히 LD (Linkage Disequilibrium)라고 부르는 ‘연관 비평형’ 입니다. 우리는 부모로부터 한 쌍씩 유전자를 물려받게 되는데, 생식 세포는 분열되면서 같은 세포 내에서도 끊임없이 유전형의 재배열이 일어납니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 ‘LD block’이라고 부릅니다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 동일한 연관성을 보인 p 값을 보이기 됩니다. LD block의 존재는 다음과 같이 4가지를 시사합니다.

  1. GWAS 분석은 30억쌍의 모든 염기 서열에 대해서 할 필요가 없다. 같은 LD block에서 대표적인 하나의 마커만 이용해도 된다. > 분석 위치의 수가 축소화 됩니다.
  2. GWAS 연관 분석으로 후보 위치를 찾았다 하더라도, 정확한 원인 유전자의 위치는 LD block 내에 존재한 다른 위치일 수 있다. > GWAS로 찾아낸 후보 위치 근처의 유전형을 상세하게 다시 살펴봐야 하는 이유입니다.
  3. GWAS에 흔히 이용되는 Manhattan plot (맨하탄 플롯)에서 시그널이 하나의 탑처럼 주위에서 모두 높게 나오는 이유가 됩니다.
  4. 흔히 Imputation이라고 부르는 과정을 통해, 같은 LD block 내의 검사하지 않은 부위의 유전형도 추정이 가능해집니다.

Manhattan_Plot
[Manhattan plot] GWAS 분석 결과 의미 있는 시그널이 마치 맨하탄 가에 위치한 고층 빌딩들처럼 나온다고 하여 맨하탄 플롯 이라는 이름이 붙게 되었습니다.
마지막으로 GWAS에 관한 글은 GWAS catalog를 소개하면서 마치도록 하겠습니다. 지금 까지 무수히 많은 형질에 대한 GWAS 연구가 진행되었고, 최근에는 일반적인 형질에 대해서 UK biobank에 유전 정보와 형질이 공개되면서, 많은 부분 형질과 유전형 간의 GWAS 연구 및 관계가 드러나는 중입니다. 하지만 다시 한번 강조하면, 연관성과 인과 관계는 다릅니다. 따라서 확실한 생물학적 메카니즘으로 이를 설명하기 위해서는 후속 연구가 중요하게 됩니다. 이러한 GWAS 연구를 통해 형질과 유전자 위치의 관계가 명확하게 드러난 데이터를 모아 놓은 것이 GWAS catalog입니다. GWAS catalog는 지금도 계속 업데이트 되는 중이며, 나중에는 많은 질병과 유전병에 대해서 정보가 추가되기를 기대합니다.

아래 유튜브 자료에 GWAS catalog에 관한 내용이 잘 소개되어 있어 참고하면 좋을 것 같습니다.

[References]

Bush, William S., and Jason H. Moore. “Genome-wide association studies.” PLoS computational biology 8.12 (2012).

MacArthur, Jacqueline, et al. “The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog).” Nucleic acids research 45.D1 (2017): D896-D901.

http://www.ebi.ac.uk/gwas/