[논문소개] 면역억제제 Tacrolimus의 약물 유전체 연구

작년부터 미국에 오기 전까지 부랴 부랴 동시에 4개의 논문을 쓰고 있었는데, 그중 2개 논문의 온라인 출판이 완료 되었습니다. 그래서 앞의 논문을 소개한 김에, 함께 출판된 다른 약물 유전체 연구도 소개를 해볼까 합니다. 이번 연구의 프로젝트도 약리학 교실에 처음 박사 과정으로 들어오면서 부터 시작했던 프로젝트인데, 장기 이식 후의 면역 억제제로 널리 사용하는 Tacrolimus와 관련된 약물 유전체 연구입니다. 개인적으로는 처음으로 본격적으로 NGS 패널과 Microarray인 한국인칩을 분석하면서 진행했던 프로젝트입니다.

[관련 논문 보기]

https://journals.lww.com/transplantjournal/Abstract/9000/Unraveling_the_Genomic_Architecture_of_the_CYP3A.95339.aspx

논문의 제목은 “Unraveling the Genomic Architecture of the CYP3A Locus and ADME Genes for Personalized Tacrolimus Dosing“으로, 장기 이식 수술 후 면역 억제 반응을 위해 사용하는 Tacrolimus의 약물 대사에 관여하는 약물 유전자의 변이들과 개인간의 약물 농도의 변화를 살펴봄으로써, 유전자의 기능에 따라 환자 개인별 최적 처방 용량을 guide하기 위해 진행했던 연구입니다.

[관련 포스팅 보기]

사실 본 연구 주제는 그동안 많은 연구자들이 달려들어서 진행해왔고, CYP3A5의 변이 (rs776746)가 Tacrolimus 대사능과 관련이 있다는 것이 매우 잘 알려져 왔으나, 해당 변이로는 개인간 편차의 50% 정도 밖에 설명할 수가 없어서, 추가적으로 다른 유전자를 발굴하는 것이 많은 연구자들이 목표였습니다. 이번 연구에서는 약물 유전자 전체를 스크리닝할 수 있는 약물 유전체 NGS 패널 (PGx panel) 과 한국인 특이 변이를 탐색할 수 있는 한국인칩 (Korean Chip)를 이용하여, 해당 문제를 풀려고 하였습니다.

연구 결과, 역시 기존에 알려져 있던 CYP3A5의 rs776746 변이 가 제일 중요한 인자로 작용함을 확인했고, 개인별로 드물게 존재하는 CYP3A5, CYP3A4의 희귀 변이 (rare variant)를 이용하면, 추가적으로 rs776746 의 변이가 설명하지 못했던 개인간 편차를 더 잘 설명할 수 있음을 확인하였습니다. 이 결과는 개별 맞춤 약물 처방을 하는데, 개인별로 드물게 존재하는 희귀 변이 (rare variant)를 고려하는 것이 매우 중요함을 시사합니다.

특히, 연구의 분석을 위해서, 서울대 이승근 교수님께서 개발하신 SKAT이라는 분석 방법을 이용하였는데, 이 tool을 이용하여 최초로 CYP1A1 유전자의 희귀 변이들과 Tacrolimus 개인간 편차와의 연관성을 확인하였습니다. 다만, 이번 연구를 통해 다시 한번 약물의 대사는 매우 복잡하고 다양한 인자들이 confounder로 작용하기 때문에 개별 유전형 외에도 유전자 발현에 영향을 미치는 다양한 환경적 변수들을 고려해야함을 깨달을 수 있었습니다. 본 연구 결과가 면역 억제제 Tacrolimus를 투여 받는 환자들이 개별 약물 유전형에 따라서, 부작용이 발생하지 않는 최적의 처방 용량을 결정하는데 도움이 되고, 이를 통해 정밀 의료 (Precision Medicine) 가 실현될 수 있기를 기대합니다.

[관련 Commentary 보기]

https://journals.lww.com/transplantjournal/Citation/9000/COMMENTARY__Unraveling_the_Genomic_Architecture_of.95395.aspx

광고

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

유전체 연구에 있어서 연구 디자인 (Study Design)과 형질 (Phenotype) 은 매우 중요합니다. 특히 약물 유전체 연구에 있어서의 관심 형질은 체내 약물 농도나 대사능, 부작용의 발생 여부 등이기 때문에 더욱더 정확한 표현형을 수집하기가 어려운 점이 있습니다. 최근에 논문을 쓰면서, GWAS (Genome-wide association study)를 돌리고, Manhattan plot을 그릴 일이 있어서, 관련 분석 과정을 정리해볼까 합니다.

관련 포스팅 보기>

 

I. PLINK

1-s2.0-S0002929707613524-gr4_lrg

대부분의 GWASSNP array를 이용하여, 대표 유전자 마커를 이용한 표현형 연관성 연구로 진행이 되는데, 이때 주로 사용하는 Tool이 plink입니다. (해당 tool이 논문으로 나온게 2007년이니까 벌써 10년도 넘은 소프트웨어입니다..) 그러나 아직도 쓰이고 있다는 건, 그만큼 많은 연구자들이 쓴다는 것이고, 대표적인 소프트웨어라고 할 수 있습니다. (1.9 버젼이 나온 이후, 2.0 버젼을 베타 테스트하고 있다고 한지도 꽤 오래 되었는데, 그 이후 업데이트가 매우 느리게 진행되고 있는 것이 단점입니다.) 물론, BI tool 답게 많은 경쟁 소프트웨어들이 나왔는데 (ex. EPACTS), 아직도 대부분의 논문에서 plink를 쓰는 것을 보면, 대부분의 분석을 하는데 plink만 있어도 크게 무리가 없기 때문이 아닐까 합니다. plink의 사용법은 plink 홈페이지 (PLINK: Whole genome data analysis toolset)의 tutorial page에 매우 자세하게 소개가 되어 있어서, 그때 그때 필요한 내용들을 찾아서 쓰면 됩니다.

plink 다운로드 및 설치>

<VCF 파일 압축 및 인덱싱>

bgzip -c [myvcf.vcf] > [myvcf.vcf.gz]
tabix -p vcf -f [myvcf.vcf.gz]

<PED, MAP 파일 or BED, BIM, FAM 파일 만들기>

plink 실행을 위해서는 PED & MAP file 또는 binary 형식으로 변환된 BED, BIM, FAM file이 필요합니다. 일반적으로 SNP array 데이터를 생산하면 만들어주기 때문에 따로 준비할 필요는 없습니다. 간혹 NGS로 생산된 시퀀싱 데이터로 plink로 실행하고 싶은 경우, vcf 파일을 위의 형식으로 변환하면 좋은데, 아래와 같은 command가 유용합니다.

plink --noweb --vcf [myvcf.vcf.gz] --recode --out myplink
plink --noweb --vcf [myvcf.vcf.gz] --recode --make-bed --out myplink

<PLINK 파일 기본 QC>

plink --file myplink --missing-genotype N --make-bed --mind 0.05 --maf 0.05 --geno 0.1 --hwe 1e-6 --recode --out myplink.QC

missing genotype 여부, genotyping calling rate, minor allele feqeuncy, HWE (Hardy-Weinberg equilibrium) cut-off 기준으로 이를 위반하는 SNP들은 모두 날려버리는 quality control 과정입니다.

<plink를 이용한 연관 분석>

plink를 이용한 연관 분석은 통계 모형에 기반하기 때문에 우선적으로 어떤 모델을 이용하여, 어떻게 분석을 할지를 고려해야 합니다. Genetic inheritance mode (Additive, Dominant, Recessive)와 분석 형질이 Dichotomous trait인지 Continuous trait 인지에 따라서 Case-control, linear regression, logistic regression model 등을 적용할 수 있습니다. 더불어, 보정을 위한 공변량(covariate)으로 무엇을 선택할 것인지도 중요합니다.

분석을 위한 Input Phenotype data를 준비하는 과정도 중요한데, 다음 페이지에서 자세하게 소개가 되어 있습니다.

[분석을 위한 command]

plink --noweb --bfile [mydata] --[additive/dominant/recessive] --[assoc/linear/logistic] --pheno [phenotype_file] --pheno-name [phenotype_name] --covar [covariates_file] --covar-name [covariates_name] --out [result_file]

위의 command에 적절한 inheritance mode [additive/dominant/recessive]와 분석 모델 [assoc/linear/logistic]을 골라서, 분석을 실행하면 됩니다. 특정 SNP에 대한 Conditioning을 원하는 경우, –cond [SNP ID]를 추가합니다.

위의 분석 과정을 거치면, 모든 SNP 위치에 대한 Beta 및 P value가 계산됩니다. Beta는 해당 SNP의 Effect size를 나타내는 통계량이고, P value는 해당 SNP의 통계적 유의도를 의미합니다. Manhattan plot은 일반적으로 여기서 계산된 P value에 -log를 취한 형태로 그리게 됩니다.

II. Manhattan Plot 그리기

Manhattan Plot을 그리는 방법도 다양하지만, 여기서는 제일 간편한 qqman R package를 이용하도록 하겠습니다. 자세한 option은 아래 Reference의 자료들을 참고 바랍니다.

library(qqman)

## plink 결과 파일 불러오기
data &amp;amp;lt;- read.table("plink_result", header = T, stringsAsFactors=F)

## Manhattan plot 그리기
manhattan(data, main = "Manhattan Plot", ylim = c(0, 40), cex = 0.8, cex.axis = 0.9, col = c("grey", "skyblue"))

## QQ plot 그리기
qq(data$P)
GWAS

위의 패키지를 이용하면, 위와 같은 Manhattan plot을 손쉽게 만들 수 있습니다.

III. HaploView

마지막으로, SNP 정보의 linkage 여부에 따른 LD block의 시각화를 위한 Haploview에 대해서 간단히 정리하고, 포스팅을 마치도록 하겠습니다.

Haploview 4.2 Download

plink --noweb --bfile [mydata] --extract [Gene_SNP_list] --recodeHV --out [Gene_haploview]

plink의 위의 command를 이용하여, Haploview를 원하는 SNP의 list에 대해 ped 및 info 파일을 생성합니다. 이를 HaploView 프로그램을 통해 loading해주면, 생성된 LD block과  계산된Haplotype 조회가 가능합니다. 아래 그림은 HaploView를 이용하여, 생성된 LD block 입니다.

Figure S5

[References]

PLINK: Whole genome data analysis toolset

Purcell, Shaun, et al. “PLINK: a tool set for whole-genome association and population-based linkage analyses.” The American journal of human genetics 81.3 (2007): 559-575.

Chang, Christopher C., et al. “Second-generation PLINK: rising to the challenge of larger and richer datasets.” Gigascience 4.1 (2015): s13742-015.

qqman R package GitHub

Manhattan plot in R: a review

SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

최근에 논문 작업때문에 블로그를 좀 소홀히 했는데, 어느새 방문자 수가 10,000명을 넘었네요. 그래도 제 블로그를 찾는 분들이 계신 것 같아, 최근에 공부했던 Copy neutral loss of heterozygosity (CN-LOH)에 대해 정리하는 포스팅을 남깁니다.

우선 단어의 의미를 살펴보면, CN-LOH는 앞선 포스팅에서 언급한 UPD와 의미가 동일합니다. 다만, UPD의 경우는 주로 선천적인 질환에서 세포 분열의 문제에서 일어난 상태를 나타낸다면, CN-LOH는 주로 후천적으로 획득된 상태를 가리킬 때 사용합니다. 따라서 주로 Cancer Genetics에서 연구가 많이 되어 있습니다.

관련 포스팅 > [유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

Copy neutral (복제수에 변화가 없는) + loss of heterozygosity (이형접합성을 잃은 상태)

즉, CN-LOH는 양쪽의 상동 염색체의 유전적 구성을 완전히 동일하게 만들어, 유전적 다양성을 감소시키고 이로 인해서, 상동염색체 간의 상호 보완적인 역활을 소실시킴으로써 질병 발생의 메커니즘으로 작용할 수가 있습니다.

이러한 CN-LOH는 과거의 검사 방법으로는 거의 검출이 불가능하였습니다. 최근 SNP array 기술의 발달로 거의 전체 유전자 영역에서의 genotype 정보를 얻는게 가능하게 되면서, 이러한 영역을 검출하는 것이 가능하게 되었습니다.

관련 포스팅 > [유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

assay 비교
[그림 1] 검사 방법별 염색체의 구조 변화 검출 가능 정도 비교. CN-LOH의 경우는 genotyping 정보가 필요하기 때문에 SNP array와 Whole genome sequencing 방법을 통해서만 검출이 가능한 것을 알 수 있습니다.
 

아래 그림은 이러한 CN-LOH의 type을 분류하여 나타내주고 있습니다. 발생되는 위치에 따라, 또는 염색체의 개수에 따라 분류가 되고, 이러한 상태가 발생하는 원인에 따라 세포 발생 초기 단계에서의 event 또는 인종적 차이에 따른 정상적인 존재 또는 암세포 발생에 따른 증식 등 원인도 다양합니다.

CN-LOH1
[그림 2] CN-LOH 또는 UPD의 타입에 따른 분류
 

이러한 CN-LOH는 다양한 기전에 의해서 발생할 수 있는데, 주로는 아래와 같은 과정에서 형성되는 것으로 생각되고 있습니다.

CN-LOH2
[그림 3] CN-LOH의 생성 기전. (A) 세포 분열 단계에서의 재조합 (B) 염색체 일부 소실 후 복구 과정에서 인접 상동 염색체를 복제하면서 발생
CN-LOH3
[그림 4] CN-LOH에 의한 질병 발생 메커니즘
CN-LOH이 발생할 경우, 만약 해당 영역에 위치한 유전자의 한쌍이 정상이고 한쌍이 병적 변이를 포함하는 경우였다면 원래는 정상 보인자로 존재해야할 사람이, 병적 변이를 포함한 부분이 복제되어 CN-LOH가 된다면 질병을 일으킬 수 있습니다. 또한 Genomic imprinting이라고 하는 기전을 통해 실제 발현이 되거나 억제되는 영역이 한쪽에만 존재하게 되는데, 이부분이 양쪽에 존재하게 되면, 유전자의 발현이 완전히 억제되거나 증폭되는 효과를 일으켜 역시 질병을 나타낼 수 있습니다. (그림 4. 노란색 영역)

관련 내용이 아주 많지만, 주요 Reference만 정리하고 오늘 포스팅은 여기까지하고 마치도록 하겠습니다.

 

[References]

O’Keefe, Christine, Michael A. McDevitt, and Jaroslaw P. Maciejewski. “Copy neutral loss of heterozygosity: a novel chromosomal lesion in myeloid malignancies.” Blood 2010; 115(14) : 2731–2739.

Conlin, Laura K., et al. “Mechanisms of mosaicism, chimerism and uniparental disomy identified by single nucleotide polymorphism array analysis.” Human molecular genetics 2010; 19(7) : 1263-1275.

SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

오늘은 최근에 연구를 하면서 확실하게 차이를 알게된 array CGHSNP array에 대해 정리하고, SNP array의 일종으로 많은 연구자들이 사용하고 있는 한국인칩에 대해서 소개하는 포스팅을 올리고자 합니다.

저는 이해하기 쉽게 정리하는 걸 선호하기 때문에 공통적으로 array의 개념부터 정리하겠습니다.

Affymetrix

array (= 배열) 검사: 여러개의 열에 각각 특정 sequence를 인식하는 탐식자 (probe)를 심어, 해당 부위를 검출하기 위한 목적으로 만든 검사 방법

두 검사 모두 array 기법을 이용하는 점은 공통이나 검사의 목적이나 응용 방법, 그리고 장, 단점 등등에 차이가 있습니다.

cgh_test.jpg
[array CGH (A) 와 SNP array (B) 비교] A는 control 물질과의 상대적 신호 세기를 이용하여 Copy number 검출이 목적인 반면, B는 oligo-probe를 이용하여 target 영역의 Genotype 검출이 목적이라는 점이 가장 다릅니다.
 

I. array CGH (comparative genomic hybridization)

array CGH는 원래 처음에는 암 조직을 이용한 연구에 많이 사용되었습니다. 암세포는 정상 세포와 달리 염색체의 구조적 이상이 많이 발생하게 되는데, 암세포에서 이러한 염색체 이상을 확인하기 위한 방법으로 array CGH를 이용하기 시작한 것이지요. 저도 10년 전에 의대 강의를 들을 때, 처음 array CGH와 FISH 검사 방법에 대해서 배웠던 기억이 어렴풋하게 납니다. array CGH가 이러한 염색체 이상을 확인할 수 있다는 것을 알게되면서, 그 다음으로 많이 이용된 분야는 신생아 기형 검사입니다. 다운 증후군이나 에드워드 증후군처럼 염색체 검사를 통한 수적 이상이 확실하게 확인되는 경우 이외에도, 염색체 이상이 의심되는 기형을 갖고 태어나는 신생아들에서 많은 경우, 염색체 미세 결실 또는 중복 (micro-deletion and duplication)이 관찰되는 경우가 많기 때문에 이러한 것을 검출하는데 이용되기 시작한 것이지요. 따라서 처음에는 탐식자의 크기가 크고 해상도도 낮았으나, 점점 probe의 갯수가 늘어나고 해상도도 개선되어 최근에는 매우 작은 크기의 염색체의 구조적 변이도 검출이 가능해졌습니다. 이와 더불어 구조적 변이 (Structural variation)CNV (Copy number variation) 검출도 가능하여, 임상 진단 외의 많은 연구 영역에서 활용되고 있습니다.  (그러나 아직까지도 검사 비용이 매우 비싼 것이 단점입니다.)

관련 포스팅 > [유전학 중요개념 정리] Structural variation 및 Copy-number variation

array CGH
[array CGH의 검사 원리] 환자 검체와 정상 대조군을 각각 다른 형광 물질로 표지하여 나오는 상대적인 신호를 검출하여, 해당 탐식자가 검출하는 염색체 부위에 수적 이상이 있는지를 확인하게 됩니다.

II. SNP (Single Nucleotide Polymorphism) array

array CGH와 달리, SNP array는 최근 GWAS (Genome-Wide Association Study)와 더불어 더 각광받게된 검사 방법입니다. 유전체의 특정 SNP을 타깃으로 하는 oligo probe를 매우 많이 포함하는 array를 개발하여, 거의 대부분의 유전체 영역을 커버하는 array를 개발하고 연구에 활용하고 있는 것이지요.

관련 포스팅 > 전장 유전체 연관 분석, GWAS란 무엇인가?

snp_schema
[SNP array의 검사 원리] 타겟 영역에 특이적으로 결합하는 수 많은 oligo probe가 해당 부위의 SNP genotyping 정보를 제공해주게 됩니다.

가장 유명하고 많이 쓰이는 SNP array는 Affymetrix 사의 Genome-Wide Human SNP array 6.0 버전인데, 90만개 이상의 SNP을 탐지하는 probe와 CNV 분석을 위한 별도의 94만개의 probe를 포함하여 약 180만개의 marker가 심어져 있습니다. SNP array를 통해서도 CNV 분석이 가능합니다만, CGH와 다르게 control이 있는 것이 아니기 때문에 B allele frequency (BAF) 라고 하는 genotype call 정보를 이용하며 분석 방법도 다르게 됩니다.

그림1

 

III. UK Biobank Array와 Korean Chip (the Korea Biobank Array)

UK Biobank는 연구 자원 활용 및 이를 통한 국민의 복지 증진을 목적으로 영국에서 운영하는 국가 단위의 프로젝트입니다. 이를 위해서, 엄청나게 많은 수(약 50만명)의 영국인을 대상으로 Array 기반 genotyping을 진행하였는데, 이때 이용한 SNP array가 흔히 말하는 UK Biobank Array 입니다. UK Biobank Array를 통한 genotyping 정보는 함께 보관된 수많은 임상 정보와 함께 종합적으로 활용이 되고 있는데, 현재도 연구의 재현 및 검증을 위하여 다른 나라의 연구자들이 분양을 받아 이용하고 있습니다.

우리 나라에서도 비슷한 목적으로 사업을 시작하여,  한국인에 맞춘 SNP array 칩이 제작되었는데, 이것이 한국인칩 (the Korea Biobank Array or Korean Chip)입니다. 기존의 비싼 가격과 Cover가 되는 SNP이 인종에 따른 차이를 반영하지 못하는 문제 등을 개선하여 한국인을 대상으로 더 효율적인 연구가 가능하도록 하였습니다. 자세한 정보는 한국인칩 컨소시엄 홈페이지 에 잘 소개되어 있는데 , 대략 83만개의 대표 마커를 포함하며 한국인 특이 희귀 변이(Rare variants)를 많이 추가한 것이 눈에 띕니다. 자세한 내용은 최근에 발표된 아래 논문을 참고하시기 바랍니다.

2

 

[References]

UK Biobank Arrays: https://www.thermofisher.com/order/catalog/product/902502

한국인칩 컨소시엄: https://www.koreanchip.org/project

Moon, Sanghoon, et al. “The Korea biobank array: design and identification of coding variants associated with blood biochemical traits.” Scientific reports 9.1 (2019): 1-11.