SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

오늘은 최근에 연구를 하면서 확실하게 차이를 알게된 array CGHSNP array에 대해 정리하고, SNP array의 일종으로 많은 연구자들이 사용하고 있는 한국인칩에 대해서 소개하는 포스팅을 올리고자 합니다.

저는 이해하기 쉽게 정리하는 걸 선호하기 때문에 공통적으로 array의 개념부터 정리하겠습니다.

Affymetrix

array (= 배열) 검사: 여러개의 열에 각각 특정 sequence를 인식하는 탐식자 (probe)를 심어, 해당 부위를 검출하기 위한 목적으로 만든 검사 방법

두 검사 모두 array 기법을 이용하는 점은 공통이나 검사의 목적이나 응용 방법, 그리고 장, 단점 등등에 차이가 있습니다.

cgh_test.jpg
[array CGH (A) 와 SNP array (B) 비교] A는 control 물질과의 상대적 신호 세기를 이용하여 Copy number 검출이 목적인 반면, B는 oligo-probe를 이용하여 target 영역의 Genotype 검출이 목적이라는 점이 가장 다릅니다.

I. array CGH (comparative genomic hybridization)

array CGH는 원래 처음에는 암 조직을 이용한 연구에 많이 사용되었습니다. 암세포는 정상 세포와 달리 염색체의 구조적 이상이 많이 발생하게 되는데, 암세포에서 이러한 염색체 이상을 확인하기 위한 방법으로 array CGH를 이용하기 시작한 것이지요. 저도 10년 전에 의대 강의를 들을 때, 처음 array CGH와 FISH 검사 방법에 대해서 배웠던 기억이 어렴풋하게 납니다. array CGH가 이러한 염색체 이상을 확인할 수 있다는 것을 알게되면서, 그 다음으로 많이 이용된 분야는 신생아 기형 검사입니다. 다운 증후군이나 에드워드 증후군처럼 염색체 검사를 통한 수적 이상이 확실하게 확인되는 경우 이외에도, 염색체 이상이 의심되는 기형을 갖고 태어나는 신생아들에서 많은 경우, 염색체 미세 결실 또는 중복 (micro-deletion and duplication)이 관찰되는 경우가 많기 때문에 이러한 것을 검출하는데 이용되기 시작한 것이지요. 따라서 처음에는 탐식자의 크기가 크고 해상도도 낮았으나, 점점 probe의 갯수가 늘어나고 해상도도 개선되어 최근에는 매우 작은 크기의 염색체의 구조적 변이도 검출이 가능해졌습니다. 이와 더불어 구조적 변이 (Structural variation)CNV (Copy number variation) 검출도 가능하여, 임상 진단 외의 많은 연구 영역에서 활용되고 있습니다.  (그러나 아직까지도 검사 비용이 매우 비싼 것이 단점입니다.)

관련 포스팅 > [유전학 중요개념 정리] Structural variation 및 Copy-number variation

array CGH
[array CGH의 검사 원리] 환자 검체와 정상 대조군을 각각 다른 형광 물질로 표지하여 나오는 상대적인 신호를 검출하여, 해당 탐식자가 검출하는 염색체 부위에 수적 이상이 있는지를 확인하게 됩니다.

II. SNP (Single Nucleotide Polymorphism) array

array CGH와 달리, SNP array는 최근 GWAS (Genome-Wide Association Study)와 더불어 더 각광받게된 검사 방법입니다. 유전체의 특정 SNP을 타깃으로 하는 oligo probe를 매우 많이 포함하는 array를 개발하여, 거의 대부분의 유전체 영역을 커버하는 array를 개발하고 연구에 활용하고 있는 것이지요.

관련 포스팅 > 전장 유전체 연관 분석, GWAS란 무엇인가?

snp_schema
[SNP array의 검사 원리] 타겟 영역에 특이적으로 결합하는 수 많은 oligo probe가 해당 부위의 SNP genotyping 정보를 제공해주게 됩니다.

가장 유명하고 많이 쓰이는 SNP array는 Affymetrix 사의 Genome-Wide Human SNP array 6.0 버전인데, 90만개 이상의 SNP을 탐지하는 probe와 CNV 분석을 위한 별도의 94만개의 probe를 포함하여 약 180만개의 marker가 심어져 있습니다. SNP array를 통해서도 CNV 분석이 가능합니다만, CGH와 다르게 control이 있는 것이 아니기 때문에 B allele frequency (BAF) 라고 하는 genotype call 정보를 이용하며 분석 방법도 다르게 됩니다.

그림1

 

III. UK Biobank Array와 Korean Chip (the Korea Biobank Array)

UK Biobank는 연구 자원 활용 및 이를 통한 국민의 복지 증진을 목적으로 영국에서 운영하는 국가 단위의 프로젝트입니다. 이를 위해서, 엄청나게 많은 수(약 50만명)의 영국인을 대상으로 Array 기반 genotyping을 진행하였는데, 이때 이용한 SNP array가 흔히 말하는 UK Biobank Array 입니다. UK Biobank Array를 통한 genotyping 정보는 함께 보관된 수많은 임상 정보와 함께 종합적으로 활용이 되고 있는데, 현재도 연구의 재현 및 검증을 위하여 다른 나라의 연구자들이 분양을 받아 이용하고 있습니다.

우리 나라에서도 비슷한 목적으로 사업을 시작하여,  한국인에 맞춘 SNP array 칩이 제작되었는데, 이것이 한국인칩 (the Korea Biobank Array or Korean Chip)입니다. 기존의 비싼 가격과 Cover가 되는 SNP이 인종에 따른 차이를 반영하지 못하는 문제 등을 개선하여 한국인을 대상으로 더 효율적인 연구가 가능하도록 하였습니다. 자세한 정보는 한국인칩 컨소시엄 홈페이지 에 잘 소개되어 있는데 , 대략 83만개의 대표 마커를 포함하며 한국인 특이 희귀 변이(Rare variants)를 많이 추가한 것이 눈에 띕니다. 자세한 내용은 최근에 발표된 아래 논문을 참고하시기 바랍니다.

2

 

[References]

UK Biobank Arrays: https://www.thermofisher.com/order/catalog/product/902502

한국인칩 컨소시엄: https://www.koreanchip.org/project

Moon, Sanghoon, et al. “The Korea biobank array: design and identification of coding variants associated with blood biochemical traits.” Scientific reports 9.1 (2019): 1-11.

전장 유전체 연관 분석, GWAS란 무엇인가?

어제 정신과 전문의 친구와 점심을 먹었습니다. 제가 병원 연구실에서 유전체 연구를 하는 것을 듣고, 함께 연구할 아이디어에 대해서 이야기를 나누자고 만났는데, 안타깝게도 GWAS에 대한 개념이 전혀 없더군요. 지금은 바야흐로 GWAS의 시대입니다. 그래서 이번 글을 유전학 전공자가 아닌 일반인도 쉽게 이해할 수 있도록 전장 유전체 연관 분석 (Genome Wide Association Study; GWAS)의 개념과 연구 방법론에 대해서 글을 써 보고자 합니다.

저는 새로운 개념을 배울 때 항상 그 이름이 의미하는 바를 이해하려고 노력합니다. 그런 의미에서 GWAS라는 이름부터 파헤쳐보겠습니다.

Genome Wide = 전장 유전체 : 모든 유전체 위치에 대해서,

Association Study = 연관 분석: 관심을 가진 형질(Target phenotype)연관성을 갖는 유전적 위치를 찾는다.

GWAS
[GWAS 분석 방법의 개념] 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 유전 정보를 서로 비교하여, case에서 더 많은 빈도를 갖는 = 연관성을 가진 유전자를 찾게 됩니다.
앞선 글에서 최근의 유전학 연구는 각 유전자 위치와 관련된 형질을 밝혀 그 발현 기전을 이해하는데 집중되고 있다는 말을 했습니다. GWAS는 그러한 유전자와 연관된 형질을 찾는 하나의 탐색 (Exploratory) 방법을 말합니다. 사실 무수히 많은 형질이 어떤 유전자와 관련되어 있는지 실험적으로 찾아내는 것은 정말로 어렵습니다. GWAS는 모든 유전자 위치에 대해 연관성의 정도를 분석하기 때문에, 관심있는 형질 또는 질환에 1차적으로 관련되어 있는 후보 유전자를 찾아내는 데 매우 유용한 탐색 도구 (screening method)가 됩니다.

GWAS는 일반적으로 Case (관심 형질을 가진 집단; 환자군)Control (형질을 갖지 않는 집단; 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾게 됩니다. 한 가지 중요한 내용은 GWAS에서 찾아낸 유전자라 하더라도, 그것이 항상 원인 유전자는 아니라는 점입니다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정입니다.

따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색 > 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) > 동물 & 세포 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행됩니다. 이러한 GWAS 연구의 역사도 10년이 넘었습니다. GWAS는 강력한 툴 임에 틀림이 없지만, 그 원리가 통계적 연관성 분석에 기인하는 것이기 때문에 그 한계점도 분명히 인식하는 것이 중요합니다. 따라서 명확한 Case와 Control군을 확보하고, 통계적으로 분석이 가능한 충분한 수의 환자수를 확보하는 점도 중요하겠습니다. 하지만 현실에서는 이것이 쉽지만은 않죠.

linkage_disequilibrium
우리는 부모로 부터 두 쌍의 염색체 쌍 (상동 염색체)을 물려 받아 무작위적으로 재조합이 일어나게 됩니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 LD block이라고 부릅니다.

더불어 GWAS 분석 방법을 이해하는 데 중요한 개념이 있는데, 흔히 LD (Linkage Disequilibrium)라고 부르는 ‘연관 비평형’ 입니다. 우리는 부모로부터 한 쌍씩 유전자를 물려받게 되는데, 생식 세포는 분열되면서 같은 세포 내에서도 끊임없이 유전형의 재배열이 일어납니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 ‘LD block’이라고 부릅니다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 동일한 연관성을 보인 p 값을 보이기 됩니다. LD block의 존재는 다음과 같이 4가지를 시사합니다.

  1. GWAS 분석은 30억쌍의 모든 염기 서열에 대해서 할 필요가 없다. 같은 LD block에서 대표적인 하나의 마커만 이용해도 된다. > 분석 위치의 수가 축소화 됩니다.
  2. GWAS 연관 분석으로 후보 위치를 찾았다 하더라도, 정확한 원인 유전자의 위치는 LD block 내에 존재한 다른 위치일 수 있다. > GWAS로 찾아낸 후보 위치 근처의 유전형을 상세하게 다시 살펴봐야 하는 이유입니다.
  3. GWAS에 흔히 이용되는 Manhattan plot (맨하탄 플롯)에서 시그널이 하나의 탑처럼 주위에서 모두 높게 나오는 이유가 됩니다.
  4. 흔히 Imputation이라고 부르는 과정을 통해, 같은 LD block 내의 검사하지 않은 부위의 유전형도 추정이 가능해집니다.

Manhattan_Plot
[Manhattan plot] GWAS 분석 결과 의미 있는 시그널이 마치 맨하탄 가에 위치한 고층 빌딩들처럼 나온다고 하여 맨하탄 플롯 이라는 이름이 붙게 되었습니다.
마지막으로 GWAS에 관한 글은 GWAS catalog를 소개하면서 마치도록 하겠습니다. 지금 까지 무수히 많은 형질에 대한 GWAS 연구가 진행되었고, 최근에는 일반적인 형질에 대해서 UK biobank에 유전 정보와 형질이 공개되면서, 많은 부분 형질과 유전형 간의 GWAS 연구 및 관계가 드러나는 중입니다. 하지만 다시 한번 강조하면, 연관성과 인과 관계는 다릅니다. 따라서 확실한 생물학적 메카니즘으로 이를 설명하기 위해서는 후속 연구가 중요하게 됩니다. 이러한 GWAS 연구를 통해 형질과 유전자 위치의 관계가 명확하게 드러난 데이터를 모아 놓은 것이 GWAS catalog입니다. GWAS catalog는 지금도 계속 업데이트 되는 중이며, 나중에는 많은 질병과 유전병에 대해서 정보가 추가되기를 기대합니다.

아래 유튜브 자료에 GWAS catalog에 관한 내용이 잘 소개되어 있어 참고하면 좋을 것 같습니다.

[References]

Bush, William S., and Jason H. Moore. “Genome-wide association studies.” PLoS computational biology 8.12 (2012).

MacArthur, Jacqueline, et al. “The new NHGRI-EBI Catalog of published genome-wide association studies (GWAS Catalog).” Nucleic acids research 45.D1 (2017): D896-D901.

http://www.ebi.ac.uk/gwas/