SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

광고

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

최근에 논문 작업때문에 블로그를 좀 소홀히 했는데, 어느새 방문자 수가 10,000명을 넘었네요. 그래도 제 블로그를 찾는 분들이 계신 것 같아, 최근에 공부했던 Copy neutral loss of heterozygosity (CN-LOH)에 대해 정리하는 포스팅을 남깁니다.

우선 단어의 의미를 살펴보면, CN-LOH는 앞선 포스팅에서 언급한 UPD와 의미가 동일합니다. 다만, UPD의 경우는 주로 선천적인 질환에서 세포 분열의 문제에서 일어난 상태를 나타낸다면, CN-LOH는 주로 후천적으로 획득된 상태를 가리킬 때 사용합니다. 따라서 주로 Cancer Genetics에서 연구가 많이 되어 있습니다.

관련 포스팅 > [유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

Copy neutral (복제수에 변화가 없는) + loss of heterozygosity (이형접합성을 잃은 상태)

즉, CN-LOH는 양쪽의 상동 염색체의 유전적 구성을 완전히 동일하게 만들어, 유전적 다양성을 감소시키고 이로 인해서, 상동염색체 간의 상호 보완적인 역활을 소실시킴으로써 질병 발생의 메커니즘으로 작용할 수가 있습니다.

이러한 CN-LOH는 과거의 검사 방법으로는 거의 검출이 불가능하였습니다. 최근 SNP array 기술의 발달로 거의 전체 유전자 영역에서의 genotype 정보를 얻는게 가능하게 되면서, 이러한 영역을 검출하는 것이 가능하게 되었습니다.

관련 포스팅 > [유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

assay 비교
[그림 1] 검사 방법별 염색체의 구조 변화 검출 가능 정도 비교. CN-LOH의 경우는 genotyping 정보가 필요하기 때문에 SNP array와 Whole genome sequencing 방법을 통해서만 검출이 가능한 것을 알 수 있습니다.

아래 그림은 이러한 CN-LOH의 type을 분류하여 나타내주고 있습니다. 발생되는 위치에 따라, 또는 염색체의 개수에 따라 분류가 되고, 이러한 상태가 발생하는 원인에 따라 세포 발생 초기 단계에서의 event 또는 인종적 차이에 따른 정상적인 존재 또는 암세포 발생에 따른 증식 등 원인도 다양합니다.

CN-LOH1
[그림 2] CN-LOH 또는 UPD의 타입에 따른 분류

이러한 CN-LOH는 다양한 기전에 의해서 발생할 수 있는데, 주로는 아래와 같은 과정에서 형성되는 것으로 생각되고 있습니다.

CN-LOH2
[그림 3] CN-LOH의 생성 기전. (A) 세포 분열 단계에서의 재조합 (B) 염색체 일부 소실 후 복구 과정에서 인접 상동 염색체를 복제하면서 발생
CN-LOH3
[그림 4] CN-LOH에 의한 질병 발생 메커니즘
CN-LOH이 발생할 경우, 만약 해당 영역에 위치한 유전자의 한쌍이 정상이고 한쌍이 병적 변이를 포함하는 경우였다면 원래는 정상 보인자로 존재해야할 사람이, 병적 변이를 포함한 부분이 복제되어 CN-LOH가 된다면 질병을 일으킬 수 있습니다. 또한 Genomic imprinting이라고 하는 기전을 통해 실제 발현이 되거나 억제되는 영역이 한쪽에만 존재하게 되는데, 이부분이 양쪽에 존재하게 되면, 유전자의 발현이 완전히 억제되거나 증폭되는 효과를 일으켜 역시 질병을 나타낼 수 있습니다. (그림 4. 노란색 영역)

관련 내용이 아주 많지만, 주요 Reference만 정리하고 오늘 포스팅은 여기까지하고 마치도록 하겠습니다.

 

[References]

O’Keefe, Christine, Michael A. McDevitt, and Jaroslaw P. Maciejewski. “Copy neutral loss of heterozygosity: a novel chromosomal lesion in myeloid malignancies.” Blood 2010; 115(14) : 2731–2739.

Conlin, Laura K., et al. “Mechanisms of mosaicism, chimerism and uniparental disomy identified by single nucleotide polymorphism array analysis.” Human molecular genetics 2010; 19(7) : 1263-1275.