오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.
관련 포스팅 보기>
SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.
SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.
예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.
위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는 BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.
관련 포스팅 보기>
[Reference]
Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.
안녕하세요 유전자 분석을 통한 의료 빅데이터 구축에 관심이 있는 학생입니다. 정말 좋은 글 감사합니다. 그런데 글을 읽던 중 궁금 한 것이 생겼는데 SNP array 방식에서 probe가 특성한 효소 작용을 통해 형광물질을 만들어 낸다고 했는데 그 효소는 무엇이고 형광물질을 검출하는 과정이 조금 더 궁금합니다. 혹시 이메일을 통해 연락 할 수 있을까요? 어떤 작용이길래 몸에서 형광물질이 발생하고 그것이 검출될 수 있는지가 너무 궁금하네요
좋아요좋아요
해당 내용은 제조업체의 기술이기 때문에 저도 정확히 어떤 물질을 이용하는지는 모릅니다. 검출 과정은 구글이나 유튜브 영상을 더 검색해 보면 이해가 될거예요.
좋아요좋아요