SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

체외 진단 의료기기 (IVD)의 의미와 허가 절차

최근 다양한 의료 관련 기술이 개발되면서, 특히 동반 진단 (Companion diagnostics), 체외 진단 의료 기기 (In-vitro Diagnostics, IVD) 허가를 받으려고 하는 제품들이 늘어가고 있는 것 같습니다. 특히, 바이오 및 제약, 인공 지능 관련 회사들에서 자체적으로 개발한 제품을 식약처를 통해 체외 진단 의료기기 허가를 받으려고 하는데, 그래서 이번에는 체외 진단 의료기기 허가 절차 과정에 관한 글을 써보고자 합니다. 이전에 우리 나라의 의료 보험시스템에 들어오기 위해서는 NECA를 통해 신의료 기술 인증을 거쳐야 한다고 했습니다. 신의료 기술과 달리 식약처 체외 진단 의료기기 허가는 보험에서 인정하기에 앞서 의료 기기 제품 자체로서의 안전성과 유효성을 허가 받는 과정이라고 할 수 있습니다.

관련 포스팅 보기

신의료기술 평가 및 유예, 제한적 의료기술 평가 제도란?

동반 진단, Companion diagnostics란 무엇인가?

 

체외 진단 의료기기란? (In-vitro Diagnostics)

체외 진단 의료기기는 말 그대로, 인체 유래 시료 (혈액, 조직 등)를 이용하여 질병을 진단하거나 예후 예측, 치료 관련 정보 획득 등의 목적으로 체외에서 검사하는 의료 기기를 총칭하는 말입니다.

“In vitro diagnostics are tests done on samples such as blood or tissue that have been taken from the human body. In vitro diagnostics can detect diseases or other conditions, and can be used to monitor a person’s overall health to help cure, treat, or prevent diseases.

FDA webpage

위와 같은 제품을 개발하고, 시장에서 판매하기 위해서는 식약처의 체외 진단 의료기기 허가를 받아야 하고, 국내의 경우 체외 진단 의료기기는 아래와 같이 크게 4개의 등급으로 구분하여 허가 절차를 달리 하기 때문에, 등급별 분류가 중요합니다. 최근 많이 개발되고 있는 유전자 검사 관련 제품의 경우는 대부분 모두 3등급에 해당합니다.

다운로드

 

국내 체외 진단 의료기기 허가 절차 과정

그림1

체외 진단 의료기기를 등급별로 분류하면, 등급별로 위와 같은 절차를 통해 인증 또는 허가를  진행합니다. 세부적으로 다양한 자료가 요구되고, 1등급 이외의 경우에는 꽤나 오랜 시간이 신청 또는 허가에 소요됩니다. 체외 진단 의료기기 시장은 점점 성장하고 있기 때문에, 관련 산업의 발전을 위해서라도 다양한 제도적 보완이 필요해 보입니다.

 

[Reference]

식약처 발간, “알기 쉬운 체외 진단용 의료기기 허가 절차” 자료

 

[Cytogenetics] Pseudo-autosomal region (PAR)

최근에 SNP array 결과를 판독하다가 알게된 내용이 있어서, 오늘은 Pseudo-autosomal region (PAR)에 대해 정리하는 포스팅을 남기고자 합니다. 사람의 성염색체는 여자 (XX), 남자 (XY)로 구분되어 있고, 공통적으로 44개의 상동 염색체 (autosome)를 갖고 있어서, 총 46개의 염색체를 갖습니다. Pseudo-autosomal region은 그 이름이 나타내듯이, X와 Y 염색체에 상동 염색체와 유사하게 존재하는 영역을 가리킵니다. 즉, X와 Y는 완전히 다른 염색체 같지만, PAR에 해당하는 영역은 양쪽의 염색체가 동일하게 존재하게 됩니다.

PAR 영역은 X와 Y 염색체 끝부분에 존재하여, p arm의 부분을 PAR1이라하고, q arm의 부분을 PAR2라고 부릅니다. 상대적으로 PAR1 영역은 2.7 Mb 정도로 꽤 넓은 반면, PAR2 영역은 330 kb 정도로 매우 좁습니다.

Pseudoautosomal_Regions_and_Genes
[Pseudo-autosomal region] X와 Y 염색체는 완전히 다른 염색체 같지만, 양쪽 끝 영역 및 중간의 일부분은 매우 유사한 서열을 공유하고 있습니다.

I. PAR 영역에 위치한 중요 유전자: SHOX

45, XO의 염색체를 갖는 터너 증후군 환자는 키가 작고, 목이 짧은 것이 특징입니다. 사실 X 염색체는 한쪽 염색체가 X inactivation 과정을 거쳐 한쪽만 발현되기 때문에 X 염색체가 1개만 존재하여도 무방할 것으로 생각되는데, 터너 증후군 (Turner syndrome) 환자는 왜 저런 형질을 보이는지 이해가 가지 않았습니다. 그러나 이후에, PAR1 영역에 위치한 SHOX 유전의 경우는 한쪽만 발현되는 것이 아니라 다른 상동염색체에 위치한 다른 유전자들처럼 haplo-insufficiency 를 갖는 다는 것을 알게 되었습니다.

gr1

아래 그림과 같이 PAR 영역은 다른 상동 염색체와 동일하게, 염색체간의 재조합도 일어납니다. PAR1 영역에는 24개의 유전자가 존재하는 것으로 알려져 있는데, 현재까지 질병과의 관련성이 가장 잘 밝혀져 있는 유전자는 SHOX 유전자 뿐이며, 다른 유전자들의 명확한 기능에 대해서는 추가 연구가 필요한 상황입니다.

PAR

II. SNP array 판독시 주의 사항

Cytogenetics 연구에서 SNP array 또는 array CGH를 통해서, 염색체의 구조적 이상을 살펴보는 경우가 있습니다. 이때, X와 Y 염색체를 판독하는데 있어 PAR 영역의 존재를 주의하여야 합니다. 즉, 아래 그림과 같이 양쪽 끝부분 및 중간의 신호는 PAR 영역의 존재에 의해 나타나는 정상 소견입니다.

X SNP array
[SNP array를 통한 X 염색체 판독 과정] 양쪽 끝 및 중간에 에 B allele frequency가 0.5로 나오는 영역이 보여서, 혹시나 해당 영역에 duplication이 있는 것인지 의심이 되었는데, 해당 영역의 signal은 PAR 영역의 존재로 인한 정상 소견입니다.

[References]

Helena Mangs, A., and Brian J. Morris. “The human pseudoautosomal region (PAR): origin, function and future.” Current genomics 8.2 (2007): 129-136.

Blaschke, Rüdiger Jörg, and Gudrun Rappold. “The pseudoautosomal regions, SHOX and disease.” Current opinion in genetics & development 16.3 (2006): 233-239.

NGS 결과의 임상 적용: Genotype-phenotype correlation

최근에 병원의 의료 현장에서 NGS 타겟 시퀀싱 패널을 이용하면서 다양한 유전자들을 동시에 검사하는 건수가 폭발적으로 증가하고 있습니다. 다만 안타깝게도 많은 경우에 실제로 그 유전체 정보와 데이터를 충분히 활용하지 못하고 있음을 많이 느낍니다. 즉, 돈을 들여서 구축된 파이프 라인을 통해서 유전체 데이터 생산은 되는데, 이후에 변이들에 대한 적절한 해석을 하고, 환자에 적용하는데 까지는 아직 더 경험이 필요한 것 같습니다. 그래서 이번 글에서는 매우 중요한 개념인 유전형-표현형 일치 (Genotype-Phenotype correlation; G-P correlation)에 대한 포스팅을 남기고자 합니다.

관련 포스팅 보기>

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

임상의를 위한 NGS 레포트 해석의 이해

 

I. Genotype-Phenotype correlation 의 개념

NGS 검사를 직접 해보면, 환자 한명에서도 엄청나게 많은 수의 변이들이 쏟아져 나옵니다. 여러가지 컴퓨터 예측 알고리즘이나 기존에 보고되어 구축된 유전체 데이터 베이스를 통해, 해당 변이가 실제로 질병을 일으키는 변이인지에 대해서 확인을 하고, 해당 결과가 NGS 검사 결과 보고서를 통해서 임상 의사에게 보고됩니다. 그러나, 이때 보고서의 다양한 변이 리스트를 보고, 실제로 환자에서 질병을 일으키는 유전자 이상이 무엇인지를 판단하는 것은 의사의 몫입니다.

이때 가장 중요한 것은 환자가 나타내는 임상 양상이 실제로 해당 유전자의 이상으로 발생하는 임상 양상과 일치하는가? 입니다. 나의 환자가 NGS 검사를 통해 확인된 유전형(Genotype)으로 인해 특정 유전자의 이상이 의심되고, 해당 유전자의 이상으로 알려진 질병 또는 임상 양상이 실제 나의 환자에서 나타나는 임상 양상(표현형, phenotype)과 일치하는가를 판단하는 전반적인 과정이 바로 G-P correlation이 되겠습니다. 원래는 해당 질병의 전문가가 종합적으로 판단하여야 하는데, 임상 유전학자들의 수는 매우 제한적이기 때문에, 환자의 주치의도 이러한 판단을 할 수 있어야 하기 때문에, 기본적인 유전학적 지식이 필수로 요구됩니다.

 

II. Genotype-Phenotype correlation의 접근 과정

NGS 검사를 통해 환자의 다양한 변이 정보를 얻었고, 임상 증상과 의심되는 질병도 있습니다. 이때 진단을 위한 마지막 퍼즐을 풀 차례입니다. 제일 먼저 할 과정은 환자에서 검출된 병적 변이에 의해서 실제로 보고된 임상 양상과 질병이 무엇인가를 확인하는 것입니다. 다양한 데이터 베이스가 있으나, 가장 광범위하고 무난하게 활용할 수 있는 곳은 아래의 두곳입니다. 아래 사이트에서 가장 먼저 확인해야할 것은 유전 양식(AD, AR, XLD, XLR 등등)과 질병을 일으킨 것으로 알려진 병적 변이에 대한 정보 입니다.

1

  • Online Mendelian Inheritance in Men (OMIM) : 사람의 유전질환들에 대한 다양한 데이터를 제공하기 위해 만들어졌습니다. 유전 양상과 대표적인 케이스 논문들에 대해서 바로 링크를 제공하기 때문에 유용합니다.
  • Gene Reviews : 좀 더 다양한 임상 양상들에 대해서 유전자 단위로 좀 더 상세하고 종합적으로 서술되어 있어, 배경 지식을 얻는데 더 좋습니다.

위의 사이트에서 우리 환자에서 검출된 유전자로 검색을 해서, 실제로 어떤 질병과 임상 양상이 보고되었었는가를 확인합니다. 또한 해당 유전자가 나타내는 임상 양상의 특징이 무엇인지를 파악해야합니다.

 

III. Genotype-Phenotype correlation이 안될 경우의 해석법

위와 같은 과정을 여러번 거치다 보면 다양한 상황에 마주하게 됩니다. 실제 병적 변이도 확인하고, 임상 양상도 잘 일치해서 환자를 진단하면 가장 좋겠지만, 여전히 모호한 경우를 많이 마주하게 됩니다.

  • 유전 양식이 잘 일치하는가? : 환자에서 변이가 homozygote 인지, heterozygote인지 그리고 알려진 질병 발생이 상염색체 우성 (AD)인지 상염색체 열성(AR)인지 잘 살펴본다. AR로 알려진 질병은 경우에 따라서 Compound heterozygote의 가능성도 있으므로, 추가적으로 다른 변이도 검출되지 않았은지 따져 본다.

> [유전학 중요개념 정리] Compound Heterozygote

  • 임상 양상과 해당 유전자가 의심되지만, 환자에서 검출된 변이가 실제로 병적 변이인지 모호한 경우: 1) 변이 빈도를 확인한다. : 인구 집단에서 흔한 변이이면 크게 의미가 없다. > 매우 드물거나 보고된 적이 없는 변이의 경우, 2) 환자의 부모에서 해당 변이 존재 유무를 확인하는 가족 검사를 실시한다. 만약 부모도 같은 변이를 가지고 있고 정상이라면, 질병과 관계가 없을 가능성이 높다. 그러나 일부는 투과도 (Penetrance)가 100%가 아니기 때문에 항상 그런 것은 아니다. 3) 관련 논문을 검색한다. > 논문을 잘 찾아보면 최소한의 실마리를 얻을 수 있다.

 

Genotype-Phenotype correlation 과정 자칫 환자를 잘못 진단하는 결과를 일으킬 수 있기때문에 매우 중요한 과정입니다. 그러나 이러한 과정을 통해 NGS 검사 결과를 적절히 해석하고 임상 진료에 활용하는 의사는 매우 제한적입니다. 임상 진료 현장에서 많은 의사들이 이러한 유전체 데이터를 활용하여 환자들을 적절히 진단하고 치료 하기를 소망합니다. 위에서 언급한 것 외에도 다양한 접근법이 있을 수 있으나, 분량이 너무 길어지기 때문에 이번 포스팅은 여기서 마무리하도록 하겠습니다.

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

최근에 논문 작업때문에 블로그를 좀 소홀히 했는데, 어느새 방문자 수가 10,000명을 넘었네요. 그래도 제 블로그를 찾는 분들이 계신 것 같아, 최근에 공부했던 Copy neutral loss of heterozygosity (CN-LOH)에 대해 정리하는 포스팅을 남깁니다.

우선 단어의 의미를 살펴보면, CN-LOH는 앞선 포스팅에서 언급한 UPD와 의미가 동일합니다. 다만, UPD의 경우는 주로 선천적인 질환에서 세포 분열의 문제에서 일어난 상태를 나타낸다면, CN-LOH는 주로 후천적으로 획득된 상태를 가리킬 때 사용합니다. 따라서 주로 Cancer Genetics에서 연구가 많이 되어 있습니다.

관련 포스팅 > [유전학 중요개념 정리] Genomic imprinting and Uniparental disomy (UPD)

Copy neutral (복제수에 변화가 없는) + loss of heterozygosity (이형접합성을 잃은 상태)

즉, CN-LOH는 양쪽의 상동 염색체의 유전적 구성을 완전히 동일하게 만들어, 유전적 다양성을 감소시키고 이로 인해서, 상동염색체 간의 상호 보완적인 역활을 소실시킴으로써 질병 발생의 메커니즘으로 작용할 수가 있습니다.

이러한 CN-LOH는 과거의 검사 방법으로는 거의 검출이 불가능하였습니다. 최근 SNP array 기술의 발달로 거의 전체 유전자 영역에서의 genotype 정보를 얻는게 가능하게 되면서, 이러한 영역을 검출하는 것이 가능하게 되었습니다.

관련 포스팅 > [유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

assay 비교
[그림 1] 검사 방법별 염색체의 구조 변화 검출 가능 정도 비교. CN-LOH의 경우는 genotyping 정보가 필요하기 때문에 SNP array와 Whole genome sequencing 방법을 통해서만 검출이 가능한 것을 알 수 있습니다.

아래 그림은 이러한 CN-LOH의 type을 분류하여 나타내주고 있습니다. 발생되는 위치에 따라, 또는 염색체의 개수에 따라 분류가 되고, 이러한 상태가 발생하는 원인에 따라 세포 발생 초기 단계에서의 event 또는 인종적 차이에 따른 정상적인 존재 또는 암세포 발생에 따른 증식 등 원인도 다양합니다.

CN-LOH1
[그림 2] CN-LOH 또는 UPD의 타입에 따른 분류

이러한 CN-LOH는 다양한 기전에 의해서 발생할 수 있는데, 주로는 아래와 같은 과정에서 형성되는 것으로 생각되고 있습니다.

CN-LOH2
[그림 3] CN-LOH의 생성 기전. (A) 세포 분열 단계에서의 재조합 (B) 염색체 일부 소실 후 복구 과정에서 인접 상동 염색체를 복제하면서 발생
CN-LOH3
[그림 4] CN-LOH에 의한 질병 발생 메커니즘
CN-LOH이 발생할 경우, 만약 해당 영역에 위치한 유전자의 한쌍이 정상이고 한쌍이 병적 변이를 포함하는 경우였다면 원래는 정상 보인자로 존재해야할 사람이, 병적 변이를 포함한 부분이 복제되어 CN-LOH가 된다면 질병을 일으킬 수 있습니다. 또한 Genomic imprinting이라고 하는 기전을 통해 실제 발현이 되거나 억제되는 영역이 한쪽에만 존재하게 되는데, 이부분이 양쪽에 존재하게 되면, 유전자의 발현이 완전히 억제되거나 증폭되는 효과를 일으켜 역시 질병을 나타낼 수 있습니다. (그림 4. 노란색 영역)

관련 내용이 아주 많지만, 주요 Reference만 정리하고 오늘 포스팅은 여기까지하고 마치도록 하겠습니다.

 

[References]

O’Keefe, Christine, Michael A. McDevitt, and Jaroslaw P. Maciejewski. “Copy neutral loss of heterozygosity: a novel chromosomal lesion in myeloid malignancies.” Blood 2010; 115(14) : 2731–2739.

Conlin, Laura K., et al. “Mechanisms of mosaicism, chimerism and uniparental disomy identified by single nucleotide polymorphism array analysis.” Human molecular genetics 2010; 19(7) : 1263-1275.

[참석 후기] 진단유전학회 유전상담 연수강좌

연수강좌

지난 금요일 진단 유전학회에서 개최한 유전상담 연수강좌 프로그램 참석 후기를 올립니다. 유전 상담의 경우는 진단 뿐만 아니라 환자와 보호자들의 감정적 지지가 제일 중요하다는 얘기가 가장 기억에 남고, 그 이외에도 실제 필드에서 마주하게 되는 다양한 상황들에 대해서 들을 수 있어 유익한 강좌였던 것 같습니다.

특히 희귀 유전 질환을 갖고 있는 환자에서 임신을 계획하고 있는 경우, 산전 진단 뿐 아니라 착상전 배아 선별 후 인공 수정까지 산부인과 선생님들의 강의도 참 재밌고 신선했습니다.

실제 연수 강좌 제목은 유전 상담이었지만, 대부분의 내용이 그냥 임상 유전학 관련 내용들이었던 점은 실제 유전 상담에 대해서 조금 더 알고 싶었던 입장에서는 조금 아쉬웠던점 입니다.

Splicing 과정과 splicing site 변이 해석

NGS 데이터를 이용하여 환자의 변이를 판독하는데 있어 제일 어려운 부분은 Intron 영역과 splicing site 인 것 같습니다. Exon 영역의 경우는 직접적으로 아미노산 서열에 영향을 주는 부분이기 때문에 Null variant 또는 Missense variant에 따라 어느 정도 예측이 가능하지만, Non-coding 영역인 Intron 영역은 해석하기 어렵기 때문이지요. 그래서 종종 Intron 영역은 배제하고 Coding region만  변이 판독을 하는 경우가 많습니다. 그러나 이럴 경우, splicing site mutation을 종종 놓칠 수 있습니다. 판독에 포함하더라도 실제 검출된 변이가 어떤 영향을 주는지 알기 어려운 경우도 많습니다. 그래서 이번 포스팅에서는 splicing이 일어나는 과정 및 실제로 splicing site에서 mutation이 검출된 예를 통해서 splicing site 변이 해석 방법에 대해서 정리해 보고자 합니다.

Fig-07-47-0
[Splicing process] mRNA로 transcription 되기 위해서는 gDNA의 intron 영역이 잘려나가고 exon 영역만 합쳐져야 합니다. 이 때 Intron 영역의 5′ 영역의 GU를 포함한 donor site가 Branch point의 A를 인지하고 lariat을 형성하고 동시에 3′ 말단의 AG를 포함한 acceptor 부분이 떨어져 나가면서 두개의 exon 영역이 합쳐지게 됩니다.

위의 과정에서 transcription이 제대로 일어나지 않은 경우, 잘못된 mRNA가 생성될 수 있고 이러한 mRNA의 산물로 잘못된 단백질이 형성되어 환자의 형질이 나타날 수가 있습니다. 아래는 splicing 과정 중에서 기능적으로 중요하여 보존된 영역의 sequence를 보여주고 있습니다. 따라서 일반적으로 NGS 변이 판독 시에는 exon 영역 전후 10bp 또는 50bp 까지도 판독에 포함하기도 합니다. 그러나 많은 경우, 판독이 쉽지 않아서 실제로 mutation을 검출하는 경우는 드뭅니다.

Ch5A4

1-s2.0-S1471491412001013-gr2
[Splicing site mutation] splicing에 영향을 주는 변이 발생에 따라, mRNA 내에 정상 exon이 빠지거나 intron 영역이 포함되는 등 다양한 상황이 발생할 수 있습니다.

최근에 두개골 조기 유합증 환자의 NGS 결과를 판독하다가 나온 예를 통해 Splicing site 변이를 판독하는 방법을 살펴 보겠습니다. 해당 환자는 TCF12 유전자의 c.1468-7A>G 변이가 heterozygote로 확인되었습니다. 아래 그림과 같이 원래 AA sequence이던 부분이 변이로 인해 AG로 바뀌면서 원래 splicing acceptor site로 작동해야할 부분의 앞쪽이 splicing 되면서 잘못된 transcription이 발생한 case 입니다. 위 그림 (c)의 Cryptic splice site usage에 해당합니다.

이렇게 되면 원래 exon 17 앞의 intron 영역의 CTTTAG sequence가 포함되어, 실제 mRNA에는 Leu(CUU)-Stop(UAG) codon이 포함되고, 결국 해당 mRNA는 inserted stop codon에 의해 exon 16번까지만 발현되는 Stop gain variant와 같은 결과를 보이게 됩니다.

그림1
[Example of cryptic splice site activation] 두개골 조기유합증 관련 TCF12 유전자의 splicing site에서 heterozygote로 검출된 변이와 해당 변이에 의해 발생한 Stop gain. 해당 유전자는 Autosomal dominant (AD) 유전 방식을 따르고, 실제 환자의 임상양상도 일치하기 때문에 진단이 가능합니다.

마지막으로 이러한 splicing variant를 simulation 하는 in-silico tool을 소개하면서 포스팅을 마치고자 합니다. 아래 논문에서는 splicing에 영향을 주는 SNV의 효과를 예측하는 in-silico tool에 대해서 소개하고 있는데, scSNV score로 명명하여 여러 컴퓨터 알고리즘을 적용하고 있습니다. 위의 환자의 변이는 ADA score 0.9995 / RF score 0.9739 으로 ADA 또는 RF 알고리즘으로 예측한 결과 모두 영향을 받을 가능성이 아주 높음 (1에 가까울 수록) 을 보여주고 있습니다.

 

[Reference]

Singh, Ravi K., and Thomas A. Cooper. “Pre-mRNA splicing in disease and therapeutics.” Trends in molecular medicine 18.8 (2012): 472-482. https://doi.org/10.1016/j.molmed.2012.06.006

Xueqiu Jian, Eric Boerwinkle, Xiaoming Liu; In silico prediction of splice-altering single nucleotide variants in the human genome, Nucleic Acids Research, Volume 42, Issue 22, 16 December 2014, Pages 13534–13544, https://doi.org/10.1093/nar/gku1206

바이오 연구자를 위한 Genome Browser 비교 및 활용

인터넷 검색 브라우저 및 포털 사이트도 구글, 네이버, 다음 등 다양한 사이트들이 존재하는 것처럼, Genome Browser도 다양한 사이트들이 존재합니다. 사실은 이런 사이트들은 너무 다양해서, 가끔은 어떤 것을 사용해야할지 막막할 때가 있습니다. 그래서 오늘은 바이오 연구자들이 활용할 수 있는 다양한 Genome Browser들에 대한 소개 및 장, 단점 및 활용 방법 등에 대한 지극히 개인적인 후기를 정리한 포스트를 올리고자 합니다.

 

I. UCSC Genome Browser (http://genome.ucsc.edu/)

UCSC.jpg

  가장 역사와 전통(?)이 오래된 브라우저라고 할 수 있습니다. 이름에서 알 수 있듯이, UCSC에서 만든 브라우저인데, 옛날 논문들에서는 거의 Reference 처럼 사용하는 수학의 정석과 같은 존재입니다. 필요한 데이터나 정보는 대부분 찾을 수 있습니다만, 인터페이스가 구식이고 쓰기가 조금 복잡하고 어렵습니다. 게놈상의 위치를 줌인하거나 줌아웃할 경우 가끔 로딩이 오래 걸리고 속도가 느린 점도 단점입니다. 저는 자주는 안쓰지만, 유전자의 시퀀스 다운로드와 같은 Genome data를 받을 때, Primer 디자인 후에 In-silico PCR 을 돌릴 때 등 여전히 유용하게 잘 사용하고 있는 브라우저입니다.

 

II. Ensemble Genome Browser (http://grch37.ensembl.org)

Ensemble

EMBL-EBI 그룹에서 만든 브라우저입니다. UCSC보다 인터페이스가 좀 더 직관적으로 쓰기 편하고 역시 방대한 데이터를 제공하기 때문에, 대분의 필요한 정보는 이 브라우저 하나만으로도 얻을 수 있습니다. 주로 어느 위치의 SNP에 대한 정보를 찾을 때 유용하게 사용할 수 있습니다. 다른 DB와의 연계도 훌륭하고 워낙에 유명하기 때문에 많은 사람들이 사용하고 있는 가장 범용적인 브라우저입니다.

 

III. DECIPHER Genome Browser (https://decipher.sanger.ac.uk/)

DECIPHER

위의 브라우저들보다 인터페이스가 깔끔하고 보기 편하고, 좀 더 염색체 상의 위치에 기반한 정보를 잘 제공해줍니다. Ensemble이 SNP 정보를 찾아볼 때 이용한다면, DECIPHER는 CNV 정보를 찾아볼 때 활용하기 좋습니다. 염색체 구조 이상과 phenotype data 간의 정보가 잘 정리되어 있어, 특히 array 칩을 통해 염색체 미세 구조 변이가 확인된 선천성 기형 환자의 genotype-phenotype correlation이나 Rare disease에서 CNV 관련 분석을 할 때 유용하게 사용할 수 있습니다. 역시 다른 DB 와의 연계도 훌륭합니다.

관련 포스팅 보기 >

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

 

IV. VarSome (https://varsome.com/)

VarSome

제가 개인적으로 가장 많이 사용하는 브라우저입니다. 직관적이고 편리한 인터페이스와 SNP 정보를 간편하고 빨리 얻을 수 있는 점이 장점입니다. 특히, 임상적으로 변이 판독에 활용하기에 유용한데, SNV의 임상적 정보를 해석하는데 필요한 ACMG classification 및 In-silico tool을 통한 아미노산 치환 효과 예측 스코어 등을 한 페이지에 모두 보여주고, 게놈 상에 이미 pathogenic variant로 보고된 변이도 한눈에 보여주기 때문에, 여기 저기 다른 사이트들에 가서 찾아볼 필요가 없어 좋습니다. 그러나 다른 브라우저와 다르게 가입(무료)을 해야 계속 검색을 할 수 있다는 점이 단점입니다.

관련 포스팅 보기 >

임상의를 위한 NGS 레포트 해석의 이해

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

 

V. ExAC Genome Browser (http://exac.broadinstitute.org/)

Broad Institute에서 개발한 브라우저로 ExAC 기반한 변이들의 변이 빈도를 제공한다는 점이 강점이었습니다만, 최근에 대부분의 DB에서 더 큰 population인 gnomAD 변이 빈도를 제공하기 때문에 강점을 많이 잃었습니다. 다른 브라우저와 다르게 검사한 NGS 데이터의 퀄리티, Coverage 정보 등을 제공하기 때문에 가끔 유용한 경우가 있습니다.

 

위에 소개한 게놈 브라우저 외에도 다양한 브라우저들이 존재합니다. 각 브라우저들만의 강점이 존재하기 때문에, 상황에 맞게 장단점을 이해하고 브라우저들을 활용하는 것이 좋을 것으로 생각됩니다. 이번 포스팅은 여기서 마치도록 하겠습니다.

SNP array와 array CGH의 원리 및 UK Biobank Array, Korean Chip

오늘은 최근에 연구를 하면서 확실하게 차이를 알게된 array CGHSNP array에 대해 정리하고, SNP array의 일종으로 많은 연구자들이 사용하고 있는 한국인칩에 대해서 소개하는 포스팅을 올리고자 합니다.

저는 이해하기 쉽게 정리하는 걸 선호하기 때문에 공통적으로 array의 개념부터 정리하겠습니다.

Affymetrix

array (= 배열) 검사: 여러개의 열에 각각 특정 sequence를 인식하는 탐식자 (probe)를 심어, 해당 부위를 검출하기 위한 목적으로 만든 검사 방법

두 검사 모두 array 기법을 이용하는 점은 공통이나 검사의 목적이나 응용 방법, 그리고 장, 단점 등등에 차이가 있습니다.

cgh_test.jpg
[array CGH (A) 와 SNP array (B) 비교] A는 control 물질과의 상대적 신호 세기를 이용하여 Copy number 검출이 목적인 반면, B는 oligo-probe를 이용하여 target 영역의 Genotype 검출이 목적이라는 점이 가장 다릅니다.

I. array CGH (comparative genomic hybridization)

array CGH는 원래 처음에는 암 조직을 이용한 연구에 많이 사용되었습니다. 암세포는 정상 세포와 달리 염색체의 구조적 이상이 많이 발생하게 되는데, 암세포에서 이러한 염색체 이상을 확인하기 위한 방법으로 array CGH를 이용하기 시작한 것이지요. 저도 10년 전에 의대 강의를 들을 때, 처음 array CGH와 FISH 검사 방법에 대해서 배웠던 기억이 어렴풋하게 납니다. array CGH가 이러한 염색체 이상을 확인할 수 있다는 것을 알게되면서, 그 다음으로 많이 이용된 분야는 신생아 기형 검사입니다. 다운 증후군이나 에드워드 증후군처럼 염색체 검사를 통한 수적 이상이 확실하게 확인되는 경우 이외에도, 염색체 이상이 의심되는 기형을 갖고 태어나는 신생아들에서 많은 경우, 염색체 미세 결실 또는 중복 (micro-deletion and duplication)이 관찰되는 경우가 많기 때문에 이러한 것을 검출하는데 이용되기 시작한 것이지요. 따라서 처음에는 탐식자의 크기가 크고 해상도도 낮았으나, 점점 probe의 갯수가 늘어나고 해상도도 개선되어 최근에는 매우 작은 크기의 염색체의 구조적 변이도 검출이 가능해졌습니다. 이와 더불어 구조적 변이 (Structural variation)CNV (Copy number variation) 검출도 가능하여, 임상 진단 외의 많은 연구 영역에서 활용되고 있습니다.  (그러나 아직까지도 검사 비용이 매우 비싼 것이 단점입니다.)

관련 포스팅 > [유전학 중요개념 정리] Structural variation 및 Copy-number variation

array CGH
[array CGH의 검사 원리] 환자 검체와 정상 대조군을 각각 다른 형광 물질로 표지하여 나오는 상대적인 신호를 검출하여, 해당 탐식자가 검출하는 염색체 부위에 수적 이상이 있는지를 확인하게 됩니다.

II. SNP (Single Nucleotide Polymorphism) array

array CGH와 달리, SNP array는 최근 GWAS (Genome-Wide Association Study)와 더불어 더 각광받게된 검사 방법입니다. 유전체의 특정 SNP을 타깃으로 하는 oligo probe를 매우 많이 포함하는 array를 개발하여, 거의 대부분의 유전체 영역을 커버하는 array를 개발하고 연구에 활용하고 있는 것이지요.

관련 포스팅 > 전장 유전체 연관 분석, GWAS란 무엇인가?

snp_schema
[SNP array의 검사 원리] 타겟 영역에 특이적으로 결합하는 수 많은 oligo probe가 해당 부위의 SNP genotyping 정보를 제공해주게 됩니다.

가장 유명하고 많이 쓰이는 SNP array는 Affymetrix 사의 Genome-Wide Human SNP array 6.0 버전인데, 90만개 이상의 SNP을 탐지하는 probe와 CNV 분석을 위한 별도의 94만개의 probe를 포함하여 약 180만개의 marker가 심어져 있습니다. SNP array를 통해서도 CNV 분석이 가능합니다만, CGH와 다르게 control이 있는 것이 아니기 때문에 B allele frequency (BAF) 라고 하는 genotype call 정보를 이용하며 분석 방법도 다르게 됩니다.

그림1

 

III. UK Biobank Array와 Korean Chip (the Korea Biobank Array)

UK Biobank는 연구 자원 활용 및 이를 통한 국민의 복지 증진을 목적으로 영국에서 운영하는 국가 단위의 프로젝트입니다. 이를 위해서, 엄청나게 많은 수(약 50만명)의 영국인을 대상으로 Array 기반 genotyping을 진행하였는데, 이때 이용한 SNP array가 흔히 말하는 UK Biobank Array 입니다. UK Biobank Array를 통한 genotyping 정보는 함께 보관된 수많은 임상 정보와 함께 종합적으로 활용이 되고 있는데, 현재도 연구의 재현 및 검증을 위하여 다른 나라의 연구자들이 분양을 받아 이용하고 있습니다.

우리 나라에서도 비슷한 목적으로 사업을 시작하여,  한국인에 맞춘 SNP array 칩이 제작되었는데, 이것이 한국인칩 (the Korea Biobank Array or Korean Chip)입니다. 기존의 비싼 가격과 Cover가 되는 SNP이 인종에 따른 차이를 반영하지 못하는 문제 등을 개선하여 한국인을 대상으로 더 효율적인 연구가 가능하도록 하였습니다. 자세한 정보는 한국인칩 컨소시엄 홈페이지 에 잘 소개되어 있는데 , 대략 83만개의 대표 마커를 포함하며 한국인 특이 희귀 변이(Rare variants)를 많이 추가한 것이 눈에 띕니다. 자세한 내용은 최근에 발표된 아래 논문을 참고하시기 바랍니다.

2

 

[References]

UK Biobank Arrays: https://www.thermofisher.com/order/catalog/product/902502

한국인칩 컨소시엄: https://www.koreanchip.org/project

Moon, Sanghoon, et al. “The Korea biobank array: design and identification of coding variants associated with blood biochemical traits.” Scientific reports 9.1 (2019): 1-11.

NGS 데이터를 이용한 CNV 분석

Copy Number Variation (CNV)는 Single Nucleotide Variation (SNV)과 더불어, 유전적 다양성을 나타내는 주요한 원인으로 생각되고 있습니다. 유전자 sequence의 염기 하나가 치환된 SNV와 달리 CNV는 유전자 전체 또는 일부의 copy가 중복되거나 줄어들수도 있기 때문에 훨씬 넓은 영역에서 나타나는 Structural variation의 일종입니다.

관련 포스팅 보기 -> 유전학 중요개념 정리: Structural variation 및 Copy-number variation

일반적으로 NGS는 SNV를 보기 위한 목적으로 검사를 시행하지만, 해당 데이터를 활용하면 CNV 분석도 할 수 있기 때문에, 오늘은 NGS 데이터를 활용한 CNV 분석 방법에 대해 포스팅하고자 합니다.

NGS CNV
[그림1. NGS 데이터를 이용하여 CNV를 검출하는 원리] CNV 검출을 위해서는 mapping 되는 read 간의 정보, 그리고 각 영역에 mapping된 read의 depth 정보를 활용하게 됩니다.

위의 그림은 CNV 분석을 위한 NGS 데이터의 5가지 활용 원리를 나타내주고 있습니다. 그러나 가장 핵심이 되는 원리는 Read depth입니다. Target sequencing과 같이 Read depth가 충분한 경우에, 다른 검체들에 비해 해당 영역의 depth가 월등히 떨어지거나, 또는 월등히 높은 경우에는 해당 영역의 deletion 또는 duplication을 의심할 수 있습니다.

target_coverage_nd_FGFR2_4
[그림2. FGFR2 유전자의 Coverage (위) 및 Reference의 depth로 normalized한 depth (아래)를 나타내는 도표] 다른 검체들보다 Normalized depth가 월등히 높은 검체 (P27)는 해당 영역의 duplication, 월등히 낮은 검체 (P33)는 해당 영역의 deletion이 존재하는 것으로 의심할 수 있다.

사실 NGS 데이터는 CNV를 목적으로 한 것이 아니라, SNV 검출 목적의 데이터를 부수적으로 활용하는 것이기 때문에 많은 제한점이 있습니다. 따라서, 임상적으로 CNV 검사 목적의 NGS는 권장되지 않으며 적절한 가이드라인도 존재하지 않기 때문에 다양한 Computational tool 들이 개발되어 서로의 장점을 홍보하는 상황입니다. 다음은 다양하게 개발된 대표적인 CNV 검출 tool 들을 정리한 표입니다. 많은 경우  BAM 파일을 활용하는 것을 볼 수 있으며 대부분 R package를 제공하고 있어, 사용이 용이합니다.

NGS CNV2
[그림 3. CNV 검출을 위한 다양한 컴퓨터 툴] 어떠한 툴이 우수한가에 대해서는 명확하게 정립된 결론이 없기 때문에, 적절한 상황에 맞게 툴들을 활용하는 것이 필요합니다.
위의 표와 같이 다양한 툴들이 존재하지만, 실제로 몇가지 툴들을 사용하여 봤을 때, 결과들이 제각각이었고, 서로 일치하는 정도도 높지 않았습니다.  다양한 알고리즘을 활용함에도 불구하고, 위양성으로 보고되어 믿기 어려운 경우가 많았습니다. 가장 정확한 방법은 직접 그림 2와 같이 해당 영역의 coverage plot과 normalized depth를 보고 종합적으로 판단하는 것이었습니다. 아직까지 컴퓨터 툴들에 개선의 여지가 많음에도 불구하고, NGS 데이터를 활용하면 CNV에 대한 정보도 일부 얻을 수 있기 때문에 NGS는 더 폭넓게 활용될 것으로 전망이 됩니다.

[Reference]

Zhao, Min, et al. “Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives.” BMC bioinformatics 14.11 (2013): S1.