[유전학 중요개념 정리] Hardy-Weinberg Equilibrium과 Variant Frequency

시퀀싱 데이터를 분석하는데 가장 중요한 정보를 제공하는 것 중 하나가 Minor Allele Frequency (MAF) 또는 변이 빈도 (Variant Frequency) 입니다. Variant Frequency는 전체 인구 집단 (Population)내에서 해당 변이가 어떠한 빈도로 존재하는지를 나타냅니다. 한가지 중요한 점은 여기서의 변이 빈도는 인구 집단의 관점에서의 빈도를 나타내기 때문에, 시퀀싱 데이터의 VAF (Variant Allele Frequency)와는 개념이 다르다는 점입니다. 일반적으로 NGS 데이터에서의 VAF는 해당 변이의 (전체 Read Depth에서 변이를 가진 Read의 Depth의 비율)을 나타내고, 암의 Tumor proportion을 추정하거나, Haplotype 결정에 쓰이는 변수로 대상이 완전히 다릅니다. 인구 집단에서의 변이 빈도를 해석하기 위해서는 Population Genetics에 대한 이해가 중요한데, 그래서 이번 포스팅에서는 그 중에서 가장 중요한 개념인 하디-바인베르크 평형 (Hardy-Weinberg Equilibrium; HWE)과 그 예외 상황에 대해서 정리해보려고 합니다.

 

하디-바인베르크 평형 (Hardy-Weinberg Equilibrium; HWE)은 유전학 교과서라면 항상 등장할 정도로 중요하면서도, 매우 단순한 수식입니다. 전체 집단에서의 대립 형질의 변이 빈도를 각각 p, q라고 하면 (p+q)=1 이기 때문에, diploid (n=2)로 존재하는 사람의 경우, 세대를 거듭해도 유전형의 조합은 (p+q)^2=1 의 빈도를 만족하면서 존재한다는 것이 하디-바인베르크 평형의 가정입니다.  하지만 현실 상황에서 생물학이 이렇게 단순한 수식을 따를 수 있을까요? 그렇기 때문에 사실 하디-바인베르크 평형은 그 수식 자체보다도 평형 상태의 가정과 예외 상황이 훨씬 더 중요합니다.

andrews_figure4_ksm

[하디-바인베르크 평형의 가정]

  1. No natural selection: 특정 변이에 대한 자연 선택 (Natural Selection)이 존재하지 않는다. 사실 이러한 변이는 기능적 차이가 없어야 하는데, 이러한 변이는 거의 없습니다. 표현형과 관련된 변이, 특히 질병과 관련된 변이에는 항상 자연 선택이 일어나게 되어 있습니다.
  2. Population size is sufficiently large (infinite): 전체 집단의 크기가 충분히 커서 (거의 무한대로), 변이의 빈도가 다른 요인에 의해 쉽게 영향을 받지 않는다고 가정합니다.
  3. Neither mutation nor migration: 또한 집단 내에서 새로운 변이가 발생 (mutation)하거나, 특정 변이를 가진 집단이 다른 곳으로 이주 (migration)함으로써 변이 빈도에 변화가 발생하지 않는다고 가정합니다. 그러나 사실 이러한 가정도 mutation 의한 질병의 발생이나, 아메리카 대륙으로 집단 이주를 해서 인종의 용광로가 된 미국을 보면 현실 상황은 많이 다르다는 것을 알 수 있습니다.
  4. Absence of assortative mating: 선택 교배가 아닌 무작위 교배 (random mating)가 일어난다. 그러나 다양한 작물, 가축의 품종 개량 과정, 인간의 결혼 등을 보면 항상 무작위 교배가 일어나는 것은 아닙니다.

현실 상황은 위의 HWE의 평형 가정과 많이 동떨어져있고, 그렇기 때문에 HWE 평형 가정과 위배 되는 상황들이 변이 빈도의 변화에 영향을 미치는 주요 인자들로 작용하게 됩니다. 이러한 관점에서 파생된 중요한 개념으로는 1) Selective Pressure, 2) Population Bottleneck Effect, 3) Migratory Effect or Founder Effect, 4) Genetic Drift 등이 있는데, 이러한 체계들이 유전적 다양성과 진화 방향성에 영향을 미치게 됩니다. 이러한 요인들이 복합적으로 맞물려 전체 집단에서의 특정 유전자의 변이들의 빈도를 결정하게 됩니다. 특히 이러한 요인들은 매우 드물게 발생하는 특정 Mutation에 의해서 질병을 일으키는 희귀 질환보다는, 일반 인구 집단에서의 다양한 변이 빈도와 형질간의 관계를 살펴보는 분야 (e.g. 복합 형질, 약물 유전학 등)에서 더욱 중요하게 됩니다.

What-is-the-Bottleneck-Effect.jpg

mechanisms-of-change_med

 

마지막으로 시퀀싱 변이 분석의 관점에서 HWE는 데이터의 QC 또는 필터링 과정에서 이용할 수가 있습니다. 변이 빈도 p 또는 q는 항상 < 1 이기 때문에,  Homozygote allele (p^2, q^2)은 항상 Heterozygote allele (2pq) 보다 빈도가 작아야 합니다. Call된 변이에서 Homozygote allele (Recessive)이 Heterozygote allele보다 더 흔하게 나타난다면, 시퀀싱 데이터 처리 과정 또는 검사 과정에 오류가 존재할 가능성이 있기 때문에 더 주의 깊게 살펴볼 필요가 있습니다.

 

[Reference]

Andrews, C. (2010) The Hardy-Weinberg Principle. Nature Education Knowledge 3(10):65

The Genetic Variation in a Population Is Caused by Multiple Factors

Evolution | BioNinja

Wigginton, Janis E., David J. Cutler, and Gonçalo R. Abecasis. “A note on exact tests of Hardy-Weinberg equilibrium.” The American Journal of Human Genetics 76.5 (2005): 887-893.

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

오늘 포스팅은 Annovar에 관한 내용으로 작성해볼까 합니다. 언젠가 한번은 정리할 필요가 생각하고 있던 내용인데, 이제서야 차례가 왔네요. 시퀀싱 기술이 보편화되면서, 대부분 표준화된 파이프라인을 이용하여 시퀀싱 raw data로부터 변이를 검출하는 Up-stream analysis는 대부분의 업체에서 대동소이한 결과를  주고 있습니다. 연구자의 입장에서 사실 더 중요한 것은 이 정보를 어떻게 효과적으로 이용할까 하는 부분에 있고, 그래서 Bam file 또는 VCF file에서 시작하는 Down-stream analysis가 더 중요하다고 볼 수 있습니다. 그 첫 단계로 필요한 적절한 정보를 활용하여 주석을 다는 과정이 있고, 이를 우리는 Annotation (주석 달기) 과정이라고 합니다. 그리고 이 과정에서 우리는 대부분 Annovar를 사용하게 됩니다. 물론 업체에 의뢰하면 대부분 기본적인 Annotation이 끝난 파일도 전달을 받게 되는데, 사실 필요 없는 내용이 잔뜩 달려서 파일의 용량만 무지막지하게 커진다거나, 정작 필요한 내용이 빠진 경우도 종종 발생합니다. 그래서 이번에 다룰 내용은 주석 달기의 각 항목에 대한 의미와 주요 활용 항목에 대해서 정리해보겠습니다.

관련 포스팅 보기>

NGS 분석 파이프 라인의 이해: GATK Best Practice

Annovar는 Perl script 기반으로 짜여 있어서, linux에서 명령어를 주면 자동으로 annotation을 달아주게 되어있습니다. 이때 몇가지 option에 따라서 원하는 내용대로 다양한 Database에서 관련 내용을 annotation 할 수가 있습니다. 더 많은 내용을 추가함에 따라서 연산 시간과 최종 파일 용량은 커지고, 가끔은 이것이 오히려 독이 되기도 합니다. 따라서 원하는 내용을 입맛에 따라 최적화하여 활용하는 것이 필요하게 됩니다. 아래 그림은 Annovar를 이용하여, 주석을 다는 과정의 전반적인 흐름을 보여주고 있습니다. 간단히, “Database 파일을 통째로 다운 받아서, Perl script 기반의 annotate_variation.pl을 실행하면, 그에 맞는 내용을 찾아서 주석으로 달아준다.” 정도로 말할 수 있겠습니다.

ANNOVAR_main_package_workflows.svg.png

Annovar에서 제공하는 Database 목록 보기

위 페이지에서는 다운로드 가능한 Database의 목록들을 보여주고 있습니다. 필요한 항목의 이름과 업데이트 날짜 등을 참고하여, DB를 다운로드하고 적절하게 활용하기 바랍니다.

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar [위 목록의 Database 이름] humandb/

 


I. Gene-based Annotation

VCF 파일에서 가장 핵심 정보는 사실 몇개 없습니다. 정확하게는 5개 정보만 있어도 충분한데, “몇번째 염색체 (Chr)의 몇번째 염기 위치 (Position)가 원래 무엇인데 (Ref) 무엇 (Alt)으로 바뀌었다.” (흔히 이러한 형태의 파일을 MAF format이라고 합니다.) 이 말을 하기 위해서, 부수적인 내용들이 잔뜩 달려 있는 셈이죠. 그러나 이 정보만을 이용해서는 사람들이 알아들을 수가 없습니다. 우리는 “어떤 유전자의 몇번째 엑손 영역의 몇번째 아미노산이 무엇으로 바뀌었다“와 같은 정보가 필요하죠. 그런데 사실 아직도 유전자의 정확한 정의와 위치에 대해서는 100% 밝혀지지 않았습니다. 따라서 이 유전자라고 하는 부분도 다양한 데이터 베이스가 존재하게 됩니다. 대표적으로 RefGene, UCSC/Ensemble Gene, Known Gene, CCDS 등등의 데이터 베이스가 있습니다. 따라서 여기서 어떤 데이터 베이스를 이용하여, annotation을 하냐에 따라서 출력이 달라집니다. (하지만 사실 큰 차이는 없습니다. 대부분의 업체에서는 2~3개의 데이터 베이스를 이용하여 annotation을 해주는데, 대부분 내용이 중복되어 용량만 커짐… 그래서 개인적으로는 그냥 RefGene만으로도 충분합니다.)

<가장 핵심적인 VCF 파일의 정보> = MAF format

Chromosome : Position (Start_End) : Reference sequence > Alternative sequence

위의 database를 이용하면, 위의 정보가 어떤 유전자에 속하고, 해당 유전자에서 어떤 기능을 하는 어떤 부위의 변이인지, 기능적으로 변화가 있는지 없는지 등에 대한 기본적인 정보를 제공해주게 됩니다. 어떻게 보면 가장 핵심적인 정보를 추가하는 부분이라고 할 수 있습니다.

 

II. Filter-based Annotation

사실 변이를 Genome Browser에서 찾는 가장 빠른 방법은 rsID를 이용하는 것입니다. 그런 점에서 dbSNP 또는 avSNP의 rsID를 주석으로 달아놓는 것은 활용도가 높습니다. rsID는 변이 보고가 점점 늘어남에 따라서 계속 갱신되고 있는데, 가장 최근 database는 avSNP 151 버젼이지만, 보편적으로 아직까지는 avSNP 147 버젼을 사용하고 있는 것 같습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

변이빈도와 효과 크기

사실 변이의 생물학적 의미를 해석하는 과정에서 정말로 중요한 내용은 일반 인구 집단에서 얼마나 흔하게 존재하는가?에 있다고 할 수 있습니다. 그러한 의미에서 Population Frequency 정보는 변이의 의미를 파악하는데 매우 중요한 단서를 제공해 줍니다. 이와 같은 Population Frequency는 다양한 집단에서 시퀀싱을 시행하여, 그 빈도를 계산한 다양한 데이터 베이스에 기반하게 되는데, 대표적으로 EXAC, gnomAD, 1000Genome, ESP database 등이 있습니다. 이때 중요한 점은 인구 집단이 얼마나 대표성을 띄는가?에 있다고 볼 수 있는데, 빈도를 계산한 인구 집단의 크기 (n수)와 인종적 배경 (Ethnicity) 등이 특히 중요합니다. 더불어, Rare variant의 경우는 더욱더 인종에 따른 차이가 크기 때문에 일반적으로는 한국인의 경우는 EAS (East Asian population) 정보를 이용하지만, 해당 데이터 베이스가 충분히 한국인을 대표하지 못하는 경우가 많습니다. (위의 데이터 베이스에서는 gnomAD가 가장 n 수가 가장 크기 때문에 저는 주로 EXAC과 gnomAD의 EAS 인구 집단 정보를 활용하고 있습니다.)

사실 데이터 용량이 가장 뻥튀기 되는 부분이 in-silico prediction tool 부분에 있습니다. 아미노산 치환 효과를 예측해주는 tool은 100가지가 넘게 있는데, 각 tool 들이 예측해주는 정보를 얼마나 포함할 것인가에 따라서 추가되는 정보도 달라집니다. 크게 얼마나 진화적으로 보존된 지역인지 또는 아미노산 구조적으로 변화를 유발하는지 등에 기반한 알고리즘으로 개발되어, SIFT, PolyPhen과 같은 고전적 tool부터, GERP, SiPhy, MutationTaster, FATHMM, MetaSVM, CADD, DANN과 같은 다양한 tool이 존재합니다. (역시나 이쪽도 절대 지존은 없기 때문에 경우에 따라 적절하게 활용합니다. 보통 Voting Method, 즉 10개 또는 선택된 갯수의 서로 다른 알고리즘 중에서 몇개가 Deleterious로 예측하는가? 와 같은 방식으로 많은 경우 활용하게 됩니다. 저는 개인적으로 Ensemble 기반의 tool을 주로 활용하고 있습니다.)

마지막으로 임상 정보들을 annotation 하는 database가 존재하는데, 대표적으로 OMIM, HGMD, ClinVar, COSMIC 등등이 있습니다. 희귀 유전 질환에 대해서 연구를 한다면, OMIM이나 HGMD, Cancer 관련 연구를 한다면, COSMIC database 정보를 annotation 하는 것이 도움이 될 수 있습니다. 그러나 사실 이렇게 annotation을 덕지덕지 붙이다보면 파일 크기가 엄청나게 불어나게 됩니다. 현재까지 대부분의 연구자들은 Coding region의 Functional variant에만 관심이 있기 때문에, 1차적으로 Gene-based annotation 후 exon 영역의 functional variant만 filtering하고나서, 해당 변이들에 대해서 annotation 하는 방법이 시간과 데이터를 절약하는 방법이 될 수 있습니다.

 

III. 기타 annotation 방법

관련 포스팅 보기>

암유전체 분석: Driver mutation prediction tools

위의 annovar를 이용하는 방법은 linux 기반의 서버를 통해서 대용량으로 실행하는 방법입니다. 그러나 서버를 구축하지 못하거나, linux를 친숙하게 이용하지 못하는 경우에는 그러면 어떻게 annotation을 하는가? 에 대한 문제가 발생합니다. 이를 위해서 다양한 Web 기반의 annotation tool 들이 존재하게 됩니다. 가장 대표적인 것이 wANNOVAR입니다. 기타 cancer를 다룬다면, Oncotator 또는 Cancer Genome Interpreter도 대안이 될 수 있습니다. 그러나 역시 이러한 tool들은 Annovar에 비해서 자유도는 떨어지기 때문에 기능에 제약이 있다는 단점이 있습니다. 마지막으로 R을 활용하여, annotation이 가능한 몇가지 package들이 개발되어 있습니다. 대표적인 package로는 MAFtools, VariantAnnotation 등이 있으나, 역시 기능이 AnnoVar에 비하면 제한적입니다. 그러나, 소수의 변이에 대해서 빠르게 annotation이 필요한 경우라면 이러한 도구들도 적절하게 활용하는게 도움이 될 수 있습니다. 더 자세한 정보는 아래 github를 활용하시기 바랍니다.

 


 

References>

Yang, Hui, and Kai Wang. “Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR.” Nature protocols 10.10 (2015): 1556.

ANNOVAR: http://annovar.openbioinformatics.org/en/latest/

wANNOVAR: https://github.com/WGLab/doc-ANNOVAR

Oncotator: https://github.com/broadinstitute/oncotator

VariantAnnotation: https://github.com/Bioconductor/VariantAnnotation

MAFtools: https://github.com/PoisonAlien/maftools

Web resources for Bioinformatics database: https://netbiolab.org/w/Web_Resources