아미노산 치환의 효과 예측: In silico tool의 원리와 종류

앞선 포스팅에서 언급했듯이, 단일염기변이 (SNV)에 의해 코딩하는 아미노산의 바뀌면 (missense variant) 단백질의 기능에도 영향을 주게 됩니다. 이때, 치환되는 아미노산이 단백질 구조와 기능에 영향을 미치는 정도에 따라서 그 효과가 거의 없을수도 있고, 단백질의 기능 자체를 항진시키거나 (gain of function; 드물게) 또는 감소시키게 됩니다 (loss of function). 오늘은 이러한 아미노산 치환에 따른 단백질 기능을 예측하는 컴퓨터 알고리즘 도구들 (In silico tools)의 원리와 종류들 대해서 포스팅하고자 합니다.

In silico tool에 대한 이해가 중요한 이유는 유전자 검사를 통해 변이를 검출한 경우, 변이 해석을 위한 기초 정보를 제공하기 때문입니다. 현재 많은 임상 검사실에서 사용하고 있는 American College of Medical Genetics and Genomics (ACMG)의 염기 변이의 해석에 관한 표준화 가이드라인 (2015 ACMG guideline)에서도 In silico tool의 결과를 판독 기준에 포함 시키고 있습니다. 자세히 살펴보면, 각각의 개발 도구들은 세부적으로 조금 더 기능을 향상시키기 위해 적용한 알고리즘에 차이가 있지만, 사실 대부분의 In silico tool에서 활용하는 기본 원리는 비슷합니다. 아래의 원리는 단백질학에 있어 중요한 내용이지만, 저도 세부적인 내용에 대해서는 전문가가 아니기 때문에, 간단히만 정리하고 넘어가겠습니다.

principle
아미노산 서열이 보존된 영역 (Conserved site) 또는 단백질 구조상 파묻힌 영역 (Buried site)에 변이가 있을 경우, 단백질 기능에 영향을 미쳐 질병이 발생할 확률이 높아진다.
  1. 아미노산 서열의 보존성 (Homology & Conservation): 진화 생물학적 관점에서 여러 종에서 공통적으로 단백질에 존재하는 아미노산 서열 ( conserved area)의 경우, 기능을 수행하는데 중요한 영역일 확률이 높습니다. 보통 이러한 부위를 상동성 (homology)을 갖는다고 합니다. 이러한 부위에 아미노산 치환이 일어나게 되면, 기능이 떨어질 확률이 높습니다. (진화적 관점에서 선택압의 결과) 이러한 원리에 기반하여, 아미노산 서열 정보를 단백질 기능 변화 예측에 사용합니다.
  2. 단백질의 구조 (Structure): 아미노산 치환이 표면 (surface sites)에서 일어나는 경우, 내부의 파묻힌 영역 (buried sites)에서 일어나는 경우보다 단백질 기능 변화에 영향을 적게 줄 확률이 높습니다. binding site 또는 active site의 경우도 변이가 발생할 경우, 기능에 영향을 미칠 확률이 높아집니다. 이러한 구조적인 정보를 다양한 Database로 부터 활용하여, 예측 모델에 포함시킵니다.
  3. Annotation: 그동안 병적 변이(pathogenic variant)로 보고되었던 변이들의 정보, 즉 실제 관찰된 데이터베이스 (database)를 추가적으로 활용하여, 모델을 개선 시킵니다.

위의 데이터는 예측을 위한 모델링의 기초 자료가 됩니다. 위의 자료들을 토대로 다양한 예측 알고리즘을 적용한 것들이 in silico tool로 개발되어 왔습니다. 아래 그림은 이러한 과정을 정리한 모식도를 보여주고 있습니다.

AAS
In silico prediction tool의 전체적인 모델링 과정. 단백질 구조, 아미노산 서열, 기존 보고되었던 DB 정보를 활용하여, 예측 알고리즘을 적용하게 됩니다.

In silico tool에는 많은 종류가 있는데, 이들의 차이는 대부분 적용한 알고리즘의 차이에서 옵니다. 흔히 적용하는 알고리즘은 최근 이슈가 되고있는 기계 학습 (Machine learning) 알고리즘들입니다. 즉 위의 데이터를 머신러닝 알고리즘으로 학습을 시킨 이후에 예측을 하도록 모델링하는 것이지요. 각각의 세부적인 알고리즘들에 대해서는 나중 포스팅에서 다루기로 하고, 여기서는 간단히 정리하고 넘어가겠습니다. 대표적으로 사용되고 있는 알고리즘에는 Random Forest (RF), Support Vector Machine (SVM), Hidden Markov Model (HMM), Artificial Neural Network (ANN), Deep Neural Network (DNN) 등이 있습니다. 아래는 ACMG 가이드라인에 소개된 대표적인 in silico tool들을 정리한 표입니다.

in silico tools
적용 알고리즘과 방법에 따라서 다양한 종류의 in silico prediction tool들이 개발되고 있습니다.

마지막으로 in silico tool들의 한계점을 살펴보고 글을 마치고자 합니다. 사실 위의 표에 소개된 도구 외에도 많은 도구들이 개발되어 논문으로 소개되고 있고, 서로 자기들이 개발한 도구의 성능이 우수하다고 말하곤 합니다. 하지만, 위의 도구들은 그들의 태생적 한계 때문에, 예측 성능이 정확하지는 않습니다. 여기서 태생적 한계라 함은 input data인 structure, sequence, annotation 정보를 말합니다. 모델에 이용된 데이터가 매우 제한적이고, 실제 기능을 측정한 정보가 포함되어 있지 않기 때문에, 아무리 좋은 머신러닝 알고리즘을 적용한다고 하더라도, 성능이 좋을 수가 없습니다. 사실 이러한 이유때문에, 이전에 포스팅했던 MAVE를 활용한 기능 측정 데이터의 필요성이 부각되고 있습니다.

관련 포스팅 보기>

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

아래는 위에서 언급한 in silico tool의 제한점들입니다.

  1. 보통 90%의 민감도로 pathogenic variant를 예측할 때, 위양성률이 30% 정도 수준이라고 합니다. 이는 병적 변이라고 예측해도 실제로는 30%는 그렇지 않다는 의미입니다. 또한 대부분의 논문에서 발표한 성능도 training dataset 및 test dataset에 따라 결과에 많은 차이가 있습니다. 이러한 성능은 실제 임상 진료에 사용하기에는 매우 부족합니다.
  2. 적용 알고리즘만으로는 Input data의 태생적 한계를 극복할 수 없다: 위에서 언급한 것 처럼, 아무리 좋은 알고리즘을 적용한다고 하더라도, input data가 포함하는 정보가 제한적이기 때문에 예측 모델의 태생적 한계를 극복할 수 없습니다.
  3. 예측 도구들 마다 분류하는 방식 및 기준값, scale 등이 제각각이다.: 가령 대표적인 tool인 SIFT의 경우는 0과 1 사이의 값을 계산하여 0.05보다 작은 경우는 damaging 큰 경우는 tolerated으로 구분하는 반면, PolyPhen-2의 경우는 benign, possibly damaging, probably damaging로 구분하며, 반대로 1에 가까울수록 damaging일 가능성이 높도록 예측합니다. 즉 이처럼 값이나 기준이 통일 되어 있지 않으며, 그 의미도 제각각이라서 이해하기가 어려운 측면이 있습니다.
  4. 변이의 양적 형질에 대한 정보를 주지 못한다.: 대부분의 알고리즘은 단백질 영향이 정상인지 병적인지의 2~3가지의 카테고리로 변이를 구분합니다. 하지만 사실 정밀의료의 측면에서는 효소의 활성도가 80% 수준으로 떨어지는지, 0% 수준으로 완전히 없어지는지 등과 같은 양적 형질에도 관심이 큽니다. 그러나 현재 알고리즘은 이러한 정보는 전혀 줄 수 없습니다. 사실 이러한 특징은 약 처방량 결정 등에 이용될 수 있는 약물 대사 효소의 경우에 더 중요하게 됩니다.

 


[References]

Ng, Pauline C., and Steven Henikoff. “Predicting the effects of amino acid substitutions on protein function.” Annu. Rev. Genomics Hum. Genet. 7 (2006): 61-80.

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine: official journal of the American College of Medical Genetics 17.5 (2015): 405.

광고

유전자 변이의 해석: 대용량 기능 검사의 필요성

오늘 포스팅은 유전체 검사 후 발견되는 변이 해석에 대해 얘기해 보고자 합니다. 사실 최근에 제가 공부한 내용이라, 조금 어려운 내용이지만 해당 내용을 정리할 겸 포스팅을 남겨봅니다.

NGS 기술이 널리 사용되면서, 검사를 통한 변이 검출에 대한 문제는 이제 어느 정도 정상 궤도에 올랐다고 볼 수 있습니다. 사실 더 중요한 문제는 검출된 변이를 해석하고, 이를 실제 의료 현장에서 적용하는데 있습니다. 이제서야 이러한 문제가 이슈가 되고 있는 것은 시간의 흐름대로 과거 생거 시퀀싱을 통한 유전자 검사와 NGS 기술의 등장을 생각하면, 이해하기가 쉽습니다.

시퀀싱 기술의 발전 한눈에 살펴 보기 -> 휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

과거 10년 정도 임상 현장 (병원)에서는 계속 유전자 검사를 해왔고, 실제 진료 (유전병 진단 등)에도 사용을 해왔습니다. 그러나 이때는 주로 생거 시퀀싱에 기반한 유전자 검사 였기 때문에, 매우 한정된 지역 (흔히 mutation hot spot이라고 불리는 부분)을 검사하거나 단일 유전자 1~2개의 엑손 부위 등을 검사하였죠. 이러한 유전자 검사를 시행하더라도, 검출되는 변이는 그리 많지 않았습니다. 그리고 질병과 알려진 변이 외의 변이는 검출된다 하더라도 크게 관심이 없었습니다. 사실 그러한 변이는 딱히 해석할 방법이 없었다는게 더 정확할지도 모르겠습니다. 따라서 그 동안 주요 변이 해석은 다음과 같이 이루어졌습니다.

  1. Family segregation: 가계도 분석을 통해, 대부분의 유전병 원인 유전자 및 변이를 추정하는 방식.
  2. Computational prediction algorithms: Polyphen-2, SIFT 등과 같은 단백질의 아미노산 서열 및 기능적 중요도 (conservation)에 기반한 컴퓨터 예측 알고리즘.
  3. Data sharing: 연구자 또는 임상 의사들 간의 진료 경험 및 축적된 데이터를 커뮤니티 또는 학회에서 공유해오던 방식.
  4. Traditional functional assays: 주로 in vitro assay를 통해 개별적인 논문에서 실험하고 변이의 효과를 입증해오던 방식.

하지만 NGS 기술이 등장하면서, 더이상 위의 접근 방식들로는 변이들을 해석하는데 한계에 다다르게 됩니다. 가장 널리 사용되는 컴퓨터 알고리즘 방식의 경우는 위양성률이 높고, 제한적인 데이터에 기반하기 때문에 정확한 정보를 주지 못하는 경우가 많습니다. 그리고 전통적인 변이의 functional assay의 경우는 가장 정확한 방법이기는 하지만, 매우 제한적인 몇몇 변이에 대해서만 실험 및 논문 보고가 이루어졌기 때문에 모든 검출 변이에 대해 정보를 제공하는데 한계가 있었습니다 (low through-put).

컴퓨터 알고리즘 기반 예측 도구에 대해 더 살펴보기 -> 아미노산 치환의 효과 예측: In silico tool의 원리와 종류

NGS의 다른 이름인 Massively parallel sequencing 처럼, 엄청나게 방대한 시퀀싱 데이터를 통해 생산된 변이 데이터는 더이상 한 두개의 유전자 수준이 아닌 거의 질병과 관련된 모든 유전자의, 모든 변이들을 검출 가능하게 하였습니다. 상황이 이렇다 보니, 검출된 대부분의 변이들은 VUS (Variant of Unknown Significane)로 분류되는 상황이 잦아지게 되었죠. 쉽게 말해 ‘어떤 의미를 가지는 변이인지 모르겠다.’ 입니다.

Figure 1
아미노산 잔기가 치환되는 missense variant는 gnomAD에 460만개의 변이가 보고되었지만, 그 중에 임상적 연관성을 보고하여 ClinVar에 등록된 변이는 2% 수준인 10만개입니다. 그마저도 절반 이상은 정확히 의미를 잘 모르겠다고 분류된 VUS입니다.

따라서 뒤따라오는 문제는 Massive하게 검출되는 변이들 처럼, 변이들의 기능적 특성에 대해서도 Massive하게 검사해서 확인할 필요가 있게 되었습니다 (High through-put Functional assay). 그래서, 하나의 대안으로 최근 주목 받는 검사 방법이 오늘 소개하고자 하는 Multiplexed assays for variant effect (MAVE)입니다.

Figure 2.png
MAVE는 가능한 모든 변이들의 library를 생산한 이후에 모든 변이들에 대한 functional assay를 high through-put으로 시행하여 그 변이의 기능적 기여를 해석하는 방식을 말합니다.

Figure 3
MAVE의 단계적 assay 방법.

  1. Construction of a variant library: 검사하고자 하는 기능 유전자에 해당하는 가능한 모든 위치의 변이를 포함하는 library를 구축합니다.
  2. Delivery of this variant library to a model system: E.coli, Yeast, 또는 mammalian cell과 같이 유전자를 발현시켜 검사하고자하는 model system에 library를 집어 넣습니다.
  3. A functional assay: 발현된 단백질의 기능을 기능 검사를 통해 평가합니다. 보통은 selection 방법을 이용하여, selection 전 후의 어떤 기능을 가진 변이가 더 많이 또는 더 적게 존재하는지를 정량합니다.
  4. Sequencing to quantify each variant’s representation: 위의 기능 검사 전 후의 발현의 상대적인 비율을 sequencing을 통해 비교하게 됩니다.
  5. Calculation and calibration of functional scores: 위에서 얻은 비율을 일종의 기능적 점수로 환산하여 평가합니다.
  6. The genotype–phenotype relationship at every position: 모든 위치의 변이에 대한 기능적 지도가 완성됩니다.

위의 MAVE의 방법은 변이 해석에 대한 새로운 high throughput method로 앞으로 정밀 의료를 실현하는데 있어, 유용한 genotype–phenotype relationship 정보를 제공해줄 것으로 기대가 됩니다. 그러나 다음과 같은 제한점 및 후속 연구가 필요합니다.

  1. Model system의 한계: E.coli, Yeast, Mammalian cell과 같이 변이 라이브러리를 발현 시킬 적당한 모델이 있어야 하지만, 어떤 유전자에 대해서는 이것이 불가능할 수도 있습니다.
  2. Functional assay를 통한 selection: 사실 유전자가 발현되어 생긴 단백의 기능은 한 가지만 정해져 있는 것이 아닙니다. 하나의 단백이 여러가지 일을 동시에 수행하기 때문이죠. 따라서 검사해야할 functional assay가 무궁무진하게 많을 수도 있고, 그 각각을 표준화하기가 매우 어렵습니다. 또한 발현 전후의 상대적인 양으로 그 기능을 평가한다는 것이 과연 단백질의 정확한 기능을 반영하는 것인가에 대해서도 생각해볼 문제입니다.
  3. 컴퓨터 알고리즘 개선: 기능적 점수를 포함하는 새로운 컴퓨터 알고리즘을 개발하여, 좀 더 정확하게 변이의 효과를 예측하는데에 위의 데이터가 사용될 수 있습니다.

최근에 위의 MAVE 방법론을 이용하여 PPARG 유전자의 기능적 지도가 완성되어, Nature genetics에 소개된 바가 있습니다. 논문에서 저자들은 컴퓨터 알고리즘에 기반한 예측보다 MAVE 방법이 더 변이의 기능을 설명하는데 더 유용하다는 것을 보이기도 했습니다. 앞으로는 이처럼 아마 NGS 기술의 발전되고 많은 변이가 보고됨에 따라서, 그 기능적 해석과 관련된 부분에 대해서도 많은 관심과 연구가 진행될 것으로 생각이 됩니다. 그에 따라 하나의 방법론으로써 MAVE는 아직 몇가지 한계점이 있지만 좋은 대안이 될 것으로 생각됩니다. 그리고 궁극적으로는 모든 주요 유전자에 대한 변이의 기능적 예측을 높은 정확도로 얻을 수 있는 기능 지도가 완성되어, 데이터 베이스의 형태로 제공되기를 연구자들은 희망하고 있습니다.

사실 오늘 포스팅은 MAVE에 대해 매우 간략하게 정리한 것이라, 이해하기 어려울 수도 있을 것 같습니다. 관심이 있으신 분들을 아래 논문들을 더 살펴보시면 좋을 것 같습니다.

 

[참고 문헌]

Starita, Lea M., et al. “Variant Interpretation: Functional Assays to the Rescue.” The American Journal of Human Genetics 101.3 (2017): 315-325.

Gasperini, Molly, Lea Starita, and Jay Shendure. “The power of multiplexed functional analysis of genetic variants.” Nature protocols 11.10 (2016): 1782-1787.

Majithia AR, Tsuda B., et al. “Prospective functional classification of all possible missense variants in PPARG.” Nature Genetics 2016 Dec;48(12):1570-1575.