임상 빅데이터와 딥러닝(Deep Learning)을 활용한 연구와 고려사항

2년전부터 임상 빅데이터딥러닝 (Deep Learning) 기술을 접목하여 준비했던 논문이 있는데, 최근에 미국 심장학회 (American Heart Association)에서 발간하는 Stroke 지에 게제 승인이 나서, 관련된 내용을 정리하는 포스팅을 남길까 합니다.

의료 정보 빅데이터에 기계 학습 (Machine Learning) 기술을 활용하여 발표 하였던 저희의 첫번째 논문에서는 800명 정도의 환자 데이터를 이용하였는데, 당시 논문은 DIC 진단에 대해 기존 방법에 비해 진단 정확도를 높일 수는 있었지만, 딥러닝 기술이 다른 머신 러닝 기법 (Logistic regression, SVM, Random Forest, ANN)과 비교해서 우수한 성능을 보이지 못했습니다. 해당 연구를 통해, 다음과 같은 한계점을 느꼈습니다.

  1. 머신 러닝 기법이 통계적 기법보다 더 강한 성능을 보이기 위해서는 충분한 수와 양질의 데이터가 필요하다.
  2. 그러나 임상 메타데이터는 수는 많지만 매우 지저분 (messy)하다. (전처리 과정에 매우 큰 노력이 들어가야 한다.)
  3. 딥러닝의 강점을 충분히 활용하기 위해서는 매우 큰 양질의 코호트 데이터가 필요하다.

관련 포스팅 및 논문 보기>

의학 연구를 위한 기계학습 1: Supervised learning의 연구 설계 구조

의료 정보 빅데이터를 활용한 연구와 고려 사항

첫번째 머신 러닝 논문>> https://www.ncbi.nlm.nih.gov/pubmed/29718941

위와 같은 경험을 토대로 양질의 코호트를 찾던 중, 매우 운이 좋게도 신경과에 있는 친구와 의견을 나눌 수 있었고, 다행히 10년 정도 매우 잘 정리된 뇌졸중 환자 코호트를 활용할 수 있었습니다. 아래의 이를 토대로, 이번에 발표한 논문의 내용입니다.

 

Machine Learning–Based Model for Prediction of Outcomes in Acute Stroke

 

I. 논문의 배경 및 내용 소개

뇌졸중 (Stroke)은 고혈압, 흡연, 비만, 고콜레스테롤 등의 다양한 질환에 의해서, 뇌혈관의 혈류가 원활하지 않게 되면서 뇌세포의 사멸이 발생하는 급성 질환입니다. 다만, 빠른 처치 (약물 투여 또는 수술)를 통해서, 뇌혈류를 정상화 시키게 되면 정상적으로 회복 시키는 것이 가능하고, 그렇지 못할 경우에는 영구적인 뇌손상이 남게 됩니다.

저희는 응급실에 뇌졸중이 발생하여 내원한 환자 2,604명의 다양한 임상 정보를 토대로, 3개월 후 시점에서 환자의 예후가 좋을지 나쁠지를 예측하는 머신 러닝 모델을 개발하였습니다. 그동안 임상적으로 예후 예측에 널리 쓰이던 ASTRAL score 는 6가지 임상 정보를 이용하여, 환자의 예후를 예측했는데 저희는 응급실 도착 후에 환자로 부터 얻은 38가지 임상 정보에 딥러닝을 활용하여 환자의 예후를 예측했고, 5% 정도 더 정확하게 환자의 예후를 예측할 수 있었습니다. 재미있는 점은 아무리 딥러닝 기술을 이용하더라도, ASTRAL에서 사용하는 6개의 임상 정보만을 이용하는 경우에는 두 모델 (ASTRAL score 및 딥러닝) 간의 차이가 없었다는 점입니다.

 

II. 논문의 의의 및 시사점

6개의 임상 정보만을 활용하여, 딥러닝을 시켰을 때의 성능이 ASTRAL score와 차이가 없었다는 점은 딥러닝 기술이라고 해서 없는 정보를 더 잘 만들어 냄을 의미하지 않습니다. 즉, 환자의 예후에 영향을 미치는 다양한 요인을 더 세밀하게 수집을 해야만 더 정확한 예후를 예측할 수 있음을 의미합니다. 다른 말로 하면, 환자의 다양한 임상 정보를 매우 정확하고 다양한 측면에서 세밀하게 데이터를 얻어야만, 진정한 의미의 정밀 의료 (Precision Medicine)의 실현이 가능하다는 뜻이 됩니다.

 

AI(Artificial Intelligence) concept, 3D rendering, abstract image visual

II. 딥러닝 기술을 적용한 의학 연구시 고려할 사항

딥러닝 기술은 심층 신경망 (Deep neural network)을 형성함으로써, 기존 통계적 기법에서는 무시되는 데이터들 간의 매우 사소한 인과 관계도 활용할 수 있는 장점이 있습니다. 이러한 특징은 정밀 의료라는 프레임에 매우 적합한 점이라고 할 수 있습니다. 그러나, 이러한 네트워크를 제대로 형성 시키기 위해서는 충분한 수의 양질의 데이터가 필수  (Garbage In, Garbage Out)입니다. 즉, 사금을 채취 과정과 동일하게 아무리 모래 (빅데이터)를 많이 퍼와서, 딥러닝을 시킨다고 의미 있는 결과가 얻어지지 않습니다. 그러나, 딥러닝 기술을 모방한 많은 연구들은 이러한 점을 충분히 고려하지 않거나, 한계점을 지닌채 수행되었습니다.

또한 딥러닝이 충분한 성능을 발휘하기 위해서는 적어도 10,000개 이상의 데이터가 필요한 것으로 알려져 있습니다. 다행히 저희의 이번 연구에서는 10년간 매우 신경 써서 모은 4,000명 이상의 데이터를 이용할 수 있었고, 그럼에도 불구하고 초창기 5~6년의 데이터는 상대적으로 데이터 퀄리티가 떨어져서, 연구에서 제외할 수 밖에 없었습니다. 결국, 최근 3~4년 간 신경써서 모은 38개 임상 정보의 2,604명의 환자의 데이터 (38 x 2,604) 만을 이용하게 되었습니다. 그럼에도 딥러닝 기술과 ASTRAL score 간의 차이는 5% 정도 밖에 되지 않았습니다. 추후에 딥러닝의 장점을 더 잘 살리기 위해서는, 더 크고 정밀한 수의 데이터가 필요한 이유입니다. 그러나 이는 단일 기관에서는 거의 불가능하고, 따라서 국가 주도 또는 콘소시엄 형식의 연구가 필요한 이유가 됩니다.

 

[References]

Heo J, Yoon JG, et al., “Machine Learning–Based Model for Prediction of Outcomes in Acute Stroke”. Stroke: 2019

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

앞선 포스팅에서 언급했듯이, 단일염기변이 (SNV)에 의해 코딩하는 아미노산의 바뀌면 (missense variant) 단백질의 기능에도 영향을 주게 됩니다. 이때, 치환되는 아미노산이 단백질 구조와 기능에 영향을 미치는 정도에 따라서 그 효과가 거의 없을수도 있고, 단백질의 기능 자체를 항진시키거나 (gain of function; 드물게) 또는 감소시키게 됩니다 (loss of function). 오늘은 이러한 아미노산 치환에 따른 단백질 기능을 예측하는 컴퓨터 알고리즘 도구들 (In silico tools)의 원리와 종류들 대해서 포스팅하고자 합니다.

In silico tool에 대한 이해가 중요한 이유는 유전자 검사를 통해 변이를 검출한 경우, 변이 해석을 위한 기초 정보를 제공하기 때문입니다. 현재 많은 임상 검사실에서 사용하고 있는 American College of Medical Genetics and Genomics (ACMG)의 염기 변이의 해석에 관한 표준화 가이드라인 (2015 ACMG guideline)에서도 In silico tool의 결과를 판독 기준에 포함 시키고 있습니다. 자세히 살펴보면, 각각의 개발 도구들은 세부적으로 조금 더 기능을 향상시키기 위해 적용한 알고리즘에 차이가 있지만, 사실 대부분의 In silico tool에서 활용하는 기본 원리는 비슷합니다. 아래의 원리는 단백질학에 있어 중요한 내용이지만, 저도 세부적인 내용에 대해서는 전문가가 아니기 때문에, 간단히만 정리하고 넘어가겠습니다.

principle
아미노산 서열이 보존된 영역 (Conserved site) 또는 단백질 구조상 파묻힌 영역 (Buried site)에 변이가 있을 경우, 단백질 기능에 영향을 미쳐 질병이 발생할 확률이 높아진다.
  1. 아미노산 서열의 보존성 (Homology & Conservation): 진화 생물학적 관점에서 여러 종에서 공통적으로 단백질에 존재하는 아미노산 서열 ( conserved area)의 경우, 기능을 수행하는데 중요한 영역일 확률이 높습니다. 보통 이러한 부위를 상동성 (homology)을 갖는다고 합니다. 이러한 부위에 아미노산 치환이 일어나게 되면, 기능이 떨어질 확률이 높습니다. (진화적 관점에서 선택압의 결과) 이러한 원리에 기반하여, 아미노산 서열 정보를 단백질 기능 변화 예측에 사용합니다.
  2. 단백질의 구조 (Structure): 아미노산 치환이 표면 (surface sites)에서 일어나는 경우, 내부의 파묻힌 영역 (buried sites)에서 일어나는 경우보다 단백질 기능 변화에 영향을 적게 줄 확률이 높습니다. binding site 또는 active site의 경우도 변이가 발생할 경우, 기능에 영향을 미칠 확률이 높아집니다. 이러한 구조적인 정보를 다양한 Database로 부터 활용하여, 예측 모델에 포함시킵니다.
  3. Annotation: 그동안 병적 변이(pathogenic variant)로 보고되었던 변이들의 정보, 즉 실제 관찰된 데이터베이스 (database)를 추가적으로 활용하여, 모델을 개선 시킵니다.

위의 데이터는 예측을 위한 모델링의 기초 자료가 됩니다. 위의 자료들을 토대로 다양한 예측 알고리즘을 적용한 것들이 in silico tool로 개발되어 왔습니다. 아래 그림은 이러한 과정을 정리한 모식도를 보여주고 있습니다.

AAS
In silico prediction tool의 전체적인 모델링 과정. 단백질 구조, 아미노산 서열, 기존 보고되었던 DB 정보를 활용하여, 예측 알고리즘을 적용하게 됩니다.

In silico tool에는 많은 종류가 있는데, 이들의 차이는 대부분 적용한 알고리즘의 차이에서 옵니다. 흔히 적용하는 알고리즘은 최근 이슈가 되고있는 기계 학습 (Machine learning) 알고리즘들입니다. 즉 위의 데이터를 머신러닝 알고리즘으로 학습을 시킨 이후에 예측을 하도록 모델링하는 것이지요. 각각의 세부적인 알고리즘들에 대해서는 나중 포스팅에서 다루기로 하고, 여기서는 간단히 정리하고 넘어가겠습니다. 대표적으로 사용되고 있는 알고리즘에는 Random Forest (RF), Support Vector Machine (SVM), Hidden Markov Model (HMM), Artificial Neural Network (ANN), Deep Neural Network (DNN) 등이 있습니다. 아래는 ACMG 가이드라인에 소개된 대표적인 in silico tool들을 정리한 표입니다.

in silico tools
적용 알고리즘과 방법에 따라서 다양한 종류의 in silico prediction tool들이 개발되고 있습니다.

마지막으로 in silico tool들의 한계점을 살펴보고 글을 마치고자 합니다. 사실 위의 표에 소개된 도구 외에도 많은 도구들이 개발되어 논문으로 소개되고 있고, 서로 자기들이 개발한 도구의 성능이 우수하다고 말하곤 합니다. 하지만, 위의 도구들은 그들의 태생적 한계 때문에, 예측 성능이 정확하지는 않습니다. 여기서 태생적 한계라 함은 input data인 structure, sequence, annotation 정보를 말합니다. 모델에 이용된 데이터가 매우 제한적이고, 실제 기능을 측정한 정보가 포함되어 있지 않기 때문에, 아무리 좋은 머신러닝 알고리즘을 적용한다고 하더라도, 성능이 좋을 수가 없습니다. 사실 이러한 이유때문에, 이전에 포스팅했던 MAVE를 활용한 기능 측정 데이터의 필요성이 부각되고 있습니다.

관련 포스팅 보기>

유전자 변이의 해석: 대용량 기능 검사의 필요성

 

아래는 위에서 언급한 in silico tool의 제한점들입니다.

  1. 보통 90%의 민감도로 pathogenic variant를 예측할 때, 위양성률이 30% 정도 수준이라고 합니다. 이는 병적 변이라고 예측해도 실제로는 30%는 그렇지 않다는 의미입니다. 또한 대부분의 논문에서 발표한 성능도 training dataset 및 test dataset에 따라 결과에 많은 차이가 있습니다. 이러한 성능은 실제 임상 진료에 사용하기에는 매우 부족합니다.
  2. 적용 알고리즘만으로는 Input data의 태생적 한계를 극복할 수 없다: 위에서 언급한 것 처럼, 아무리 좋은 알고리즘을 적용한다고 하더라도, input data가 포함하는 정보가 제한적이기 때문에 예측 모델의 태생적 한계를 극복할 수 없습니다.
  3. 예측 도구들 마다 분류하는 방식 및 기준값, scale 등이 제각각이다.: 가령 대표적인 tool인 SIFT의 경우는 0과 1 사이의 값을 계산하여 0.05보다 작은 경우는 damaging 큰 경우는 tolerated으로 구분하는 반면, PolyPhen-2의 경우는 benign, possibly damaging, probably damaging로 구분하며, 반대로 1에 가까울수록 damaging일 가능성이 높도록 예측합니다. 즉 이처럼 값이나 기준이 통일 되어 있지 않으며, 그 의미도 제각각이라서 이해하기가 어려운 측면이 있습니다.
  4. 변이의 양적 형질에 대한 정보를 주지 못한다.: 대부분의 알고리즘은 단백질 영향이 정상인지 병적인지의 2~3가지의 카테고리로 변이를 구분합니다. 하지만 사실 정밀의료의 측면에서는 효소의 활성도가 80% 수준으로 떨어지는지, 0% 수준으로 완전히 없어지는지 등과 같은 양적 형질에도 관심이 큽니다. 그러나 현재 알고리즘은 이러한 정보는 전혀 줄 수 없습니다. 사실 이러한 특징은 약 처방량 결정 등에 이용될 수 있는 약물 대사 효소의 경우에 더 중요하게 됩니다.

 


[References]

Ng, Pauline C., and Steven Henikoff. “Predicting the effects of amino acid substitutions on protein function.” Annu. Rev. Genomics Hum. Genet. 7 (2006): 61-80.

Richards, Sue, et al. “Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology.” Genetics in medicine: official journal of the American College of Medical Genetics 17.5 (2015): 405.