의료 정보 빅데이터를 활용한 연구와 고려 사항

최근 의료에서 핫한 키워드 두가지를 꼽자면 ‘빅데이터‘와 ‘인공지능‘일 것입니다. 많은 의료계 연구자들이 의료 빅데이터에 인공 지능을 접목하여, 새로운 연구를 시도하고 있고 저 또한 관심을 갖고 공부를 시작했기에, 이번 포스팅에서는 그 동안 제 스스로 의료 정보 빅데이터를 다루면서 느꼈던 데이터의 여러 가지 특성, 연구 활용을 위한 한계 및 고려사항 을 포스팅해 보고자 합니다.

관련 포스팅 보기 -> 의학 연구를 위한 기계학습 1: Supervised learning의 연구 설계 구조

우선, 의료 정보 빅데이터라고 할 수 있는 데이터의 종류는 환자에 대한 주치의의 의료 정보 기록(Electrical Medical Record, EMR) 부터 검체 검사 결과 (Lab findings), 영상 검사 결과 (Image findings) 등등 까지 다양합니다. 이러한 환자의 데이터는 다양한 양식으로 병원별 데이터 저장소 (Data Storage System)에 보관되는데, 여기서 가장 근본적인 문제가 발생합니다.

 

Medical record on tablet screen with stethoscope on wooden backg

I. EMR 기록 – 표준화된 데이터 보관 양식의 부재

비록 최근에는 데이터 보관 및 양식의 표준화를 위한 노력이 시작되어 많은 진전을 이루고 있습니다만, 과거 EMR system이 처음 구축될 당시에는 오늘 날의 빅데이터의 시대까지 내다볼 여력이 없었습니다. 따라서 대부분의 환자 데이터는 병원별로 구축된 적당한 양식으로  보관되었습니다. 어떤 환자의 의무 기록 사본은 손글씨로 작성되어, 적당히 스캔해서 이미지로 올라가 있기도 하고, 어떤 의무 기록은 다양한 데이터 필드에 문장을 서술하는 방식으로 기록되어 있습니다. 이러한 데이터 형식은 사람이 이해할 수는 있지만, 컴퓨터 친화적 (컴퓨터가 이해할 수 있는 데이터)이지 않은 형식입니다.

데이터 curation이 적당히 되어 있지 않기 때문에 이러한 데이터를 다시 활용하려면 결국 의학적 지식을 가진 전문가가 다시 수작업으로 데이터를 전처리 및 분류해야만 합니다. 무엇보다 가장 큰 문제는 그나마 가장 분류에 활용할 수 있는 진단 코드 또는 보험 청구 코드 마저도 다양한 현실적 문제에 영향을 받는다는 것입니다. 의학적으로 진단이 동일하더라도 진료 부서나 주치의, 환자의 경제적 상황 등등에 따라 진단 코드도 달라지게 됩니다. 또한 그나마 객관적이라고 보이는 진단 코드라고 하는 것도 모든 의학적 상태를 정확하게 반영하지 못합니다.

이러한 현실은 의료 빅데이터 저장소로 부터 과거의 관심있는 케이스들을 다시 불러 들여 연구에 활용하거나 서로 다른 기관의 데이터를 공유 또는 통합하고자 할 때, 데이터 전처리에 커다란 노력을 요구하는 큰 장벽으로 작용합니다.

 

shutterstock_143897611

II. 검체 검사 결과 – Lab data의 특성 및 한계

상대적으로 주관적이라고 할 수 있는 환자에 대한 주치의의 의무 기록에 비해, 혈액 검사 결과와 같은 데이터는 수치 결과로 되어 있어 상당히 객관적이고 활용하기 용이하다고 생각하기 쉽습니다. 사실 진단검사의학과 의사로서 빅데이터와 인공 지능에 대해 공부를 시작하게 된 것도 Lab 데이터의 이러한 특성 때문입니다. 그러나 상당히 객관적으로 생각되는 수치 데이터 또한 여전히 너무나 많은 문제들을 내재하고 있습니다.

그 중에 가장 큰 문제는 검체 검사 결과는 절대적 데이터가 아니라는 점입니다. 즉 같은 환자의 혈액을 가지고 검사를 하더라도, 어떤 회사의 장비를 이용하여 어떠한 원리로 검사를 하느냐에 따라 보고되는 검사 결과의 수치는 전부 제각각이며, 주치의는 검사 결과의 절대값으로 환자의 상태를 판단하는 것이 아니라 정상 참고 범위 (Reference range)를 기준으로 상승했는가 또는 하락했는가를 보고 환자를 본다는 점입니다. 그렇다면 이러한 정상 참고 범위를 기준으로 표준화한 값을 활용하면 되지 않겠는가? 라고 생각하기 쉽습니다만, 사실 모든 검사 항목에 대해 기관별로 정상 참고 범위를 설정하는 것은 현실적으로 어려운 점이 많기도 하고 가능하지 않은 경우도 많이 발생합니다.

또한 여전히 검사 기관별로 보고하는 결과의 단위도 제각각인 경우가 많으며, 같은 항목을 보는 검사 (e.g. 면역 관련 검사)에 대해서도 정성적 (Positive or Negative), 반정량적 (1:2, 1:16 등), 정량적 (152.4 와 같은 수치)으로 보고 방식이 상이하기도 합니다. 또한 검사 장비도 기계이기 때문에 검사 기법과 원리가 점점 발달하게 되는데, 가령 기계의 검사 방법이 ELISA에서 Chemiluminescence immunoassay로 바뀌면 보고되는 데이터 수치의 신뢰도 및 특성도 엄청나게 바뀌게 됩니다. 만약 수년간의 데이터를 모아서 연구에 활용하려고 하는데, 병원에서 중간에 검사 장비를 바꾸는 event가 있었다고 하면 데이터 수치에 엄청난 bias가 개입하게 됩니다. 사실 이러한 여러 가지 문제들은 진단검사의학과를 전공한 의사가 아니면 크게 중요하게 생각하지 않는 문제들이나, 개인적으로 이러한 lab data를 가지고 실제로 연구를 해보려고 하니 생각보다 이러한 요소가 결과에 너무도 크게 영향을 미친다는 사실을 느꼈습니다.

 

46155_1

III. 영상 검사 결과 활용의 어려운 점

사실 저는 영상의학과 의사가 아니기 때문에, 영상 데이터에 대해서는 전문가가 아닙니다. 따라서 이 부분은 간략하게만 언급하겠습니다. 영상 데이터는 그래도 많은 이미지가 표준화된 양식으로 되어 있기 때문에 가장 활용이 용이한 측면이 있습니다. 딥러닝과 같은 다양한 머신 러닝 기법들이 가장 먼저 적용되고 있는 분야도 영상이나 병리과의 이미지 판독이라는 것만 봐도 알 수 있습니다. 그러나 연구의 관점에서 보면, 이러한 기법을 위해서는 엄청나게 많은 수의 데이터가 필요하고 동시에 그 용량도 어마 어마하게 됩니다. 필연적으로 이러한 데이터를 처리하려면, 최신의 분석 기법과 동시에 컴퓨터의 연산 능력도 매우 크게 요구됩니다.

 

IV. 마치며…

사실 의료 정보 빅데이터라고 하면 정말 쉽게 병원 서버의 CDRS 시스템을 이용하여 양질의 데이터를 얻을 수 있을 줄 알았습니다. 그리고 그 많은 수의 데이터를 활용하여 데이터 전처리 및 가공을 하면 최신의 빅데이터 분석 기법을 활용할 수 있을 줄 알았습니다. 그러나 제가 연구를 직접 해보면서 느낀 것은 아직은 양질의 데이터 수집이 현실적으로 쉽지 않다는 것입니다. 진단명과 코드에 기반하여 10,000건이 넘는 케이스들을 모아보았지만 데이터의 퀄리티가 너무 떨어졌습니다. 의학적 관점에서 중요한 내용들은 많은 경우, 의무 기록 한켠에 다양한 의학적 term으로 서술되어 있었고  EHR 시스템의 진단 코드 데이터는 연구 수준으로 모두 신뢰하기 어려웠습니다. 물론 코드 기반의 데이터 추출을 활용하여 어느 정도 데이터 전처리는 가능했지만, 결국 최종적으로는 수작업으로 모든 환자의 의무기록을 리뷰하고 확인하는 과정이 필요했습니다.

사실 마지막으로 가장 중요한 점은 이러한 빅데이터 접근법을 활용한 연구를 하였을 때, 정말로 의미있는 결과를 도출할 수 있는가? 인 것 같습니다. 위에서 언급한 것과 같은 이유로 많이 편향되고 Noise가 포함된 의료 정보 데이터를 잘 활용하여 연구 결과를 도출 했을 때, 그것이 정말로 의학의 발전에 도움이 될 수 있는가?는 또 다른 문제이기 때문입니다.

아래는 제가 하루에 환자 2~30명의 케이스를 2~3시간 정도씩 리뷰하여 1,000여건의 케이스를 분류하여 작성한 논문입니다. 사실 처음 빅데이터에 대한 기대와는 다르게, 엄청나게 많은 노가다(?)가 요구되었고, 데이터 수집 및 정리 (Data curation)에만 6개월에 가까운, 많은 시간이 걸렸습니다. 마지막으로 위의 과정을 통해서 나온 저희 논문과 준비할 때 도움이 되었던 논문을 소개하며, 이번 포스팅은 여기서 마치도록 하겠습니다.

[Reference]

Yoon JG et al. Machine learning-based diagnosis for disseminated intravascular coagulation (DIC): Development, external validation, and comparison to scoring systems. PLoS ONE 13(5): e0195861

Rumsfeld, John S., Karen E. Joynt, and Thomas M. Maddox. “Big data analytics to improve cardiovascular care: promise and challenges.” Nature Reviews Cardiology 13.6 (2016): 350.

 

광고

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

Hx of HGP
The landscape of Human Genome Project (National Human Genome Research Institute 에서 발췌)

인간 게놈 프로젝트 (Human Genome Project; HGP)는 인간의 모든 유전자 염기 서열을 밝히는 것을 목표로 1990년 처음 시작되었습니다. 그리고 당초 목표보다 2년 빠른 2003년도에 목표를 완수하게 되었죠. 이 당시만 해도, 인간의 유전체 암호가 모두 해독되어서 마치 모든 유전병을 정복가능하게 될 거라고 기대가 매우 컸습니다. 그렇지만 당시의 기대와 흥분도 잠시, 지금까지 무려 14년이 흘렀지만 아직도 게놈 프로젝트는 현재 진행형입니다. 이번 글에서는 게놈 프로젝트의 역사와 의의, 그리고 앞으로 유전체 연구 진행 방향에 대해서 논의해 보겠습니다.

사실 게놈 프로젝트를 말하는데 있어서, 염기서열 분석 기술의 발전을 떼놓고는 말하기가 어렵습니다. 하지만 각 세부적인 분석 기술 소개하는 것 만으로도 엄청난 분량이 되어버리므로, 이번 글에서는 간단히만 언급하겠습니다.

Frederick-Sanger-and-a-DN-009
1958년 노벨 화학상 수상자, Frederick Sanger (1918 – 2013). 그의 이름을 딴 생거 시퀀싱 방법은 아직까지도 염기 서열 분석 방법의 고전적 분석 표준(Gold standard)으로 인정받고 있습니다.

유전자의 염기 서열을 분석하는 가장 고전적인 방법은 생거 시퀀싱(Sanger sequencing)법 입니다. 영국의 생화학자였던 프레데릭 생거에 개발된 방법은 아직까지도 염기 서열 분석의 표준 방법(Gold standard)로 인정되고 있습니다. 그러나 기술의 발전으로 점점 더 빠르고 정확하게, 대용량의 유전 정보를 시퀀싱하는 것이 가능하게 되었고, 최근에는 이를 두고 차세대 염기 서열 분석법 (Next-generation sequencing, NGS) 라고 부르고 있습니다. 사실 우리는 이미 NGS의 시대에 살고 있기 때문에 엄밀한 의미에서 차세대 라는 말은 맞지 않습니다. 따라서 일부에서는 3세대 염기서열 분석 (Third generation sequencing, TGS) 또는 대용량 염기 서열 분석 (Massively parallel sequencing, MPS)라고 부르기도 합니다. 하지만, 편의상 널리 NGS로 통용되고 있습니다. 예전에는 염기 서열을 밝히는데 수년이 걸렸던 인간 게놈 프로젝트도, NGS 기술의 발달로 이 글을 작성하는 지금도 매우 저렴한 가격에 며칠이면 가능해졌으며, 소요 시간과 가격은 점점 감소하고 있습니다. 그렇다면 이렇게 저렴해진 유전체 서열 분석 기술이 의미하는 바는 무엇일까요?

costs_plummeting_x9001.jpg
2000년대 초, 백만불이었던 전체 유전체 분석 가격은 2017년 현재 이미 1,000불 아래로 떨어졌습니다. 즉, 개인이 100만원의 비용이면 본인의 모든 염기 서열 정보를 알 수 있는 시대에 도달했다는 의미가 됩니다.

사실 인간 게놈 프로젝트 이후에 진행된 프로젝트는 1000 게놈 프로젝트 (1000 Genome Project)가 있습니다. 1000 게놈 프로젝트는 1000명의 사람들의 전체 유전체를 분석해서 서로 차이를 보이는 염기 서열에 무엇이 있고, 이것이 개인마다 어떻게 다름으로써 개인별 특징을 나타내는지를 찾고자하는 첫 시도였다고 볼 수 있죠. 그리고 현재 알게된 사실은 사람들은 무수히 다른 단일 유전자 변이 (Single Nucleotide Variant, SNV)를 가지고 있으며, 이러한 SNV가 각기 어떻게 작용을 해서 서로 다른 형질을 보내는지에 연구의 포커스가 맞춰진 상태입니다. 인간이 가지고 있는 형질과 질병은 무수히 많습니다. 그리고 인간의 유전체도 SNV를 포함해서 매우 다양하며, 무궁 무진한 상호 작용과 조절을 받고 있습니다. 즉, 인간 게놈 프로젝트 초기에 기대했던 목적을 완전히 이수하려면 이러한 모든 유전체의 발현과 조절, 그리고 개개인의 유전 정보와의 관계를 밝히는 것이 필수라는 것이죠. 1000명에서 시작된 프로젝트는 이제 나라와 인종별로 10만명, 100만명 수준으로 확대되고 있으며, 앞서 언급한 유전체와 형질간의 관계를 확인하기 위한 데이터 수집 과정입니다.

즉 앞으로의 유전체 프로젝트와 연구 방향은 이러한 형질 또는 질병과 유전 정보 간의 관계를 파헤치는데 집중될 것입니다. 유전자 지도 완성 뿐 아니라, 유전자 지도 안의 각 위치가 어떠한 역할을 하고, 어떤 형질과 질병을 일으키는지 완벽하게 이해를 해야한 엄밀한 의미의 정밀 의료가 실현 가능하다는 것이죠.  유전체 정보는 매우 방대하고, 이를 분석하는데는 매우 많은 시간과 노력이 필요합니다. 따라서 뒤이어 발전하게 된 것이 이러한 유전 정보를 분석하는 생물 정보학 (Bioinformatics)입니다. 더 나아가 최근에는 이러한 유전 정보를 빅데이터로 간주하여, 인공지능 방법론을 활발하게 적용하고 있는 상황입니다. 정밀 의료를 논의하는데 있어, 유전학, 생물 정보학, 그리고 인공 지능 등을 함께 이해할 필요가 있는 대목입니다.

2-DNA-computer
유전 정보 데이터를 바탕으로 한 정밀 의료 를 실현하기 위해서는 생물 정보학과 같은 분석 도구가 필수적이며, 유전체 데이터가 매우 크기 때문에 이를 효과적으로 처리하기 위해 빅데이터와 인공 지능 기술 적용이 크게 각광 받고 있습니다.

궁극적으로 정밀 의료 시대에는 모든 개인이 자신의 유전 정보를 보유하게 될 것이고, 앞에서 알게된 지식을 바탕으로 사는 시대에 있게 될 것입니다. 그리고 지금은 연구자들이 그러한 지식의 틈을 메꿔가는 과정이라고 볼 수 있겠죠.

유전 정보 분석 및 생물 정보학, 그리고 빅 데이터와 인공지능. 각각의 세부적인 내용은 나중에 더 자세히 알아보도록 하고 이번 글은 여기서 마치겠습니다.