이번 포스팅은 Towards Data Scientist의 Top 10 Statistics Mistakes Made by Data Scientists 을 읽고, 의료 정보 데이터를 다룰 때도 역시 적용되는 흔한 오류들에 대해서 글을 써보고자 합니다. 데이터 사이언스와 머신 러닝이 보편화된 지금, 다양한 머신 러닝 기법을 데이터에 적용하는 것은 그리 어렵지 않은 일이 되었습니다. 머신 러닝 기법을 의료 분야에 적용하고 활용하는 시도가 다양하게 진행되고 있습니다만, 사실 많은 사람들이 간과하는 내용이 위 페이지에서 얘기하는 부분과 일맥 상통합니다. 위 페이지의 내용을 간략히 정리하면 아래와 같습니다.
- Not fully understand objective function
- Not have a hypothesis why something should work
- Not looking at the data before interpreting results
- Not having a naive baseline model
- Incorrect out-sample testing
- Incorrect out-sample testing: applying preprocessing to full dataset
- Incorrect out-sample testing: cross-sectional data & panel data
- Not considering which data is available at point of decision
- Subtle Overtraining
- “need more data” fallacy
특히 빅데이터를 활용하겠다고 하는 분야에서, 해당 내용에 대한 충분한 고찰이 있는지는 잘 모르겠습니다. 데이터 사이언스에서 가장 중요한 것은 데이터 그 자체 (Data) 입니다. 그러나 데이터가 쌓여서 빅데이터가 되면, 나무가 모여 숲을 이루는 것과 같이, 사람들은 빅데이터 (숲)의 처리 기술 (Technology)에만 집중하게 됩니다.
그러나 Real world (현실)에서 수집된 데이터는 수많은 오류를 포함하게 되고, 개별 나무의 오류에 대한 보정은 무시하고, Technology만을 이용해서 숲 전체를 보정하고자 노력합니다. 의료 데이터의 경우, 대부분의 데이터가 수기 입력 (manual input)이기 때문에, 필연적으로 몸무게, 성별 등과 같은 정보가 잘못 입력되는 경우가 빈번합니다. 체중을 54.7 kg이라고 입력해야하는데, 점을 잘못찍어서 5.47 kg이 된다던가, 547 kg이 입력되는 경우가 대표적입니다. 의료 데이터의 경우는 특히나 이러한 오류가 빈번한데, 이를 세심하게 고려하지 않고 교정없이 열심히 모델을 수립하고 예측하면 엉뚱한 모델이 도출됩니다. 그러한 면에서 데이터 전처리 (Data pre-processing)는 의료 데이터를 다루는 경우에 더욱 중요한 과정이라고 할 수 있겠습니다.
특히, 빅데이터를 다루는 많은 사람들은 raw data 를 들여다 보지 않습니다. 그러나 의료 빅데이터를 다룰 경우, 모든 환자 데이터를 들여다 보지는 못하더라도, 최소한 일부분이라도 한명씩 리뷰를 해보며 각 데이터를 따져볼 필요가 있습니다. raw data를 들여다 보는 것은 정말 중요합니다. 이러한 과정을 통해서, 데이터 자체가 지니고 있는 오류를 발견하고 보정해주고, 추후에 모델이 수립될 경우의 그 의미와 해석에 대해서 서로 연결 시켜나갈 수가 있게 됩니다. 모든 것을 컴퓨터에 맡기는 머신 러닝의 개념과 역설적으로 의료 데이터는 노가다가 필요합니다.
[Reference]
Top 10 Statistics Mistakes Made by Data Scientists
https://towardsdatascience.com/top-10-statistics-mistakes-made-by-data-scientists-2d58ccf12ab1