시퀀싱 기술과 같은 유전학적 연구 도구의 발달은 많은 유전학적 질환에 대한 이해를 가능케하고 있습니다. 그러나 다른 한편으로는 모든 형질과 질환에 대한 이해를 2차원적인 염기 서열로 회귀시켜서 이해하는 사고의 고착화를 유발하고 있는 것 같습니다. 가령 임상에서 환자 검체를 이용하여 연구를 하려고 하시는 선생님들의 경우, 일단 모르겠으니까 시퀀싱부터 해보자 하는 모습을 자주 접하게 됩니다. 저는 지난 3년간 정상인부터 다양한 코호트의 환자군들의 시퀀싱 데이터를 다양하게 접하고 분석을 해보았는데, 그러면서 가장 크게 배우고 느낀 것은 연구 대상 코호트의 유전학적 조성에 대해서 이해하고 그에 맞는 연구 도구를 사용하는 것이 매우 중요하다는 것입니다. 그런 의미에서 이번 포스팅은 복합 형질 또는 양적 형질 (Complex trait or Quantitative trait)과 GWAS 시대에서 Complex trait을 설명하고자 하는 하나의 방법인 Polygenic Risk Score (PRS)에 대해서 정리해보고자 합니다.
관련 포스팅 보기>
복합 형질이란 말 그대로 표현형을 결정하는데 다양한 요소들이 관여하는 형질을 말합니다. 대표적으로 키, 지능, 대부분의 질환 등을 포함하며, 유전학적 요인 외에도 다양한 환경적 요인들이 관여하게 됩니다. 유전학적으로 동일하다고 할 수 있는 일란성 쌍둥이의 경우에도, 기본적인 유전적 틀이 동일하더라도, 어느 시기에 어떤 자극을 통해서 유전자가 발현되고 조절되는가에 따라서 차이를 보이는 것입니다.
특히 GWAS 연구를 통해서 찾은 SNP의 경우는 대부분 유전자의 코딩 영역이 아닌 곳에 위치하는 경우가 많은데, 이는 유전자의 산물인 단백질을 직접 결정하는 부위 (코딩 영역) 외에 유전자를 발현시키는 것을 조절하는 부위 (eQTL)들이 많은 형질의 차이에 관여함을 시사합니다.
GWAS 연구 방법은 많은 한계점이 있는데, 저는 선형적 회귀 방법에서 오는 한계점이 가장 크다고 생각합니다. 즉, 모든 대상들은 유전자 염기 서열이라고 하는, 하나의 동일한 줄로 쭈욱 세우고, (맨하탄 플롯의 x 축) 그 안에서 SNP을 서로 비교하는 것은, 형질이라고 하는 하나의 결과를 너무 단순화해서 생각하기 때문이라는 것이죠. 이러한 2차원적인 접근법은 개인별로 흔하게 존재하는 구조 변이에 대해서는 고려할 수가 없고, 실제로 존재하는 3차원적인 공간적 구조, 4차원적인 유전자 발현의 시간적 효과 등을 모두 무시하게 됩니다. GWAS 연구 방법은 성공도 거두었지만, 동시에 많은 실패를 맛본 연구자들은 다양한 시도를 하게 되는데, 그 중에 하나가 Polygenic Risk Score를 통한 Risk Stratification 입니다. 즉, 위에서 언급한 대로 대부분의 형질은 다양한 요소들이 영향을 미치므로, GWAS 연구를 통해서 1~2개의 SNP을 찾는데 실패한 질환에 대해서, 다양한 SNP들의 조합을 통해서 그 효과와 영향을 예측하겠다는 것이지요.
이러한 Score의 계산은 다양한 방법들이 제안되었으나, 기본적으로 GWAS 연관성 분석을 통해서 산출되는 effect size, β 값을 이용하게 됩니다. 영향을 미치는 다양한 SNP들의 effect size들의 조합을 선형 회귀 방법을 통해서 합치고, LD block에 대한 영향을 보정해줌으로써 예측 모델을 생성하게 되는 것이지요. 위의 그림은 PRS를 계산하는 이러한 전체적인 방법에 대해서 잘 나타내주고 있습니다. 최근에는 다양한 통계적 방법을 통한 보정과 접근과 동시에 비선형적인 효과를 활용할 수 있는 머신 러닝 접근법도 다양하게 시도되고 있습니다. 그러나 이러한 접근법도 위에서 언급한 GWAS 자체의 한계점을 보완할 뿐 근본적인 문제는 그대로 안고 있기 때문에, 크게 성공을 거두기는 어려워 보입니다. 그럼에도 불구하고, 최근에 당뇨, 심혈관 질환, 유방암 등의 질환에서 많은 유용성을 보였다는 Nature Genetics의 아래 논문은 고무적으로 보입니다.

