[유전학 중요개념 정리] Complex Trait and Polygenic Risk Score

시퀀싱 기술과 같은 유전학적 연구 도구의 발달은 많은 유전학적 질환에 대한 이해를 가능케하고 있습니다. 그러나 다른 한편으로는 모든 형질과 질환에 대한 이해를 2차원적인 염기 서열로 회귀시켜서 이해하는 사고의 고착화를 유발하고 있는 것 같습니다. 가령 임상에서 환자 검체를 이용하여 연구를 하려고 하시는 선생님들의 경우, 일단 모르겠으니까 시퀀싱부터 해보자 하는 모습을 자주 접하게 됩니다. 저는 지난 3년간 정상인부터 다양한 코호트의 환자군들의 시퀀싱 데이터를 다양하게 접하고 분석을 해보았는데, 그러면서 가장 크게 배우고 느낀 것은 연구 대상 코호트의 유전학적 조성에 대해서 이해하고 그에 맞는 연구 도구를 사용하는 것이 매우 중요하다는 것입니다. 그런 의미에서 이번 포스팅은 복합 형질 또는 양적 형질 (Complex trait or Quantitative trait)GWAS 시대에서 Complex trait을 설명하고자 하는 하나의 방법인 Polygenic Risk Score (PRS)에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전학 중요개념 정리] eQTL

41576_2018_83_Fig1_HTML

복합 형질이란 말 그대로 표현형을 결정하는데 다양한 요소들이 관여하는 형질을 말합니다. 대표적으로 키, 지능, 대부분의 질환 등을 포함하며, 유전학적 요인 외에도 다양한 환경적 요인들이 관여하게 됩니다. 유전학적으로 동일하다고 할 수 있는 일란성 쌍둥이의 경우에도, 기본적인 유전적 틀이 동일하더라도, 어느 시기에 어떤 자극을 통해서 유전자가 발현되고 조절되는가에 따라서 차이를 보이는 것입니다.

특히 GWAS 연구를 통해서 찾은 SNP의 경우는 대부분 유전자의 코딩 영역이 아닌 곳에 위치하는 경우가 많은데, 이는 유전자의 산물인 단백질을 직접 결정하는 부위 (코딩 영역) 외에 유전자를 발현시키는 것을 조절하는 부위 (eQTL)들이 많은 형질의 차이에 관여함을 시사합니다.

GWAS 연구 방법은 많은 한계점이 있는데, 저는 선형적 회귀 방법에서 오는 한계점이 가장 크다고 생각합니다. 즉, 모든 대상들은 유전자 염기 서열이라고 하는, 하나의 동일한 줄로 쭈욱 세우고, (맨하탄 플롯의 x 축) 그 안에서 SNP을 서로 비교하는 것은, 형질이라고 하는 하나의 결과를 너무 단순화해서 생각하기 때문이라는 것이죠. 이러한 2차원적인 접근법은 개인별로 흔하게 존재하는 구조 변이에 대해서는 고려할 수가 없고, 실제로 존재하는 3차원적인 공간적 구조, 4차원적인 유전자 발현의 시간적 효과 등을 모두 무시하게 됩니다. GWAS 연구 방법은 성공도 거두었지만, 동시에 많은 실패를 맛본 연구자들은 다양한 시도를 하게 되는데, 그 중에 하나가 Polygenic Risk Score를 통한 Risk Stratification 입니다. 즉, 위에서 언급한 대로 대부분의 형질은 다양한 요소들이 영향을 미치므로, GWAS 연구를 통해서 1~2개의 SNP을 찾는데 실패한 질환에 대해서, 다양한 SNP들의 조합을 통해서 그 효과와 영향을 예측하겠다는 것이지요.

PRS_00000

이러한 Score의 계산은 다양한 방법들이 제안되었으나, 기본적으로 GWAS 연관성 분석을 통해서 산출되는 effect size, β 값을 이용하게 됩니다. 영향을 미치는 다양한 SNP들의 effect size들의 조합을 선형 회귀 방법을 통해서 합치고, LD block에 대한 영향을 보정해줌으로써 예측 모델을 생성하게 되는 것이지요. 위의 그림은 PRS를 계산하는 이러한 전체적인 방법에 대해서 잘 나타내주고 있습니다. 최근에는 다양한 통계적 방법을 통한 보정과 접근과 동시에 비선형적인 효과를 활용할 수 있는 머신 러닝 접근법도 다양하게 시도되고 있습니다. 그러나 이러한 접근법도 위에서 언급한 GWAS 자체의 한계점을 보완할 뿐 근본적인 문제는 그대로 안고 있기 때문에, 크게 성공을 거두기는 어려워 보입니다. 그럼에도 불구하고, 최근에 당뇨, 심혈관 질환, 유방암 등의 질환에서 많은 유용성을 보였다는 Nature Genetics의 아래 논문은 고무적으로 보입니다.

PRS_00001
관상 동맥 질환의 위험도를 예측하는 Polygenic score와 그에 따른, 질환의 유병률을 나타낸 그림.
PRS
환자가 가지고 있는 임상적으로 추정 가능한 위험도 (Clinical Risk) 와 유전적 위험도 (Polygenic Risk) 를 함께 고려하면, 기존보다 좀 더 정확하고 유용한 진료와 치료가 가능할 것으로 예상됩니다.

[References]

Khramtsova, Ekaterina A., Lea K. Davis, and Barbara E. Stranger. “The role of sex in the genomics of human complex traits.” Nature Reviews Genetics (2018): 1.

Torkamani, Ali, Nathan E. Wineinger, and Eric J. Topol. “The personal and clinical utility of polygenic risk scores.” Nature Reviews Genetics 19.9 (2018): 581.

Khera, Amit V., et al. “Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations.” Nature genetics 50.9 (2018): 1219.

Choi, Shing Wan, Timothy Shin-Heng Mak, and Paul F. O’Reilly. “Tutorial: a guide to performing polygenic risk score analyses.” Nature Protocols 15.9 (2020): 2759-2772.

약물 유전체 연구가 어려운 이유

저는 작년 2월부터 1년 반정도의 기간을 약물유전체 연구를 하고 있습니다. 지도 교수님이신 이민구 교수님과 다양한 약물 반응에 대한 유전적 바이오 마커를 발굴하는 연구를 하고 있는데, 생각보다 쉽지가 않고, 좋은 결과가 나오지 않고 있습니다. 그에 비해 최근에 선천성 기형의 일종인 두개골 조기유합증이라는 희귀질환에 대해 성형외과 및 신경외과와 공동연구에도 참여하고 있는데, 많은 환자들의 유전적 원인들을 확인할 수 있었습니다. 유전적 소인과 형질 간에는 어떠한 연관이 있는 것일까요? 이번 글은 흔히 말하는 Common diseaseRare disease 의 차이와 더불어, 지난 1년반정도의 기간을 약물 유전체 연구를 하며 느낀 점들과 왜 약물 유전체 연구가 어려운지에 대해서 정리해보고자 합니다.

기본적으로 약물 유전체 연구는 크게 여러 사람들이 동일한 약물을 먹었을 때 혈중 유효 농도가 다양하게 나타나는 것에서, 어떤 유전적 차이가 이러한 약물 대사에 기인하는지부작용 발생 유무의 위험도를 예측할 수 있는 유전적 바이오마커가 있는지에 관심을 갖춰 연구되고 있습니다.

관련 포스팅 > 약물 유전학은 왜 정밀의료에서 중요한가?

slide_42

I. 약물 반응은 복합 형질 (Complex trait)이다 : 기본적으로 약물의 대사 과정에는 다양한 약물 효소가 관련합니다. 또한 약물이 흡수되어 배출되기까지의 대사 과정 (ADME) 또는 약동학 (Pharmacokinetics) 과정에는 다양한 요소들이 관여하기 때문에, 한 두가지 유전적 소인이 형질에 결정적 차이를 나타내기 어렵습니다. 복합 형질로 가장 많이 연구되는 질병 중 하나가 2형 당뇨병 (Type 2 Diabetes mellitus; T2DM)인데, 당뇨병 발생의 원인과 그 유전적 요인에 대해서 많은 연구가 진행되었지만 여전히 속 시원한 유전적 원인에 대해서는 알지 못하고 있습니다. 특히 이러한 복합 형질에서 발굴된 유전적 마커들은 형질의 차이에 기여하는 정도가 매우 작아서, 대부분의 효과 크기 (Effect size)가 매우 작습니다. 그래서 그나마 연구가 잘되고 결과가 잘 나오는 것은 효과 크기가 매우 큰 한 두가지의 유전적 인자가 약물의 부작용 발생 유무에 영향을 미치는 경우입니다.

II. 약물 반응의 측정 자체가 어렵다 : 체내 약물 대사능에 영향을 주는 유전적 인자를 확인하고자 하는 연구의 경우, 일단 환자에서 해당 약물 농도 측정 자체가 매우 어렵습니다. 현실적으로 환자들에게는 의사들이 체중이나 대사능 등을 고려하여 약을 처방하기 때문에 복용한 약물의 양도 간격도 전부 달라지게 되며, 약물 농도라는 것도 매우 변동성이 심하기 때문에 언제 채혈하였는지, 다른 약과 함께 복용하였는지 (drug-drug interaction), 음주 & 흡연 여부, 성별 등 다양한 요소에 영향을 받게 됩니다. 기본적으로 이러한 요소들에 대한 명확한 통제가 어렵고, 보정을 한다고 하더라도 그 측정 약물 농도가 명확하게 그 사람의 약물 대사능을 대변하지도 못합니다. 즉, 처음부터 얻어지는 정보 자체에 매우 큰 변동성이 있기 때문에 해당 데이터와 유전적 정보 간의 연관성을 찾으려고 해도, 그 영향이 명확하게 큰 경우가 아니면 연관성을 찾기가 매우 어렵습니다.

III. 약물 대사 경로에는 다양한 대체자가 존재한다. : 이 세상에는 정말로 다양한 약물이 존재합니다. 기본적으로 약물은 간에서 대사되어 신장을 통해 배설된다고 알려져 있습니다만, 약물 개별로 보면 어떤 약물이 정확하게 어떠한 효소에 의해 대사되어 어떠한 형태로 배설되는지, 명확하게 알려져 있는 약물은 그리 많지 않습니다. 희귀 질환의 경우에는 생명에 필수적인 역할을 하는 어떠한 유전자에 문제가 생겨서 바로 질환으로 나타나는 경우가 많습니다. 이는 해당 유전자가 만들어내는 단백질이 중요한 역할을 하고, 다른 유전자가 대신 기능을 해주지 못하기 때문입니다. 반면에 약물 유전자가 만들어내는 약물 효소의 종류는 워낙 다양해서 한 두가지 효소에 문제가 생긴다고 하더라도, 비슷한 다른 효소가 이러한 역할을 대신해주게 됩니다. 그리고 대사 경로 자체가 한가지 방향으로만 정해져 있는 것이 아니라, 어떠한 길이 막히면 다른 길로 돌아갈 수 있는 대체 경로가 존재하게 됩니다. 즉, 약물 대사능은 한가지 유전자와의 1:1 대응이 아니라, 다수의 효소들이 관여하여 복합적으로 나타나기 때문에 동시에 고려해야할 요소들이 많아지게 됩니다. 이를 유전학적으로 나타내보면 다음과 같습니다.

  • A number of isoforms (e.g. Cytochrome P450 family, GST family)
  • Many different transcription mode in a single gene: alternative splicing

 

IV. 연구 방법의 한계 : 유전적 바이오 마커 발굴의 연구 방법으로 많이 사용하고 있는 것이 SNP array chip 또는 NGS를 통한 시퀀싱입니다. SNP array는 주로 GWAS 연구에 사용하기 때문에 인구집단에 흔하게 존재하는 common variant 연구에 사용하고, NGS 시퀀싱은 유전자의 개별 변이까지 모두 확인하기 때문에 rare variant 발굴에 사용하게 됩니다. 그러나 두 연구 방법 모두 한계가 있습니다. 앞에서 언급한 것처럼 복합형질에서 common variant는 그 효과 크기에 대부분 매우 작기 때문에 GWAS 연구로는 새로운 마커의 발굴이 쉽지 않은 편입니다. 반면 Rare variant 발굴에 유리한 NGS 방법으로는 rare variant를 발굴하여도 그 변이의 해석이 쉽지 않고, 더불어 통계적으로 의미 있는 결과를 얻기 위해 필요한 n수가 매우 커서 현실적으로 연구가 어렵게 됩니다.

관련 포스팅 >

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

전장 유전체 연관 분석, GWAS란 무엇인가?

유전자 변이의 해석: 대용량 기능 검사의 필요성

위에서 언급한 여러가지 이유들로 인해, 약물 유전체 연구는 정말 어려운 분야인 것 같습니다. 하지만 다른 한편으로는 정밀의료 분야의 발전으로 가장 많은 사람들이 혜택을 볼 수 있는 분야도 약물과 관련된 분야이기 때문에, 그만큼 의미가 크다고 할 수 있겠습니다. 이러한 여러가지 어려운 점에도 불구하고, 열심히 노력하고 있는 연구자들이 함께 좋은 연구가 나올 수 있었으면 하는 바람입니다.