어제 정신과 전문의 친구와 점심을 먹었습니다. 제가 병원 연구실에서 유전체 연구를 하는 것을 듣고, 함께 연구할 아이디어에 대해서 이야기를 나누자고 만났는데, 안타깝게도 GWAS에 대한 개념이 전혀 없더군요. 지금은 바야흐로 GWAS의 시대입니다. 그래서 이번 글을 유전학 전공자가 아닌 일반인도 쉽게 이해할 수 있도록 전장 유전체 연관 분석 (Genome Wide Association Study; GWAS)의 개념과 연구 방법론에 대해서 글을 써 보고자 합니다.
저는 새로운 개념을 배울 때 항상 그 이름이 의미하는 바를 이해하려고 노력합니다. 그런 의미에서 GWAS라는 이름부터 파헤쳐보겠습니다.
Genome Wide = 전장 유전체 : 모든 유전체 위치에 대해서,
Association Study = 연관 분석: 관심을 가진 형질(Target phenotype)과 연관성을 갖는 유전적 위치를 찾는다.
GWAS는 일반적으로 Case (관심 형질을 가진 집단; 환자군) 와 Control (형질을 갖지 않는 집단; 정상군)의 두 집단의 유전 정보를 얻은 후에 서로 비교하여, case에서 더 많은 빈도를 갖는, 즉 연관성을 가진 유전자를 찾게 됩니다. 한 가지 중요한 내용은 GWAS에서 찾아낸 유전자라 하더라도, 그것이 항상 원인 유전자는 아니라는 점입니다. 즉 GWAS는 인과 관계를 찾는 것이 아니라 우연히 연관되어 나타나는 유전자들의 후보를 찾는 과정입니다.
따라서 일반적으로 연구는 GWAS를 통한 후보 유전자 탐색 > 그리고 이 후에 더 많은 환자군에서 확인 (replication cohort) > 동물 & 세포 실험에서 생물학적 입증의 결과를 거쳐 최종적으로 유전자-형질의 관계를 밝히는 과정으로 진행됩니다. 이러한 GWAS 연구의 역사도 10년이 넘었습니다. GWAS는 강력한 툴 임에 틀림이 없지만, 그 원리가 통계적 연관성 분석에 기인하는 것이기 때문에 그 한계점도 분명히 인식하는 것이 중요합니다. 따라서 명확한 Case와 Control군을 확보하고, 통계적으로 분석이 가능한 충분한 수의 환자수를 확보하는 점도 중요하겠습니다. 하지만 현실에서는 이것이 쉽지만은 않죠.

더불어 GWAS 분석 방법을 이해하는 데 중요한 개념이 있는데, 흔히 LD (Linkage Disequilibrium)라고 부르는 ‘연관 비평형’ 입니다. 우리는 부모로부터 한 쌍씩 유전자를 물려받게 되는데, 생식 세포는 분열되면서 같은 세포 내에서도 끊임없이 유전형의 재배열이 일어납니다. 그러나 유전자 재조합은 덩어리로 일어나기 때문에, 서로 거리가 가까운 유전자 위치 끼리는 유전형이 섞이지 않고 모자이크 패턴으로 함께 이동하게 되며, 이러한 하나의 덩어리를 일반적으로 ‘LD block’이라고 부릅니다. 같은 LD block에 포함된 위치에 대해서는 연관성 분석을 하게 되면, 동일한 연관성을 보인 p 값을 보이기 됩니다. LD block의 존재는 다음과 같이 4가지를 시사합니다.
- GWAS 분석은 30억쌍의 모든 염기 서열에 대해서 할 필요가 없다. 같은 LD block에서 대표적인 하나의 마커만 이용해도 된다. > 분석 위치의 수가 축소화 됩니다.
- GWAS 연관 분석으로 후보 위치를 찾았다 하더라도, 정확한 원인 유전자의 위치는 LD block 내에 존재한 다른 위치일 수 있다. > GWAS로 찾아낸 후보 위치 근처의 유전형을 상세하게 다시 살펴봐야 하는 이유입니다.
- GWAS에 흔히 이용되는 Manhattan plot (맨하탄 플롯)에서 시그널이 하나의 탑처럼 주위에서 모두 높게 나오는 이유가 됩니다.
- 흔히 Imputation이라고 부르는 과정을 통해, 같은 LD block 내의 검사하지 않은 부위의 유전형도 추정이 가능해집니다.
아래 유튜브 자료에 GWAS catalog에 관한 내용이 잘 소개되어 있어 참고하면 좋을 것 같습니다.
재미있게 보고 갑니다. 글솜씨가 너무 좋으시군요! 자주 들르겠습니다.
좋아요좋아요
관심가져 주셔서 감사합니다. 더 좋은 글들로 찾아뵐게요.
좋아요좋아요
관련분야 논문을 읽다가 이해안되는 부분이 많았는데 덕분에 ㅇ 해결이되었내요 감사합니다 ㅎ
좋아요좋아요
도움이 되었다니 다행입니다 ^^
좋아요좋아요
이해가 굉장히 잘 되도록 설명해놓으신것 같습니다. 잘보고 갑니다. 감사합니다.
좋아요좋아요
도움이되었다니 다행입니다.
좋아요좋아요
좋은 정보 정말 감사합니다
좋아요좋아요
좋은 정보 감사합니다. 도움이 되었습니다.
GWAS와 Machine Learning/Deep Learning을 사용하여 질병과 GWAS의 상관관계에 관련하여 연구를 진행하고자 하는데 유전학 분야는 지식이 없는지라 혹시 어떤 Dataset/Database를 사용하면 괜찮을지 고견을 여쭙고 싶습니다.
좋아요좋아요
대중에 공개된 데이터셋이 없어서 힘드실겁니다. 제일 중요한것은 어떤 질병을 하실것인지에 따라 다릅니다. UK biobank가 가장 좋은데 유료이고 분양 절차가 까다롭습니다. 국내의 경우 보건원 데이터가 있는데 역시 분양절차에 시간이 걸립니다. 데이터셋을 가지고 다뤄보는게 목적이라면 가장접근성이 좋은 1000Genome database를 찾아보세요.
좋아요좋아요
막혔던 속이 확 풀리네요
늦깍이 대학원생이라 고민이 많았는데 감사합니다
좋아요좋아요
정말 많은 도움이 되었습니다.
좋아요좋아요
정말 유익한 글입니다! 감사합니다 🙂
좋아요좋아요
호오.. 한참 흥미롭게 읽고 있었는데 익숙한 얼굴이었네 : ) 잘보고 갑니다
좋아요좋아요
깔끔한 정의 감사합니다! 정말 많은 도움이 되는 블로그 입니다!
좋아요좋아요
이해가 잘 가지 않는 개념이었는데, 감사합니다!
좋아요좋아요
읽고 생각해 보니 GWAS (전장유전체연관분석) 가 꼭 필요하다는 것을 알겠습니다.
좋아요좋아요
정리해주신 글 보면서 많이 배우고 있습니다. 너무 감사합니다!
좋아요좋아요