De novo mutation (DNM; Of new의 라틴어 표기)은 양쪽 부모로부터 물려 받은 inherited variant와 달리, 글자 그대로 proband에서 새롭게 나타난 변이를 일컫습니다. 따라서, 환자에서 검출된 DNM은 질병의 원인일 가능성이 높습니다. 이러한 이유 때문에, 변이 판독을 위한 ACMG guideline에서도 DNM 여부를 Pathogenicity의 Strong Evidence 중 하나인 PS2 (De novo, both maternity and paternity confirmed, in a patient with the disease and no family history) criteria에 포함시키고 있습니다.
이전에 변이 판독을 위한 기초적인 포스팅에서 DNM에 대해서 간단히 언급한 적이 있는데, 이번 포스팅에서는 DNM의 발생 과정과 질병 발생에서의 의의에 대해서 Reference 논문들의 내용을 중심으로 정리해 보고자 합니다.
관련 포스팅 보기>
I. De novo mutation의 발생 기전
DNM은 아래와 같은 크게 3가지 과정에서 발생할 수 있습니다. 수정란이 1개의 세포로부터 Germline isolation이 일어나는 것은 10여개의 세포로 분열한 이후 입니다. 해당 과정은 매우 빠르게 일어나며, 일반 세포분열보다 2배 정도 빠르게 일어나고, 그 과정에서 mutation도 빠르게 발생합니다. 따라서, 1) 부모의 Germline이 구축되기 전, mutation이 발생 (Parental postzygotic mutation)하면 발생한 Mutation은 부모의 체내에서 Mosaicism으로 존재하게 됩니다. 이 경우, 부모에서 Mosaic로 존재하는 mutation이 아이에서 DNM처럼 검출될 수 있습니다. 2) 부모의 생식 세포 (Germline 구축 이후)에 mutation이 발생 (Germline mutation)하면, 아이에게 그대로 전달이 되며, 대부분의 DNM (~89%)은 이러한 과정으로 발생합니다. 부모의 나이가 많아질수록, 생식세포에 축적되는 mutation도 많아지기 때문에, 일반적으로 DNM의 개수도 증가하게 됩니다. 마지막으로 부모의 생식 세포에 mutation이 없더라도, 3) 아이의 수정란이 분열하는 과정에서 DNM이 발생 (Postzygotic mutation)할 수 있습니다.
II. De novo mutation의 검출 방법
DNM을 검출하기 위해서는 환자 외에도 양쪽 부모의 유전체 정보를 모두 알아야합니다. (Trio-family sequencing) 따라서 비용적인 측면에서도 환자 1명을 시퀀싱할때보다 산술적으로 3배더 필요하게 됩니다. 환자와 양쪽 부모를 모두 시퀀싱 한 후에, 실제 시퀀싱 데이터에서 DNM을 call하는 것도 쉽지만은 않은데, 여러 가지 기술적인 한계와 문제가 함께 존재하게 됩니다. 현재는 이러한 한계를 극복학기 위해 short-read 기반의 시퀀싱 데이터에 다양한 algorithm을 적용하여, DNM call의 정확도를 높히는 다양한 방법론들이 개발되고 있습니다. 추후에 점점 더 정확한 시퀀싱 방법론, Long-read를 통한 haplo-type phasing이 가능하게 되면, 이 부분은 점점 개선될 것으로 생각됩니다.
III. De novo mutation의 해석 및 질병 발생학적 의의
위의 표는 부모로부터 물려받는 inherited variants와 DNM의 특성을 비교하여 보여주고 있습니다. 일반적으로, 30억쌍의 염기 중에서 De novo로 발생하는 SNV는 44-82개 정도이고, Exon영역의 Coding variant로 존재하는 DNM은 1~2개 정도로 매우 드뭅니다. 이렇게 드물게 일어나는 과정이기 때문에, 환자에서만 존재하는 돌연변이는 양쪽 부모의 유전적 소인을 무시하면 질병 발생에 매우 중요한 역할을 할 것 (High damaging capacity)이라고 예상할 수 있습니다. 그러나 이렇게 발생하는 mutation 도 random 하게 발생하며, 실제로는 부모로부터 전달받는 inherited variant와 상호 작용을 알 수 없기 때문에, 그 정확한 의미를 해석하는 것은 쉽지 않습니다.
Reference의 마지막 세번째 Nature Genetics 논문은 자폐증 (Autistic spectrum disorder, ASD) 환자 군에서 DNM의 해석을 위한 통계학적 방식을 제안하고 있는데, 실제 유전자별로 무작위적으로 발생하는 mutational process와 비교하여, 질병군에서 실제로 유의미하게 더 많이 발생하는 DNM이 있는 유전자를 검출하여, 질병의 원인 유전자를 발굴하고 있습니다. 다만, 이러한 방식은 엑솜 영역에 평균 1~2개 정도 발생하는 DNM의 개수를 고려할 때, 매우 많은 수의 환자로 구성된 코호트가 필요함을 생각할 수 있습니다.
논문에서 사용된 tool은 denovolyzer (http://denovolyzer.org/) 라고 하는 R package로 개발되어, 아래 논문에 잘 설명되어 있으므로 참고하시기 바랍니다.