사실 저희 연구실의 분석 파이프 라인은 아직도 대부분 GRCh19 (Hg19)를 Reference Genome으로 사용하고 있었는데, Ensemble Browser를 포함해서 새로 나오는 몇몇 Bioinformatics tool들이 더 이상 Hg19를 지원하지 않는다고 하는 바람에, 부랴 부랴 파이프 라인을 GRCh38 (Hg38)로 바꾸게 되었습니다. 단순히 Reference Genome을 바꾼다는 의미 외에도 많은 곳들을 전부 뜯어 고쳐야 했기에, 생각보다 꽤 귀찮고 복잡한 작업이 되어 버렸습니다. 그래서 이번에는 참조 유전체 (Reference Genome)에 대한 포스팅을 작성해 볼까 합니다.
I. 참조 유전체 Reference Genome
유전체 분석 과정 중에 Reference Genome은 매우 매우 아주 중요합니다. 분석의 시발점이자 기준점이고, 변이를 찾고 연산하는데 쓰이기 때문입니다. Reference Genome은 변이를 Calling하는 과정에서도, RNA-Seq의 mapping 및 구조 변이 등의 분석에서도 기준이 됩니다. 특히, de novo assembly가 아닌 fragmented sequence를 이용하는 short-read sequencing 방식에서는 Reference Genome을 이용해서 해당 fragment가 어디서 유래했는지를 역으로 Align하게 됩니다.
현재 인간의 참조 유전체는 20명의 기증자로 부터 DNA를 받아, 시퀀싱을 진행한 후에 구성을 하였는데 70%의 유전체 영역은 RPC-11이라고 부르는 단일 샘플에서 유래한다고 합니다. 더구나, 이 사람은 당뇨의 고위험군에 속하는 사람이었다고 하니, 많은 유전체 연구에 쓰이는데 문제가 있을 수 밖에 없습니다. 최근에 개별 인종을 대표하는 참조 유전체를 만드는 프로젝트의 이유입니다.
II. Genome Reference Consortium
참조 유전체를 만들기 위한 프로젝트는 Genome Reference Consortium (GRC)에서 진행하였는데, 인간 (h, human), 쥐 (m, mouse), 제브라 물고기 (z, zebrafish), 닭 (c, chicken) 4개의 대표 종을 선정하여, 참조 유전체를 구성하였습니다. 따라서, GRC 뒤에 붙은 영문 소문자는 참조 유전체의 종 (species)를 가리키고, 숫자는 해당 참조 유전체의 버젼을 가리킨다고 할 수 있습니다.
즉, GRCh19는 인간의 참조 유전체 19 버젼이고, GRCm39는 쥐의 참조 유전체 39버젼을 가리킵니다. 위의 그림에서 보듯이, 현재 인간의 가장 최신 참조 유전체는 GRCh38 버젼이라고 할 수 있습니다.
Genome Reference Consortium 바로 가기>
일반적으로 어떤 SNP의 위치를 가리키는데, 염색체 번호와 염기 서열 번호를 좌표로 이용하게 됩니다. 염기의 번호는 참조 유전체를 기준으로 부여되는데, 참조 유전체에 따라서 염기의 번호도 바뀌게 됩니다. 가령 약물 대사에 매우 중요한 CYP3A5 유전자의 위의 변이 rs776746은 GRCh38버젼에서는 7번 염색체의 99,672,916번째에 위치한 염기이지만, GRCh19버젼에서는 99,270,539번째에 위치한 염기가 됩니다.
III. Consensus Genome
많은 수의 인간 DNA를 시퀀싱을 하면서, 우리는 각자 매우 많은 희귀 변이들이 존재하는 것을 알게 되었고, 더이상 건강한 지원자 몇명의 샘플이 인구 집단 전체를 대표하는 것이 힘들다는 것을 알게 되었습니다. 그래서 최근에는 많은 수의 샘플을 시퀀싱하여, 모든 변이의 위치에서 인구 집단에서 가장 흔한 변이를 지정한 가상의 참조 유전체를 구성하는 방법 (Consensus Genome)이 제안되었습니다. 모든 변이가 평균 값인 이러한 인간은 실제로는 존재하지 않지만, 이러한 가상의 유전체를 구성함으로써, 실제로 불필요하게 call되는 변이의 수를 줄일 수가 있게 됩니다.
IV. 인종 특이적 Consensus Genome의 활용
위에서 제안된 Consensus Genome과 더불어, 인종 및 집단에 따라서도 가장 흔하게 존재하는 변이가 매우 다양하게 분포하기 때문에, 인종 특이적인 Reference Genome을 구성하는 것이 중요하게 생각되고 있습니다. 한국인에서도 비슷하게 consensus Korean Reference Genome (KOREF)이 구성되었고, 현재 공개가 되어 다운로드가 가능합니다.
Korean Reference Genome 바로 가기>
다만, 아직까지는 인종 특이적인 Genome을 이용할 경우에 발생하는 여러가지 유전체 분석 도구와의 호환성 문제 및 해석 과정의 혼동 등의 문제로 널리 쓰이고 있지는 않고 있는 상황입니다. 특히, 학계의 매우 보수적인 특성으로 인해 현재는 Hg38과 Hg19를 함께 쓰는 경우가 가장 많습니다.
[References]
Reference genome: defining human difference