유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

Splicing 과정과 splicing site 변이 해석

NGS 데이터를 이용하여 환자의 변이를 판독하는데 있어 제일 어려운 부분은 Intron 영역과 splicing site 인 것 같습니다. Exon 영역의 경우는 직접적으로 아미노산 서열에 영향을 주는 부분이기 때문에 Null variant 또는 Missense variant에 따라 어느 정도 예측이 가능하지만, Non-coding 영역인 Intron 영역은 해석하기 어렵기 때문이지요. 그래서 종종 Intron 영역은 배제하고 Coding region만  변이 판독을 하는 경우가 많습니다. 그러나 이럴 경우, splicing site mutation을 종종 놓칠 수 있습니다. 판독에 포함하더라도 실제 검출된 변이가 어떤 영향을 주는지 알기 어려운 경우도 많습니다. 그래서 이번 포스팅에서는 splicing이 일어나는 과정 및 실제로 splicing site에서 mutation이 검출된 예를 통해서 splicing site 변이 해석 방법에 대해서 정리해 보고자 합니다.

Fig-07-47-0
[Splicing process] mRNA로 transcription 되기 위해서는 gDNA의 intron 영역이 잘려나가고 exon 영역만 합쳐져야 합니다. 이 때 Intron 영역의 5′ 영역의 GU를 포함한 donor site가 Branch point의 A를 인지하고 lariat을 형성하고 동시에 3′ 말단의 AG를 포함한 acceptor 부분이 떨어져 나가면서 두개의 exon 영역이 합쳐지게 됩니다.

위의 과정에서 transcription이 제대로 일어나지 않은 경우, 잘못된 mRNA가 생성될 수 있고 이러한 mRNA의 산물로 잘못된 단백질이 형성되어 환자의 형질이 나타날 수가 있습니다. 아래는 splicing 과정 중에서 기능적으로 중요하여 보존된 영역의 sequence를 보여주고 있습니다. 따라서 일반적으로 NGS 변이 판독 시에는 exon 영역 전후 10bp 또는 50bp 까지도 판독에 포함하기도 합니다. 그러나 많은 경우, 판독이 쉽지 않아서 실제로 mutation을 검출하는 경우는 드뭅니다.

Ch5A4

1-s2.0-S1471491412001013-gr2
[Splicing site mutation] splicing에 영향을 주는 변이 발생에 따라, mRNA 내에 정상 exon이 빠지거나 intron 영역이 포함되는 등 다양한 상황이 발생할 수 있습니다.

최근에 두개골 조기 유합증 환자의 NGS 결과를 판독하다가 나온 예를 통해 Splicing site 변이를 판독하는 방법을 살펴 보겠습니다. 해당 환자는 TCF12 유전자의 c.1468-7A>G 변이가 heterozygote로 확인되었습니다. 아래 그림과 같이 원래 AA sequence이던 부분이 변이로 인해 AG로 바뀌면서 원래 splicing acceptor site로 작동해야할 부분의 앞쪽이 splicing 되면서 잘못된 transcription이 발생한 case 입니다. 위 그림 (c)의 Cryptic splice site usage에 해당합니다.

이렇게 되면 원래 exon 17 앞의 intron 영역의 CTTTAG sequence가 포함되어, 실제 mRNA에는 Leu(CUU)-Stop(UAG) codon이 포함되고, 결국 해당 mRNA는 inserted stop codon에 의해 exon 16번까지만 발현되는 Stop gain variant와 같은 결과를 보이게 됩니다.

그림1
[Example of cryptic splice site activation] 두개골 조기유합증 관련 TCF12 유전자의 splicing site에서 heterozygote로 검출된 변이와 해당 변이에 의해 발생한 Stop gain. 해당 유전자는 Autosomal dominant (AD) 유전 방식을 따르고, 실제 환자의 임상양상도 일치하기 때문에 진단이 가능합니다.

마지막으로 이러한 splicing variant를 simulation 하는 in-silico tool을 소개하면서 포스팅을 마치고자 합니다. 아래 논문에서는 splicing에 영향을 주는 SNV의 효과를 예측하는 in-silico tool에 대해서 소개하고 있는데, scSNV score로 명명하여 여러 컴퓨터 알고리즘을 적용하고 있습니다. 위의 환자의 변이는 ADA score 0.9995 / RF score 0.9739 으로 ADA 또는 RF 알고리즘으로 예측한 결과 모두 영향을 받을 가능성이 아주 높음 (1에 가까울 수록) 을 보여주고 있습니다.

 

[Reference]

Singh, Ravi K., and Thomas A. Cooper. “Pre-mRNA splicing in disease and therapeutics.” Trends in molecular medicine 18.8 (2012): 472-482. https://doi.org/10.1016/j.molmed.2012.06.006

Xueqiu Jian, Eric Boerwinkle, Xiaoming Liu; In silico prediction of splice-altering single nucleotide variants in the human genome, Nucleic Acids Research, Volume 42, Issue 22, 16 December 2014, Pages 13534–13544, https://doi.org/10.1093/nar/gku1206