유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

DNA 염기 서열 중 exon 영역의 변이로 인해 missense variant가 발생하면, 결과적으로 단백질을 구성하는 아미노산 서열에 변화가 생기고 이는 단백질의 구조 및 역할에 영향을 미치게 됩니다. 또한 진화적인 관점에서 서로 다른 종에서의 단백질이라고 하더라도, 비슷한 역할을 하는 단백질의 서열은 서로 유사성 (Homology)을 갖게 되는데, 일반적으로는 중요한 기능을 수행하는 부위의 아미노산 서열은 보존 (Conserved sequence)되어 있는 경우가 많습니다. 이러한 원리를 바탕으로 missense 변이의 영향을 평가하는 많은 in-silico prediction tool 들이 개발되었고, 논문에서도 어떠한 단백질 변이의 영향을 평가하는 경우에 얼마나 진화적 관점에서 해당 부위가 보존되었나?를 그림으로 보여주는 경우가 많습니다. 그래서 이번 포스팅을 관심 있는 유전자의 단백 위치에서 여러 종간 아미노산 서열의 보존 정도를 Ensemble Genome Browser를 이용하여 살펴보는 방법에 대해서 정리하고자 합니다.

<관련 포스팅 보기>

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

바이오 연구자를 위한 Genome Browser 비교 및 활용

 

I. 관심있는 서열의 Genomic location 찾기

이번 포스팅에서는 CFTR L74Q 변이 (rs142540482)를 예로,  74번 아미노산을 기준으로 전후 20개씩 총 41개의 아미노산 서열의 종간 보존 정도를 살펴보도록 하겠습니다. 해당 변이의 정보를 살펴보면, mRNA transcript number는 NM_000492.3: c.221G>A 치환에 의해 발생한 변이입니다. GRCh37 버젼을 기준으로 하면 해당 변이의 유전자 위치는 Chr7: 117149144 이므로, -61/+62 하면, 7:117149083-117149206 부위의 서열을 살펴보면 됩니다.

 

II. Ensemble Browser에서 Orthologue 서열 alignment하기

Comparative Genomics

Ensemble에서 제공하는 Comparative Genomics 정보를 이용하여, 종간 genomic sequence alignment를 시행합니다. Human 외에도 여러 생물 종을 선택할 수 있는데, 저는 가장 대표적인 15개의 포유류로 선택하였습니다. 그러면 아래와 같이, Human을 기준으로 종별로 alignment가 된 시퀀스를 얻을 수 있습니다.

Comparative Genomics_2

 

III. Alignment를 시행한 시퀀스를 바탕으로 아미노산 서열 구하기

마지막으로 해당 서열을 translation하여, 어떠한 아미노산 서열이 되는지를 구하면 됩니다. 시퀀스를 알 경우, 아미노산 서열로 변환해주는 도구들은 많이 있으므로, 이를 이용하면 됩니다. 여기서는 웹툴을 이용해 보도록 하겠습니다. 위에서 구한 시퀀스를 입력하면, 자동으로 아미노산 서열로 변환해 줍니다. 여기서 주의할 점은 Triplet codon의 Frame이 맞는지 확인합니다. 그렇지 않으면, frameshift된 결과를 얻게 됩니다.

translator

DNA to protein translation tool 바로가기

 

IV. Figure 만들기

그림1
[CFTR 74, 75번째 아미노산의 종간 보존 정도를 보여주는 Figure] 74번째 및 75번째 Arginine 서열이 잘 보존되어 있어, 기능적으로도 중요한 위치임을 알 수 있습니다.
  위에서 얻은 아미노산 서열 데이터를 기반으로, 원하는 figure를 작성합니다. 엑셀과 파워포인트를 잘 활용하면, 위의 그림과 같은 논문을 위한 figure를 쉽게 만들 수 있습니다. (참 쉽죠?)  위의 figure는 실제 이러한 과정으로 만들어진, 이번에 투고했던 논문에 들어간 CFTR의 종간 보존을 보여주는 figure 입니다.

바이오 연구자를 위한 Genome Browser 비교 및 활용

인터넷 검색 브라우저 및 포털 사이트도 구글, 네이버, 다음 등 다양한 사이트들이 존재하는 것처럼, Genome Browser도 다양한 사이트들이 존재합니다. 사실은 이런 사이트들은 너무 다양해서, 가끔은 어떤 것을 사용해야할지 막막할 때가 있습니다. 그래서 오늘은 바이오 연구자들이 활용할 수 있는 다양한 Genome Browser들에 대한 소개 및 장, 단점 및 활용 방법 등에 대한 지극히 개인적인 후기를 정리한 포스트를 올리고자 합니다.

 

I. UCSC Genome Browser (http://genome.ucsc.edu/)

UCSC.jpg

  가장 역사와 전통(?)이 오래된 브라우저라고 할 수 있습니다. 이름에서 알 수 있듯이, UCSC에서 만든 브라우저인데, 옛날 논문들에서는 거의 Reference 처럼 사용하는 수학의 정석과 같은 존재입니다. 필요한 데이터나 정보는 대부분 찾을 수 있습니다만, 인터페이스가 구식이고 쓰기가 조금 복잡하고 어렵습니다. 게놈상의 위치를 줌인하거나 줌아웃할 경우 가끔 로딩이 오래 걸리고 속도가 느린 점도 단점입니다. 저는 자주는 안쓰지만, 유전자의 시퀀스 다운로드와 같은 Genome data를 받을 때, Primer 디자인 후에 In-silico PCR 을 돌릴 때 등 여전히 유용하게 잘 사용하고 있는 브라우저입니다.

 

II. Ensemble Genome Browser (http://grch37.ensembl.org)

Ensemble

EMBL-EBI 그룹에서 만든 브라우저입니다. UCSC보다 인터페이스가 좀 더 직관적으로 쓰기 편하고 역시 방대한 데이터를 제공하기 때문에, 대분의 필요한 정보는 이 브라우저 하나만으로도 얻을 수 있습니다. 주로 어느 위치의 SNP에 대한 정보를 찾을 때 유용하게 사용할 수 있습니다. 다른 DB와의 연계도 훌륭하고 워낙에 유명하기 때문에 많은 사람들이 사용하고 있는 가장 범용적인 브라우저입니다.

 

III. DECIPHER Genome Browser (https://decipher.sanger.ac.uk/)

DECIPHER

위의 브라우저들보다 인터페이스가 깔끔하고 보기 편하고, 좀 더 염색체 상의 위치에 기반한 정보를 잘 제공해줍니다. Ensemble이 SNP 정보를 찾아볼 때 이용한다면, DECIPHER는 CNV 정보를 찾아볼 때 활용하기 좋습니다. 염색체 구조 이상과 phenotype data 간의 정보가 잘 정리되어 있어, 특히 array 칩을 통해 염색체 미세 구조 변이가 확인된 선천성 기형 환자의 genotype-phenotype correlation이나 Rare disease에서 CNV 관련 분석을 할 때 유용하게 사용할 수 있습니다. 역시 다른 DB 와의 연계도 훌륭합니다.

관련 포스팅 보기 >

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

 

IV. VarSome (https://varsome.com/)

VarSome

제가 개인적으로 가장 많이 사용하는 브라우저입니다. 직관적이고 편리한 인터페이스와 SNP 정보를 간편하고 빨리 얻을 수 있는 점이 장점입니다. 특히, 임상적으로 변이 판독에 활용하기에 유용한데, SNV의 임상적 정보를 해석하는데 필요한 ACMG classification 및 In-silico tool을 통한 아미노산 치환 효과 예측 스코어 등을 한 페이지에 모두 보여주고, 게놈 상에 이미 pathogenic variant로 보고된 변이도 한눈에 보여주기 때문에, 여기 저기 다른 사이트들에 가서 찾아볼 필요가 없어 좋습니다. 그러나 다른 브라우저와 다르게 가입(무료)을 해야 계속 검색을 할 수 있다는 점이 단점입니다.

관련 포스팅 보기 >

임상의를 위한 NGS 레포트 해석의 이해

아미노산 치환의 효과 예측: In silico tool의 원리와 종류

 

V. ExAC Genome Browser (http://exac.broadinstitute.org/)

Broad Institute에서 개발한 브라우저로 ExAC 기반한 변이들의 변이 빈도를 제공한다는 점이 강점이었습니다만, 최근에 대부분의 DB에서 더 큰 population인 gnomAD 변이 빈도를 제공하기 때문에 강점을 많이 잃었습니다. 다른 브라우저와 다르게 검사한 NGS 데이터의 퀄리티, Coverage 정보 등을 제공하기 때문에 가끔 유용한 경우가 있습니다.

 

위에 소개한 게놈 브라우저 외에도 다양한 브라우저들이 존재합니다. 각 브라우저들만의 강점이 존재하기 때문에, 상황에 맞게 장단점을 이해하고 브라우저들을 활용하는 것이 좋을 것으로 생각됩니다. 이번 포스팅은 여기서 마치도록 하겠습니다.