유전학 연구에서의 표현형: Phenotype is king, genotype is queen

유전학 연구자들 사이에서 가장 유명한 격언이 있습니다. “유전형이 여왕이라면, 표현형이 왕이다.” 이 문장은 유전형도 매우 중요하지만, 결국 더 중요한 것은 표현형이라는 내용을 함축적으로 담고 있습니다.

“Phenotype is king, genotype is queen.”

많은 사람들은 유전 정보만 얻으면, 개인 맞춤 치료와 정밀 의료를 실현할 수 있을 것처럼 떠들어 대는 미디어의 광고를 보면서, 이를 곧이 곧대로 받아들이곤 합니다. 그러나 유전 정보를 얻기 쉬워진 현재 시점에서의 진정한 병목 지점 (Bottle neck, rate limiting step)은 오히려 충분하고 효과적이며 꼼꼼한 표현형에 대한 정보 수집입니다. 유전형과 다르게 표현형 정보는 수집이 매우 까다롭고 귀찮습니다. 더불어, 같은 것을 지칭하는 표현형이라 하더라도 객관적인 기술이나 정량화하여 나타내는 것이 어려울 수도 있으며, 측정 자체가 모호한 경우도 많습니다.  그래서 사실 제가 연구실에서 보내는 많은 시간의 노가다도 이런 표현형 정보에 대한 수집 (이라고 쓰고 환자 차트 리뷰 라고 적는다)에 쓰입니다. (여담이지만, 공동 연구를 하시는 임상 선생님들이 전달해주시는 표현형 정보는 많은 경우, 틀리거나 이른바 정밀 의료를 위한 연구에는 부족한 경우가 매우 많습니다. 이 때문에 저는 환자를 전부 다시 리뷰하고 표현형 정보를 수집하곤 합니다. 그러다 빡쳐서 이글을 쓰는 것은 아닙니다..)

유전학 도구들의 기술적 발달로 유전 정보, 이른바 유전형 (Genotype)을 얻는 것은 매우 쉬워졌습니다. 연구자들은 이러한 유전형을 바탕으로 유전자 발현의 변화 (RNA level), 유전자 산물인 단백질의 기능 변화 (Protein level), 세포 및 조직의 변화 (Cell & Tissue), 그리고 최종적으로 도출되는 표현형 (Phenotype)까지의 긴 여정을 유전형 만을 이용해서 예측하는 것을 목표로 많은 연구를 진행하고 있습니다. 위의 긴 여정에서 한 단계씩 차원이 높아질 때마다, 변수와 복잡도는 기하급수적으로 증가하고, 실제로 예측은 점점 더 어려워집니다. 따라서, 이러한 복잡도의 차원을 낮춰서 조금 더 단순하게 개별 과정에서의 변화를 살펴보기 위한 방법이 다양한 Omics 기반의 연구입니다. 하지만 그럼에도 정말로 중요한 유전형의 변화는 심각한 표현형의 변화를 초래하게 되고, 이러한 큰 흐름속에서 질병의 병인 기전을 이해하고, 이를 바탕으로 치료제 개발을 진행하게 됩니다.

Fig-1-Data-integration-from-multiple-Omics-platforms-genomics-transcriptomics_W640
Genome에서 Phenome에 이르기까지의 긴 여정의 실타래를 푸는 일이야 말로, 정밀 의료 실현을 위해 선행되어야할 조건들입니다.

유전학 연구 방법론은 크게 Forward Genetics (정유전학) 와 Reverse Genetics (역유전학)로 구분이 되는데, 전자는 특정 표현형으로 부터 원인 유전자를 찾는 방식이고, 후자는 특정 유전자가 어떠한 표현형의 변화를 초래하는지 찾는 접근 방식으로 아래 그림은 유전형 <-> 표현형의 관계와 연구 접근 방식을 잘 나타내주고 있습니다. 전통적으로 유전 정보를 찾기 어려웠던 과거에는 표현형으로 부터 연관된 유전자를 찾는 정유전학적 접근이 대부분이었다면, 유전 정보를 쉽게 얻을 수 있는 오늘 날에는 기능이 밝혀지지 않은 많은 유전자들이 어떠한 표현형에 관여하는지를 찾는 역유전학 연구 방법이 대세가 되었습니다.

Fig-2-Forwards-vs-reverse-genetics-tools-for-the-identification-and-characterization_W640
[유전학 연구 방법론] Forward and Reverse Genetics에서의 표현형과 유전형의 관계
최근에는 이에 따라, 표현형의 중요성이 점점 더 부각되고 있으며, 표현형 (Phenotype)의 모음을 Phenome 이라고 부릅니다. GWAS 접근법과 유사하게, 특정 유전자 위치 (고정 변수)에 대해 모든 표현형을 탐색하여 연관 관계를 찾는 분석 방법을 Phenome wide association study (이른바, PheWAS)라고 부릅니다. 이를 위해서는 적절한 Phenome database가 구축되어야 하는데, 이러한 Database 중에 유전학 연구에 많이 사용되는 대표적인 곳으로는 Human Phenotype Ontology (HPO), Mouse Phenome Database (MPO) 등이 있습니다.

Human Phenotype Ontology (HPO) > 바로가기

Mouse Phenome Database (MPO) > 바로가기

 

마지막으로 다시 한번 표현형의 중요성에 대해 언급하고, 이번 포스팅을 마치고자 합니다. 아래의 논문에 소개된 사례는  잘못된 유전자 검사로 인한 오진단 사례와 관련하여, 표현형이 얼마나 중요한지를  단적으로 잘 보여주고 있습니다.

They concluded, “Remember the mantra that ‘phenotype is king, genotype is queen,’ and if the subjectively and objectively ascertained phenotype is not matching the alleged genotype, stop and reassess. In other words, phenotyping still matters most.

McCarthy, Michael. “Phenotype is king, researchers say, after 20 family members have condition misdiagnosed.” (2016): i5884.

Ackerman, Jaeger P., et al. “The promise and peril of precision medicine: phenotyping still matters most.” Mayo Clinic Proceedings. Vol. 91. No. 11. Elsevier, 2016.

관련 포스팅 보기>

[유전학 중요개념 정리] Muller’s morph와 gain of function, loss of function variant

NGS 결과의 임상 적용: Genotype-phenotype correlation

전장 유전체 연관 분석, GWAS란 무엇인가?

 


[References]

Ben-Amar, Anis, et al. “Reverse genetics and high throughput sequencing methodologies for plant functional genomics.” Current Genomics 17.6 (2016): 460-475.

Oti, Martin, Martijn A. Huynen, and Han G. Brunner. “The biological coherence of human phenome databases.” The American Journal of Human Genetics 85.6 (2009): 801-808.

Genomics of Drug Sensitivity in Cancer (GDSC): 항암제에 대한 암세포주 반응 Database

종양학 (Oncology)에서의 정밀 의료암세포의 돌연변이 프로필 (Mutational Profile)에 대한 정보를 얻고, 이를 바탕으로 항암제 또는 기타 약물의 효과를 예측해서, 환자에게 최적의 치료 효과를 낼 수 있는 치료를 하는 것이 목적입니다. 하지만, 종양 세포가 가지고 있는 복잡하고 다양한 돌연변이로 인해서, 특정 바이오 마커를 이용하여 실제 임상 현장에서 약물의 치료 효과를 예측하고 활용하는데에는 많은 한계가 존재합니다. 특히, 이를 위해서는 실제로 약물의 효과를 예측하는 효과적인 바이오마커가 발굴되어야 하는데, 이러한 작업은 다양한 변수들로 인해서 쉽지가 않습니다. 오늘 포스팅할 내용은 이러한 노력의 연장선에서,  약  1000여개의 확립된 인간 암세포주들에 대해 500여개의 항암제로 처리하여 각각의 세포를 죽일 수 있는 농도 (IC50 values, 50%의 세포가 죽는 농도)를 스크리닝하고, 각각의 세포주가 가지고 있는 돌연변이 프로필에 대한 정보를 제공하고 있는 Database인 Genomics of Drug Sensitivity in Cancer (https://www.cancerrxgene.org/)에 대해서 소개하고자 합니다. 이러한 대규모 스크리닝과 통계적 접근을 통해서, 어떠한 돌연변이가 어떠한 약물에 효과가 있는지 또는 저항성을 보이는지에 대한 분석이 가능하고, 궁극적으로 약물 효과를 예측하는 바이오 마커를 찾아내는게 가능해지게 됩니다.

title

overview
GDSC Website (https://www.cancerrxgene.org/)에서는 다양한 암종의 Pathway를 타겟으로 하는 약물에 대한 암세포주의 스크리닝 결과를 제공하고 있습니다.

위의 사이트에 들어가면, 다양한 세포주 정보, 돌연변이 정보, 그리고 약물 스크리닝 결과를 항목별로 조회할 수 있으면, 해당 데이터도 다운로드가 가능합니다.

kras

위의 그림은 KRAS 돌연변이를 가지고 있는 세포주들에 대해서 통계적으로 유의미하게 효과가 있거나, 저항성을 나타내는 약물에 대한 Volcano plot을 보여주고 있습니다. 이러한 세포주 결과를 통해서, KRAS 돌연변이 암세포에 대해서는 효과를 나타내는 약물 (위 그림의 초록색)을 타겟 치료의 후보로 생각해 볼 수 있습니다.

scatter

또한 비슷하게, 개별 약물에 대해서 조회를 하면, 세포주 중에서 해당 돌연변이를 가지고 있는 세포주와 가지고 있지 않은 세포주의 반응을 통계적으로 분석하여 Scatter Plot으로 제공해주고 있기도 합니다. 위의 그림은 Ibrutinib에 대해서 KRAS 돌연변이를 가지고 있는 세포들이 더 높은 IC50를 가져서, 저항성이 높다는 것을 보여주고 있습니다.

현재 위와 같은 시도는 인간 유래의 확립된 세포주 (Human Cancer Cell Lines)들에 대해서 스크리닝이 진행되고 있습니다.  추후에는 궁극적으로는 환자 개개인의 암 세포 또는 종양 오가노이드 (Organoid)를 이용하여 비슷한 접근을 한 후에, 치료 효과를 판정하고, 이를 바탕으로 치료제를 선택하는 날이 올 것으로 기대되고 있습니다. 다만, 위의 방법은 약물에 의해 세포를 직접적으로 죽이는 효과이기 때문에 면역항암제와 같이 환자 체내에서 일어나는 면역 반응을 이용하는 치료제에 대해서는 효과를 보기 어렵다는 단점이 있습니다. 위의 GDSC 프로젝트에 대해서자세히 나와있는 논문들을 Reference에 남기며, 이번 포스팅은 마무리하도록 하겠습니다.

 

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제

[실험실 노트] Organoid의 기본 개념과 활용

면역 항암제, Immune checkpoint inhibitor의 원리 및 종류

동반 진단, Companion diagnostics란 무엇인가?

 


[References]

Yang, Wanjuan, et al. “Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells.” Nucleic acids research 41.D1 (2012): D955-D961.

Garnett, Mathew J., et al. “Systematic identification of genomic markers of drug sensitivity in cancer cells.” Nature 483.7391 (2012): 570-575.

Iorio, Francesco, et al. “A landscape of pharmacogenomic interactions in cancer.” Cell 166.3 (2016): 740-754.

[스크랩] 좋은 Cover Letter를 쓰는데 참고할 자료

Cover Letter의 전반적인 형식 및 작성 과정에 대한 블로그 포스트

How to Write a Great Postdoc Cover Letter

 

하버드 커리어 센터의 좋은 CV와 CL을 쓰기 위한 지침 및 잘 작성된 Cover Letter 예시 자료

Harvard University, Office of Career Services

PDF 다운로드>

 

Science Career 페이지의 Cover Letter 작성시 참고할 글들

Peter Fiske, Science Careers, “The Commandments of Cover Letter Creation”

David G. Jensen, Science Careers, “The Cover Letter: Door Opener Par Excellence”

Borchardt, John K.  Science Careers, “Writing a Winning Cover Letter”

 

ASBMB에서 권장하는 포닥 지원시 죽이는 Cover Letter 작성하는 법

How to write a killer cover letter for a postdoctoral application

참조 유전체 Reference Genome: GRCh38, GRCh19, KOREF

사실 저희 연구실의 분석 파이프 라인은 아직도 대부분 GRCh19 (Hg19)Reference Genome으로 사용하고 있었는데, Ensemble Browser를 포함해서 새로 나오는 몇몇 Bioinformatics tool들이 더 이상 Hg19를 지원하지 않는다고 하는 바람에, 부랴 부랴 파이프 라인을 GRCh38 (Hg38)로 바꾸게 되었습니다. 단순히 Reference Genome을 바꾼다는 의미 외에도 많은 곳들을 전부 뜯어 고쳐야 했기에, 생각보다 꽤 귀찮고 복잡한 작업이 되어 버렸습니다. 그래서 이번에는 참조 유전체 (Reference Genome)에 대한 포스팅을 작성해 볼까 합니다.

 

I. 참조 유전체 Reference Genome

유전체 분석 과정 중에 Reference Genome은 매우 매우 아주 중요합니다. 분석의 시발점이자 기준점이고, 변이를 찾고 연산하는데 쓰이기 때문입니다. Reference Genome은 변이를 Calling하는 과정에서도, RNA-Seq의 mapping 및 구조 변이 등의 분석에서도 기준이 됩니다. 특히, de novo assembly가 아닌 fragmented sequence를 이용하는 short-read sequencing 방식에서는 Reference Genome을 이용해서 해당 fragment가 어디서 유래했는지를 역으로 Align하게 됩니다.

reference

현재 인간의 참조 유전체는 20명의 기증자로 부터 DNA를 받아, 시퀀싱을 진행한 후에 구성을 하였는데 70%의 유전체 영역은 RPC-11이라고 부르는 단일 샘플에서 유래한다고 합니다.  더구나, 이 사람은 당뇨의 고위험군에 속하는 사람이었다고 하니, 많은 유전체 연구에 쓰이는데 문제가 있을 수 밖에 없습니다. 최근에 개별 인종을 대표하는 참조 유전체를 만드는 프로젝트의 이유입니다.

 

II. Genome Reference Consortium

GRC

참조 유전체를 만들기 위한 프로젝트는 Genome Reference Consortium (GRC)에서 진행하였는데, 인간 (h, human), 쥐 (m, mouse), 제브라 물고기 (z, zebrafish), 닭 (c, chicken) 4개의 대표 종을 선정하여, 참조 유전체를 구성하였습니다. 따라서, GRC 뒤에 붙은 영문 소문자는 참조 유전체의 종 (species)를 가리키고, 숫자는 해당 참조 유전체의 버젼을 가리킨다고 할 수 있습니다.

GRCh

즉, GRCh19는 인간의 참조 유전체 19 버젼이고, GRCm39는 쥐의 참조 유전체 39버젼을 가리킵니다. 위의 그림에서 보듯이, 현재 인간의 가장 최신 참조 유전체는 GRCh38 버젼이라고 할 수 있습니다.

Genome Reference Consortium 바로 가기> 

cyp3a5

일반적으로 어떤 SNP의 위치를 가리키는데, 염색체 번호염기 서열 번호를 좌표로 이용하게 됩니다. 염기의 번호는 참조 유전체를 기준으로 부여되는데, 참조 유전체에 따라서 염기의 번호도 바뀌게 됩니다. 가령 약물 대사에 매우 중요한 CYP3A5 유전자의 위의 변이 rs776746은 GRCh38버젼에서는 7번 염색체의 99,672,916번째에 위치한 염기이지만, GRCh19버젼에서는 99,270,539번째에 위치한 염기가 됩니다.

 

III. Consensus Genome

많은 수의 인간 DNA를 시퀀싱을 하면서, 우리는 각자 매우 많은 희귀 변이들이 존재하는 것을 알게 되었고, 더이상 건강한 지원자 몇명의 샘플이 인구 집단 전체를 대표하는 것이 힘들다는 것을 알게 되었습니다. 그래서 최근에는 많은 수의 샘플을 시퀀싱하여, 모든 변이의 위치에서 인구 집단에서 가장 흔한 변이를 지정한 가상의 참조 유전체를 구성하는 방법 (Consensus Genome)이 제안되었습니다. 모든 변이가 평균 값인 이러한 인간은 실제로는 존재하지 않지만, 이러한 가상의 유전체를 구성함으로써, 실제로 불필요하게 call되는 변이의 수를 줄일 수가 있게 됩니다.

consensus genome

 

IV. 인종 특이적 Consensus Genome의 활용

consensus genome_00000

위에서 제안된 Consensus Genome과 더불어, 인종 및 집단에 따라서도 가장 흔하게 존재하는 변이가 매우 다양하게 분포하기 때문에, 인종 특이적인 Reference Genome을 구성하는 것이 중요하게 생각되고 있습니다. 한국인에서도 비슷하게 consensus Korean Reference Genome (KOREF)이 구성되었고, 현재 공개가 되어 다운로드가 가능합니다.

Korean Reference Genome 바로 가기>

다만, 아직까지는 인종 특이적인 Genome을 이용할 경우에 발생하는 여러가지 유전체 분석 도구와의 호환성 문제 및 해석 과정의 혼동 등의 문제로 널리 쓰이고 있지는 않고 있는 상황입니다. 특히, 학계의 매우 보수적인 특성으로 인해 현재는 Hg38과 Hg19를 함께 쓰는 경우가 가장 많습니다.

 


[References]

Ballouz, Sara, Alexander Dobin, and Jesse A. Gillis. “Is it time to change the reference genome?.” Genome biology 20.1 (2019): 1-9.

Cho, Yun Sung, et al. “An ethnically relevant consensus Korean reference genome is a step towards personal reference genomes.” Nature communications 7.1 (2016): 1-13.

Reference genome: defining human difference

 

유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

Protein Structure Visualization: RCSB Protein Data Bank (PDB) & PyMOL

단백질을 구성하는 아미노산의 서열을 안다고 하더라도 단백질의 3차원적인 구조 (Protein 3D structure)를 예측하는 것은 매우 어려운 일입니다. 최근 구글 딥마인드에서 딥러닝을 이용한 AlphaFold를 개발해서, 3차원적인 구조를 성공적으로 예측한 논문 (아래 reference) 이 발표된 바 있지만, 전통적으로 가장 확실하게 구조를 확인하는 방법은 X-ray 회절을 이용한 Crystallography 방법 입니다.

많은 연구를 통해서, 이러한 3차원 단백 구조를 보관하고 있는 data bank가 있는데, 오늘 이용할 RCSB Protein Data Bank (PDB)가 그 곳입니다.  최근 논문을 쓰다보니, 단백질의 치환 변이를 시각화한 Figure를 만드려다 보니, PyMOL을 이용하게 되어, 해당 과정을 블로그 포스팅으로 남깁니다.

 

I. PDB를 통한 Protein Struture 정보 확인

PDB

RCSB PDB 바로가기 > https://www.rcsb.org/

 가장 먼저 할 일은 위의 database에 해당하는 단백의 PDB 파일을 받거나, PDB ID를 확인하는 것입니다. 사람의 경우, Homo Sapiens인지를 확인하고, 관심있는 유전자 또는 단백의 이름을 입력한 후에 검색을 하면, 여러개의 결과가 display됩니다. 단백질 결정의 구조를 나타낸 것이기 때문에, 어떠한 Ligand를 가지고 실험을 하였는가에 따라서, 구조가 조금씩 달라지게 됩니다. 가장 적절한 것을 선택하여, 구조를 확인하거나, PDB 파일을 다운로드 받아서 활용하게 됩니다.

 

II. PyMOL 설치 및 PDB 파일 불러오기

위의 PDB에서 받은 .pdb 파일은 다양한 툴로 분석 및 시각화가 가능한데, 가장 널리 쓰이는 프로그램은 파이썬 기반으로 개발된 PyMOL입니다. 최근에 무료에서 유료로 전환되면서, 접근성이 떨어지긴 하였지만, 설치 후 바로 30일간 무료 체험판으로 이용 가능합니다. 윈도우에서 바로 이용 가능하며, anaconda 등을 이용하여 Python 기반으로도 이용 가능합니다.

PyMOL 다운로드 바로가기 > https://pymol.org/

 

III. PyMOL을 이용한 시각화

위의 링크를 통해, PyMOL을 설치하면, 프로그램에서 PDB 파일을 불러올 수 있습니다. 여러가지 명령어와 패키지 등을 활용하면, 단백질 구조에 대한 고급 분석이 가능하다고 하는데, 저는 가장 기본적인 기능만을 활용해서, 유전체 분석을 통해 확인된 변이들의 위치를 시각화하는데 이용 해보도록 하겠습니다. (논문용 Figure…) 더 자세한 세부 내용은 링크에서 찾으시길 바랍니다.

초보자를 위한 PyMOL 시작하기 > https://pymolwiki.org/index.php/Practical_Pymol_for_Beginners

기타 PyMOL의 활용법을 위한 PyMOL Wiki 바로가기 > https://pymolwiki.org/

자주 사용하는 유용한 PyMOL 명령어 > http://pymol.sourceforge.net/newman/user/S0210start_cmds.html

CYP1A1

저는 약물 유전자 중 하나인 CYP1A1 유전자에서 발견된 변이들의 위치를 아래의 Command들을 이용하여, Cartoon View로 표시해 보았습니다.  위의 그림은 최종적으로 완성한 그림입니다.

 


[References]

Senior, Andrew W., et al. “Improved protein structure prediction using potentials from deep learning.” Nature (2020): 1-5.

Haplotype 의미와 Linkage Disequilibrium (LD), Haplotype Phasing 검사 방법

DNA 시퀀싱 기술의 발달로 염기 서열 정보를 얻는 것은 어렵지 않게 되었습니다. 그러나 단순히 염기 서열 정보 뿐 아니라, 2개의 배수체로 존재하는 해당 서열들의 공간적 위치 (cis-, trans- position)도 중요한데, 저렴하고 널리 쓰이는 short-read sequencing의 경우에는 fragmentation 과정에서 이러한 정보를 소실하기 때문에, haplotype phasing에 많은 한계가 있습니다. 이번 포스팅에서는 Haplotype의 의미와 유전체에서의 의의 및 검사 방법 등에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

DNA 손상 복구 기전과 타겟 치료 항암제 > DNA recombination

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 > Haplotype View

PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점 > Long read seq

약물유전체 Annotation tool: PharmCAT > Haplotyping issues in Pharmacogenes

I. Haplotype, Linkage Disequilibrium

HaplotypeHaploid + genotype의 합성어입니다. 따라서, Haplo-은 양쪽 부모 중 한쪽 부모에게서 받은 배수체를 의미하고, genotype은 유전형을 의미하기 때문에 하나의 haploid를 구성하는 genotype의 집단을 통틀어, Haplotype으로 일컫게 됩니다. 아래 그림과 같이 생식 세포 분열 과정을 통해서, Haploid로 존재하는 유전자의 재조합이 발생하면, 구조적인 shuffling이 일어나면서 다양한 모자이크 패턴이 발생하게 됩니다.

btz503f1
[Haplotype의 발생 및 구조] 우리는 부모의 염색체 쌍으로부터 각각 1개씩 감수분열 과정을 거친 재조합된 염색체를 물려받게 되며, 이러한 무수한 과정을 거친, 인종별로 다양한 패턴의 Haplotype이 존재하게 됩니다.
재미있는 것은 이러한 패턴 (haplotype block)은 생물 종과 인종에 따라서 특이적이고, 보존되어 있다는데 있습니다. 같은 블록 내의 유전형은 무리로 함께 유전되는 경향이 있기 때문에, 유전 방식은 random하게 발생하지 않으며, 이를 연관 불균형 (Linkage Disequilibrium, LD)이라고 부르게 됩니다. 따라서, 인간의 완전한 유전체 지도에 앞서, 인종에 따른 이러한 Haplotype Map을 만드는 프로젝트가 진행되었는데, 이를 ‘HapMap Project‘ 라고 합니다. 아래 그림은 이러한 HapMap Project를 통해 밝혀진, 인간의 염색체 상에서 나타나는 LD block의 패턴을 나타낸 그림입니다.

LD block

재조합이 빈번하게 발생하는 부위일수록, 더욱 다양한 조합의 Haplotype이 발생하게 되며, 반대로 재조합이 적게 발생하는 부위는 Haplotype의 종류가 적어지게 됩니다. 즉, Recombination rate와 Haplotype diversity는 서로 밀접한 상관 관계를 갖게 됩니다.

hapmap

실제로 이러한 관계는 Sperm을 이용한 Single cell 분석에서도 확인이 되었는데, 아래 그림은 개인의 염색체 상에서 관측된 Recombination event와 HapMap project에서 예측된 recombination rate이 잘 일치하는 것을 보여주고 있습니다.

Figure 4

II. Haplotype phasing

Genotyping을 해서, heterozygote로 존재하는 SNP이 발견되었을 경우, 서로 다른 SNP 간에는 다음과 같은 2가지 상대적 위치 (cis-, trans- position)가 존재하게 됩니다. 이와 유사하게 haplotype block 내에 존재하는 모든 SNP 들에 대한 상대적 위치를 결정하는 것은 Haplotype phasing이라고 하는데, short-read sequencing을 일반적으로 read의 길이가 100 bp 내외 이기 때문에 2개의 SNP간 거리가 이보다 먼 경우에는 이론적으로 phasing이 불가능하게 됩니다.

cis, trans

이러한 한계를 극복하기 위해 다양한 검사법이 개발되었는데, 아래 표는 이러한 haplotyping이 가능한 다양한 sequencing 검사법을 보여주고 있습니다. 이들은 기술적 방법으로 haploid를 개별적으로 분리하여 검사하거나, 가까운 haplotype 간의 관계 (Contiguity)를 assembly로 재구성하는 방법 등을 이용하여, 전체적인 haplotype phasing을 진행하게 됩니다.

haplotype test

haplotyping

Haplotype의 구조는 인종적으로도 다양하고 보존되어 있으며, 유전자의 발현 시 변이들의 상대적인 위치가 유전자의 작동에도 밀접하게 연관되어 있기 때문에 매우 중요한 정보라고 할 수 있습니다. 특히, 약물 유전학적 관점에서 유전자 발현이 매우 중요하고, 그에 따라 haplotype을 구분하는 것이 중요하여, 일반적으로 Star allele (*, Star nomenclature)로 haplotype을 구분하고 있습니다. 그러나 아직까지는 염기 서열 자체를 알아 내는 것 만큼의 검사 비용대비 효용성이 떨어지고 있는 상황입니다. 그러나 추후 비용 절감 및 검사법의 개선을 통해, 완벽한 Haplotype 구조가 밝혀지고, 완벽한 phasing이 가능해질 경우에 더 정확하고 정밀한 유전자의 작동에 대한 이해가 가능해지리라고 예측됩니다.


[References]

International HapMap Consortium. “A haplotype map of the human genome.” Nature 437.7063 (2005): 1299.

Wang, Jianbin, et al. “Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm.” Cell 150.2 (2012): 402-412.

Wang, Ning, et al. “Distribution of recombination crossovers and the origin of haplotype blocks: the interplay of population history, recombination, and mutation.” The American Journal of Human Genetics 71.5 (2002): 1227-1234.

Snyder, Matthew W., et al. “Haplotype-resolved genome sequencing: experimental methods and applications.” Nature Reviews Genetics 16.6 (2015): 344-358.

Xu, Peng, et al. “MRLR: unraveling high-resolution meiotic recombination by linked reads.” Bioinformatics 36.1 (2020): 10-16.

Rare variant association analysis: SKAT, SKAT-O, Burden test

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

plink를 이용한 GWAS 분석에 대한 지난 포스팅에 이어서, 이번에는 SKAT을 이용한 rare variant 분석에 대한 포스팅을 정리해보고자 합니다. 유전자에 존재하는 변이(Variant)는 인구 집단 내의 분포 빈도 (Allele frequency)에 따라서, 흔한 변이 (Common variant)희귀 변이 (Rare variant)로 구분됩니다. 전장 유전체 연관 분석 (Genome-wide association study, GWAS)은 이러한 변이 중에서 일반적으로 인구 집단 내에 변이 빈도 분포가 5% 이상인 흔한 변이를 대상으로 하게 되는데, 대부분의 흔한 변이들은 유전학적 선택압 (Selective pressure)이 작은 변이들이기 때문에, 효과 크기 (Effect size)가 작은 것들이 대부분입니다.

 

41586_2009_Article_BFnature08494_Fig1_HTML

따라서 Common variant를 이용한 GWAS 분석으로, 설명이 안되는 유전력을 갖는 질환에 대해서 “Missing heritability“라는 용어가 등장하게 되었습니다. 이후의 후속 연구들에서는, Missing heritability를 설명하기 위해서, 변이의 빈도가 매우 드물지만, 효과 크기가 훨씬 큰 Rare variant 들이 조명을 받게 됩니다.

Missing heritability에 관한 Nature 사설 보기>

Maher, B. Personal genomes: The case of the missing heritability. Nature 456, 18–21 (2008)

Missing heritability

다만 Rare variant의 경우는, 변이 자체의 빈도가 매우 드물기 때문에 통계적으로 변이의 영향을 비교하기 위해서는 매우 큰 수의 표본이 필요한 한계가 있습니다. 이러한 한계를 극복하기 위해서, 같은 유전자 내에 존재하는 희귀 변이를 유전자 또는 특정 구역의 단위로 집합 시켜서 분석하는 방법이 제안되었는데, 이것이 Gene-level aggregation test 입니다. 즉, GWAS에서는 개별 SNP의 효과를 변이 단위로 분석이 진행되었다면 (Single variant association test), rare variant의 경우는 여러 개의 variant를 Gene 단위로 그룹화하여, Gene의 효과를 비교 분석 (Multiple variant association test)하는 분석을 진행하게 됩니다.

gene aggregation

이와 같은 분석에서 중요한 점은 ‘어떠한 기준으로 변이를 유전자 단위로 그룹화 할 것인가?’ 하는 문제가 발생하게 되는데, 일반적으로 변이 빈도의 threshold 설정 (MAF 5% vs 1%), 변이의 Functional classification 등을 사용자가 임의로 설정하여 분석을 진행하게 됩니다. 더불어, 각 희귀 변이의 효과들이 동일하지 않기 때문에 개별 변이의 효과를 보정해주는 방법으로 Rare variant allele frequency, In-silico prediction score 등을 이용하게 됩니다. 아래는 이러한 희귀 변이 분석 방법과 각 분석 방법의 장, 단점, 그리고 분석 software를 정리한 표입니다.

rare variant association

위 표의 희귀 변이를 위한 다양한 분석 도구 중에서 오늘은 R package로 개발된 대표적인 분석 도구로 사용되는 Sequence Kernal Association Test (SKAT)에 대해서, 간단히 정리하고 마치도록 하겠습니다. Burden test의 경우는 변이들의 효과 방향이 일정하고, 대부분이 원인 변이이 경우에 더 강력한 통계 검정 방법이고, SKAT의 경우는 각 변이들의 효과 방향이 제각각이거나, 원인 변이의 비율이 적은 경우에 더 강력한 통계 검정 방법입니다.  SKAT-O이 둘의 효과를 통계적으로 최적화하는 optimized rho value를 계산하여, 양쪽의 장단점을 모두 이용하는 방법입니다.

마지막으로 ‘SKAT’ R package를 이용을 위한 code를 공유합니다. 분석에 앞서, 이전 plink 분석 포스팅에서 언급했던 Bed, Bim, Fam 파일 및 phenotype data를 포함하는 PED 파일이 input data로 준비되어야 합니다. 마지막으로 Rare variant 변이들은 어떤 기준으로 그룹화할지에 대한 정보를 지정한 SetID 파일을 생성하여야 합니다. 자세한 내용은 SKAT 패키지의 manual을 참조하시기 바랍니다.


library(SKAT)

setwd("/plink_result")
file_name <- "my_plink"

File.Bed <- paste(file_name,".bed",sep = "")
File.Bim <- paste(file_name,".bim",sep = "")
File.Fam <- paste(file_name,".fam",sep = "")
File.SSD <- paste(file_name,".SSD",sep = "")
File.Info <- paste(file_name,".info",sep = "")
File.SetID <- paste(file_name,".SetID",sep = "")

Generate_SSD_SetID(File.Bed, File.Bim, File.Fam, File.SetID, File.SSD, File.Info)

SSD.INFO <- Open_SSD(File.SSD, File.Info)
FAM <- Read_Plink_FAM(File.Fam, Is.binary=FALSE)
COV <- Read_Plink_FAM_Cov(File.Fam,"pheno_data.ped", Is.binary=FALSE, flag1=0, cov_header=TRUE)

# continuous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="C")
# dichotomous phenotype
obj <- SKAT_Null_Model(y ~ covariates, out_type="D")

# SKAT
out.skat <- SKAT.SSD.All(SSD.INFO, obj)
#SKAT-O
out.skato <- SKAT.SSD.All(SSD.INFO, obj, method="optimal")
#Burden test
out.burden <- SKAT.SSD.All(SSD.INFO, obj, r.corr=1)

data <- cbind(out.skat$results,out.skato$results,out.burden$results)
write.table(data,"SKAT_results.txt",col.names=T,row.names=F,quote=F,sep="\t")

Close_SSD()

 

 


[References]

‘SKAT’ R package

SKAT GitHub: https://github.com/leeshawn/SKAT

Lee, Seunggeung, et al. “Rare-variant association analysis: study designs and statistical tests.” The American Journal of Human Genetics 95.1 (2014): 5-23.

Lee, Seunggeun, et al. “Optimal unified approach for rare-variant association testing with application to small-sample case-control whole-exome sequencing studies.” The American Journal of Human Genetics 91.2 (2012): 224-237.

Bansal, Vikas, et al. “Statistical analysis strategies for association studies involving rare variants.” Nature Reviews Genetics 11.11 (2010): 773-785.

 

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

유전체 연구에 있어서 연구 디자인 (Study Design)과 형질 (Phenotype) 은 매우 중요합니다. 특히 약물 유전체 연구에 있어서의 관심 형질은 체내 약물 농도나 대사능, 부작용의 발생 여부 등이기 때문에 더욱더 정확한 표현형을 수집하기가 어려운 점이 있습니다. 최근에 논문을 쓰면서, GWAS (Genome-wide association study)를 돌리고, Manhattan plot을 그릴 일이 있어서, 관련 분석 과정을 정리해볼까 합니다.

관련 포스팅 보기>

 

I. PLINK

1-s2.0-S0002929707613524-gr4_lrg

대부분의 GWASSNP array를 이용하여, 대표 유전자 마커를 이용한 표현형 연관성 연구로 진행이 되는데, 이때 주로 사용하는 Tool이 plink입니다. (해당 tool이 논문으로 나온게 2007년이니까 벌써 10년도 넘은 소프트웨어입니다..) 그러나 아직도 쓰이고 있다는 건, 그만큼 많은 연구자들이 쓴다는 것이고, 대표적인 소프트웨어라고 할 수 있습니다. (1.9 버젼이 나온 이후, 2.0 버젼을 베타 테스트하고 있다고 한지도 꽤 오래 되었는데, 그 이후 업데이트가 매우 느리게 진행되고 있는 것이 단점입니다.) 물론, BI tool 답게 많은 경쟁 소프트웨어들이 나왔는데 (ex. EPACTS), 아직도 대부분의 논문에서 plink를 쓰는 것을 보면, 대부분의 분석을 하는데 plink만 있어도 크게 무리가 없기 때문이 아닐까 합니다. plink의 사용법은 plink 홈페이지 (PLINK: Whole genome data analysis toolset)의 tutorial page에 매우 자세하게 소개가 되어 있어서, 그때 그때 필요한 내용들을 찾아서 쓰면 됩니다.

plink 다운로드 및 설치>

<VCF 파일 압축 및 인덱싱>

bgzip -c [myvcf.vcf] > [myvcf.vcf.gz]
tabix -p vcf -f [myvcf.vcf.gz]

<PED, MAP 파일 or BED, BIM, FAM 파일 만들기>

plink 실행을 위해서는 PED & MAP file 또는 binary 형식으로 변환된 BED, BIM, FAM file이 필요합니다. 일반적으로 SNP array 데이터를 생산하면 만들어주기 때문에 따로 준비할 필요는 없습니다. 간혹 NGS로 생산된 시퀀싱 데이터로 plink로 실행하고 싶은 경우, vcf 파일을 위의 형식으로 변환하면 좋은데, 아래와 같은 command가 유용합니다.

plink --noweb --vcf [myvcf.vcf.gz] --recode --out myplink
plink --noweb --vcf [myvcf.vcf.gz] --recode --make-bed --out myplink

<PLINK 파일 기본 QC>

plink --file myplink --missing-genotype N --make-bed --mind 0.05 --maf 0.05 --geno 0.1 --hwe 1e-6 --recode --out myplink.QC

missing genotype 여부, genotyping calling rate, minor allele feqeuncy, HWE (Hardy-Weinberg equilibrium) cut-off 기준으로 이를 위반하는 SNP들은 모두 날려버리는 quality control 과정입니다.

<plink를 이용한 연관 분석>

plink를 이용한 연관 분석은 통계 모형에 기반하기 때문에 우선적으로 어떤 모델을 이용하여, 어떻게 분석을 할지를 고려해야 합니다. Genetic inheritance mode (Additive, Dominant, Recessive)와 분석 형질이 Dichotomous trait인지 Continuous trait 인지에 따라서 Case-control, linear regression, logistic regression model 등을 적용할 수 있습니다. 더불어, 보정을 위한 공변량(covariate)으로 무엇을 선택할 것인지도 중요합니다.

분석을 위한 Input Phenotype data를 준비하는 과정도 중요한데, 다음 페이지에서 자세하게 소개가 되어 있습니다.

[분석을 위한 command]

plink --noweb --bfile [mydata] --[additive/dominant/recessive] --[assoc/linear/logistic] --pheno [phenotype_file] --pheno-name [phenotype_name] --covar [covariates_file] --covar-name [covariates_name] --out [result_file]

위의 command에 적절한 inheritance mode [additive/dominant/recessive]와 분석 모델 [assoc/linear/logistic]을 골라서, 분석을 실행하면 됩니다. 특정 SNP에 대한 Conditioning을 원하는 경우, –cond [SNP ID]를 추가합니다.

위의 분석 과정을 거치면, 모든 SNP 위치에 대한 Beta 및 P value가 계산됩니다. Beta는 해당 SNP의 Effect size를 나타내는 통계량이고, P value는 해당 SNP의 통계적 유의도를 의미합니다. Manhattan plot은 일반적으로 여기서 계산된 P value에 -log를 취한 형태로 그리게 됩니다.

II. Manhattan Plot 그리기

Manhattan Plot을 그리는 방법도 다양하지만, 여기서는 제일 간편한 qqman R package를 이용하도록 하겠습니다. 자세한 option은 아래 Reference의 자료들을 참고 바랍니다.

library(qqman)

## plink 결과 파일 불러오기
data &amp;amp;lt;- read.table("plink_result", header = T, stringsAsFactors=F)

## Manhattan plot 그리기
manhattan(data, main = "Manhattan Plot", ylim = c(0, 40), cex = 0.8, cex.axis = 0.9, col = c("grey", "skyblue"))

## QQ plot 그리기
qq(data$P)
GWAS

위의 패키지를 이용하면, 위와 같은 Manhattan plot을 손쉽게 만들 수 있습니다.

III. HaploView

마지막으로, SNP 정보의 linkage 여부에 따른 LD block의 시각화를 위한 Haploview에 대해서 간단히 정리하고, 포스팅을 마치도록 하겠습니다.

Haploview 4.2 Download

plink --noweb --bfile [mydata] --extract [Gene_SNP_list] --recodeHV --out [Gene_haploview]

plink의 위의 command를 이용하여, Haploview를 원하는 SNP의 list에 대해 ped 및 info 파일을 생성합니다. 이를 HaploView 프로그램을 통해 loading해주면, 생성된 LD block과  계산된Haplotype 조회가 가능합니다. 아래 그림은 HaploView를 이용하여, 생성된 LD block 입니다.

Figure S5

[References]

PLINK: Whole genome data analysis toolset

Purcell, Shaun, et al. “PLINK: a tool set for whole-genome association and population-based linkage analyses.” The American journal of human genetics 81.3 (2007): 559-575.

Chang, Christopher C., et al. “Second-generation PLINK: rising to the challenge of larger and richer datasets.” Gigascience 4.1 (2015): s13742-015.

qqman R package GitHub

Manhattan plot in R: a review

Bioinformatics 비전공자를 위한, Bioinformatics 어떻게 공부하는게 효과적일까?

지난 포스팅에 이어서, 주변에 계시는 분들께 종종 받는 질문에 대한 포스팅입니다. 가끔 주변의 선생님들로부터 아래와 같은 질문을 심심치 않게 듣습니다.

“Bioinformatics나 머신 러닝에 대해서 공부하고 싶은데, 너무 막막해요. 무슨 교재를 보고 어떻게 공부하는게 좋나요?”

저는 BioinformaticsComputational Biology 전공자도 아닐 뿐 더러, 코딩을 잘하는 것도 아닙니다. 다만 연구자로써 그 때 그때 필요한 Bioinformatics 도구들을 많이 사용한 경험이 있고, 구글링을 잘 활용할 뿐 입니다. 물론 컴퓨터 언어를 전혀 모른다면 문제겠지만, 프로그래밍 언어 자체를 배우는데 시간을 낭비할 필요는 없습니다. (원래 인생은 바로 실전 아니겠습니까?)

unnamed

책을 사서 프로그래밍 언어 자체를 독학을 하는 것은 시간적으로 효율도 나쁠 뿐 더러, 실전에는 별로 도움이 안되는 (=별로 쓰이지 않는) 내용들이 많습니다. 논문을 쓸 때, 통계 기법을 사용하는 것도 분석을 하고 해석을 통해 결과를 도출하기 위해서이지, 그것을 위해 우리 모두가 통계학 책을 꺼내서 처음부터 정독할 필요는 없습니다. 그런 의미에서 대부분의 사람들에게는 Bioinformatics tool 이나 머신 러닝 기법도 통계 기법과 같이, 데이터를 다루는 도구일 뿐이며, 우리는 이러한 도구들을 적당히 이용해서 데이터를 해석하고, 결과를 만들면 됩니다. (즉, 어떤 칼을 사용하던지 생선 손질만 하면 되는 것 아니겠습니까)

 

r-bioconductor-training_1

python_ml_header

R? Python? 머신러닝을 위한 Tensor Flow? 어떤 프로그래밍 언어를 먼저 배워야하는지, 어떤 교재를 봐야할지 고민할 시간에, 일단 아무거라도 시작해 보세요. 프로그램을 설치해보고, 데이터를 로딩해보고, 요리 조리 만지다 보면, 점점 뭐가 필요한지 깨닫게 됩니다. (개인적으로 R과 Python은 좀 더 쓰기 친숙한 Interface를 제공하는 R studio와 Anaconda를 설치해서 사용하기를 추천합니다.) 아래는 제가 생각하는 비전공자들이 BI tool의 사용법을 가장 효율적으로 습득하는 방법입니다.

 

1. 나만의 Real dataset을 가지고, 논문을 써보자

데이터는 직접 만지고, 조작을 해봐야 하는데, 자신이 분석하고자 하는 데이터셋이 있는 경우가 가장 좋습니다. 내가 가장 친숙한 데이터셋일 뿐 더러, 남의 깨끗하게 정제된 데이터가 아니라, 날 것 (?) 자체의 데이터 (Raw data)를 가공하는 과정에서 많은 것들을 배우게 됩니다. 이를 이용해서 논문을 한번 써보면 금상첨화 입니다.

비슷한 특성의 데이터셋을 이용해서 이미 분석해서 출판한 선행 논문을 참고 삼아서, 그 논문에서 이용한 분석 방법론을 그대로 나의 데이터셋에 적용해보세요. 그러다보면 자연스럽게 방법론을 습득하게 되고, 그 과정에서 어떤 프로그래밍 Tool이 필요한지, 어떤 분석 방법들을 다룰 수 있어야하는지를 알게 됩니다. 조금더 나아가 이런 방법을 응용하거나 확장하면 나만의 논문을 쓸 수 있을 정도의 데이터 분석 수준에 도달하게 됩니다. (사실 대부분의 Bioinformatics 전문가들도, 이러한 과정을 통해서 박사 학위를 마치고, 전문가가 됩니다.)

 

2. 검색을 최대한 활용하자: Google knows everything!

위에서 언급한 대로 일단 나의 데이터셋을 가지고 시작을 하면, 얼마 지나지 않아 바로 문제에 봉착하게 됩니다.

“아 설치하는데 왜 안되는 거야? 파일 로딩을 어떻게 하는거지… 프로그램을 잘 돌아가는데, 에러는 왜 발생하는 거야..?” 등등

google_god_hero

여기서 재밌는 점은 내가 봉착한 문제는 대부분 다른 사람들도 다 겪었다는 점입니다. 다른 말로하면 구글에 검색해보면 똑같은 문제를 질문한 사람이 꼭 있습니다. (없다면 검색을 제대로 못한 것..)

그렇게 그들의 질문과 다른 전문가들의 답변을 따라서 하나씩 문제를 해결해 가다 보면, 대부분의 문제들은 해결됩니다. 그리고 이러한 과정이 실력을 쌓아가는 과정이기도 합니다. (물론, 이런 시행 착오 과정을 단축 시켜줄 전문가가 옆에 있다면 매우 좋겠지만, 독학하는 사람에게는 구글이 슨상님입니다..) 이러한 방법의 장점은 교재가 필요없고, 돈도 들어가지 않으며 (= 온라인 교재, 무료), 단 시간에 가장 핵심적으로 실무에 필요한 기술만 습득할 수 있다는 점입니다.

 

3. Community Forum, Github tutorial 및 온라인 강의 (Youtube) 활용

마지막으로 위와 같은 과정으로 대충 어떤 스킬이 필요한지, 조금은 감이 왔다면 조금은 더 advanced 된 과정을 배우고 싶은 생각이 들기도 합니다. 이제 관심사와 처지가 비슷한 사람들이 모여있는 커뮤니티에 들어가서 눈팅을하고 질문을 합시다. 요새는 다양한 Bioinformatics 관련 커뮤니티가 활성화되어 있어서, 질문을 올리고 전문가의 답변을 얻기가 훨씬 용이해졌습니다.

maxresdefault

대표적으로 R과 관련한 다양한 블로그 및 포럼, Kaggle과 같은 Machine Learning 포럼, 유전체 분석 관련 Biostar, Bioinformatics Stack Exchange 등등의 커뮤니티들이 있으며, Software 제작자들이 Github에 친절하게 tutorial을 만들어주기도 합니다. 최근에는 유튜브가 활성화되어서, 친절하게 Step-by-step으로 분석 방법을 알려주는 영상도 많이 업로드되고 있으며, Coursera 온라인 강의도 접근이 쉽습니다.

이제는 정보의 홍수 속에서 얼마나 더 효율적으로 원하는 정보를 찾고, 활용하는지가 중요한 시대가 온 것 같습니다. 저런 정보들만 잘 활용한다면, Bioinformatics 도구를 활용하는데 큰 걸림돌은 없을 것이라고 믿어 의심치 않습니다.

이번 포스팅은 여기까지 입니다. 혹시라도 더 좋은 팁이 있다면 알려주세요^^