리젝에 대처하는 마음가짐: How to deal with paper rejection

최근에 동시에 진행하고 있는 일들이 많다보니, 블로그 업데이트는 제일 먼저 우선 순위에서 밀려나는 것 같습니다. 그러다 최근에 Reject 메일을 받아서, 안그래도 한번 쓰고자 했던 내용인 대학원 생활 중 가졌으면 하는 리젝에 대처하는 마음가짐에 대한 글을 써볼까 합니다. 논문을 내고 Rejection mail을 받는 것은 모든 연구자들의 숙명이 아닐까 합니다 (사실 밥먹듯이 하는 일). 지금은 이러한 과정이 매우 중요하다는 것을 알고 익숙해지긴 했지만, 그래도 리젝을 당하는 경험 자체가 썩 기분 좋은 일을 아닐 겁니다. 특히나 매우 공들였던, 가능성이 있다고 생각했던 저널로 부터 받는 Rejection 메일이라면, 더더욱 멘탈에 금이 가는 경험을 하게 됩니다.

[관련 포스팅 보기]

Basic mind-set

기억을 돌이켜, 전공의 시절 엄청 수고를 들였던 논문이 기대했던 저널로부터 리젝을 받았을 때의 정신적 충격은 생각 외로 컸습니다. 특히나 3개월 이상 걸렸던 긴 리뷰 시간과 납득하기 어려운 게제 거절 사유를 접했을 때의 분노, 충격, 우울감이란.. 지금 돌이켜보면 참 별 것 아니었는데, 당시에는 거의 한달 가까이 삶과 사람의 몰골이 피폐해졌던 같습니다. (마치 짝사랑하던 사람에게 차인 정도의 정신적 데미지랄까요) 다음은 리젝을 받아들이고 다음 단계로 나아가기 위해 도움이 될 만한 제가 생각하는 기본적인 마음 가짐입니다. (말은 이렇게 하지만 저는 언제쯤 리젝 메일에 아무런 흔들림이 없을 수 있을까요?ㅎㅎㅎ 아직 수양이 부족한 것 같습니다.)

  • 단 한번도 리젝을 받지 않은 논문은 제대로 된 논문이 아니다: 리젝은 연구에 대한 일종의 Quality Control (검수 과정)이기 때문에, 필연적으로 피할 수 없을을 인정해야합니다.
  • 모든 리젝에는 이유가 있다: 비록 내가 감정적으로 납득이 어렵다 하더라도, 모든 리젝에는 이유가 있습니다. 일정 기간 쿨 다운 후 내가 리젝을 받은 이유에 대해서 객관적으로 찬찬히 따져보는 게 좋습니다. 어떻게 보면 더 나은 논문을 위해서, 다시 개선할 수 있는 기회를 부여 받은 셈이니까요.
  • 한번의 억셉을 위해서 적어도 3~4번, 많게는 10번까지도 리젝을 적립(?)해야 한다: 이번 리젝이 한번의 억셉을 위해 나아가는 과정으로, 이렇게 또 하나의 리젝을 적립했구나 생각하면 좀 마음이 편합니다.

What to Do When Your Paper Is Rejected

Journal of Graduate Medical Education이라는 저널도 있군요. 다음은 아래의 참고 문헌에서 말하는 리젝을 받았을 때, 무엇을 하면 좋은지에 대한 내용입니다. 자세한 내용은 링크를 참조하세요.

  • Take Your Pulse
  • Reading the Rejection Letter
  • Following the Author Instructions
  • Matching Paper to Journal
  • Obtaining Additional Data or Reanalyzing Existing Data
  • Resubmitting to the Same Journal or a New Journal

How to deal with paper rejection

마지막으로 아래는 제가 추가로 생각하는 리젝의 경험을 기회로 살려 활용하기 위한 몇가지 개인적인 팁 입니다.

  • Cooling-down phase: 잠시 동안 리젝 메일을 멀리하고, 다른 일들에 집중합니다. 운동과 산책, 쇼핑이나 게임 등 스스로 환기할 수 있는 활동들을 하면서, 마음을 차분하게 가라앉힙니다. Resilience 가 좋다면 하루 이틀 정도, 데미지가 크다면 1~2주 정도 또는 그 이상의 기간도 좋습니다. (사실 동시에 여러 프로젝트를 하다보면, 자연스럽게 다른 일을 하면서 쿨텀이 차게 됩니다.)
  • 저 단계를 벗어났다면, 리젝 메일을 읽어보고, 객관적으로 제 3자가 나의 논문을 어떻게 판단하였는지 분석합니다. 너무 논문의 목표를 높게 잡은 것은 아닌지 (Desk Reject), 다른 사람이 보기에 내가 부족했던 내용은 무엇인지 (리뷰 후 리젝), 이러한 피드백을 바탕으로 나의 논문을 어떻게 개선 시킬 것인지에 대한 전략을 수립합니다. 만약 개선이 가능한 부분 (추가 실험 또는 데이터, 논문의 서술 등)이 있다면, 이를 어떻게 적용할지에 대해서 생각해 봅니다.
  • 타겟 저널에 대해서 다시 생각해보기: 데스크 리젝이 되는 경우에는 나의 논문이 해당 저널에서 관심이 없는 경우일 가능성이 높습니다. 따라서, 해당 주제에 대해서 흥미를 가질 만한 다른 저널들이 무엇이 있을지에 대해서 다시 전략을 수립합니다.

[References]

Sullivan, Gail M. “What to do when your paper is rejected.” (2015): 1-3.

Three ways to turn the page after your first paper rejection

광고

[스크랩] Writing a Review Article

연구 논문 못지 않게, 연구자들이 많이 보는 것이 그 동안의 연구 동향과 방향을 정리해 놓은 리뷰 논문인 것 같습니다. 이번에 좋은 기회에 미국의 PI의 제안으로 리뷰 논문을 준비하게 되어, 리뷰 논문 작성시 고려해야할 10가지를 정리한 논문 (논문을 정리하는 리뷰 논문을 위한 논문?)과 리뷰 논문 작성시 하게 되는 흔한 실수들에 대해 스크랩합니다.

Ten Simple Rules for Writing a Literature Review

  • Rule 1: Define a Topic and Audience
  • Rule 2: Search and Re-search the Literature
  • Rule 3: Take Notes While Reading
  • Rule 4: Choose the Type of Review You Wish to Write
  • Rule 5: Keep the Review Focused, but Make It of Broad Interest
  • Rule 6: Be Critical and Consistent
  • Rule 7: Find a Logical Structure
  • Rule 8: Make Use of Feedback
  • Rule 9: Include Your Own Relevant Research, but Be Objective
  • Rule 10: Be Up-to-Date, but Do Not Forget Older Studies

Mistakes We Make When Writing Review Articles

  • Unimportant topic: ask several colleagues whether they might be interested in
  • Stale rehash: Be sure that you are saying something new about the topic.
  • A timely topic, but already covered
  • Getting lost along the way: Make an outline with major headings, and stick to it.
  • Article too long: this is one of the most common problems in medical writing.
  • Too many or too few references: Avoid this mistake by studying similar articles published in your target journal.

[ References ]

Pautasso, Marco. “Ten simple rules for writing a literature review.” PLoS computational biology 9.7 (2013): e1003149.

Taylor R.B. (2018) How to Write a Review Article. In: Medical Writing. Springer, Cham. https://doi.org/10.1007/978-3-319-70126-4_6

[스크랩] 좋은 Cover Letter를 쓰는데 참고할 자료

Cover Letter의 전반적인 형식 및 작성 과정에 대한 블로그 포스트

How to Write a Great Postdoc Cover Letter

 

하버드 커리어 센터의 좋은 CV와 CL을 쓰기 위한 지침 및 잘 작성된 Cover Letter 예시 자료

Harvard University, Office of Career Services

PDF 다운로드>

 

Science Career 페이지의 Cover Letter 작성시 참고할 글들

Peter Fiske, Science Careers, “The Commandments of Cover Letter Creation”

David G. Jensen, Science Careers, “The Cover Letter: Door Opener Par Excellence”

Borchardt, John K.  Science Careers, “Writing a Winning Cover Letter”

 

ASBMB에서 권장하는 포닥 지원시 죽이는 Cover Letter 작성하는 법

How to write a killer cover letter for a postdoctoral application

Bioinformatics 비전공자를 위한, Bioinformatics 어떻게 공부하는게 효과적일까?

지난 포스팅에 이어서, 주변에 계시는 분들께 종종 받는 질문에 대한 포스팅입니다. 가끔 주변의 선생님들로부터 아래와 같은 질문을 심심치 않게 듣습니다.

“Bioinformatics나 머신 러닝에 대해서 공부하고 싶은데, 너무 막막해요. 무슨 교재를 보고 어떻게 공부하는게 좋나요?”

저는 BioinformaticsComputational Biology 전공자도 아닐 뿐 더러, 코딩을 잘하는 것도 아닙니다. 다만 연구자로써 그 때 그때 필요한 Bioinformatics 도구들을 많이 사용한 경험이 있고, 구글링을 잘 활용할 뿐 입니다. 물론 컴퓨터 언어를 전혀 모른다면 문제겠지만, 프로그래밍 언어 자체를 배우는데 시간을 낭비할 필요는 없습니다. (원래 인생은 바로 실전 아니겠습니까?)

unnamed

책을 사서 프로그래밍 언어 자체를 독학을 하는 것은 시간적으로 효율도 나쁠 뿐 더러, 실전에는 별로 도움이 안되는 (=별로 쓰이지 않는) 내용들이 많습니다. 논문을 쓸 때, 통계 기법을 사용하는 것도 분석을 하고 해석을 통해 결과를 도출하기 위해서이지, 그것을 위해 우리 모두가 통계학 책을 꺼내서 처음부터 정독할 필요는 없습니다. 그런 의미에서 대부분의 사람들에게는 Bioinformatics tool 이나 머신 러닝 기법도 통계 기법과 같이, 데이터를 다루는 도구일 뿐이며, 우리는 이러한 도구들을 적당히 이용해서 데이터를 해석하고, 결과를 만들면 됩니다. (즉, 어떤 칼을 사용하던지 생선 손질만 하면 되는 것 아니겠습니까)

 

r-bioconductor-training_1

python_ml_header

R? Python? 머신러닝을 위한 Tensor Flow? 어떤 프로그래밍 언어를 먼저 배워야하는지, 어떤 교재를 봐야할지 고민할 시간에, 일단 아무거라도 시작해 보세요. 프로그램을 설치해보고, 데이터를 로딩해보고, 요리 조리 만지다 보면, 점점 뭐가 필요한지 깨닫게 됩니다. (개인적으로 R과 Python은 좀 더 쓰기 친숙한 Interface를 제공하는 R studio와 Anaconda를 설치해서 사용하기를 추천합니다.) 아래는 제가 생각하는 비전공자들이 BI tool의 사용법을 가장 효율적으로 습득하는 방법입니다.

 

1. 나만의 Real dataset을 가지고, 논문을 써보자

데이터는 직접 만지고, 조작을 해봐야 하는데, 자신이 분석하고자 하는 데이터셋이 있는 경우가 가장 좋습니다. 내가 가장 친숙한 데이터셋일 뿐 더러, 남의 깨끗하게 정제된 데이터가 아니라, 날 것 (?) 자체의 데이터 (Raw data)를 가공하는 과정에서 많은 것들을 배우게 됩니다. 이를 이용해서 논문을 한번 써보면 금상첨화 입니다.

비슷한 특성의 데이터셋을 이용해서 이미 분석해서 출판한 선행 논문을 참고 삼아서, 그 논문에서 이용한 분석 방법론을 그대로 나의 데이터셋에 적용해보세요. 그러다보면 자연스럽게 방법론을 습득하게 되고, 그 과정에서 어떤 프로그래밍 Tool이 필요한지, 어떤 분석 방법들을 다룰 수 있어야하는지를 알게 됩니다. 조금더 나아가 이런 방법을 응용하거나 확장하면 나만의 논문을 쓸 수 있을 정도의 데이터 분석 수준에 도달하게 됩니다. (사실 대부분의 Bioinformatics 전문가들도, 이러한 과정을 통해서 박사 학위를 마치고, 전문가가 됩니다.)

 

2. 검색을 최대한 활용하자: Google knows everything!

위에서 언급한 대로 일단 나의 데이터셋을 가지고 시작을 하면, 얼마 지나지 않아 바로 문제에 봉착하게 됩니다.

“아 설치하는데 왜 안되는 거야? 파일 로딩을 어떻게 하는거지… 프로그램을 잘 돌아가는데, 에러는 왜 발생하는 거야..?” 등등

google_god_hero

여기서 재밌는 점은 내가 봉착한 문제는 대부분 다른 사람들도 다 겪었다는 점입니다. 다른 말로하면 구글에 검색해보면 똑같은 문제를 질문한 사람이 꼭 있습니다. (없다면 검색을 제대로 못한 것..)

그렇게 그들의 질문과 다른 전문가들의 답변을 따라서 하나씩 문제를 해결해 가다 보면, 대부분의 문제들은 해결됩니다. 그리고 이러한 과정이 실력을 쌓아가는 과정이기도 합니다. (물론, 이런 시행 착오 과정을 단축 시켜줄 전문가가 옆에 있다면 매우 좋겠지만, 독학하는 사람에게는 구글이 슨상님입니다..) 이러한 방법의 장점은 교재가 필요없고, 돈도 들어가지 않으며 (= 온라인 교재, 무료), 단 시간에 가장 핵심적으로 실무에 필요한 기술만 습득할 수 있다는 점입니다.

 

3. Community Forum, Github tutorial 및 온라인 강의 (Youtube) 활용

마지막으로 위와 같은 과정으로 대충 어떤 스킬이 필요한지, 조금은 감이 왔다면 조금은 더 advanced 된 과정을 배우고 싶은 생각이 들기도 합니다. 이제 관심사와 처지가 비슷한 사람들이 모여있는 커뮤니티에 들어가서 눈팅을하고 질문을 합시다. 요새는 다양한 Bioinformatics 관련 커뮤니티가 활성화되어 있어서, 질문을 올리고 전문가의 답변을 얻기가 훨씬 용이해졌습니다.

maxresdefault

대표적으로 R과 관련한 다양한 블로그 및 포럼, Kaggle과 같은 Machine Learning 포럼, 유전체 분석 관련 Biostar, Bioinformatics Stack Exchange 등등의 커뮤니티들이 있으며, Software 제작자들이 Github에 친절하게 tutorial을 만들어주기도 합니다. 최근에는 유튜브가 활성화되어서, 친절하게 Step-by-step으로 분석 방법을 알려주는 영상도 많이 업로드되고 있으며, Coursera 온라인 강의도 접근이 쉽습니다.

이제는 정보의 홍수 속에서 얼마나 더 효율적으로 원하는 정보를 찾고, 활용하는지가 중요한 시대가 온 것 같습니다. 저런 정보들만 잘 활용한다면, Bioinformatics 도구를 활용하는데 큰 걸림돌은 없을 것이라고 믿어 의심치 않습니다.

이번 포스팅은 여기까지 입니다. 혹시라도 더 좋은 팁이 있다면 알려주세요^^

 

 

블로그 포스팅 작성 과정과 작성 이유

가끔 지인들과의 모임에 가면, 제 블로그를 잘 봤다면서 먼저 얘기를 꺼내주는 경우가 있습니다.   그러면서 블로그 글과 관련하여 여러가지 내용들을 물어봐주시곤 하는데, 사실 블로그를 운영하는 것은 어떠한 경제적 이득도 없거니와,  생각보다 시간도 많이 들고, 어떤 때는 귀찮은 일이기도 합니다. 그래도 간간히 글을 봐주시는 숨은 구독자를 위해서, 오늘은 블로그의 글 작성 과정과 작성 이유에 대한 글을 써보겠습니다.

Blog icons design

 

0. 블로그 포스팅의 작성 과정

10632.extract

보통 1개의 토픽에 대해서 포스팅을 올리기 위해서는 적어도 관련 논문 3~4개를 읽고 공부하여야 합니다. 이를 저만의 방식으로 이해하고 소화해서 가장 쉽고 빠르게 이해할 수 있도록 하는 집약적인 이미지를 찾습니다. 그래서 일반적으로는, 수일 간의 공부 및 정보 습득 과정, 반나절 정도의 글쓰기 과정이 소요됩니다. 이미 작성한 글들에 대해서는 퇴고를 하려고 노력하고 있습니다만, 아무래도 쉽지는 않습니다.

블로그 포스팅 작성에서 중점적으로 두는 것은 정보가 난무하는 인터넷의 홍수 속에서 아무 글이나 그대로 긁어서 블로그 내용을 늘리는데, 급급하기 보다는 하나의 글을 쓰더라도 최대한 집약적이고 간결하면서도, 핵심을 담은 포스팅을 작성하려고 노력합니다.

 

1. 블로그에 글을 올리는 이유

블로그를 시작하게 된 계기는 여러 가지가 있지만, 가장 첫번째 이유는 개인적으로 이를 계기로 꾸준히 공부를 하기 위해서 였습니다. 저에게 이 블로그는 대학원 시절의 연구 내용들의 기록임과 동시에, 연구자로서의 내공을 쌓고 꾸준함을 유지하는 연습장이기도 합니다. 비록 아직 갈길이 멀지만, 지난 2년정도의 시간동안 약 100개의 포스팅을 올렸는데, 처음과 비교하면 지금은 확실히 지식의 폭이 넓어진 것은 느끼곤 합니다.

사실 정밀 의료 (precision medicine)라는 토픽은 다양한 학문들이 융합되어 새롭게 출현하는 분야이기 때문에,  새로운 지식과 학문들에 대한 끊임없는 공부가 필요 합니다. 하지만, 자칭 전문가라고 부르는 사람들도 과거의 지식에 머물러 있거나, 제한적인 분야에 대해서만 알고 있는 경우가 많습니다. 더불어, 정밀 의료의 가장 핵심을 이루는 의료와 바이오 분야는 정보의 비대칭성이 매우 큰 분야이기도 합니다. 이 때문에 일반인들은 자칭 사이비 전문가나 유사 과학자 (라고 쓰고 사기꾼이라 읽는다.) 등등의 언론 플레이에 현혹되어 휘둘리기 쉽기도 합니다.

 

 

앞으로의 시대에는 바이오 기술의 발달과 의료의 패러다임 변화에 따라, 다양한 회사가 세워지고 돈이 몰리면서, 이러한 일들이 훨씬 빈번하게 발생할 것입니다. 의료와 연관하여 발생하는 문제들은 최종적으로 생명과 직결된 피해를 일으킬 수 있습니다. 전문 분야 임에도 일반인들이 기본 배경 지식이 필요한 이유입니다. 다만 아직까지는 높은 진입 장벽과 제한된 교육, 정보로 인해, 바이오와 의료, 그리고 정밀 의료라는 개념은 일반인들에게 생소하기만 합니다. 블로그에 다양한 연구 주제와 정보를 업로드하는 것은 이러한 정보의 비댕칭성을 조금은 해소함과 동시에, 소개의 목적도 있습니다.

[책 소개] 유전자 사냥꾼, Genome: The Story of the Most Astonishing Scientific Adventure of Our Time–The Attempt to Map All the Genes in the Human Body

지난 한달 동안 육군훈련소로 기초 군사 훈련을 다녀왔습니다.  늦은 나이에 띠동갑 동생들과 군사 훈련을 받는게 육체적으로는 참 힘들었는데, 그래도 생각을 비우고 새롭게 다시 시작할 수 있는 계기가 된 것 같습니다. 논산 훈련소에서 새벽 3시에 복도에서 불침번을 서다가 우연히 책장에서 눈에 띈 책이 있는데, 그 책이 오늘 소개하고자 하는 ‘유전자 사냥꾼‘ 이라는 책입니다. 우연히 발견한 책이 제게 주말 시간의 단비 같은 존재가 되었는데, 주말 개인 정비 시간을 이용해서 참 재밌게 읽을 수 있었습니다.

이 책의 한국어판 제목은 ‘유전자 사냥꾼‘, 영문판 제목은 ‘Genome: The Story of the Most Astonishing Scientific Adventure of Our Time–The Attempt to Map All the Genes in the Human Body‘ 입니다.  이 책은 유전자의 발견과 유전자 지도를 작성하고자 하는 사람들의 노력을 그 당시 시대 상황과 함께 생생하게 그려내고 있습니다. 한국어판 초판 발행 일자를 살펴보니 무려 1995년!입니다 (영문판은 1990년). 25년 이상 지난 매우 오래된 책이지만, 유전자 지도를 완성하고자 하는 연구자들의 노력은 지금도 진행되고 있기에, 책의 내용은 아직까지도 유효한 것 같습니다.

이 책은 분자 생물학적 기법의 발견과 활용에 대한 역사적인 사건들을 소개함과 동시에, 이를 활용하여 사람들이 어떠한 시도를 했는지, 그리고 어떠한 실패와 좌절 속에서 지금에 이르렀는지를 담담하게 그려내고 있습니다. 오늘 날에 비추어 보면, 기법 상으로는 많이 뒤떨어져 있지만, 뒤떨어진 기법 (대부분 시퀀싱 대신에 유전체상의 tandem repeat 길이의 차이에 따른 RFLP 기법을 이용합니다.) 만을 활용해서도 어떻게 특정 유전자를 발견하고 이를 입증했는지를 보면서 당시의 노력에 감탄하게 됩니다.

대표적으로 소개하는 이야기 속에는 헌팅턴병과 근위축증, 그리고 가족성 암에 대한 이야기가 있는데, 교과서 속에서 딱딱하게 소개되었던 질병들이 실제로는 어떠한 배경 속에서 연구되었는지를 현실감 있게 그려내어 이해하는데 많은 도움을 주는 책입니다. 사실 지금도 기법만 시퀀싱으로 바뀌었을 뿐이지, 아직도 정확한 기전을 이해하지 못하고 있는 무수히 많은 질병에 대해서 연구자들은 비슷한 시도를 하고 있기에, 해당 이야기들은 연구자에게도 많은 영감을 준다고 생각합니다. 마치 역사 속에서 미래를 예측하고 배운다고 하는 것과 비슷한 맥락이라고 할까요?

관련 포스팅 보기>

[유전학 중요개념 정리] Tandem repeat: STR and VNTR

닥터 프리즈너 속 헌팅턴병의 유전학: 삼염기 반복 질환과 Anticipation

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

책의 마지막 부분은 Human Genome Project에 대한 이야기와 시퀀싱 및 유전체 기술의 진보로 미래에 어떠한 변화가 일어날지에 대해서 예상하고, 대비해야할 부분들에 대한 언급이 있는데, 이미 25년이 지난 지금 시점에서 과거에 예측했던 부분들이 얼마나 맞았는지, 그리고 어떻게 다른지를 생각해보면서 책을 읽었습니다. 이러한 부분들에서 거꾸로 앞으로 25년 후에는 어떠할지를 예측해보는 것도 재미난 포인트 인 것 같습니다.

해당 책은 비록 지금은 절판되어 구매가 불가능 하지만, 아마존 등을 통해서 영문판을 구매하거나, 중고 서점에서 한국어판을 구할 수 있는 것 같습니다. 관심이 있는 분들께는 꼭 한번 읽어보시라고 추천하고 싶습니다.

 

[Reference]

Waldholz, Michael, and J. Bishop. Genome: the story of the most astonishing scientific adventure of our time–the attempt to map all the genes in the human body. Simon and Schuster, 1990.

 

영국의 정밀 의료 사례: UK biobank, 100,000 Genome Project, NHS England 까지

정밀 의료 (Precision Medicine)와 관련하여 최근에 매우 감명을 받은 영국(UK)의 사례를 보면서, 전반적인 연구 동향 및 정밀 의료가 실제 의료 시장 변화에 미치는 동향에 관한 글을 남겨봅니다. 영국은 확실히 사회 복지 체계가 잘 잡혀서 의료 분야에서도 많은 변화를 주도하고 있으며, 체계도 매우 구체적이고 잘 잡혀있습니다.

 

UK BioBank

uk biobank

이러한 특성은 가장 선도적으로 영국인들의 유전체 정보를 구축하는 UK Biobank project에도 잘 나타나있으며, UK Biobank를 활용하여 나온 무수한 많은 연구와 논문들, 그리고 이를 쫓는 많은 개별 국가들의 정책들이 이를 입증합니다. 우리 나라에서도 한국인 유전체 은행을 구축해야 한다는 목소리도 동일한 선상에 위치합니다.

UK Biobank국가 주도 단위의 유전체 은행으로 다양한 질환과 형질을 대표하는 사람들의 검체를 수집하고, 임상 정보를 정리하고, 수집한 검체를 통해서 유전체 정보를 데이터 베이스로 구축하고 있습니다. 국가 주도 단위로 매우 큰 인구 집단을 대변하기 때문에 그 파급력은 매우 크다고 할 수 있습니다.

 

100,000 Genomes Project

genomics england

UK Biobank와 비슷하게 진행되고 있는 다른 프로젝트는 우리 나라의 보건 복지부에 해당하는 영국의 Department of Health & Social Care. 산하의 Genomics England에서 진행하고 있는 100,000 Genomes Project 입니다. 희귀질환과 암 질환특정 질환 환자들 10만명의 게놈을 전장 유전체 시퀀싱(Whole Genome Sequencing)하여, 전체 유전체 정보를 수집하는 것을 목표로 하는 프로젝트로, 연구자의 입장에서도 매우 파급력이 크지만, 다양한 질환의 환자들과 일반인들에게도 미칠 파급력이 엄청 날 것으로 예상됩니다. 해당 프로젝트는 2018년 12월 10만번째 참여자의 유전체를 시퀀싱하면서 목표에 도달했고, 이 결과를 바탕으로 앞으로 어떠한 결과가 나올지 매우 기대가 됩니다.

The UK has sequenced 100,000 whole genomes in the NHS

 

NHS England

nhs england_00000

마지막으로 위와 같은 유전체 프로젝트의 결과를 활용하고, 실제로 의료를 변화 시키기 위해 장기적인 관점에서 영국은 NHS England를 출범시켜서 정밀 의료를 바탕으로 한 10년 이후의 의료 서비스에 대해서 계획하고 있습니다. 재미있는 점은 많은 일반 국민들이 실제로 관심을 가지고, 직접 프로젝트에 참여하며, 이를 통해서 공동체 전체의 발전을 이끌어내는 각각의 톱니바퀴가 잘 물려서 돌아가고 있다는 점입니다.

특히, 이러한 큰 테마 안에 속해 있는 각각의 세부 과제들의 짜임새와 디테일들을 보면, 의료인으로서 소름끼칠 정도로 정교하고 놀랍습니다. 그 안에서 얼마나 많은 전문가들이 노력하여 상의하고 정책을 수립했을지, 하나의 문서를 작성하는데도 얼마나 많은 고민이 있었을지가 여실히 느껴집니다.

우리나라의 보건 복지부에서 의료 정책을 기획하시는 분들도 이러한 점을 꼭 염두해두고 장기적인 계획은 수립했으면 하는 바람으로 글을 마칩니다.

 

논문 쓰기 A to Z: 유용한 자료와 개인적인 팁

Academia에 있는한 논문 쓰기는 이제 필수가 되었습니다. 저는 논문을 쓰기 시작한지 이제 5년째인데, 항상 논문을 쓰면서 하는 생각은 어떻게 하면 조금이라도 더 잘 쓸 수 있을까 고민하는 것이었습니다. 전공의 2년차 때 첫 논문을 썼는데, 아무도 어떻게하면 쓸 수 있다는 걸 가르쳐 주지 않았고, 교수님들은 바쁜 임상 업무로 제대로된 논문 지도를 해주실 여력이 없었습니다. 지금 돌이켜보면 그럴 때 가장 스승은 리뷰어들이었던 것 같습니다. 저도 아직 논문을 잘 쓰기 위해 노력하고 공부하는 입장이지만, 추후에 처음 논문을 처음 쓰거나, 논문 쓰기위해서 고민하는 분들에게 조금이나마 도움이 될 수 있도록, 제가 그동안 겪으면서 유용하다고 생각했던 자료들과 팁들을 정리해 보고자 합니다.

관련포스팅 보기>

[스크랩] Ten simple rules for structuring papers

Endnote 저널명 정리하는 유용한 팁

 

I. 학술 논문 작성법: KOOC 인터넷 강의

_1

KOOC을 통해 가입만 하면 누구나 무료로 열람할 수 있는 인터넷 강의로, KAIST 물리학부 박용근 교수님의 과학 분야 학술 논문 쓰기에 대해 쉽게 정리한 명강의입니다. 처음 논문을 쓰는 사람들이라면 꼭 수강하기를 추천합니다. 챕터별 강의로 되어 있어, 해당 챕터의 파트를 작성할 때 부족한 점을 돌이켜보기 위해서 보는 것도 큰 도움이 됩니다.

한가지 덧붙이면, KOOC에서는 여러 유용한 강의를 무료로 제공해주고 있습니다. 다른 많은 좋은 강의들이 있기 때문에 관심을 가져볼 만 합니다.

 

II. 학술적 글쓰기를 위한 도서

주변 선배들과 지인들이 도움이 많이 된다고 하는 도서 중에서 개인적으로 추천할 만한 책 2개를 올립니다. 논문 쓰는 법에 대한 많은 국내 도서들이 있지만, 영어로 논문을 쓰려면 실제로 미국 사람들이 생각하고 글을 쓰는 법을 터득해서 따라해야 합니다. 그런 점에서 원서로 된 아래의 도서를 추천합니다.

첫번째 책은 논문을 어느 정도 써본 사람들이 어떻게 하면 더 논문을 잘 쓸 수 있을지 고민할 때 도움이 많이 되는 중,고급 수준의 책이고, 두번째 책은 제목에 나와 있듯이 Native 미국인이 아닌 사람들을 위해서 가장 기본적인 원리를 잘 풀어서 상세하게 설명해주는 조금 더 쉬운 책입니다.

1) Writing Science: How to Write Papers That Get Cited and Proposals That Get Funded

2) Science Research Writing for Non-Native Speakers of English

위의 도서들은 아마존 링크로 대신합니다만, 국내에서도 구매가 가능한 것으로 알고 있습니다.

 

III. 논문 작성을 위한 개인적인 팁

마지막으로 제가 논문을 쓰는 방법 및 팁에 대해서 정리하고 포스팅을 마치려고 합니다.

  1. 시작이 반이다. 일단 어떤 형태로든 쓰기 시작하라. 첫 논문 쓰기는 빠르면 빠를 수록 좋다. > 이런 얘기 많이 하시는데, 백번 맞는 말입니다. 어차피 처음은 누구도 잘 쓰기 어렵습니다. 직접 논문을 써보고 전체 과정이 어떻게 진행되는지 한번 경험을 해봐야, 다음에 더 좋은 글 쓰기가 가능해 집니다.
  2. 논문 쓰는 순서? : 이건 개인적인 취향 차이입니다. 그러나 Method section은 자기가 한 방법에 대해서 특별한 생각 없이 그냥 기계적으로 나열을 하면서 쓸 수 있기 때문에, 대부분 여기 부터 시작합니다. 저는 대개 큰 틀은 Method > Figure & Table 만들기 > Result > Introduction > Discussion > Abstract 순서로 씁니다. 사실 일단 개별 파트를 쭉 나열하고, 어떤 파트던지 일단 생각나는대로 씁니다. 그리고 계속 페인트를 덧칠하듯이 고치고 다시 쓰다보면 얼추 논문이 점점 형태를 갖춰 갑니다. 명필가들도 하나의 글을 위해 수없이 퇴고를 반복하는데, 한번에 논문을 다 쓰려고 하는 것은 큰 오만입니다.
  3. Introduction: 사실 많은 책과 강의에서 Intro는 역삼각형 구조로 작성하라고 합니다. 즉, 가장 일반적인 내용으로 시작해서 점점 더 구체적인 내용으로 서술하라는 것이죠. 제가 경험해보니 더 쉽게 얘기하면, Intro는 밑밥 까는 부분입니다. 즉, 내가 이러 이러한 연구를 했는데 뒤에 나올 얘기들을 하기 위해서, 알아야할 배경 지식이나 내 연구가 이러 이러해서 중요하다 라고 강조하기 위해 필요한 기존 선행 연구들로 밑밥을 까는 부분이라고 이해하면 쉽습니다. 가장 큰 물줄기에서 시작해서 내가 얘기하고자 내용으로 자연스럽게 이행 시키는 글을 쓰면 좋습니다.
  4. Method: 이 부분은 거의 공식과 같습니다. 남들이 한 비슷한 연구의 Method 부분을 참고하여 조금만 수정하면 제일 쉽게 쓸 수 있습니다.
  5. Result: 가장 중요한 내용, 강조하고자 하는 내용을 위주로 큰 그림을 그리고, 판을 짜야 합니다. 어떻게 하면 나의 결과를 더 효과적으로 잘 보여줄 수 있을까, 다른 좋은 논문들은 어떻게 결과를 display 했을까를 많이 고민했던 것 같습니다. 그런 점에서 Table과 Figure를 효율적으로 활용하는 것이 제일 중요합니다. (Table과 Figure를 만드는 법은 위의 박용근 교수님 강의에 잘 나와 있습니다.)
  6. Discussion: Dicussion 부분도 역시 작성하는 큰 공식이 있는데, 저는 크게 나의 연구 결과가 왜 중요한지를 다시 한번 강조하는 내용, Result 결과 부분에 대해서 좀 더 자세한 해석에 대한 내용, 연구의 한계점, 추후 필요한 연구 또는 연구가 시사하는 바 등등에 대해서 작성하다 보면 어느 정도 형태가 잡히는 것 같습니다.
  7. Abstract: 논문의 얼굴 마담과 같은 존재이기 때문에 제일 중요합니다. 대부분의 사람들은 abstract만 보고, 본문을 자세하게 보지 않기 때문에, 외모와 마찬가지 역할을 합니다. 예선을 통과해야 본선에서 평가받을 수 있습니다. 따라서 모든 혼을 다 받쳐 작성합니다. 실제로도 퇴고를 제일 많이 하는 부분이고, 250~300자 내에 연구 내용을 모두 담아야 하기 때문에 제일 쓰기 쉬우면서도 제일 어렵습니다.
  8. Cover Letter: 가장 많은 사람들이 간과하는 부분입니다. 원래는 교신 저자 (Corresponding Author)가 작성해서 Submission 때 내는 것이 맞는데, 전공의 때 대부분의 교수님들은 너가 대충 알아서 써서 내라 하셨던 것 같습니다. 그래서, 대부분 구글링으로 포맷만 따와서 작성해서 냈었는데, Cover Letter는 정말 중요합니다.. 중요한 이유는 아래에.
  9. Editor와 Reviewer의 관점에서 생각하기: 어쨌거나 학술 논문은 저널의 편집인인 Editor가 본인들의 저널의 입맛에 맞다고 생각되는 논문을 선택하고, Reviewer의 평가를 통과해야 최종적으로 Accept가 될 수 있습니다. 즉, 어떻게 보면 아무리 논문을 잘 쓰고 훌륭한 내용을 담고 있어도 Editor가 원하는 소재가 아니면 평가 조차 받을 수 없습니다. (Desk Reject…) 그런 점에서 Cover Letter는 나의 논문은 이러 이러한 연구 소재를 담고 있어서 너희 저널에 실을만한 가치가 있으니, 한번 평가해주지 않으련? 하고 설득하는 과정입니다. 이 단계를 넘어야 리뷰어들에게 논문을 학술적으로 평가받을 수 있습니다. 그리고 여러번 리뷰를 받아보면, 리뷰어들의 실력도 제각각임을 뼈저리게 느끼게 됩니다. 즉 말도 안되는 딴지를 거는 사람도 있고, 정말 도움이 되는 코멘트를 남겨주는 사람도 있습니다만, 이 부분은 운의 요소도 많이 작용합니다. 어쨌거나 논문을 쓸 때는 리뷰어들의 예상 딴지를 최대한 미리 생각하고 이를 방어할 요소들을 미리 미리 심어둡니다. 논문을 다 쓰고 난 다음에는 리뷰어의 관점에서 생각해보고 미리 가상 리뷰를 해보면 큰 도움이 됩니다.

NGS 분석 파이프 라인의 이해: GATK Best Practice

최근들어 제 블로그의 방문자들이 눈에 띄게 증가했습니다. 대부분 구글 검색을 통해서 유입되는 분들인데, 검색어 통계를 보니 NGS 관련 내용에 대해서 검색하다가 들어오는 사람들이 많았습니다. 그래서 저에게는 쉬운 내용들이라 하더라도, 일반인들이 궁금해하는 내용에 대해서도 정리해두어야 겠다는 생각이 들어서 이번 포스팅은 NGS 장비를 통해서 생산된 데이터를 어떻게 분석하는지, 전반적인 파이프 라인에 대해서 개념을 소개하는 포스팅을 올려볼까 합니다.

우선, 차세대 염기 서열 분석법 Next-generation sequencing (이하 NGS)은 다양한 이름으로 불리는데, 이미 널리 사용하는 기술이기 때문에 현재는 차세대 기술이라고 보기 어렵습니다. 따라서, NGS라고 부르는 건 misnomer라고 할 수 있죠. 좀 더 정확한 명칭으로는 Massively parallel sequencing, High-throughput sequencing 등이 있는데, 동일 기술을 가르킨다고 생각하면 됩니다.

관련 포스팅 보기 >

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

NGS 검사: Whole Genome & Exome, Targeted Sequencing 비교

시퀀싱 기술의 발전으로 현재는 NGS를 널리 사용하게 되었는데, 다양한 방식이 있지만 지금은 Illumina 사의 Flow cell 기반의 short-read 시퀀싱 방식이 대부분의 시장을 독점하고 있는 상태입니다. 따라서, 아래의 NGS 분석 방법은 Illumina 시퀀싱 방식으로 생산되는 read를 기준으로 설명하도록 하겠습니다.

[Illumina sequencing 과정 소개 You-tube 영상]

 

시퀀싱 데이터 분석 과정은 위의 과정을 통해서 생산된 매우 많은 짧은 가닥의 read (50~150 bp 염기)들을 적절한 유전체의 위치에 퍼즐로 끼워 맞추고, 기존에 알려진 표준 유전체 (Reference sequence)와 대조하여, 바뀐 염기나 변이가 있는지를 검출하는 전체 과정을 말합니다. 따라서, 크게 아래와 같은 과정을 거쳐야, 생산된 read들로 부터 변이를 검출할 수가 있습니다.

GATK에서는 Germline 또는 Somatic variant 에 따라, 그리고 타겟 변이의 특성에 따라, 서로 다른 Best practice를 제공하고 있습니다. 이 중에서 아래는 가장 보편적인 Germline short variant 발굴 과정을 나타내고 있습니다.

[GATK Best Practice 보기]

Germline short variant discovery

Germline copy number variant discovery

Somatic short variant discovery

Somatic copy number variant discovery

 

gatk
[GATK best practice] GATK에서는 생산된 read로부터 변이를 검출하는 전체 과정에 대한 표준화 지침을 제공하고 있는데, 이를 GATK best practice라고 하며 자세한 과정은 GATK forum에서 step-by-step으로 제공해주고 있습니다.
 

I. 표준 유전체 서열에 read를 정렬하기 (FASTQ to SAM): 보통 NGS를 통해서 생산되는 개별 Read의 개수는 백만개 이상의 단위가 됩니다. 이때, 개별 read의 정보는 FASTQ 파일로 저장되고 그 크기는 수십~수백 Gb 단위가 됩니다. 각각의 생산된 read는 이미 알려진 인간 표준 유전체 서열에 가장 잘 맞는 위치에 정렬시키게 됩니다. 예로, 100 bp read를 기준으로 하여, 100개의 서열이 모두 일치하는 경우는 거의 유일하게 되므로, 해당 위치에 잘 찾아가게 됩니다. 다만, 반복 서열이나 특이적이지 않은 서열의 read는 제대로 mapping이 되지 않을 수가 있는데, 이는 Illumina 방식이 가진 한계점입니다. 보통 이 과정은 BWA (Burrow-Wheeler Aligner)라고 하는 프로그램으로 진행하게 됩니다.

fastq
개별 Read는 위의 그림과 같은 정보를 포함한 FASTQ 파일 형식으로 생산됩니다.

 

II. 정렬된 정보를 binary format으로 변경하기 (SAM to BAM): 위의 과정을 거친 SAM 파일은 여전히 용량이 매우 큽니다. 따라서, 용량을 절약하기 위해서 컴퓨터가 이해하는 2진법의 binary 형식으로 변경하면서 용량을 줄이고 연산 속도를 올립니다. 이 과정을 거친 파일이 흔히 말하는 1차적인 BAM 파일이 됩니다.

bam
인간 표준 유전체 서열에 개별 Read들이 정렬된 모습. BAM 파일

 

III. 개별 위치의 Base quality 보정하기 (Quality Control 과정): 1차적으로 read들이 표준 유전체에 정렬되면, 이것이 제대로 찾아 들어간 것인지를 평가하기 위해, 유전체 개별 위치에 대해 각각의 read 정보를 토대로 제대로 정렬된 것인지를 평가하고, 보정해주는 과정을 거칩니다. 특히, Indel이 발생한 read들의 경우, bias가 크기 때문에 따로 Indel realignment 라는 과정을 거치고, 개별 염기 위치에 대해서도 다시 한번 보정을 해주는 Base Recalibration 과정이 존재하게 됩니다.

IV. Variant Calling (BAM to VCF): 마지막 과정은 BAM 파일에서 실제로 변이를 검출하여, 변이들만 추출하는 과정입니다. Germline인지 Somatic mutation 인지에 따라서 다양한 알고리즘을 이용하게 되는데, Germline의 경우 가장 대표적으로 Haplotypecaller를 이용하게 됩니다.

V. Variant Annotation: 4번 단계까지 거치면, 무수히 많은 변이 정보를 포함하는 VCF 파일이 얻어지게 됩니다. 이렇게 call된 변이들 중 일부는 error를 일부 포함하고 있기 때문에, 보정 및 QC 과정을 한번더 거치게 됩니다. (Variant Recalibrator) 이후에 QC 과정을 거쳐서 Filtering된 변이들 중에서 관심 있는 변이만 얻기 위해서는, 기존 데이터 베이스의 자료를 토대로 각각의 검출 변이에 대해서 신원을 식별하고, ID를 발급하는 일종의 annotation 하는 과정이 필요합니다. 보통 이 과정에서 다양한 툴들이 이용되는데, 가장 대표적으로 Annovar 프로그램을 이용하여, gnomAD DB 등의 자료를 이용하게 됩니다. 최근에는 GATK의 Funcotator에서 기본적인 annotation을 지원하고 있습니다.

 

개별 과정의 코드까지 전부 올리기에는 너무 양이 많아질 것 같아서, 이번 포스팅에서는 전체 흐름에 대해서만 간략히 다루도록 하겠습니다. 다음 포스팅에서는 개별 변이를 해석하는 방법에 대해서 조금 더 자세히 다루도록 하고, 이번 포스팅은 여기서 마치도록 하겠습니다.

 

[Reference]

GATK Best Practice Forum https://software.broadinstitute.org/gatk/

Annovar http://annovar.openbioinformatics.org/en/latest/

Excel을 이용한 Forest plot 그리기

최근에 논문 작업에 집중하다보니 블로그 업데이트가 소홀해지게 되네요. 오늘은 최근 논문 작업을 하면서 유용하게 활용하였던, 엑셀을  이용한 Forest Plot을 그리는 내용을 포스팅해볼까 합니다. 저도 코딩은 남이 만든 것들은 살짝 바꿔서 사용하는 초보라서, 코딩 후 프로그램을 이용해서 그리는 것보다는, 그림을 기호에 맞게 요리 조리 수정하는데는 아무래도 엑셀과 파워포인트가 더 쉬운 사람입니다. 그래서 논문 Figure 작업을 할 때는 엑셀을 이용하여 뼈대를 그리고, 파워포인트로 세부적인 내용들을 수정해주는게 아무래도 편합니다.

흔히 메타 분석(Meta-analysis)이라고 하는 분석법은 다양한 논문에서 보고한 어떤 인과 관계들을 종합적으로 합쳐서 더 큰 사이즈에서 분석을 하는 방법으로 분석 위의 분석이라고 불리고 있습니다. 이러한 메타 분석에서 자주 사용하는 Plot 중에 하나가 Forest plot이라고 부르는 숲 도표인데요. 다양한 요인에 대해서 어떠한 이벤트가 발생할 위험도(Hazard ratio, HR) 또는 오즈비(Odds ratio, OR)를 도표로 나타내게 됩니다. 아래 슬라이드는 OR를 계산하는 방법을 나타내주고 있는데, 쉽게 말해서 오즈비는 어떤 조건에 노출된 그룹과 그렇지 않은 그룹 간에 어떤 이벤트 (흔히 질병)가 얼마나 더 많이 발생했는가를 비율로 나타낸 것으로 이해하면 됩니다. 즉, OR가 클수록 질병과 노출된 조건 간에 강한 인과 관계를 갖고 있게 됩니다.

maxresdefault

 

아래 링크의 논문은 친절하게도 이러한 Forest plot을 엑셀을 이용하여 그리는 방법을 친절하게 설명해주고, Supplementary data에는 무려 해당 엑셀 파일을 가져다 쓸 수 있게 제공해주고 있습니다. 아래 링크의 파일을 다운로드 받아서, 그리고자 하는 데이터를 집어 넣으면 손쉽게 Forest plot을 그릴 수가 있습니다. 아래 그림은 해당 링크가 제공하는 파일을 이용하여 그린 Forest plot 되겠습니다.

13104_2011_Article_1382_Fig2_HTML

 

추가로, 엑셀로 Forest Plot을 그리는 방법을 친절히 설명하고 있는 6분 짜리 유튜브 영상과 다른 유용한 웹사이트도 첨부합니다. 아래 사이트에서도 역시 엑셀 예시 파일을 제공하고 있으니, 적절하게 변형해서 사용하면 무리없이 그림을 그릴 수가 있습니다. 세부적인 에러바나 색깔을 엑셀의 기능을 이용하여 변경하고, 완성된 그림은 홈> 복사> 그림으로 복사> 화면에 표시된대로를 이용해서 파워포인트로 메타 형식으로 전송하고, 역시 그림 편집 기능을 이용하여 각각의 세부적인 내용을 더 다듬어 주면 예쁜 그림을 그릴 수가 있습니다.

 

 

FOREST PLOTS IN EXCEL

 

 

[Reference]

Neyeloff, Jeruza L., Sandra C. Fuchs, and Leila B. Moreira. “Meta-analyses and Forest plots using a microsoft excel spreadsheet: step-by-step guide focusing on descriptive data analysis.” BMC research notes 5.1 (2012): 52.

Electronic supplementary material

https://static-content.springer.com/esm/art%3A10.1186%2F1756-0500-5-52/MediaObjects/13104_2011_1382_MOESM1_ESM.XLSX