Mila 이야기와 Antisense oligonucleotides 치료제

Mila 이야기와 Milasen 약물에 대해서는 언젠가 한번 정리하고 싶었던 내용이었는데, 때마침 최근에 개최되었던 2021년 미국 인간유전학회 (ASHG)에서는 Mila 이야기에 관한 최신 업데이트 내용이 발표되었습니다. 이에 관련 내용에 대한 포스팅을 작성하려고 합니다. 제가 현재 속해 있는 보스턴 어린이 병원 (Boston Children’s Hospital) 의 연구진들은 Mila라는 희귀 질환 환우를 위한 맞춤 치료 (Personalized therapy) 를 제공하기 위해 치료제를 개발하게 되는데, 이 과정이 Mila의 이야기, 그리고 치료제는 ASO 약물인 Milasen이 됩니다.

Mila 이야기와 Milasen

보스턴 어린이 병원 (Boston Children’s Hospital) 소속 Timothy Yu 박사와 소아 희귀 질환인 Batten Disease 환아인 Mila, 그리고 Mila의 엄마

Mila는 전장 유전체 시퀀싱 (Whole-genome sequencing) 을 통한 유전자 검사를 통해, MFSD8 (CLN7) 유전자의 문제로 발생하는 희귀 질환인 Batten 병을 진단 받게 됩니다. 이에 연구진들을 Antisense oligonucleotides (ASO) 라는 물질을 이용하여, Mila의 유전병이 발생하는 원인을 차단하여 증상을 개선시키는 Mila만을 위한 치료제를 개발하는데 착수하였습니다. 이는 Mila가 가지고 있는 특정 돌연변이를 타겟으로 하는 환자 맞춤 치료 약물 (Personalized drug) 이기에, 약물의 이름도 Mila의 이름을 따서 Milasen이라고 붙여지게 됩니다. 이에 따라 이 약물의 임상 시험도 “n of 1 clinical trial” (다수의 환자 중 단 한명을 위한 임상 시험)이라고 부르게 됩니다. (참고로 본 연구는 현재 KAIST에 계시는 김진국 교수님께서 1저자로 참여하여 진행되었습니다.)

Mila는 2016년 위와 같이 해당 질병을 진단받고, 질병의 발생 메커니즘을 이해하고, 이를 치료하기 위한 기전에 맞는 약물을 개발하여, 임상 시험에 들기까지 연구진의 많은 노력 끝에 Milasen이라는 약물이 탄생하게 됩니다. 그러나 Mila는 맞춤 치료제에도 불구하고, 최근 안타깝게도 사망하였다고 합니다.

2021년 미국 인간유전학회 (ASHG)에서 Yu 박사의 발표에 따르면, 이러한 희귀 질환은 더 이른 시기에 빠른 진단을 통해서 치료가 빨리 이뤄져야하기에, 이러한 안타까운 결과가 나오지 않았는가 생각된다 합니다. Mila의 이야기는 비록 해피 엔딩으로 끝나지는 못했지만, 다수의 많은 희귀 질환 (Rare disease) 환자들에게 새로운 희망을 줄 수 있는 개별 맞춤 치료제에 대해 많은 부분들을 시사해줍니다. 이러한 교훈을 바탕으로, 최근에는 더 많은 환자들에게 해당 치료제를 개발하고 안전하게 적용할 수 있는 많은 임상시험들이 진행되고 있습니다.

Mila에 이어, ASO 약물 치료를 시작하게된 많은 희귀 질환 환자 중 한명인 Kuzu. 위 환아는 신경계 이상 질환인 Ataxia-telangiectasia를 3세에 진단받고, Mila보다 조금 더 이른 시기에 치료를 시작하였고, 현재까지 해당 질환의 많은 이상 증상들이 나타나지 않고 있다고 합니다. 연구진에 의하면 아직까지 약물 치료제가 완벽한 성공을 거두었다고 말하기에는 이르지만, 기대가 되는 결과 임에는 분명합니다.

Antisense Oligonucleotides 약물의 작용 기전

Antisense Oligonucletides (ASO)는 위와 같은 기전을 통해, 유전자의 발현을 교정함으로써 이루어지게 됩니다. 돌연변이를 가지고 있는 환자의 이중 나선 DNA에 달라붙는 ASO를 디자인하여, 문제가 있는 유전자의 발현을 교정하는 것이지요. 이상이 있는 단백질이 많이 발현하는 경우에는, 1) 이상 단백의 발현이 일어나지 않게 ASO와 결합하여 분해를 유도 (RNAse H cleavage, RNA interference) 하거나, 2) 이상 단백의 발현을 구조적으로 방해 (Steric hindrance) 하게 됩니다. 반대로, 기능이 망가진 단백질이 발현하는 경우에는 정상 단백질의 발현을 유도하기 위해, 3) 유전자 발현 과정 중 Splicing 위치를 교정 (Splice modulation) 함으로써, 이상 단백질의 발현을 정상화 시킵니다. 위에서 언급한 Mila의 경우에는, 위 그림 중 splicing의 이상이 발생한 경우로 Milasen을 2b)의 기전을 통해 Splice modulation을 함으로써 치료제로 작용하게 됩니다.

다만, 위와 같은 치료제는 어떻게 환자의 이상이 발생하는 부위만 특이적으로 타겟할 것인가? 어떻게 효율적으로 환자의 이상이 있는 부위에 전달하는가?와 같은 기술적 문제를 포함하게 됩니다. 특히 ASO의 경우, 외부 물질로 인식이 되기에 면역 반응을 유도할 수 있고, 주사 부위 염증 반응 등의 부작용을 흔하게 발생시키게 됩니다. (Mila의 경우에는 척수강 내에 주입하여, 치료제를 전달하였다고 합니다.)

Milasen의 치료제 개발 및 검증을 위한 전략 및 과정을 보여주는 그림

관련 포스팅 보기

앞으로는 유전자 검사가 점점 보편화 되면서, 희귀 질환 환자의 유전 질환의 진단률이 점점 높아질 것으로 보입니다. 이와 더불어 해당 질환의 진단을 통해, 질환의 발생 메커니즘을 이해하게 되면, 이를 통해 환자에게 점점 맞는 맞춤 치료법들도 함께 개발될 수 있을 것으로 기대됩니다. 다만, 이러한 치료제들이 개발되기에는 많은 현실적 장벽들이 남아 있으며, 특히 Mila의 이야기는 환우회, 지역사회 등이 재단을 설립하고, 병원 및 연구소 등이 협력하여 치료제를 개발함으로써 앞으로의 희귀 질환 치료가 나아가야할 방향을 제시해주고 있다는 점에서 많은 시사점을 던져주고 있습니다.

References

관련 기사: https://www.science.org/content/article/personalized-rna-drugs-may-soon-be-available-more-rare-genetic-diseases

Mila 재단 홈페이지: https://www.milasmiracle.org/

Kim, Jinkuk, et al. “Patient-customized oligonucleotide therapy for a rare genetic disease.” New England Journal of Medicine 381.17 (2019): 1644-1652.

Dhuri, Karishma, et al. “Antisense oligonucleotides: an emerging area in drug discovery and development.” Journal of Clinical Medicine 9.6 (2020): 2004.

구조 변이 annotation tool: AnnotSV

유전체 정보로 부터 임상적으로 중요한 변이를 검출하기 위해서는 NGS 시퀀싱 기기의 read 정보로부터 변이 검출까지의 파이프 라인 못지 않게, 얻어낸 수많은 변이로 부터 병인에 중요한 역할을 할 것으로 생각되는 후보 변이를 필터링하는 전략이 매우 중요하게 됩니다. 따라서 적절한 데이터 베이스로 부터 Annotation을 하는 과정은 매우 중요하게 되는데, 이번 포스팅은 다양한 변이 중에서 구조 변이 (Structural variation; SV)을 대상으로 Annotation을 할 수 있는 도구 중에 하나인 AnnotSV에 대해서 소개하고자 합니다. AnnotSV는 이전에 소개했던 Annovar의 CNV (copy number variant) 버젼에 해당한다고 볼 수 있습니다.

[관련 포스팅 보기]

AnnotSV는 다양한 구조 변이의 Annotation 기능 뿐만 아니라, ACMG (American College of Medical Genetics)에서 권장하는 구조 변이의 판독 기준에 따라서, 해당 변이의 중요도를 5가지 카테고리로 구분해줍니다. Input으로는 bed 파일 또는 vcf 파일을 받으며, 다양한 유전자, 조절 인자, 기존에 알려진 병적 변이, 질병과의 연관성 등을 기준으로 ACMG class를 보고해줍니다. 위 그림은 AnnotSV의 이러한 분석 과정을 보여주고 있습니다.

[bed 파일의 기본 구조] bed 파일은 1) 염색체 번호 (Chromosome), 2) 시작 지점 (Start), 3) 끝 지점 (End)의 3가지 기본적인 정보를 토대로 유전체 내의 특정 범위에 대한 정보를 제공해줍니다.

구조 변이 (CNV)의 경우, 적은 수의 염기 변이 (SNV)보다 short-read sequencing을 이용하는 경우, 기술적으로 검출하는 해상도의 한계가 있으며 (deletion보다 duplication 검출이 어려움. 충분한 Depth와 Supporting read가 확보되어야 하며, 이 때문에 translocation도 검출이 어려움.) 변이의 해석도 더 어려운 경우가 많습니다. 따라서, 적절한 한계점을 인지하고 적절한 분석 방법론을 적용하는 것이 중요하며, 현재도 많은 부분들이 현재 진행형으로 연구가 되고 있는 분야입니다.

다만, 최근 ACMG에서 구조 변이의 임상적 해석을 위한 Criteria를 제시해주어, 많은 부분 임상적으로 활용이 가능해진 부분이 있습니다. (아래 참고 논문: Riggs, Erin Rooney, et al. Genetics in Medicine 22.2 (2020): 245-257) 그동안 구조 변이의 해석에 여러가지 어려운 점들이 많았는데, 최근 이 쪽 분야도 많은 툴들과 방법론 들이 개발되고 있는 것 같습니다. 그런 점에서 AnnotSV는 구조 변이를 연구하고 해석하는 입장에서 매우 유용한 툴임이 분명합니다.

[References]

AnnotSV Github: https://github.com/lgmgeo/AnnotSV

AnnotSV Homepage: https://www.lbgi.fr/AnnotSV/

Geoffroy, Véronique, et al. “AnnotSV: an integrated tool for structural variations annotation.” Bioinformatics 34.20 (2018): 3572-3574.

Geoffroy, Véronique, et al. “AnnotSV and knotAnnotSV: a web server for human structural variations annotations, ranking and analysis.” Nucleic Acids Research (2021).

Riggs, Erin Rooney, et al. “Technical standards for the interpretation and reporting of constitutional copy-number variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics (ACMG) and the Clinical Genome Resource (ClinGen).” Genetics in Medicine 22.2 (2020): 245-257.

리젝에 대처하는 마음가짐: How to deal with paper rejection

최근에 동시에 진행하고 있는 일들이 많다보니, 블로그 업데이트는 제일 먼저 우선 순위에서 밀려나는 것 같습니다. 그러다 최근에 Reject 메일을 받아서, 안그래도 한번 쓰고자 했던 내용인 대학원 생활 중 가졌으면 하는 리젝에 대처하는 마음가짐에 대한 글을 써볼까 합니다. 논문을 내고 Rejection mail을 받는 것은 모든 연구자들의 숙명이 아닐까 합니다 (사실 밥먹듯이 하는 일). 지금은 이러한 과정이 매우 중요하다는 것을 알고 익숙해지긴 했지만, 그래도 리젝을 당하는 경험 자체가 썩 기분 좋은 일을 아닐 겁니다. 특히나 매우 공들였던, 가능성이 있다고 생각했던 저널로 부터 받는 Rejection 메일이라면, 더더욱 멘탈에 금이 가는 경험을 하게 됩니다.

[관련 포스팅 보기]

Basic mind-set

기억을 돌이켜, 전공의 시절 엄청 수고를 들였던 논문이 기대했던 저널로부터 리젝을 받았을 때의 정신적 충격은 생각 외로 컸습니다. 특히나 3개월 이상 걸렸던 긴 리뷰 시간과 납득하기 어려운 게제 거절 사유를 접했을 때의 분노, 충격, 우울감이란.. 지금 돌이켜보면 참 별 것 아니었는데, 당시에는 거의 한달 가까이 삶과 사람의 몰골이 피폐해졌던 같습니다. (마치 짝사랑하던 사람에게 차인 정도의 정신적 데미지랄까요) 다음은 리젝을 받아들이고 다음 단계로 나아가기 위해 도움이 될 만한 제가 생각하는 기본적인 마음 가짐입니다. (말은 이렇게 하지만 저는 언제쯤 리젝 메일에 아무런 흔들림이 없을 수 있을까요?ㅎㅎㅎ 아직 수양이 부족한 것 같습니다.)

  • 단 한번도 리젝을 받지 않은 논문은 제대로 된 논문이 아니다: 리젝은 연구에 대한 일종의 Quality Control (검수 과정)이기 때문에, 필연적으로 피할 수 없을을 인정해야합니다.
  • 모든 리젝에는 이유가 있다: 비록 내가 감정적으로 납득이 어렵다 하더라도, 모든 리젝에는 이유가 있습니다. 일정 기간 쿨 다운 후 내가 리젝을 받은 이유에 대해서 객관적으로 찬찬히 따져보는 게 좋습니다. 어떻게 보면 더 나은 논문을 위해서, 다시 개선할 수 있는 기회를 부여 받은 셈이니까요.
  • 한번의 억셉을 위해서 적어도 3~4번, 많게는 10번까지도 리젝을 적립(?)해야 한다: 이번 리젝이 한번의 억셉을 위해 나아가는 과정으로, 이렇게 또 하나의 리젝을 적립했구나 생각하면 좀 마음이 편합니다.

What to Do When Your Paper Is Rejected

Journal of Graduate Medical Education이라는 저널도 있군요. 다음은 아래의 참고 문헌에서 말하는 리젝을 받았을 때, 무엇을 하면 좋은지에 대한 내용입니다. 자세한 내용은 링크를 참조하세요.

  • Take Your Pulse
  • Reading the Rejection Letter
  • Following the Author Instructions
  • Matching Paper to Journal
  • Obtaining Additional Data or Reanalyzing Existing Data
  • Resubmitting to the Same Journal or a New Journal

How to deal with paper rejection

마지막으로 아래는 제가 추가로 생각하는 리젝의 경험을 기회로 살려 활용하기 위한 몇가지 개인적인 팁 입니다.

  • Cooling-down phase: 잠시 동안 리젝 메일을 멀리하고, 다른 일들에 집중합니다. 운동과 산책, 쇼핑이나 게임 등 스스로 환기할 수 있는 활동들을 하면서, 마음을 차분하게 가라앉힙니다. Resilience 가 좋다면 하루 이틀 정도, 데미지가 크다면 1~2주 정도 또는 그 이상의 기간도 좋습니다. (사실 동시에 여러 프로젝트를 하다보면, 자연스럽게 다른 일을 하면서 쿨텀이 차게 됩니다.)
  • 저 단계를 벗어났다면, 리젝 메일을 읽어보고, 객관적으로 제 3자가 나의 논문을 어떻게 판단하였는지 분석합니다. 너무 논문의 목표를 높게 잡은 것은 아닌지 (Desk Reject), 다른 사람이 보기에 내가 부족했던 내용은 무엇인지 (리뷰 후 리젝), 이러한 피드백을 바탕으로 나의 논문을 어떻게 개선 시킬 것인지에 대한 전략을 수립합니다. 만약 개선이 가능한 부분 (추가 실험 또는 데이터, 논문의 서술 등)이 있다면, 이를 어떻게 적용할지에 대해서 생각해 봅니다.
  • 타겟 저널에 대해서 다시 생각해보기: 데스크 리젝이 되는 경우에는 나의 논문이 해당 저널에서 관심이 없는 경우일 가능성이 높습니다. 따라서, 해당 주제에 대해서 흥미를 가질 만한 다른 저널들이 무엇이 있을지에 대해서 다시 전략을 수립합니다.

[References]

Sullivan, Gail M. “What to do when your paper is rejected.” (2015): 1-3.

Three ways to turn the page after your first paper rejection

GTEx portal: eqtl, sqtl database

최근의 많은 연구는 Multi-omics data를 활용하여, 대부분 non-coding region에 존재하는 GWAS에서 발굴한 질환 관련 loci가 유전자 발현 수준 (Transcriptome) 또는 발현 조절 (Epigenome)과 관련된 곳임을 입증함으로써, 질병 메커니즘을 설명하려는 방향으로 나가고 있습니다. 특히, 그동안 설명이 되지 않았던 많은 Complex Trait Disease의 경우, 이러한 접근 방법이 추가적으로 많은 생물학적 이해를 가져왔습니다.

[관련 포스팅 보기]

특히, 유전자의 발현과 조절의 경우에는 세포 특이적 (cell type-specific)으로 일어나는 경우가 많기 때문에, 위와 같은 연구를 위해서는 질환 발생을 설명할 수 있는 적절한 세포 수준에서의 Multi-omics 데이터가 확보되어야 합니다. 이러한 연구를 위해 가장 널리 활용되고 있는 곳은 GTEx portal (https://gtexportal.org/) 인데, 현재까지 54개의 조직에서의 유전자 발현량과 유전형과의 관계에 대한 database 를 제공해주고 있습니다.

특히, GTEx의 경우에는 누적된 샘플들을 이용하여, 통계적으로 유전자의 발현과 관계된 Expression Quantitative Trait Loci (eQTL)sQTL (Splicing Quantitative Trait Loci)을 계산하여, 제공하고 있습니다. 추가로, cis-eQTL이 존재하는 eGene과 cis-sQTL이 존재하는 sGene에 대한 정보도 제공합니다.

다만, 대부분 유전자의 발현량과 조절은 세포의 종류에 따라 달라지게 됩니다. 따라서, bulk RNA-seq에서 계산한 eQTL과 sQTL과 달리, 최근에는 세포의 종류를 구분하여 eQTL과 sQTL을 계산하고, 이를 구분하여 cell-type interaction이 있기 때문에 ieQTLisQTL이라고 부르고 있습니다. 아래 그림의 C는 전체적으로는 유전자 발현량에 영향이 없지만, Keratinocyte에서 CNTN1의 발현량이 달라지는 ieQTL의 효과를 보여주고 있습니다. 현재 GTEx에서는 조직 수준으로 이를 구분하여 제공하고 있지만, 추후에는 single-cell resoulution으로 모든 세포의 종류에 따른 개별 eQTL과 sQTL database가 구축되지 않을까 기대해 봅니다.

[Reference]

GTEx portal (https://gtexportal.org/)

GTEx Consortium. “The GTEx Consortium atlas of genetic regulatory effects across human tissues.” Science 369.6509 (2020): 1318-1330.

Kim-Hellmuth, Sarah, et al. “Cell type–specific genetic regulation of gene expression across human tissues.” Science 369.6509 (2020).

AlphaFold를 이용한 단백질 구조 예측

최근 Alphafold의 소스 코드와 전체 단백질 예측 구조 데이터 베이스가 공개되면서, 정말 다양한 방면에 활용이 가능할 것으로 생각되고 있습니다. 유전체 연구자의 입장에서는 Alphafold를 이용하면 수 많은 변이들의 in-silico structural prediction이 가능하기에, 과거에 존재하던 variant prediction tool들 보다 훨씬 강력하고 정확한 예측 도구가 나타날 것으로 생각됩니다. 이번 포스팅은 공개된 Alphafold2의 소스 코드와 데이터 베이스 자료를 정리해보고자 합니다.

[Alphafold2 모델 모식도]

Alphafold2의 경우, 기존에 실험적으로 17% 정도만 알려져있던 단백질의 3차원적인 구조를 딥러닝 기법을 활용하여, 존재하는 거의 모든 단백질에 대해서 높은 정확도로 예측하여 해당 구조를 데이터베이스로 제공하고 있습니다. 이는 과거에 알지 못했던 많은 단백질의 3차원 구조들에 대한 높은 예측을 제공하기 때문에, 완전히 새로운 필드를 열었다고 해도 과언이 아닙니다. 특히나 단백질의 3차원 모델화가 가능하다는 것은 이 모델을 활용하여 추후에 파생되는 약물 상호 작용이나 변이의 효과에 대한 예측도 가능하다는 이야기가 되기 때문에, 그 파급력은 더욱 클 것으로 생각됩니다.

현재 AlphaFold Protein Structure Database는 약 2만개의 단백질에 대한 정상 구조를 예측되어 제공하고 있지만, 개인적으로는 인간의 유전체에 존재하는 수 많은 변이 (Missense & Indel variants) 에 대해, mutant protein 들의 예측도 포함하는 Database가 update가 되길 기대해 봅니다. 현재까지의 아미노산 서열의 변화에 대한 많은 예측 Tool이 개발되었지만, 임상적으로 해석하고 활용하기에는 많은 한계가 있었는데, 최종 변이 단백질의 구조를 높은 정확도로 예측할 수 있다면, 그 해석과 활용도 용이해지기 때문입니다. 단백질 하나에 존재할 수 있는 아미노산 변이의 종류는 수만가지가 넘을 것이기 때문에 (아미노산 20종 x 단백질 서열 크기 500~2,000개 아미노산), 이러한 Database를 구축하기 위해서 컴퓨터가 연산해야할 데이터량이 무지막지하겠지만, 결국에는 이러한 in-silico saturated mutagenesis proteome Database도 추후에 구축되지 않을까 예상합니다. (비트 코인 채굴하는 자원이면, 금방 될 듯 합니다…)

[관련 포스팅 보기]

[References]

Deepmind Blog 소개 글: https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

Open source github 자료: https://github.com/deepmind/alphafold/

AlphaFold Protein Structure Database: https://alphafold.ebi.ac.uk/

Jumper, John, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature (2021): 1-11.

Jumper, J., Evans, R., Pritzel, A. et al. “Highly accurate protein structure prediction with AlphaFold”. Nature (2021).

Epigenomic profiling을 위한 ATAC-seq

최근 많은 연구들에서 유전자 자체의 염기 서열과 발현량 못지 않게, 유전자 발현을 조절하는 Epigenetics가 다양한 생물학적 메커니즘에 매우 중요하게 작용하는 것으로 밝혀지고 있습니다. 이번 포스팅은 지난 번 포스팅에 이어, Epigenetics 정보를 얻는데 널리 쓰이는 Assays for Transposase Accessible Chromatin with high-throughput sequencing (ATAC-seq)에 대해서 정리해 보고자 합니다.

Epigenetics와 관련된 정보를 얻는 방법은 매우 다양합니다. 아래 그림과 같이, 일종의 표지자로 작동하는 DNA methylation 정보나 염색질의 접근도, 전사 인자의 결합력, 유전체의 3차원적인 구조 변화 등이 모두 유전자 발현과 관련된 후성 유전학적 정보들을 제공해주게 됩니다. 그러나, 최근에 가장 널리 쓰이는 Epigenome 시퀀싱 방법은 염색질의 접근도 (Chromatin Accessibility) 와 관련된 정보를 제공하는 ATAC-seq입니다.

[관련 포스팅 보기]

먼저, ATAC-seq의 단어의 의미를 살펴보면, 다음과 같습니다.

Assays for Transposase Accessible Chromatin with high-throughput sequencing = Transposase 가 접근 가능한 염색질 (chromatin)을 검사하는 높은 처리량의 시퀀싱 기법

유전자가 발현하기 위해서는 실타래와 같이 뭉쳐있던 염색질 (Chromatin) 구조에 변화가 일어나야 합니다. 즉, Heterochromatin 상태 (closed) 에서 Euchromatin 상태 (open) 로 변화가 일어나면서, 유전자 발현과 관계된 다양한 transcription factor들이 물리적으로 접근을 하게 됩니다. ATAC-seq은 Tn5 transposase라고 하는 인공적으로 합성하여 활성을 높힌 transposase를 사용하여, Open chromatin 상태의 염색질들에 Adaptor를 붙히고, 시퀀싱을 하게 됩니다.

Open chromatin 상태의 염기 서열들은 Transposase가 붙인 Adaptor로 인해, 시퀀싱이 많이되어 read가 만들어지고, 반대로 Closed chromatin 부위는 read가 생산되지 않게 됩니다. 즉, 아래 그림과 같이 시퀀싱을 통해, 증폭 부위의 정보를 얻게되면, 거꾸로 어떤 부위가 Open chromatin 상태이고, 어떤 부위가 Closed chromatin 상태인지에 대한 정보를 얻을 수 있게 됩니다.

최근에는 Single cell sequencing 기술과 접목하여, single cell ATAC sequencing (scATAC-seq)을 통해 세포 개별 Chromatin Accessibility 정보를 얻는데 많이 사용하고 있습니다. 더불어, single cell RNA sequencing (scRNA-seq) 과 함께 시행하여 다양한 세포군을 구분하고, 발생 과정에 따른 유전자 발현 패턴을 알아보는데 상호 보완적으로 사용하기도 합니다. 다양한 시공간 상에서 일어나는 생명 현상을 기술적 발전을 통해 점점 다양한 차원에서 분석함으로써, 질병의 발생 메커니즘을 이해하고, 치료하는데 응용하기 위한 다양한 생물학 분야의 연구가 진행되고 있습니다. 이러한 시도는 정밀 의료를 위한 다양한 연구의 밑거름으로 중요하게 생각되고 있습니다.

single cell ATAC-seq과 RNA-seq을 동시에 시행하여, 세포 발생 과정에서 유전자의 발현을 분석하는 SHARE-seq 방법.

[ References ]

Buenrostro, Jason D., et al. “Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position.” Nature methods 10.12 (2013): 1213-1218.

Luo, Cheng, Alisdair R. Fernie, and Jianbing Yan. “Single-cell genomics and epigenomics: technologies and applications in plants.” Trends in Plant Science 25.10 (2020): 1030-1040.

Ma, Sai, et al. “Chromatin potential identified by shared single-cell profiling of RNA and chromatin.” Cell 183.4 (2020): 1103-1116.

[스크랩] Writing a Review Article

연구 논문 못지 않게, 연구자들이 많이 보는 것이 그 동안의 연구 동향과 방향을 정리해 놓은 리뷰 논문인 것 같습니다. 이번에 좋은 기회에 미국의 PI의 제안으로 리뷰 논문을 준비하게 되어, 리뷰 논문 작성시 고려해야할 10가지를 정리한 논문 (논문을 정리하는 리뷰 논문을 위한 논문?)과 리뷰 논문 작성시 하게 되는 흔한 실수들에 대해 스크랩합니다.

Ten Simple Rules for Writing a Literature Review

  • Rule 1: Define a Topic and Audience
  • Rule 2: Search and Re-search the Literature
  • Rule 3: Take Notes While Reading
  • Rule 4: Choose the Type of Review You Wish to Write
  • Rule 5: Keep the Review Focused, but Make It of Broad Interest
  • Rule 6: Be Critical and Consistent
  • Rule 7: Find a Logical Structure
  • Rule 8: Make Use of Feedback
  • Rule 9: Include Your Own Relevant Research, but Be Objective
  • Rule 10: Be Up-to-Date, but Do Not Forget Older Studies

Mistakes We Make When Writing Review Articles

  • Unimportant topic: ask several colleagues whether they might be interested in
  • Stale rehash: Be sure that you are saying something new about the topic.
  • A timely topic, but already covered
  • Getting lost along the way: Make an outline with major headings, and stick to it.
  • Article too long: this is one of the most common problems in medical writing.
  • Too many or too few references: Avoid this mistake by studying similar articles published in your target journal.

[ References ]

Pautasso, Marco. “Ten simple rules for writing a literature review.” PLoS computational biology 9.7 (2013): e1003149.

Taylor R.B. (2018) How to Write a Review Article. In: Medical Writing. Springer, Cham. https://doi.org/10.1007/978-3-319-70126-4_6

[유전학 중요개념 정리] 오믹스 (Omics) 와 단일 세포 시퀀싱 (Single cell sequencing)

현재 있는 미국의 연구실은 다양한 Omics 데이터를 종합적으로 분석하여, 소아 신증후군의 정밀 의료 실현을 위한 연구를 진행하고 있습니다. 아래의 관련 포스팅과 같이, 다양한 유전체 연구 결과 대부분의 복합질환 질병 발생은 유전체의 유전자 발현을 조절하는 부분, 그리고 non-coding 영역에 존재함을 확인하게 되었습니다. 이에 연구자들은 이러한 부분이 어떠한 기작을 통해서, 질병을 발생을 시키는지에 대한 연구를 진행하고 있으며, 이러한 연구 방법론의 하나로 다양한 오믹스 관련 생명 정보들을 통합적으로 분석하고 있습니다. 오늘은 (최근에 미국의 PI와 관련 리뷰 논문을 준비하게 되어,) 오믹스 관련 분석 중에서 중요한 단일 세포 시퀀싱 (Single Cell Sequencing) 기술에 대해서 정리하는 포스팅을 남기고자 합니다.

[관련 포스팅 보기]

Omics의 개념

단일 세포 시퀀싱을 언급하기에 앞서, Omics 의 개념에 대해서 간단히 정리하고자 합니다. -ome은 집합체 (집단, 묶음)를 의미하는 접미어로 Genome (유전자의 집합체 = 유전체), Epigenome (후성 유전인자의 집합체 = 후성유전체), Transcriptome (전사인자의 집합체 = 전사체), Proteome (단백질의 집합체 = 단백체) 등 일반적으로 생물 유래의 집합체를 모두 총칭합니다. 아래 그림과 같이, 이외에도 Metabolome (대사체), Microbiome (미생물군유전체) 등을 포함하고 있습니다. 인간의 유전자 서열 (Genome)은 고정되어 있지만, 조직과 세포 종류에 따라서 유전자의 발현이 달라지고, 그에 따라 단백질의 양과 기능도 달라지게 됩니다. 즉, 유전자 서열을 해독하는 것 이상으로 훨씬 더 복잡한 유전자의 조절 기작을 이해하는 것이 질병 발생 메커니즘을 밝혀, 치료에 적용하는데 매우 중요하게 됩니다. 따라서, 유전자 서열 만으로는 설명이 되지 않는 많은 부분들은 그 보다 더 높은 차원에 존재하는 다양한 Omics들을 분석함으로써 이해하고자 하는 것이 Omics의 목표입니다.

단일 세포 분석이 왜 중요한가? Bulk vs. Single cell

우리 몸의 모든 세포는 체세포 변이 (Somatic mutation)를 제외하고 기본적으로 동일한 유전자의 염기 서열 (Germline)을 공유하고 있습니다. 그러나 조직과 기관에 따라 다양한 세포군이 서로 다른 기능을 수행하면서 생명현상을 이어나가고 있습니다. 따라서 세포의 종류에 따라 세포 특이적인 유전자의 발현 패턴의 차이를 확인하는 것은 매우 중요하게 됩니다. 그러나 전통적인 Bulk RNA-seq (전사체 시퀀싱)의 경우는 모든 세포들을 하나로 pooling하여 유전자의 발현량의 평균 값만을 구할 수 있게 됩니다. 그에 반해 단일 세포 시퀀싱 (Single cell RNA-seq)은 개별 세포를 세포의 종류에 따라 분류하고, 개별 세포의 발현량을 구할 수 있기 때문에 더 정확하게 개별 세포의 유전자 발현량의 차이를 알 수 있다는 장점이 있습니다. 특히나 종양 세포와 같은 경우에는 이질성 (Tumor heterogeneity)이 매우 크기 때문에, 집단의 유전자 발현이 개별 세포를 모두 대표하기 어려운 경우가 많습니다. 이러한 장점으로 인해, 최근에는 단일 세포의 다양한 omics data를 profiling하는 것이 점점 폭넓게 연구되고 있습니다.

[Bulk vs. Single cell RNA 시퀀싱의 비교] 기술적 발전으로 인해, 개별 세포의 유전자 발현 패턴을 더 정확하게 검출할 수 있게 되었습니다.

어떻게 단일 세포로 분리하는가?

[세포를 단일 세포로 분류하는 다양한 방법들]

위 그림은 세포들을 개별 세포로 분리하는 다양한 기술들을 보여주고 있습니다. 최근 널리 쓰이는 가장 대표적인 기술은 세포들을 개별 미세 유체 방울로 분리하는 Microfluidic droplet 기반의 기술 (Chromium 10X)과 비슷하게 하나의 plate에서 미세하게 세포를 흘려 분리하는 Microfluidic plate 기반의 기술 (Fluidigm C1)이 있습니다. Fluidigm C1 기술은 구분할 수 있는 세포의 수는 적지만 더 폭넓고 많은 전사체 시퀀싱 결과를 얻을 수 있다는 장점이 있고, Chromium 기술은 그에 반해 더 많은 수의 세포를 얻을 수 있지만, 얻을 수 있는 시퀀싱 리드의 정보는 제한적이라는 차이가 있습니다. 아래 표와 같이 연구자들은 실험의 목적에 따라서 각 방법의 장단점을 파악하고 사용하는 것이 좋겠습니다.

다음 포스팅에서는 이러한 단일 세포 분석 기술을 바탕으로 Epigenome과 Transcriptome을 분석하는데 중요한 개념인 scATAC-seq에 대해서 정리하도록 하겠습니다.

[ References ]

Murphy, Rachel. “An Integrative Approach to Assessing Diet–Cancer Relationships.” Metabolites 10.4 (2020): 123.

Kolodziejczyk, Aleksandra A., et al. “The technology and biology of single-cell RNA sequencing.” Molecular cell 58.4 (2015): 610-620.

Kashima, Yukie, et al. “Single-cell sequencing techniques from individual to multiomics analyses.” Experimental & Molecular Medicine 52.9 (2020): 1419-1427.

유전체 데이터 분석을 위한 서버 운영 (feat. harvard e2)

저는 현재 하버드 부속 연구기관 중 하나인 BCH (Boston Children’s Hospital)의 연구 서버 (Researching computing) “E2“를 이용하여, WGS 분석을 진행하고 있습니다. E2는 대략 1000개 이상의 연산용 cpu를 가지고, BCH 소속 많은 연구실의 연구자들의 Bioinformatics 관련 분석을 처리해주는 서버입니다. Genome sequencing 관련 분석은 Target 또는 Exome sequencing과 다르게 그 엄청난 데이터 사이즈로 인하여, 연구용 서버를 이용하여 많은 수의 샘플을 처리하는데 많은 Computational Resource (=cpu&memory)를 요구하게 됩니다. 이번 포스팅에서는 추후 효율적인 연구용 서버의 활용에 참고하기 위해, 하버드 부속 연구 기관에서 다양한 Omics 관련 분석을 위한 연구용 서버를 어떻게 운영하는지에 대해서, 기록으로 남겨두고자 합니다.

[e2 서버의 대략적인 구성과 스펙]

연산 서버와 데이터 저장 서버

기본적으로 연산 서버와 데이터 저장 서버가 나뉘어져 있고, 연산용 CPU 서버는 중앙 관리자가 관리를 맡아서 연구자들이 공유하여 사용할 수 있도록 돕고 있다. 연구를 지원하는 연구 지원 파트에 서버 관리만 전담으로 하는 인력들이 존재한다. (이들의 역할이 서버 유지에 매우 중요함.) 반면, 데이터 저장 (Storage) 공간은 연구실별로 사용료를 지불하고 저장 공간을 구매해서 사용한다. 연산용 서버는 여러 연구실에서 기기를 기증을 받은 후에, 이들을 모두 묶어서 하나의 커다란 Cluster를 구축하였다. 기증자에게는 High Priority (우선권)를 주어 해당 서버에 작업을 던지는 경우, 다른 일반 사용자보다 먼저 작업이 돌아가도록 구축되어 있다. 이렇게 모든 Computational resource를 하나의 Cluster로 구축하면, 더 빠르고 집중적으로 자원을 배분하면서 사용할 수 있기 때문에, 효율적으로 서버를 사용하는데 유리하다. 서버의 연산 작업은 24시간 내내 돌아가는 것이 아니기 때문에, 컴퓨팅 파워를 집약적으로 사용하면서, 동시에 기증자에게는 Advantage를 주어, 운영에 적합한 정책으로 생각된다.

Software Package

기본적으로 서버에 설치되어 있는 프로그램들은 연구를 진행하면서, 흔하게 사용되는 tool들을 위주로 Biogrid라는 Package로 구성되어 있다. 이는 Harvard에서 BioGrids consortium을 구축하여 관리하고 있는데, 대략 300 여개의 Genomics and Bioinformatics toolsets을 포함하고 있다. 해당 패키지는 매일 업데이트 되고, 서버에서는 해당 패키지를 로딩하면 바로 쓸 수 있게 구성되어 있어서, 프로그램을 따로 설치할 필요가 없다. 역시나 BioGrids consortium에는 연구용 프로그램 패키지만을 지원하고 관리하는 인력이 따로 존재한다!

[Dependency 관련 문제] Biogrids 패키지에 속해있는 프로그램들의 경우는 따로 dependency를 고려하지 않아도 되나, 추가적인 프로그램들을 구동하는데 필요한 환경 (Dependency)을 구축할 경우, Docker 또는 Singularity와 같은 Container를 이용하여 Handling을 하도록 되어있다.

[관련 페이지] BioGrids Consortium : https://biogrids.org/

[관련 페이지] Singularity Documentation : https://sylabs.io/guides/2.6/user-guide/index.html

Job Scheduler: Slurm

연산 작업의 매니저로는 Slurm을 이용하여, 관리하고 있다. 모든 사용자들은 Slurm을 통해서만 작업을 제출할 수 있으며, 사용자 정책 (User Policy)을 따라서 사용하도록 교육을 받는다. 사용자에게 할당된 기본적인 디스크는 아래와 같다.

[관련 페이지] Slurm 관련 문서 보기 : https://slurm.schedmd.com/documentation.html

On Demand

추가적으로 E2는 Web-page를 통해 GUI 기반으로 서버에 접근할 수 있는 (Interactive Session) On Demand 서비스를 구축하고 있다. 특히, Jupyter-Notebook, Rstudio, MATLAB, IGV Browser와 같이 범용적이고 흔하게 쓰이는 프로그램의 경우에는, 사용자들이 바로 개인 노트북 등을 통해 서버에 접근하고 작업을 제출하는 용도로 널리 쓰이고 있다.

[NGS DNA-SEQ] Functional Equivalence pipeline: CROMWELL, WDL

gnomAD, TOPMed 등 대규모 유전체 코호트들이 만들어지면서, 여기서 생산된 데이터를 이용하는데 중요한 문제가 부각되었는데, 바로 분석 결과 간의 재현성호환성에 있었습니다. 즉, 연구자가 GATK Best practice를 이용하여 Exome 또는 Genome 시퀀싱 분석을 진행하더라도 어떤 설정과 파라미터 값을 넣느냐에 따라, 최종 검출 변이의 결과가 달라지고, 이것은 연구 결과 간의 재현성의 측면에서 매우 중요한 문제가 되었던 것이지요. 참고논문에서 진행한 실험 결과를 보면, 동일한 샘플로 생산된 FASTQ 파일을 서로 다른 5개의 기관에 보내 각각의 파이프 라인으로 분석한 결과, Call된 변이들 간에 많은 차이가 있었다고 보고하고 있습니다.

[관련 포스팅 보기]

따라서, 점점 늘어나는 유전체 데이터만큼 유전체 분석 파이프 라인을 하나의 표준화된 파이프 라인으로 통합하는 것이 매우 중요해졌고, 그 결과 개발된 것이 “Functional Equivalence (FE)” Pipeline (기능적으로 동등한 파이프라인) 입니다. 사실 NGS 분석을 하는 사용자의 입장에서는 Input만 넣고, Output만 나오면 편한데, 그동안 개발된 툴들은 이를 모두 아우르는 것이 아니라, 그때 그때마다 필요한 부분들을 개발했기 때문에, 분석 파이프 라인도 이제야 어느 정도 성숙 단계에 이르렀다고 할 수 있습니다. 따라서 최근의 대규모 유전체 컨소시엄들은 모두 “Functional Equivalence ” Pipeline 을 통해 생산된 유전체 데이터를 생산하는 것으로 채택하고 있습니다. (그래서 저도 functional equivalent한 결과를 얻기 위해서 최근에 새롭게 공부를 하게 되었습니다.)

[ Functional Equivalence Pipeline Overview]

FE 파이프라인을 제공하기 위해서, Broad Institute의 개발진들은 WDL (Workflow Description Langauge)과 Cromwell이라고 하는 프로그래밍 언어를 개발하는데, 하나의 파이프라인을 패키지로 묶은 WDL 파일을 만들고, 이를 Cromwell이라는 프로그램으로 구동시켜주는 원리라고 합니다. 사실 사용자의 입장에서는 과거에 개별 프로그램을 설치하고, 개별 스텝을 따로 돌려야했다면, 지금은 이러한 것들이 모두 하나의 패키지 형태로 제공되기에 더욱 편해졌다고 할 수 있습니다 (?).

[Cromwell 페이지 바로 가기] https://cromwell.readthedocs.io/en/stable/

[WARP 페이지 바로가기] https://broadinstitute.github.io/warp/docs/get-started/

Cromwell의 로고: 꼬마돼지 베이브와 스타트렉에 출연한 배우 James Cromwell을 오마주한 로고라고 합니다 🙂

병원 검사실을 운영하는데, 검사 장비와 보고 방법을 표준화하는 것은 매우 중요한데, 유전체 분석 파이프 라인에도 이제야 이러한 개념이 들어왔다는 점이 반갑습니다. (분석 파이프 라인 하나도 이렇게 표준화하기가 어렵습니다.) Genome의 경우에는 처리해야할 데이터의 크기가 워낙 방대하기때문에 더욱 어려운 점이 있는 것 같습니다. 현재 이쪽 분야도 많은 Computational Scienctist들이 뛰어들어서 개발을 진행하고 있는 중이기 때문에, 추후에 더 User-friendly하고 간편한 파이프 라인이 개발되어 제공되기를 기대해 봅니다. (점차 대세는 클라우드로 옮겨가지 않을까 합니다?)

[References]

Regier, Allison A., et al. “Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects.” Nature communications 9.1 (2018): 1-8.