[NGS DNA-SEQ] Functional Equivalence pipeline: CROMWELL, WDL

gnomAD, TOPMed 등 대규모 유전체 코호트들이 만들어지면서, 여기서 생산된 데이터를 이용하는데 중요한 문제가 부각되었는데, 바로 분석 결과 간의 재현성호환성에 있었습니다. 즉, 연구자가 GATK Best practice를 이용하여 Exome 또는 Genome 시퀀싱 분석을 진행하더라도 어떤 설정과 파라미터 값을 넣느냐에 따라, 최종 검출 변이의 결과가 달라지고, 이것은 연구 결과 간의 재현성의 측면에서 매우 중요한 문제가 되었던 것이지요. 참고논문에서 진행한 실험 결과를 보면, 동일한 샘플로 생산된 FASTQ 파일을 서로 다른 5개의 기관에 보내 각각의 파이프 라인으로 분석한 결과, Call된 변이들 간에 많은 차이가 있었다고 보고하고 있습니다.

[관련 포스팅 보기]

따라서, 점점 늘어나는 유전체 데이터만큼 유전체 분석 파이프 라인을 하나의 표준화된 파이프 라인으로 통합하는 것이 매우 중요해졌고, 그 결과 개발된 것이 “Functional Equivalence (FE)” Pipeline (기능적으로 동등한 파이프라인) 입니다. 사실 NGS 분석을 하는 사용자의 입장에서는 Input만 넣고, Output만 나오면 편한데, 그동안 개발된 툴들은 이를 모두 아우르는 것이 아니라, 그때 그때마다 필요한 부분들을 개발했기 때문에, 분석 파이프 라인도 이제야 어느 정도 성숙 단계에 이르렀다고 할 수 있습니다. 따라서 최근의 대규모 유전체 컨소시엄들은 모두 “Functional Equivalence ” Pipeline 을 통해 생산된 유전체 데이터를 생산하는 것으로 채택하고 있습니다. (그래서 저도 functional equivalent한 결과를 얻기 위해서 최근에 새롭게 공부를 하게 되었습니다.)

[ Functional Equivalence Pipeline Overview]

FE 파이프라인을 제공하기 위해서, Broad Institute의 개발진들은 WDL (Workflow Description Langauge)과 Cromwell이라고 하는 프로그래밍 언어를 개발하는데, 하나의 파이프라인을 패키지로 묶은 WDL 파일을 만들고, 이를 Cromwell이라는 프로그램으로 구동시켜주는 원리라고 합니다. 사실 사용자의 입장에서는 과거에 개별 프로그램을 설치하고, 개별 스텝을 따로 돌려야했다면, 지금은 이러한 것들이 모두 하나의 패키지 형태로 제공되기에 더욱 편해졌다고 할 수 있습니다 (?).

[Cromwell 페이지 바로 가기] https://cromwell.readthedocs.io/en/stable/

[WARP 페이지 바로가기] https://broadinstitute.github.io/warp/docs/get-started/

Cromwell의 로고: 꼬마돼지 베이브와 스타트렉에 출연한 배우 James Cromwell을 오마주한 로고라고 합니다 🙂

병원 검사실을 운영하는데, 검사 장비와 보고 방법을 표준화하는 것은 매우 중요한데, 유전체 분석 파이프 라인에도 이제야 이러한 개념이 들어왔다는 점이 반갑습니다. (분석 파이프 라인 하나도 이렇게 표준화하기가 어렵습니다.) Genome의 경우에는 처리해야할 데이터의 크기가 워낙 방대하기때문에 더욱 어려운 점이 있는 것 같습니다. 현재 이쪽 분야도 많은 Computational Scienctist들이 뛰어들어서 개발을 진행하고 있는 중이기 때문에, 추후에 더 User-friendly하고 간편한 파이프 라인이 개발되어 제공되기를 기대해 봅니다. (점차 대세는 클라우드로 옮겨가지 않을까 합니다?)

[References]

Regier, Allison A., et al. “Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects.” Nature communications 9.1 (2018): 1-8.

[Broad Institute] Medical and Population Genetics (MPG) seminar

[관련 링크 보기]

https://www.broadinstitute.org/medical-population-genetics

매주 목요일에는 Broad Institute가 주관하는 Medical and Population Genetics 세미나가 있습니다. 세미나에 참석할 때마다, 매주 따끈 따끈하고 핫한 연구들을 마주할 수 있다는 게 감사하고 행복하기까지 합니다. 특히, 흔한 유전학 연구 내용 뿐 아니라 그에 따른 윤리적 문제 (ELSI), 어떻게 환자에게 유전 정보를 설명하고 임상 진료에 활용할 것인가? (Genetic Counselling), MIT의 공학자들과의 협업을 통한 인공 지능 (AI, Machine Learning) 활용 연구 등 매우 넓은 범위의 Talk을 Cover하고 있어서, 하나의 대규모 유전체 프로젝트를 진행함에 있어 다양한 분야의 사람들이 유기적으로 함께 고민을 하고 진행한다는 점이 인상 깊습니다.

유전체 분석을 위해서는 대규모 인구 집단 내에서 변이의 분포 (Population frequency)를 확인하는 것은 매우 중요합니다. 특히, 희귀 변이 (Rare variant)의 경우에는 그 해석과 의미를 위해서는 더더욱 인구 집단의 크기가 커야 통계적 분석이 가능해집니다. 그런 의미에서 아직 출판되지 않은 이런 대규모 유전체 연구들을 세미나를 통해 미리 마주할 수 있다는 점이 매우 즐겁습니다. WGS은 WES에 비해 데이터 사이즈가 기본 10배 이상 크기 때문에 Computing resource의 스케일에서 엄청난 차이가 납니다. WES 스케일에서는 워크 스테이션급 컴퓨터로도 충분히 작업이 가능했다면, WGS 스케일은 대용량 서버급 연산 능력이 요구됩니다. 일반인들이 자발적으로 참여하여, 전세계의 연구자들과 함께 이렇게 방대한 크기의 데이터를 협력하여 생산하고, 그로부터 생명과학과 의학 분야의 의미 있는 연구 결과를 도출하고 있다는 점이 매우 고무적입니다.

최근의 유전체 연구는 점점 더 큰 인구 집단 (population size)을 더 높은 Depth의 전장 유전체 데이터로 (30X이상의 High-quality-depth WGS) 생산하는 쪽으로 진행되고 있습니다. Population size가 수천~수만명 단위를 넘어, UK Biobank의 경우는 곧 백만명 이상의 Whole Genome Sequencing (WGS) 데이터를 생산할 예정이라고 합니다. 미국의 TOPMed의 경우도 수만명 이상의 다양한 질환의 유전체 데이터셋을 구축하였고, 우리나라의 경우도 최근에 UNIST에서 한국인 만명의 WGS (Korea10K)을 구축했다고 발표하였습니다. 단순하게 숫자를 넘어서, 다양한 형질 정보와 질환을 아우르는 생명 정보 데이터베이스가 구축되기를 기대해 봅니다.

[관련 포스팅 보기]