[NGS DNA-SEQ] Functional Equivalence pipeline: CROMWELL, WDL

gnomAD, TOPMed 등 대규모 유전체 코호트들이 만들어지면서, 여기서 생산된 데이터를 이용하는데 중요한 문제가 부각되었는데, 바로 분석 결과 간의 재현성호환성에 있었습니다. 즉, 연구자가 GATK Best practice를 이용하여 Exome 또는 Genome 시퀀싱 분석을 진행하더라도 어떤 설정과 파라미터 값을 넣느냐에 따라, 최종 검출 변이의 결과가 달라지고, 이것은 연구 결과 간의 재현성의 측면에서 매우 중요한 문제가 되었던 것이지요. 참고논문에서 진행한 실험 결과를 보면, 동일한 샘플로 생산된 FASTQ 파일을 서로 다른 5개의 기관에 보내 각각의 파이프 라인으로 분석한 결과, Call된 변이들 간에 많은 차이가 있었다고 보고하고 있습니다.

[관련 포스팅 보기]

따라서, 점점 늘어나는 유전체 데이터만큼 유전체 분석 파이프 라인을 하나의 표준화된 파이프 라인으로 통합하는 것이 매우 중요해졌고, 그 결과 개발된 것이 “Functional Equivalence (FE)” Pipeline (기능적으로 동등한 파이프라인) 입니다. 사실 NGS 분석을 하는 사용자의 입장에서는 Input만 넣고, Output만 나오면 편한데, 그동안 개발된 툴들은 이를 모두 아우르는 것이 아니라, 그때 그때마다 필요한 부분들을 개발했기 때문에, 분석 파이프 라인도 이제야 어느 정도 성숙 단계에 이르렀다고 할 수 있습니다. 따라서 최근의 대규모 유전체 컨소시엄들은 모두 “Functional Equivalence ” Pipeline 을 통해 생산된 유전체 데이터를 생산하는 것으로 채택하고 있습니다. (그래서 저도 functional equivalent한 결과를 얻기 위해서 최근에 새롭게 공부를 하게 되었습니다.)

[ Functional Equivalence Pipeline Overview]

FE 파이프라인을 제공하기 위해서, Broad Institute의 개발진들은 WDL (Workflow Description Langauge)과 Cromwell이라고 하는 프로그래밍 언어를 개발하는데, 하나의 파이프라인을 패키지로 묶은 WDL 파일을 만들고, 이를 Cromwell이라는 프로그램으로 구동시켜주는 원리라고 합니다. 사실 사용자의 입장에서는 과거에 개별 프로그램을 설치하고, 개별 스텝을 따로 돌려야했다면, 지금은 이러한 것들이 모두 하나의 패키지 형태로 제공되기에 더욱 편해졌다고 할 수 있습니다 (?).

[Cromwell 페이지 바로 가기] https://cromwell.readthedocs.io/en/stable/

[WARP 페이지 바로가기] https://broadinstitute.github.io/warp/docs/get-started/

Cromwell의 로고: 꼬마돼지 베이브와 스타트렉에 출연한 배우 James Cromwell을 오마주한 로고라고 합니다 🙂

병원 검사실을 운영하는데, 검사 장비와 보고 방법을 표준화하는 것은 매우 중요한데, 유전체 분석 파이프 라인에도 이제야 이러한 개념이 들어왔다는 점이 반갑습니다. (분석 파이프 라인 하나도 이렇게 표준화하기가 어렵습니다.) Genome의 경우에는 처리해야할 데이터의 크기가 워낙 방대하기때문에 더욱 어려운 점이 있는 것 같습니다. 현재 이쪽 분야도 많은 Computational Scienctist들이 뛰어들어서 개발을 진행하고 있는 중이기 때문에, 추후에 더 User-friendly하고 간편한 파이프 라인이 개발되어 제공되기를 기대해 봅니다. (점차 대세는 클라우드로 옮겨가지 않을까 합니다?)

[References]

Regier, Allison A., et al. “Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects.” Nature communications 9.1 (2018): 1-8.

광고

“[NGS DNA-SEQ] Functional Equivalence pipeline: CROMWELL, WDL”의 2개의 생각

  1. 저 돼지는 cromwell 개발자들이 미국의 영화배우 James Cromwell을 오마주하기 위해 만든 것으로 이 배우는 스타트렉과 꼬마돼지 베이브에 출연했던 배우라 돼지와 스타트렉의 우주선을 넣은것이라고 하네요. ㅎㅎ

    좋아요

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중