암유전체 분석은 크게 SNV/INDEL 수준의 Mutation 분석과 Chromosome/CNV 수준의 Somatic Copy number Alteration (SCNA) 분석으로 나눌 수 있습니다. 과거에 SCNA는 주로 SNP array 또는 Array CGH과 같은 Microarray를 이용하여 시행하였지만, 최근에는 NGS 데이터를 활용하여 2가지 분석을 모두 시행할 수가 있습니다. 이번 포스팅은 NGS 데이터를 활용하여, SCNA를 분석하는 Genomic Identification of Significant Targets in Cancer (GISTIC) 분석 방법에 대해서 정리해보고자 합니다.
관련 포스팅 보기>
ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTICDocumentation_standalone.htm
Segmentation File (-seg)
(1) Sample (sample name)
(2) Chromosome (chromosome number)
(3) Start Position (segment start position, in bases)
(4) End Position (segment end position, in bases)
(5) Num markers (number of markers in segment)
(6) Seg.CN (log2() -1 of copy number)
원래 GISTIC은 Array 기반으로 개발된 프로그램이기 때문에, Probe 정보를 받아들이게 되는데 NGS 데이터는 Probe 정보가 없습니다. 따라서, 타겟 영역의 엑손 하나 하나를 일종의 Probe로 간주하고 데이터를 변환하여 넣어주면 분석을 할 수가 있습니다.
NGS를 통해 생산된 Bam 파일을 이용하여, 타겟 영역의 Copy number 정보를 구하고 이 데이터를 활용해서 아래와 같이, 1차적으로 Segmentation을 해줍니다. 그리고 여러 샘플의 이러한 정보를 합쳐서, 통계적으로 유의미한 CN 수 변화가 발생한 곳을 검출하게 됩니다. 최근에는 유용한 R package가 많이 있는데, DNA copy를 이용한 아래 코드는 segmentation과 데이터 변환에 유용하여 함께 올립니다.

#Preparing CopywriteR output for GISTIC 2.0 analysis library(DNAcopy) load("/PATH/TO/segment.Rdata") segmentation.values <- segment.CNA.object$output colnames(segmentation.values) <- c("Sample", "Chromosome", "Start Position", "End Position", "Num markers", "Seg.CN") write.table(segmentation.values, file = "/PATH/TO/segmentation_values.tsv", quote = FALSE, row.names = FALSE, sep = "\t") markers <- data.frame(paste(segment.CNA.object$data$chrom, segment.CNA.object$data$maploc, sep = ":"), segment.CNA.object$data$chrom, segment.CNA.object$data$maploc) colnames(markers) <- c("Marker Name", "Chromosome", "Marker Position") write.table(markers, file = "/PATH/TO/markers.tsv", quote = FALSE, row.names = FALSE, sep = "\t")
위와 같은 데이터 변환 후 Input 데이터 변환이 끝나면, GISTIC 분석을 위한 모든 준비가 끝나게 됩니다. GISTIC은 Matlab 기반 프로그램이지만, 다행히 cloud를 통해 GenePattern에서 웹기반으로도 이용할 수 있습니다. 마지막으로, GISTIC을 이용하여, 4,934개의 암 샘플을 분석한 Nature genetics의 논문을 소개하며, 포스팅을 마치도록 하겠습니다.
[GISTICS 분석 결과] 유의하게 amplification 또는 deletion이 발생한 위치에 존재하는 Tumor driver gene을 발굴함으로써, 암 발생에 대한 연구를 할 수 있습니다.