NGS 데이터를 이용한 CNV 분석

Copy Number Variation (CNV)는 Single Nucleotide Variation (SNV)과 더불어, 유전적 다양성을 나타내는 주요한 원인으로 생각되고 있습니다. 유전자 sequence의 염기 하나가 치환된 SNV와 달리 CNV는 유전자 전체 또는 일부의 copy가 중복되거나 줄어들수도 있기 때문에 훨씬 넓은 영역에서 나타나는 Structural variation의 일종입니다.

관련 포스팅 보기 -> 유전학 중요개념 정리: Structural variation 및 Copy-number variation

일반적으로 NGS는 SNV를 보기 위한 목적으로 검사를 시행하지만, 해당 데이터를 활용하면 CNV 분석도 할 수 있기 때문에, 오늘은 NGS 데이터를 활용한 CNV 분석 방법에 대해 포스팅하고자 합니다.

NGS CNV
[그림1. NGS 데이터를 이용하여 CNV를 검출하는 원리] CNV 검출을 위해서는 mapping 되는 read 간의 정보, 그리고 각 영역에 mapping된 read의 depth 정보를 활용하게 됩니다.

위의 그림은 CNV 분석을 위한 NGS 데이터의 5가지 활용 원리를 나타내주고 있습니다. 그러나 가장 핵심이 되는 원리는 Read depth입니다. Target sequencing과 같이 Read depth가 충분한 경우에, 다른 검체들에 비해 해당 영역의 depth가 월등히 떨어지거나, 또는 월등히 높은 경우에는 해당 영역의 deletion 또는 duplication을 의심할 수 있습니다.

target_coverage_nd_FGFR2_4
[그림2. FGFR2 유전자의 Coverage (위) 및 Reference의 depth로 normalized한 depth (아래)를 나타내는 도표] 다른 검체들보다 Normalized depth가 월등히 높은 검체 (P27)는 해당 영역의 duplication, 월등히 낮은 검체 (P33)는 해당 영역의 deletion이 존재하는 것으로 의심할 수 있다.

사실 NGS 데이터는 CNV를 목적으로 한 것이 아니라, SNV 검출 목적의 데이터를 부수적으로 활용하는 것이기 때문에 많은 제한점이 있습니다. 따라서, 임상적으로 CNV 검사 목적의 NGS는 권장되지 않으며 적절한 가이드라인도 존재하지 않기 때문에 다양한 Computational tool 들이 개발되어 서로의 장점을 홍보하는 상황입니다. 다음은 다양하게 개발된 대표적인 CNV 검출 tool 들을 정리한 표입니다. 많은 경우  BAM 파일을 활용하는 것을 볼 수 있으며 대부분 R package를 제공하고 있어, 사용이 용이합니다.

NGS CNV2
[그림 3. CNV 검출을 위한 다양한 컴퓨터 툴] 어떠한 툴이 우수한가에 대해서는 명확하게 정립된 결론이 없기 때문에, 적절한 상황에 맞게 툴들을 활용하는 것이 필요합니다.
위의 표와 같이 다양한 툴들이 존재하지만, 실제로 몇가지 툴들을 사용하여 봤을 때, 결과들이 제각각이었고, 서로 일치하는 정도도 높지 않았습니다.  다양한 알고리즘을 활용함에도 불구하고, 위양성으로 보고되어 믿기 어려운 경우가 많았습니다. 가장 정확한 방법은 직접 그림 2와 같이 해당 영역의 coverage plot과 normalized depth를 보고 종합적으로 판단하는 것이었습니다. 아직까지 컴퓨터 툴들에 개선의 여지가 많음에도 불구하고, NGS 데이터를 활용하면 CNV에 대한 정보도 일부 얻을 수 있기 때문에 NGS는 더 폭넓게 활용될 것으로 전망이 됩니다.

[Reference]

Zhao, Min, et al. “Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives.” BMC bioinformatics 14.11 (2013): S1.

“NGS 데이터를 이용한 CNV 분석”의 8개의 생각

  1. 안녕하세요. 훌륭하신 선생님의 블로그 글을 볼 수 있어 기쁩니다. 다름이 아니오라, targeted NGS panel data로 in-silico CNV 분석을 하는데 있어서 Pattrec과 같은 Graphic user interface data를 이용하려다 실패했습니다. 선생님께서는 많은 경험이 있으신데, screening 목적으로 CNV 검출을 위해서 어떤 프로그램을 사용하는 것이 좋을까요? workbench의 프로그램으로 확인하는 데는 성공했는데, 실제로 clinical setting에서 사용할만한 무료 프로그램이 있는지 궁금합니다.

    Liked by 1명

    1. NGS 패널을 이용한 CNV 검출에서 사실 더 중요한 것은 프로그램보다는 “시퀀싱의 Depth와 패널 디자인”입니다. 충분한 Depth의 read가 확보되어야 하고, 패널 크기도 충분히 커야 그나마 쓸만합니다. Amplicon 기반의 패널은 Off-target read를 활용할 수 없어서 CNV 검출에는 더욱 쓰기 어렵고, 그나마 Hybrid capture 기반이 쓸만합니다. 더불어 CNV 검출의 resolution도 고려해보셔야 하는데, 작은 크기의 타겟 패널은 기껏해야 염색체 이상 정도의 매우 큰 크기의 CNV만 검출이 가능하다고 보시면 됩니다. 그래서 프로그램의 차이보다 먼저 타겟 패널이 CNV 검출을 위해 적절하게 제작되었는지를 먼저 살펴보시는게 좋습니다. 프로그램은 위 표의 것들을 많이 사용하는데, 저는 ExomeDepth나 CNVkit이 그나마 사용하기 편한 것 같고, GUI 기반의 프로그램은 Nexus Copy Number와 같은 유료 프로그램을 쓰셔야 할 겁니다. (별로 추천하지는 않습니다.)

      좋아요

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중