PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점

차세대 염기서열 분석 방법 (이하 NGS) 의 개발은 다양한 원리를 토대로 동시에 엄청난 양의 유전체를 시퀀싱할 수 있는 방법들을 제시하였는데, 각자 개발한 방법들을 토대로 설립된 회사들과 시장의 변화는 마치 삼국지를 보는 것과 같았습니다. 5~6년전만 하더라도 군웅할거의 절대 지존이 없는 상황에서, 마치 조조가 천하를 통일하듯 현재는 Flow cell 기반의 IlluminaShort Read Sequencing 방법이 거의 시장을 독식한 상황입니다. 이중 Minor 한 portion은 중국의 카피캣 MGI가 저렴한 가격을 무기로 치고 올라오고 있으며, 조금 다른 영역에서 PacBiOLong Read Sequencing과 편의성과 소형화에 중점을 둔 Oxford Nanopore가 존재하고 있습니다. 그런 의미에서 오늘은 PacBiO의 Long Read Sequenicng 방법의 원리와 장, 단점에 대해서 정리해 보고자 합니다.

관련 포스팅 보기>

[참석 후기] Human Genome Meeting 2019

 

RS2

위의 그림은 Sequell II 장비의 모습을 보여주고 있습니다. (네, 무식하게 큽니다.. 냉장고 크기 정도 됩니다.) 3년전에 UCL의 HLA informatics group에 연수를 갔을때 버젼 1을 봤었는데, 최근에 버젼 2가 나와서 8배 더 빨라졌다며 광고를 하고 있네요..

 

SMRT seq

위 그림은 SMRT 시퀀싱의 원리를 보여주고 있습니다. DNA를 긴 read로 미리 준비해서 adaptor를 붙여서 Circle의 형태로 만들어준 후에, 실제로 시퀀싱을 읽어들이는 ZMW (Zero-mode waveguide)에서 반복적으로 시퀀스를 읽어들이게 됩니다. 매우 작은 하나의 ZMW는 하나의 시퀀스 리더로 작용하고, 무수히 많은 ZMW가 모여서 하나의 SMRT cell을 구성하게 됩니다. 각각의 ZMW에서는 4가지 염기서열에 따라서 서로 다른 신호를 주기 때문에 시퀀스를 구분할 수 있으며, 원형으로 계속 돌면서 반복적으로 읽어들이기 때문에 (adaptor 시퀀스는 일종의 표식으로 작용) 시퀀스 에러를 줄이는 장점이 있다고 광고하고 있습니다. 아래는 이해를 위한 유튜브 영상을 첨부합니다.

 

비록 현재의 시퀀싱 시장은 높은 정확도와 가성비를 장점으로 하는 Short Read 시퀀싱이 대부분을 차지하고 있지만, 정확한 Human Genome Reference 수립을 위한 De novo assembly를 하기위해서는 Long Read 시퀀싱은 필수로 이용되고 있으며, 기타 Short Read 기반의 많은 단점들이 존재하는 영역에서는 여전히 Long Read 만의 장점이 있기 때문에 장,단점이 있는 이용 분야를 잘 이해하는 것이 중요하다고 할 수 있습니다. Short ReadDepth가 높아서 Error rate가 낮다는 점과 같은 Read를 읽을 때 가격적으로 훨씬 저렴하다는 점이 임상적으로 활용하는데 있어서는 아직 우세를 보이는 주요한 이유가 됩니다.

아래 표는 Short Read의 단점과 Long Read가 활약할 수 있는 분야를 정리한 표입니다. 반복 서열이 많거나, Polymorphism이 많이 존재하는 영역, GC 비율이 높아서 시퀀싱이 어려운 영역 (HLA 영역 또는 PKD 유전자 등), 구조 변이 검출 등에서는 Long Read 시퀀싱이 훨씬 우수한 성능을 보여주고 있으며, 가격적인 부분만 점점 낮아진다면, 추후에는 Long Read로 대세가 기울지 않을까 감히 예상해봅니다.

RS2_00000.jpg

 

[References]

PacBiO SMRT sequencing

Pollard, Martin O., et al. “Long reads: their purpose and place.” Human molecular genetics 27.R2 (2018): R234-R241.

광고