PacBiO SMRT sequencing: Long Reads Sequencing의 원리와 장,단점

차세대 염기서열 분석 방법 (이하 NGS) 의 개발은 다양한 원리를 토대로 동시에 엄청난 양의 유전체를 시퀀싱할 수 있는 방법들을 제시하였는데, 각자 개발한 방법들을 토대로 설립된 회사들과 시장의 변화는 마치 삼국지를 보는 것과 같았습니다. 5~6년전만 하더라도 군웅할거의 절대 지존이 없는 상황에서, 마치 조조가 천하를 통일하듯 현재는 Flow cell 기반의 IlluminaShort Read Sequencing 방법이 거의 시장을 독식한 상황입니다. 이중 Minor 한 portion은 중국의 카피캣 MGI가 저렴한 가격을 무기로 치고 올라오고 있으며, 조금 다른 영역에서 PacBiOLong Read Sequencing과 편의성과 소형화에 중점을 둔 Oxford Nanopore가 존재하고 있습니다. 그런 의미에서 오늘은 PacBiO의 Long Read Sequenicng 방법의 원리와 장, 단점에 대해서 정리해 보고자 합니다.

관련 포스팅 보기>

[참석 후기] Human Genome Meeting 2019

 

RS2

위의 그림은 Sequell II 장비의 모습을 보여주고 있습니다. (네, 무식하게 큽니다.. 냉장고 크기 정도 됩니다.) 3년전에 UCL의 HLA informatics group에 연수를 갔을때 버젼 1을 봤었는데, 최근에 버젼 2가 나와서 8배 더 빨라졌다며 광고를 하고 있네요..

 

SMRT seq

위 그림은 SMRT 시퀀싱의 원리를 보여주고 있습니다. DNA를 긴 read로 미리 준비해서 adaptor를 붙여서 Circle의 형태로 만들어준 후에, 실제로 시퀀싱을 읽어들이는 ZMW (Zero-mode waveguide)에서 반복적으로 시퀀스를 읽어들이게 됩니다. 매우 작은 하나의 ZMW는 하나의 시퀀스 리더로 작용하고, 무수히 많은 ZMW가 모여서 하나의 SMRT cell을 구성하게 됩니다. 각각의 ZMW에서는 4가지 염기서열에 따라서 서로 다른 신호를 주기 때문에 시퀀스를 구분할 수 있으며, 원형으로 계속 돌면서 반복적으로 읽어들이기 때문에 (adaptor 시퀀스는 일종의 표식으로 작용) 시퀀스 에러를 줄이는 장점이 있다고 광고하고 있습니다. 아래는 이해를 위한 유튜브 영상을 첨부합니다.

 

비록 현재의 시퀀싱 시장은 높은 정확도와 가성비를 장점으로 하는 Short Read 시퀀싱이 대부분을 차지하고 있지만, 정확한 Human Genome Reference 수립을 위한 De novo assembly를 하기위해서는 Long Read 시퀀싱은 필수로 이용되고 있으며, 기타 Short Read 기반의 많은 단점들이 존재하는 영역에서는 여전히 Long Read 만의 장점이 있기 때문에 장,단점이 있는 이용 분야를 잘 이해하는 것이 중요하다고 할 수 있습니다. Short ReadDepth가 높아서 Error rate가 낮다는 점과 같은 Read를 읽을 때 가격적으로 훨씬 저렴하다는 점이 임상적으로 활용하는데 있어서는 아직 우세를 보이는 주요한 이유가 됩니다.

아래 표는 Short Read의 단점과 Long Read가 활약할 수 있는 분야를 정리한 표입니다. 반복 서열이 많거나, Polymorphism이 많이 존재하는 영역, GC 비율이 높아서 시퀀싱이 어려운 영역 (HLA 영역 또는 PKD 유전자 등), 구조 변이 검출 등에서는 Long Read 시퀀싱이 훨씬 우수한 성능을 보여주고 있으며, 가격적인 부분만 점점 낮아진다면, 추후에는 Long Read로 대세가 기울지 않을까 감히 예상해봅니다.

RS2_00000.jpg

 

[References]

PacBiO SMRT sequencing

Pollard, Martin O., et al. “Long reads: their purpose and place.” Human molecular genetics 27.R2 (2018): R234-R241.

[참석 후기] Human Genome Meeting 2019

HUGO와 유전체학회 (KOGO) 공동으로 진행하는 HGM 2019 학회가 마침 바로 연구실 앞 이화여대에서 진행되어 참석하였습니다. 연구실에서 가까워서 관심이 있는 세션만 잠깐가서 들었는데, 국제 학회로 진행되었으나 그 규모가 기대한 것에 비해서 그렇게 크지는 않았습니다. 참석한 대부분의 외국인들은 가까운 아시아 국가가 많았고, 제출된 초록의 수나 부스의 규모 등도 국내 유전체 학회가 훨씬 풍성하다 싶을 정도로 국제 학회라는 규모 치고는 부족한 것이 많아 보였습니다.

hugi

PacBiO가 메인 스폰서 중 하나라서 그런지 Long Read Sequencing 장비에 대한 광고와 케이스 발표가 많았고, 특히 유전 질환 중 진단이 되지 않는 케이스 중 많은 경우 구조 변이 (Structural variation)에 의한 것이 많을 것으로 생각되는데, Short Read Sequencing에서 진단이 어려웠던 케이스를 Long Read Sequencing을 이용하여 구조 변이를 검출하고 진단한 사례는 인상적이었습니다. 역시나 비용이 가장 중요한 문제일 것으로 생각되지만, 시퀀싱 비용이 점점 떨어지면 장기적으로는 Long Read Sequencing의 시대가 되지 않을까 합니다. 그런 면에서 Illumina PacBio를 인수 합병한 것은 장기적으로는 신의 한수가 아닐까 점쳐 봅니다.

더불어 최근에 가성비를 앞서 요새 무서운 속도로 치고 올라오는 중국의 MGI 사의 공격적인 마케팅도 눈에 띄었는데, 이미 많은 부분 중국 기업들이 앞서가고 있는 것 같아서, 안타까운 마음이 듭니다. 다음 포스팅은 이번 학회에서 많이 광고했던 Long Read Sequencing의 원리와 장단점에 대해서 정리하기로 하고, 참석 후기를 마치도록 하겠습니다.