[실험실 노트] Sanger sequencing Primer design

최근 시퀀싱 검사의 대세는 NGS 이지만, 여전히 논문을 위한 논문에서는 Gold standard인 Sanger 시퀀싱 결과를 Supple data로 요구하고 있다. 이번에 유전자 30개 정도되는 NGS 패널을 디자인하고, 검출된 변이로 Sanger 시퀀싱 확인 및 가족 검사 까지 진행하고 있는데, M모 업체를 통해 견적을 받아보니 타겟 위치 셋업 비용 10만원 + 검체 추가당 3만원 + Blood에서 DNA 추출 검체당 3만원을 달란다. 의뢰할 검체가 50여개는 되어서 정말 정말 귀찮지만, 연구비는 소중하니까.. 에라잇.. 주말을 전부 바쳐 직접 노가다로 진행하고 5백만원을 아끼자 마음 먹었다ㅠㅠ 그래서 오늘의 실험실 노트는 생어 시퀀싱을 위한 Primer 디자인 과정을 남겨 본다.

Figure_14_02_04ab

 

I. 검체 Blood에서 DNA 추출하기

남들이 많이 사용하는 Q사의 Blood DNA Extraction Kit를 사용한다. Manual에서 하라는 대로 따라하니까, 크게 무리 없이 DNA가 잘 뽑혀져 나온다. 다만, 검체가 오래되었거나 WBC count가 적은 경우, 또는 Blood volume이 procedure에서 요구하는 200uL보다 적은 경우에는 마지막에 elution volume을 좀 작게 해야될 것 같다. (방법은 정말 쉽지만, 검체가 50개의 스케일로 넘어가는 순간 정말 노가다.. 파이펫 팁만 몇개를 쓴 건지… 대부분의 과정이 기계에 의해 자동화되어 있던 진단검사의학과 검사실의 풍경이 눈 앞을 아른거린다ㅠㅠ)

 

II. 타겟 영역 선정 및 Primer 디자인하기

0. 논문들의 supplement data를 잘 살펴보자. 다른 논문에서 이미 디자인된 primer 정보가 있다면 적극 활용하자. (재현만 잘 되면 새로 짤 필요 없다.)

a. NGS 검사에서 나온 변이들의 exon을 골라, 유전자와 exon number, 그리고 올바른 transcription mode에 해당하는 NM number를 정리한다.

b. Ensemble Genome Browser를 이용해, NM number를 통해 해당 위치에 접근하여, exon 영역과 앞 뒤 200bp 정도를 포함하는 시퀀스를 display한다. (GRCh37, hg19 등 Genome Version이 맞는 사이트로 접근)

c. Sanger 시퀀싱을 할 경우, 읽는 primer 뒤로 50~100 bp는 퀄리티가 나빠 제대로 안읽히기 때문에 primer는 최소한 타겟 영역의 100bp 이상 앞쪽에서 잡는다. Forward와 Reverse간의 간격은 500bp 전후로 적당히 잡는다. 어차피 8~900 bp 넘어가면 그 뒤는 퀄리티가 나빠져서 못 읽는다.

d. GC contents 40~60%이고, primer 길이 20~25bp 정도 되는 시퀀스를 골라서 Forward와 Reverse 서열을 선택한다. 이때 선택한 서열을 primer 평가 프로그램을 통해, dimer 또는 hairpin 이 형성되지는 않는지 살피고, 서로의 Tm 값이 5도 이상 차이나지 않도록 한다. Reverse primer의 경우, pick-up한 시퀀스의 Reverse Complement 서열로 주문해야한다.

Primer 평가: http://www.premierbiosoft.com/NetPrimer/AnalyzePrimer.jsp

Tm 값 계산: https://tmcalculator.neb.com/

시퀀스 뒤집기: http://arep.med.harvard.edu/labgc/adnan/projects/Utilities/revcomp.html

e. UCSC Genome Browser에서 제공하는 In-silico PCR을 통해, pick-up한 primer가 원하는 영역에 잘 PCR 되는지 시뮬레이션 해본다. (http://genome.ucsc.edu/cgi-bin/hgPcr)

f. 디자인한 primer를 업체에 주문한다.

g. I에서 뽑은 DNA와 주문한 primer로 PCR 반응 시킨다. 이때, Ta 값은 Tm 값보다 2~3도 낮은 온도에서 시작해서, 잡밴드가 많이 뜨면 온도를 더 높혀본다. 최적의 PCR 조건을 찾아서 원하는 타겟 영역을 증폭시킨다. (Gradient PCR를 해서 최적 온도를 찾는 것도 좋은 방법)

h. 원하는 크기의 타겟 영역의 밴드가 뜨면, product를 purification 해서 업체에 생어 시퀀싱을 의뢰한다.

 

타겟 영역별 프라이머 주문비용: 만원 / 시퀀싱 비용 검체당 대략 5천원 내외 / 전체 예상 소요 비용 50만원도 안됨.

1/10 도 안되는 가격으로 원하는 결과를 얻었다. (뿌듯..)

 

단점: 엄청난 노가다 및 손이 많이 감. Primer design 및 최적 PCR 조건을 찾는데 어려움이 있을 수 있다. 안되면 Primer를 다시 짜서 재주문해야됨. 되도록 Primer는 22~25bp 정도로 길게 잡자.(그래야 잡밴드가 적게 뜬다.)

 

휴먼 게놈 프로젝트, 그 이후.. 그리고 정밀 의료시대까지

Hx of HGP
The landscape of Human Genome Project (National Human Genome Research Institute 에서 발췌)

인간 게놈 프로젝트 (Human Genome Project; HGP)는 인간의 모든 유전자 염기 서열을 밝히는 것을 목표로 1990년 처음 시작되었습니다. 그리고 당초 목표보다 2년 빠른 2003년도에 목표를 완수하게 되었죠. 이 당시만 해도, 인간의 유전체 암호가 모두 해독되어서 마치 모든 유전병을 정복가능하게 될 거라고 기대가 매우 컸습니다. 그렇지만 당시의 기대와 흥분도 잠시, 지금까지 무려 14년이 흘렀지만 아직도 게놈 프로젝트는 현재 진행형입니다. 이번 글에서는 게놈 프로젝트의 역사와 의의, 그리고 앞으로 유전체 연구 진행 방향에 대해서 논의해 보겠습니다.

사실 게놈 프로젝트를 말하는데 있어서, 염기서열 분석 기술의 발전을 떼놓고는 말하기가 어렵습니다. 하지만 각 세부적인 분석 기술 소개하는 것 만으로도 엄청난 분량이 되어버리므로, 이번 글에서는 간단히만 언급하겠습니다.

Frederick-Sanger-and-a-DN-009
1958년 노벨 화학상 수상자, Frederick Sanger (1918 – 2013). 그의 이름을 딴 생거 시퀀싱 방법은 아직까지도 염기 서열 분석 방법의 고전적 분석 표준(Gold standard)으로 인정받고 있습니다.

유전자의 염기 서열을 분석하는 가장 고전적인 방법은 생거 시퀀싱(Sanger sequencing)법 입니다. 영국의 생화학자였던 프레데릭 생거에 개발된 방법은 아직까지도 염기 서열 분석의 표준 방법(Gold standard)로 인정되고 있습니다. 그러나 기술의 발전으로 점점 더 빠르고 정확하게, 대용량의 유전 정보를 시퀀싱하는 것이 가능하게 되었고, 최근에는 이를 두고 차세대 염기 서열 분석법 (Next-generation sequencing, NGS) 라고 부르고 있습니다. 사실 우리는 이미 NGS의 시대에 살고 있기 때문에 엄밀한 의미에서 차세대 라는 말은 맞지 않습니다. 따라서 일부에서는 3세대 염기서열 분석 (Third generation sequencing, TGS) 또는 대용량 염기 서열 분석 (Massively parallel sequencing, MPS)라고 부르기도 합니다. 하지만, 편의상 널리 NGS로 통용되고 있습니다. 예전에는 염기 서열을 밝히는데 수년이 걸렸던 인간 게놈 프로젝트도, NGS 기술의 발달로 이 글을 작성하는 지금도 매우 저렴한 가격에 며칠이면 가능해졌으며, 소요 시간과 가격은 점점 감소하고 있습니다. 그렇다면 이렇게 저렴해진 유전체 서열 분석 기술이 의미하는 바는 무엇일까요?

costs_plummeting_x9001.jpg
2000년대 초, 백만불이었던 전체 유전체 분석 가격은 2017년 현재 이미 1,000불 아래로 떨어졌습니다. 즉, 개인이 100만원의 비용이면 본인의 모든 염기 서열 정보를 알 수 있는 시대에 도달했다는 의미가 됩니다.

사실 인간 게놈 프로젝트 이후에 진행된 프로젝트는 1000 게놈 프로젝트 (1000 Genome Project)가 있습니다. 1000 게놈 프로젝트는 1000명의 사람들의 전체 유전체를 분석해서 서로 차이를 보이는 염기 서열에 무엇이 있고, 이것이 개인마다 어떻게 다름으로써 개인별 특징을 나타내는지를 찾고자하는 첫 시도였다고 볼 수 있죠. 그리고 현재 알게된 사실은 사람들은 무수히 다른 단일 유전자 변이 (Single Nucleotide Variant, SNV)를 가지고 있으며, 이러한 SNV가 각기 어떻게 작용을 해서 서로 다른 형질을 보내는지에 연구의 포커스가 맞춰진 상태입니다. 인간이 가지고 있는 형질과 질병은 무수히 많습니다. 그리고 인간의 유전체도 SNV를 포함해서 매우 다양하며, 무궁 무진한 상호 작용과 조절을 받고 있습니다. 즉, 인간 게놈 프로젝트 초기에 기대했던 목적을 완전히 이수하려면 이러한 모든 유전체의 발현과 조절, 그리고 개개인의 유전 정보와의 관계를 밝히는 것이 필수라는 것이죠. 1000명에서 시작된 프로젝트는 이제 나라와 인종별로 10만명, 100만명 수준으로 확대되고 있으며, 앞서 언급한 유전체와 형질간의 관계를 확인하기 위한 데이터 수집 과정입니다.

즉 앞으로의 유전체 프로젝트와 연구 방향은 이러한 형질 또는 질병과 유전 정보 간의 관계를 파헤치는데 집중될 것입니다. 유전자 지도 완성 뿐 아니라, 유전자 지도 안의 각 위치가 어떠한 역할을 하고, 어떤 형질과 질병을 일으키는지 완벽하게 이해를 해야한 엄밀한 의미의 정밀 의료가 실현 가능하다는 것이죠.  유전체 정보는 매우 방대하고, 이를 분석하는데는 매우 많은 시간과 노력이 필요합니다. 따라서 뒤이어 발전하게 된 것이 이러한 유전 정보를 분석하는 생물 정보학 (Bioinformatics)입니다. 더 나아가 최근에는 이러한 유전 정보를 빅데이터로 간주하여, 인공지능 방법론을 활발하게 적용하고 있는 상황입니다. 정밀 의료를 논의하는데 있어, 유전학, 생물 정보학, 그리고 인공 지능 등을 함께 이해할 필요가 있는 대목입니다.

2-DNA-computer
유전 정보 데이터를 바탕으로 한 정밀 의료 를 실현하기 위해서는 생물 정보학과 같은 분석 도구가 필수적이며, 유전체 데이터가 매우 크기 때문에 이를 효과적으로 처리하기 위해 빅데이터와 인공 지능 기술 적용이 크게 각광 받고 있습니다.

궁극적으로 정밀 의료 시대에는 모든 개인이 자신의 유전 정보를 보유하게 될 것이고, 앞에서 알게된 지식을 바탕으로 사는 시대에 있게 될 것입니다. 그리고 지금은 연구자들이 그러한 지식의 틈을 메꿔가는 과정이라고 볼 수 있겠죠.

유전 정보 분석 및 생물 정보학, 그리고 빅 데이터와 인공지능. 각각의 세부적인 내용은 나중에 더 자세히 알아보도록 하고 이번 글은 여기서 마치겠습니다.