통계유전학 워크샵으로 7월 20~21일 양일간 오랜만에 서울대에 방문했다. 통계유전학 워크샵은 개인적으로 세번째 참석이었는데, 올 때마다 느끼는 것이지만 서울대 캠퍼스는 참 크고.. 멀었다. 지난 2년간 워크샵을 진행했던 숭실대가 위치나 시설적인 부분에서도 만족스러웠는데, 서울대도 시설적으로는 크게 불편한 점은 없었지만 아침에 일찍 나오느라 고생좀 했다.
나는 NGS 데이터를 이용한 Germline 변이 분석에는 익숙하지만, Somatic 변이 분석 부분에는 경험이 거의 없어서 실제 분석 과정에 대해서 배워보고 싶어, Session 9을 신청해서 들었다.
전체적인 NGS의 분석 파이프라인은 우리 연구실 서버의 약물 유전체 분석 과정과 크게 다르지 않았다. 서버에서 NGS 데이터 전처리부터 변이 call 과정까지 somatic이나 germline이나 큰 차이는 없어서 첫째날의 강의는 대부분 아는 내용이었고, 다만 암의 경우는 정상과 비정상 조직의 데이터를 서로 비교해서 암에서 나오는 somatic 변이만 필터링하는 과정을 Mutect2 라는 프로그램을 이용한다는 것을 알게 되었다.
사실 대부분 업체를 통해 NGS 데이터를 생산하면 변이가 call된 vcf 파일로 결과를 제공받기 때문에, 실제로 연구자가 데이터를 다루는 부분은 주석달기 (annotation)부터 인데, annovar를 이용한 annotation 과정에 대해서 자세히 다뤄서 많은 분들에게 도움이 많이 되었을 것 같다.
또한 최근에는 워낙에 많은 R 패키지가 나와서 연구자가 데이터를 분석하고 Figure를 만드는데 그때마다 필요한 패키지를 찾아 수정하는 편인데, 암 관련 분석에 필요한 대부분의 소스코드와 예제를 제공한 점은 암 관련 연구자들에게는 큰 도움이 될 것 같다.
사실 이런 실습 위주의 워크샵은 큰 기대와 포부를 갖고 참석했다가, 제한된 실습 시간과 참석자들간의 천차만별의 컴퓨터 실력때문에 자칫 잘못하다가는 이도 저도 아니다가 끝나는 경우가 많은데, 다행히 세션을 준비했던 카톨릭 대학교 정승현 선생님이 꼼꼼히 준비를 잘해서 무난하게 잘 진행된 것 같다. 원래 이런 강의를 준비하는게 쉽지 않은데, 슬라이드 준비부터 서버 셋업까지 고생을 많이 했을 것 같다. 마지막으로 이 자리를 빌어 감사를 표한다.