유전학에서 흔하게 이야기하는 용어 중에 Missing Heritability라는 것이 있습니다. 유전적으로 동일한 쌍둥이 연구를 통해, 형질의 차이를 살펴보니 환경적 요인 등 후천적 효과를 제외하면 형질의 최대 7~80 %까지는 유전적으로 설명이 가능하다고 밝혀졌는데, 실제로 SNV와 CNV와 같은 유전적 변이로는 이를 전부 설명하지 못했죠. 특히 최근 광범위하게 연구된 유전학 연구 툴인 GWAS와 NGS를 이용하여서도 이러한 heritability를 전부 설명하지 못했습니다. 연구자들은 이렇게 잃어버린 나머지 유전적 기여의 원인과 메커니즘을 찾기 위해 많은 연구를 진행했고, 오늘 정리할 내용이 Tandem Repeat Polymorphism과 eSTR (expression Short Tandem Repeat) 입니다.
관련 포스팅 보기 >
[유전학 중요개념 정리] Tandem repeat: STR and VNTR
Tandem Repeat의 개념은 지난 포스팅에서 정리하였는데, Tandem Repeat Polymorphism은 개인별 Tandem Repeat 길이의 차이로 인해 다양한 유전자 발현 정도도 조절이 되어 개인별 차이를 나타낸다는 개념입니다. 유전자 발현을 조절하는 SNP (Single Nucleotide Polymorphism)으로 eQTL에 대해서 정리한 바가 있는데, 최근 연구에 의하면 eSTR도 유전자 발현을 조절하는데 많은 부분 관여하여, Missing Heritability 중 일부를 설명한다고 합니다.

I. STR이 유전자 발현을 조절하는 메커니즘
STR이 유전자 발현에 영향을 미치는 다양한 메커니즘들이 제안되었는데, 현재까지는 1) Transcription factor binding site를 형성하거나, 2) Reculatory element까지의 물리적 거리에 영향을 미치거나, 3) DNA 2차 구조를 형성하는 방법, 4) splicing 과정에 영향 또는 toxic RNA 형성 등을 통해 유전자 발현에 영향을 미친다고 알려져 있습니다.
II. Genome wide profiling method for STR
원래 STR을 검출하는 가장 고전적이고 정확한 방법은 해당 부위를 PCR하여, 전기영동을 통해 size (분자량)를 확인하여 몇번 반복되었는지를 확인하는 것입니다. 그러나 시퀀싱 기술이 발달하면서, NGS 기술을 통해서도 STR을 확인하는 다양한 방법들이 제안되었습니다. 그러나 아직까지 NGS를 이용하여 STR을 확인하는 방법에는 아래와 같은 한계가 존재합니다.
- 대부분의 STR은 intron 영역에 존재하기 때문에 WGS (whole genome sequencing) data가 필요하다.
- Illumina platform 방식의 짧은 read (100~300bp)를 이용한 방식으로는 길게 반복되는 tandem repeat 검출이 어렵다.
그럼에도 불구하고 다양한 Bioinformatics tool 들이 개발되어, 이러한 한계를 극복하고 있습니다. 아래는 NGS data를 이용하여 Tandem Repeat을 검출하는 다양한 툴들을 보여주고 있습니다.
[References]
Gymrek, Melissa, et al. “Abundant contribution of short tandem repeats to gene expression variation in humans.” Nature genetics 48.1 (2016): 22.
Gymrek, Melissa. “A genomic view of short tandem repeats.” Current opinion in genetics & development 44 (2017): 9-16.