유전체학

유전체학

[ Genomics ]

유전체학이란 기존의 개별 유전자를 분석 및 연구하는 수준을 넘어 세포 속에 존재하는 모든 유전자의 복잡한 상호 관계를 분석하는 다학제연구분야이다. 유전체학은 최근 급속히 발전하고 있는 DNA 시퀀싱 기술과 이를 분석할 수 있는 생물정보학 기술이 발전하면서 각광받고 있다.

목차

개요

유전체 속에는 수 많은 유전자가 존재하며, 여기로부터 에너지 대사, 신호 전달, 세포 분열, 환경 적응 등의 다양한 기능을 수행하는 단백질이 만들어지게 된다. 이들 유전자들은 세포 내의 복잡한 기능을 안정적으로 수행하기 위해서 독립적으로 작동하는게 아니라 서로 복잡한 상호관계를 가지면서 역할을 하고 있다. 예를 들어 대장균의 경우 약 4,000개의 유전자가, 효모의 경우 약 5,000개, 인간의 경우 약 20,000개의 유전자가 서로 복잡한 상호작용을 하며 생명을 유지하고 있다. 기존의 연구는 이들 유전자를 하나씩 분리하여 그 기능을 연구했는데 실제 세포의 생명현상을 이해하기에는 문제점이 많았다. 최근 세포 내의 모든 생명 현상을 통합적으로 분석하고자 하는 학문 분야가 생겨났으며(시스템 생물학, Systems biology), 유전체학은 세포의 구성 요소 중 유전자에 대해 통합적인 분석과 이해를 하고자 하는 분야이다.

그림 1. 유전체에서 세포까지 (출처: )

DNA 시퀀싱 기술

현재 주로 사용하는 DNA 시퀀싱 기술은 1970년대 Frederick Sanger가 개발한 방법에 기반을 두고 있다. 그 원리는, (1) DNA 중합효소를 이용하여 DNA 한 가닥만을 증폭하며, (2) 이때 시료에 정상적인 dNTP 외에 일정량의 ddNTP 를 추가하여 일정 확률로 일부 DNA 가닥은 비정상적으로 증폭이 끊어지도록 하였다(그림2). 4개의 DNA 시료에 ddATP, ddCTP, ddTTP, ddGTP를 각각 넣어 증폭이 중단된 다양한 DNA 가닥을 만들어 내고, 전기영동하여 길이에 따라 나타나는 차이를 보고 DNA 염기서열을 추적할 수 있다.

 시퀀싱 기술 덕분에 유전체의 서열을 밝히는게 가능해 졌으며, 최초로 Sanger와 그의 동료들이 1977년에 약 5 kb의 크기로 이루어진 bacteriophage φX174의 유전체를 시퀀싱을 하였다1). 그리고 1990년부터 약 13년간 수행한 인간 게놈 프로젝트에서는 인간 유전체 전체 서열을 밝혀내 인간 유전자의 기능, 다양한 질병과의 관계 등을 밝혀내는 성과를 이루기도 했다2).

 현재에도 Sanger의 기술이 DNA 시퀀싱에 많이 활용되고 있으나, 일반적인 시퀀싱은 대략 DNA 염기를 >500개 정도 읽는 수준이므로 유전체 전체를 시퀀싱하기에는 적합하지 않다. 이런 문제를 해결하기 위해 최근 Next-generation sequencing (NGS)라는 새로운 기술이 개발되었다. 이 기술은 유전체의 전체 DNA를 시퀀싱이 가능한 작은 조각으로 쪼재고, 이들 각각의 DNA 조각을 병렬적으로 시퀀싱하는 것이다. 이 기술의 발전으로 유전체 시퀀싱의 가격은 저렴해지고 시간 역시 과거에 비해 대폭 줄어 들게 되어 생명과학의 많은 연구에 NGS를 이용한 유전체 시퀀싱이 광범위하게 활용되고 있다.

표1. NGS 기업별 기술3)
Company and model Run time Read length (bp) # reads per run Output per run
Roche GS FLX Titanium XL+ 23 h 700 1 million 700 Mb
GS Junior System 10 h 400 0.1 million 40 Mb
LifeTechnologies Ion torrent 4 h 200~400 4 million 1.5~2 Gb
Proton 4 h 125 60-80 million 8~10 Gb
Abi/solid 10 days 75+35 2.7 billion 300 Gb
Illumina/solex HiSeq2000/2500 12 days 2 x 100 3 billion 600 Gb
MiSeq 65 h 2 x 300 25 million 15 Gb
Pacific biosciences RSII 2 days 50 % of reads > 10 kb 0.8 million 5 Gb
Helicos Heliscope 10 days ~ 30 500 million 15 Gb

보통 유전체 시퀀싱을 위해서는 유전체 DNA를 수십만~수백만개 이상의 작은 조각으로 나누고 이들 각각의 서열을 재배열하여 다시 하나의 유전체로 재구성하게 된다. 그러나 많은 수의 짧은 DNA 서열을 이용하여 전체 유전체 서열을 만들어 내는 것은 매우 복잡하고 어려운 과정이다. 이 문제를 해결하기 위해 다양한 생물정보학 기술들이 발전하였으며, 기본적인 원리는 시퀀싱된 DNA 서열이 조금씩 겹치는 영역을 서로 퍼즐 맞추듯이 끼워나가는 형태이다(그림3).

 DNA 조각을 재구성하는 것 뿐만 아니라 유전체 속의 유전자를 찾아내고, 코딩서열로부터 단백질의 기능을 예측하고, 단백질의 기능으로부터 해당 생물 종의 생리학적 특징을 예측하는 등 유전체 서열을 분석하는 많은 생물정보학 분석 기술이 같이 개발되었으며, 이로 인해 유전체 서열로부터 많은 정보를 알 수 있게 되었다.

 그러므로 유전체학의 발전은 DNA 시퀀싱 기술의 발전과 이들 서열을 분석할 수 있는 생물정보학 기술이 함께 발전하면서 가능해 졌으며, 앞으로의 생명과학 연구에 폭 넓게 활용될 것이다.

그림 2. Sanger 시퀀싱 (출처: )

그림 3. Next-generation sequencing (출처: doi:   10.1007/s40142-015-0076-8)

그림 3. DNA Assembly (출처: )

유전체학의 응용분야

유전체 염기 서열 속에 존재하는 유전자를 예측하고, 이들 서열로부터 단백질 서열 및 기능을 예측할 수 있다. 특히 대사과정과 관련된 효소 단백질을 이용해 세포 전체의 대사 네트워크를 구성할 수 있으며, 구성된 네트워크를 통해 미생물의 생리학적 특징을 이해할 수도 있고, 대사네트워크를 인위적으로 재조정해 고부가가치의 대사산물을 생산하는 대사공학에 활용할 수도 있다. 이 외에도 환자의 암 조직을 시퀀싱하여 돌연변이의 원인을 찾아내 최적화된 표적 치료제를 찾아내는데 이용할 수도 있으며, 개인 유전체 정보를 기반으로 특정 질병의 가능성을 예측하여 예방을 돕는 의료에도 널리 활용될 수 있다. 

집필

나도균/중앙대학교

감수

김근필/중앙대학교

참고문헌

1. Sanger, F., et al. 1977. Nucleotide sequence of bacteriophage φX174 DNA. Nature 265, 687.
2. Fernanda, M. and Andréa, G. 2016. A decade of human genome project conclusion: Scientific diffusion about our genome knowledge. Biochem. Mol. Biol. Educ. 44, 215–223.
3. 'Buermans, H.P.J. and den Dunnen, J.T.' 2014. Next generation sequencing technology: Advances and applications. Biochim. et Biophys. Acta '1842', 1932–1941.

동의어

유전체학, Genomics, genomics