생물정보학

생물정보학

[ Bioinformatics ]

생물 정보학은 생명공학(bio)과 정보학(informatics)의 합성어다. 용어의 기원에서 보듯 생물학 분야의 해석을 통계학과 컴퓨터 시스템의 도움을 받는 방식의 학문이며 이를 위해 생물학적 데이터의 획득의 양적 진화와 해석하는 툴의 발전을 바탕으로 생물정보학 분야가 크게 발달하게 되었다.

학문 분야의 시작은 1978년 폴린 호그웩(Paulien Hogeweg)과 벤 헤스퍼(Ben Hesper)가 생물학 정보처리에 대한 연구를 시도하면서 시작되었고 특히 1980년대 후반에 유전체 프로젝트 (Genome Project)를 통한 대량의 DNA 염기서열 분석이 시작되면서 급격하게 발전되어왔다. 초반에는 DNA와 단백질의 서열 분석을 의미하였지만 현재는 컴퓨터를 이용한 생물학적 데이터의 해석과 적용을 시도하는 것이 모두 포함된 넓은 범위의 개념을 포함하는 것으로 사용된다.

목차

생물 정보학의 최종적 목표

  • 많은 생물학적 데이터의 올바른 확립
  • 얻어낸 데이터들의 올바른 분석
  • 생물학적 데이터들의 의미 있는 해석과 예측

생물 정보학에서의 컴퓨터의 기능 이용

데이터베이스 구축

데이터베이스는 생물정보학적 연구 및 응용에 매우 중요하다. 데이터베이스의 구축을 위해서는 분석을 위한 생물학적 데이터의 양의 축적이 선행되어야 하며 생물정보학을 이용해 올바르게 분석된 생물학적 정보들이 올바르게 분류되어 쉽게 접근할 수 있도록 해야한다. 실례로는 DNA 염기 서열정보나 단백질 서열, 분자 구조, 유전형과 표현형, 생물 다양성 등 이 기존 연구들을 통해 데이터베이스에 축적되어있으며 연구자들 사이에서 공유된다.

알고리즘

생물학적 데이터의 양적 축적의 속도가 엄청나게 빨라진 만큼 사람이 분석할 수 없는 방대한 데이터의 처리 과정을 컴퓨터를 이용해 분석하기 위해서는 복잡한 과정의 간소화와 자동화를 위한 올바른 알고리즘이 필요하다.

소프트웨어

알고리즘이 잘 갖춰지더라도 컴퓨터 공학자가 아닌 생물학자들도 이해하고 사용할 수 있는 소프트웨어의 개발이 함께 이루어져야 한다. 생물학적 문제 제기는 생물학자들이 할 것이고 데이터가 마련되면 컴퓨터 공학자들과 통계학자들이 만들어낸 알고리즘을 위한 소프트웨어로서 분석되며 미래를 위한 데이터베이스에 축적될 것이다.

생물 정보학의 응용

DNA 서열 분석 DNA 염기서열 시퀀싱, 조립

DNA 서열의 분석 기술의 발달로 염기서열의 엄청난 양적 획득은 정확한 순서로 분석되어야 한다. 다양한 길이와 서열로서 얻어진 정보를 양쪽 말단의 중복되는 서열로서 조립되고 이 과정에 컴퓨터의 연산 처리 능력과 조립 알고리즘의 발달이 필요하다. 그림 1은 2003년도에 끝난 인간 유전체 지도 작성 프로젝트인 Human Genome Project이다. 이어진 ENCODE 프로젝트는 진행되는 DNA 염기 서열 분석은 유전체의 기능적 단위 동정을 목표로 진행되었다. 이런 식으로 이어지고 있는 프로젝트들의 최종 목표는 생물학 다른 분야인 유전학과 결합되어 생물학적 표현형에 어떤 유전자가 기능하고 있는지까지 규명해내는 유전자의 단위적 기능 규명이다.

.

그림1. 인간 X 염색체 정보 (출처: 위키피디아 https://commons.wikimedia.org/wiki/File:Genome_viewer_screenshot_small.png)

유전체학(Genomics)

생물정보학 연구에서는 DNA 서열의 비교 분석을 통한 분류와 예측이 목적이다. 이를 위한 방법으로 전산 진화생물학과 비교 유전체학, 팬 유전체학은 각각이 비슷한 연구 접근을 시도한다. 생물정보학의 한 분야로서 물리적 분류학이나 생리학적 비교 관찰보다는 DNA 서열의 차이를 확인함으로써 많은 생물체의 진화를 추적하고, 유전체를 비교하여 유전자 복제, 수평 유전자 전이 및 종 분화에 중요한 요소의 예측 같은 보다 연구에 접근하고 있다.

질병에서의 유전체 분석

시퀀싱 기기와 분석 방법의 발전으로 복잡한 질병에서의 유전자 변형을 동정해 낼 수 있는 서열 데이터 베이스의 구축이 가능해졌다. 질병 간 공통적인 유전자 변형에 대한 데이터 베이스를 바탕으로 예후 예측, 진단 혹은 치료에 대입을 최종적 목표로 한다. 실제 암에서의 유전자 변이에 대처하여 암을 치료하는 치료제 개발을 위한 표적 유전자 동정에 많은 연구가 집중되고 있다.

RNA, 단백질 발현 분석 RNA를 통한 유전자 발현 분석

DNA 서열을 반영하는 것은 최종적으로 단백질의 발현이며 그 과정에서 mRNA의 발현과정을 거친다. 때문에 mRNA의 발현 분석이 빠른 속도로 발전해 왔다. RNA의 실제적인 발현의 확인은 mRNA 마이크로어레이 (microarrays), cDNA 서열 태그 (expressed cDNA sequence tag sequencing; EST sequencing), 유전자 발현 태그 연쇄 분석 (serial analysis of gene expression tag sequencing; SAGE-seq.), 광역 병렬 신호 시퀀싱(massively parallel signature sequencing; MPSS), 전체 전사체 전사 분석 샷건 시퀀싱 (Whole Transcriptome Shotgun Sequencing; WTSS) 등의 다양한 방식을 이용해 측정된다. 이 부문에서의 생물정보학적 정보 처리의 핵심은 많은 양의 데이터에서 유효한 시그널과 노이즈 시그널을 구분해내는 통계도구의 개발이다.

단백질 발현 분석

실제적으로 생체 내에서 활성을 가지고 있는 기본적인 단위는 단백질이기 때문에 단백질의 발현 양의 확인은 매우 중요하다. 대용량 질량 분석기를 이용한 단백질량 결정이 주로 사용되고 있는 방식 데이터 획득 과정에서는 아직 효율성 부문의 개선이 이루어질 여지가 많은 분야이다. 이를 보완하기 위해 불완전한 펩타이드 정보로부터 각각의 단백질의 서열과의 일치시키는 분석과 정량적 부분을 생물 정보학적인 도구를 이용해 분석하는 방법의 발전이 이루어지고 있다. 또한 질량 분석의 과정에서 단백질의 활성과 관련된 인산화, 메틸화, 유비퀴틴화, 당화 등의 변형 확인을 위한 분석 방법의 발달도 활발하게 이루어고 있다.

발현 조절 추적

단백질의 발현과 이를 통한 조절의 일련의 과정들이 진행되는 과정의 추적도 생물 정보학적 접근으로 가능하다. 특정 단백질이 DNA 염기 서열에 직접적인 결합을 통해 다양한 유전자들의 발현을 조절하는 경우 프로모터의 서열 분석을 통해 단백질의 결합 부위의 특정 염기 서열을 확인하는 것이 가능하며 프로모터 부위와 매우 멀리 떨어졌음에도 기능하는 단백질의 추적의 예로서 유전자의 발현 조절에 매우 중요한 인핸서 부위의 동정도 삼차원적인 루핑 구조의 분석을 통해 가능하다. 최근에는 분자생물학적 기술의 발달과 시퀀싱 분석 기기의 민감도의 엄청난 발전에 힘입어 단일 세포 수준에서의 발현 분석도 가능해졌다.

구조 생물정보학

3차원 단백질 구조의 분석도 기본적으로 컴퓨터를 이용한 분석이 전제된 고전적인 분석 방법이다. 크리스탈 구조의 분석으로 적립된 서열 정보와 구조적 정보는 다른 단백질의 구조 예측이 가능하도록 해준다. 전자현미경 이미지를 얻지 못했지만 상동성이 높은 단백질의 구조 정보가 있다면 이를 통해 단백질의 구조와 구조적 특성을 통해 가지는 기능까지 예측까지 가능하다. 최근에는 현미경 관찰 이전의 시료 처리 과정의 비약적인 발전과 현미경 분해능의 비약적인 발전을 통해 크리스탈 구조를 얻지 못했던 단백질들의 구조 정보를 훨씬 쉽게 얻을 수 있게 되어 더 많은 발전이 예상되는 분야이다.

시스템 생물학

시스템 생물학의 근본적 개념은 단백질의 기능이 단백질 간 상호 작용으로 이루어진다는 것으로 시작되는데 더 나아가 궁극적 목표는 미시적인 상호작용의 차원에서 다 나아가 기능적, 물리적으로 연결되는 모든 생물학적 데이터를 거시적으로 통합하여 분석하는 것이다. 분석의 결과물은 네트워크로서 시각화되어 나타낼 수 있고 생명체의 동적 시뮬레이션을 수행하는 것으로도 이용 가능하다.

관련용어

Human Genome Project, ENCODE 프로젝트, 전산 진화생물학 (Computational evolutionary biology), 비교 유전체학 (Comparative genomics), 팬 유전체학 (Pan genomics), 차세대 시퀀싱, 마이크로어레이 (microarrays), cDNA 서열 태그 (expressed cDNA sequence tag sequencing; EST sequencing), 유전자 발현 태그 연쇄 분석 (serial analysis of gene expression tag sequencing; SAGE-seq.), 광역 병렬 신호 시퀀싱(massively parallel signature sequencing; MPSS), 전체 전사체 전사 분석 샷건 시퀀싱 (Whole Transcriptome Shotgun Sequencing; WTSS), 구조 생물정보학, 시스템 생물학

참고문헌

분자생물학 (Weaver저, 5판, 라이프사이언스)

분자세포생물학 (Matsudayra저, 6판, 원드사이언스)

Johnson G, Wu TT (2000). . Nucleic Acids Res28 (1): 214–218

Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2008). . Nucleic Acids Res36 (Database issue): D25–30. 

Véron A, Blein S, Cox DG (2014). 'Genome-wide association studies and the clinic: A focus on breast cancer'. Biomarkers in Medicine8 (2): 287–96. 

Ay, Ferhat; Noble, William S. (2015). 'Analysis methods for studying the 3D architecture of the genome'. Genome Biology16 (1). 

Tosto G, Reitz C (2013). 'Genome-wide association studies in Alzheimer's disease: A review']. Current Neurology and Neuroscience Reports13 (10): 381. 

Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). 'Biocompute Objects—A Step towards Evaluation and Validation of Biomedical Scientific Computations'. PDA journal of pharmaceutical science and technology71(2): 136–146.

Raul Isea (2015) The Present-Day Meaning Of The Word Bioinformatics, Global Journal of Advanced Research, 2015

Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). 'Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations'. Pharmacogenomics. Methods in Molecular Biology. 1015: 127–46.