생물정보학

생물정보학

[ Bioinformatics ]

생물정보학(bioinformatics)은 생물학과 정보학이 융합된 학문으로서, 매우 다양하고, 방대한 생명체 관련 자료를 체계적으로 수집, 정리, 가공, 배포하고, 이를 분석, 활용하는 것을 목표로 한다. 생물정보학의 적용 분야는 매우 다양하다. 이중에서도 가장 기본이 되는 것은 염기서열 정보에서 유전자를 발견하고, 그 유전자의 기능을 유추해 내는 작업이다(그림 1의 왼쪽). 차세대 염기서열 분석(next-generation sequencing, NGS) 기술의 발달로 대량 초고속 분석이 가능해짐에 따라 유전체 서열이 기하급수적으로 증가하고 있기 때문에 이러한 생물정보학적 자동 분석법은 매우 중요하다. 특정 환경(해양, 토양, 인간 등)에 존재하는 미생물군집의 조성을 알아내기 위하여 수행하는 메타게놈 분석(그림 1의 오른쪽)도 매우 중요한 분야 중의 하나다.

그림 1. 전형적인 NGS 자료분석 파이프라인 (출처: )

목차

서론

염기서열 해독 기술이 발전하여 서열 정보가 축적됨에 따라, DNA 염기 서열과 단백질 서열 데이터베이스가 구축되고, 이를 검색하고 활용하기 위한 소프트웨어 도구들도 다양하게 개발되고 있다. 서열 자동 분석기가 산출한 원천 데이터들을 다루기 위한 도구, 이들을 조립하여 완전한 유전체 서열을 결정하는 도구, 유전체 서열에 존재하는 유전자를 찾아내고 그 기능을 유추하는 주석(annotation) 도구, 유전체의 구조적 특징을 분석하는 도구, 다른 생물체의 유전체와 비교 분석하는 도구, 세포의 대사경로를 분석하는 도구 등 현대의 생명과학/공학 연구에서 반드시 이용해야만 하는 생물정보학 도구는 이루 말할 수 없을 정도로 많고 다양하다1).

또한 수 많은 생물체의 유전체 정보가 축적되고, RNA, 단백질, 대사산물 등에 대한 초고속 대량 분석 기술들이 개발됨에 따라 이제까지는 범접할 수 없었던 많은 생명현상에 대한 의문들을 풀어 낼 수 있는 기반이 조성되고 있다2). 새로운 의문이 제기되면 이를 풀어 낼 새로운 생물정보학 도구들이 지속적으로 개발되고 있다. 생명유지에 필수적인 유전자들은 어떠한 것들이 있고, 이들로 구성된 최소유전체는 어떻게 설계해야 할 것인가? 실험적으로 만들어 내야 할 합성세포와 이들을 컴퓨터 상에서 구현하는 가상세포에 관한 연구는 상호보완적으로 발달해 가면서 생명현상에 대한 이해의 폭을 넓혀 나갈 것이다3). 이 모든 과정에 생물정보학이 중심에 서 있을 것이다.

핵산 서열 및 구조 분석

DNA 서열 분석

모든 프로그램이 서열을 자동적으로 필요에 따라 상보적 서열로 전환 분석해 주지만 간혹 우리가 주어진 서열의 상보적 서열로 결과가 나왔을 때, 해석하는데 혼돈이 오는 경우가 많다. 이럴 때 DNA와 RNA 서열로부터 상보적인 서열을 만들기 위해서 Reverse complement ( )를 사용한다.

개방형 해독틀(open reading frame, ORF)란 염기서열에서 개시코돈부터 종결코돈까지 단백질을 암호화하고 있을 가능성이 있는 영역을 일컫는 말이다. ORF Finder ( )는 이용자가 특정 서열에 존재하는 가능한 모든 ORF를 찾아주는 프로그램이다. 즉 6개의 가능한 해독틀(reading frame)로 번역하여 그 결과를 그래픽으로 보여준다. 일반적으로 일정 구역에서 가장 긴 ORF가 유전자를 암호화하고 있는 부위일 가능성이 매우 높다.

전사 신호인 프로모터나 전사종결자(transcription terminator)를 찾는 프로그램들은 이곳에( ) 잘 정리되어 있다.

오페론 구조를 예측해 보기 위해서는 원핵생물(prokaryote)의 오페론 데이터베이스(DOOR, ) 페이지를 방문하면 된다.

RNA 서열 및 구조 분석

RNA에는 전령 RNA (messenger RNA, mRNA), 운반 RNA (transfer RNA, tRNA), 리보좀 RNA (ribosomal RNA, rRNA)가 있는데, tRNA와 rRNA는 모두 특이적인 이차구조를 갖고 있는 것으로 알려져 있으며, mRNA의 경우도 개개의 유전자 발현을 조절하는데 특이적인 이차구조가 관여하는 것으로 알려져 있다.

16S rRNA는 미생물 동정에 중요하게 이용된다. 16S rRNA 서열에 관한 정보는 RDP ( ), Silva ( ), GreenGenes ( ) 등에서 얻을 수 있다.

Genomic tRNA 데이터베이스( )가 구축되어 있으며, 질의 서열에 있는 tRNA 유전자를 찾아내기 위해서는 tRNAScan-SE ( )를 이용하면 된다.

RNA의 2차구조를 예측하고 비교하는 프로그램으로는 Vienna RNA Package ( )가 있고, RNA folding을 알아보기 위해서는 RNAfold ( )나 RNAdraw ( 등을 이용하면 된다.

단백질 및 대사네크워크 분석

단백질 서열 분석

특정 유전자의 기능을 상동성 분석으로 유추하는 데에는 DNA의 염기서열 비교(NCBI의 blastn 프로그램) 보다 단백질의 아미노산 서열 비교(NCBI의 blastp 프로그램)가 훨씬 정확하다(

단백질의 분류

단백질은 서열이나 구조의 유사성을 기반으로 그룹으로 나눌 수 있는데, 미지의 단백질이 어떤 그룹에 속하는지 분석해 보면 그 그룹에 속한 기능이 잘 알려진 단백질로부터 이 미지의 단백질의 기능을 유추해 볼 수 있다. 이러한 단백질 분류는 여러 가지로 시도되고 있는데, 잘 정리되어 있는 데이터베이스 중의 하나는 InterPro ( )이다.  InterPro에서는 서열을 분석할 단백질을 단백질족(protein family)으로 분류하고 특정 도메인(domain)이나 특징적인 서열(sequence features)의 존재를 예측하여 단백질의 기능을 유추할 수 있다.

공통의 진화적 기원을 갖고 있어서 기능이 서로 관련성이 있고, 서열과 구조적 측면에서 유사성이 존재하는 일군의 단백질들을 단백질족이라고 한다. 단백질족은 좀더 연관성이 높은 단백질들로 세분하여 subfamily로 나누기도 하고, 연관성이 다소 낮은 단백질족들을 superfamily로 묶기도 한다(그림 2).

그림 2. 단백질족의 계층 ()

도메인은 단백질에 존재하는 뚜렷한 기능적, 구조적 단위를 말한다. 이들은 특정 기능이나 상호작용의 역할을 담당하여 단백질의 전반적인 기능에 기여한다. 도메인은 다양한 생물학적 맥락에서 발견되며, 유사한 도메인이 전혀 다른 기능을 수행하는 단백질에서 발견되기도 한다.

단백질 서열의 특징(feature)은 단백질의 일부 특성을 나타내거나 전반적인 기능에 중요한 역할을 하는 일군의 아미노산들을 의미한다. 활성자리는 생화학반응의 촉매 역할을 담당하는 자리이며, 결합자리는 기질들이 단백질과 결합하는 자리이다. 번역 후 수정(post-translational modification, PTM) 자리는 단백질 합성 이후에 화학적으로 수정된(인산화, 아세틸화 등) 잔기들을 포함한다. 반복(repeats)은 단백질의 결합이나 구조적 성질에 관여하는 단백질 내에 반복적으로 나타나는 짧은 아미노산 서열을 의미한다(그림 3).

그림 3. 단백질 서열에 존재하는 도메인, 반복, 그리고 특징적인 자리들을 나타내는 개념도 ()

단백질을 단백질족으로 분류하고, 도메인이나 중요한 특징적 서열의 존재를 알아내기 위해서는 생물정보학적 도구가 필요한데, InterPro의 도구들은 signature라고 하는 예측 모델을 사용한다(그림 4).

그림 4. Signature를 만들어내는 세 가지 전략 ()

Signature 에는 패턴(patterns), 프로파일(profiles), 지문(fingerprints), Hidden Markov models (HMMs) 등 4가지 유형이 있다.

패턴이란 모티프의 서열들을 추출한 다음, 정규표현식으로 나타낸 것이다(그림 5). 정규표현식에서 아미노산 잔기와 잔기는 hyphen(-)으로 분리되어 표기한다. x는 모든 아미노산 잔기가 허용된다는 의미이고, []는 안에 표기된 잔기에 한하여 허용된다.{ }는 안에 포함된 잔기 이외의 것만 허용되고, ( )는 반복되는 잔기 개수를 뜻한다.

패턴을 이용하는 데이터베이스에는 Prosite ( )가 있다. 효소의 활성자리나 결합자리와 같이 소수의 아미노산들이 단백질 기능에 필수적인 특징적 서열자리를 찾아내는데 잘 활용될 수 있다.

그림 5. 패턴을 얻어내는 방법 ()

프로파일은 단백질족과 도메인을 모델링하는데 사용된다. 다중서열정렬을 위치특이적 점수화 방식으로 전환한 것이다(그림 6).

그림 6. 다중서열정렬에서 서열상의 각 위치에서 해당 아미노산이 나타나는 빈도를 점수화한 점수행렬 ()

프로파일을 이용하는 데이터베이스에는 Conserved Domains Database(CDD, , Prosite, ProDom( 등이 있다. 

지문을 얻는 방법은 그림 7과 같다. 다중서열정렬에서 모티프를 정의하고, 각 모티프들로부터 프로파일을 얻어낸 다음, 각 프로파일의 순서와 거리 등을 지문의 signature로 모델링한다. 지문을 이용하는 데이터베이스에는 PRINTS ( )가 있다.

그림 7. 단백질의 지문을 얻어내는 방법 ()

Hidden Markov models (HMMs)을 이용하는 데이터베이스에는 Pfam ( ) 등이 있다.

INTERPRO는 아래 그림과 같이 이렇듯 다양한 접근법을 사용하여 구축된 여러 데이터베이스들을 총 망라하여 개별적으로 접근하지 않고서도 서열 분석과 단백질 분류를 할 수 있도록 통합한 것이다(그림 8).

그림 8. InterPro를 구축하기 위하여 사용된 다양한 데이터베이스들 ()

단백질 구조 분석

단백질 구조는 1차(primary), 2차(secondary), 3차(tertiary), 그리고 4차(quaternary) 구조의 네 단계로 표현된다. 3차 구조는 일반적으로 한 폴리펩티드에 있는 모든 원자들의 공간적 배열을 의미하지만, 단백질 구조를 기술할 때는 공간상에서 구조적으로 독립된 단위체를 지칭하는 도메인과 같은 의미로 쓰인다. 특히 이러한 정의는 여러 개의 도메인을 포함하는 폴리펩티드(subunit)의 경우 중요하다. 3차 구조는 일반적으로 2차 구조 몇 개가 모여 이루어지는데, 'fold'는 2차 구조가 공간상에 배열되어 연결된(같은 topology를 갖는) 패턴을 의미한다. 같은 fold의 단백질들은 구성 2차 구조들과 이들을 연결하는 부위의 크기에 차이가 있으나, 일반적으로 전체 구조가 유사하게 된다. 아미노산 서열의 유사성이 매우 낮을 경우에도 삼차원 구조가 유사한 경우가 있다. 이것은 구조가 유사한 두 단백질이 같은 조상으로부터 진화했거나 혹은 다른 조상으로부터 특정 기능을 갖는 구조로 진화한 결과로 볼 수 있다. 일반적으로 진화과정에서 단백질의 아미노산 서열보다는 구조가 보다 잘 보존되어 있음을 나타낸다.

구조 분류 및 비교는 공통적으로 PDB (Protein Data Bank)에 수록된 단백질에 한하여 가능하다. 이에 관련된 사이트로는 SCOP ( ), CATH ( ), DALI ( ) 등이 있다. 

현재 단백질의 일차 구조만 이용하여 삼차원 구조를 정확하게 예측하는 방법은 없다. 일반적으로 molecular modeling은 상동성이 있는 단백질의 구조를 template로 하거나, 분광학적인 방법으로 얻은 결과 등을 종합하여 계산하는 매우 복잡하고 어려운 과정을 거친다.

대표적인 분자모델링 서버는 SWISS-MODEL ( )로 단백질 아미노산 서열을 입력하면 예측된 분자 구조를 얻을 수 있다. 이 경우 사용자는 template 서열을 이용하면 보다 유용한 결과를 얻을 수 있다. Neural network을 이용한 사이트로는 CPHmodels ( )가 있다. 이외에 분자 모델링에 관한 사이트로는 , CMM (Center for Molecular Modeling): ://cmm.cit.nih.gov/, Critical Assessment of Structure Prediction (CASP) 관련 사이트: 등이 있다.

대사네트워크 분석

대사회로 분석은 대표적으로 KEGG ( )가 있으며, 이외의 도구들은 Pathway Tools Software ( )에 잘 정리되어 있다.

대사네트워크를 분석할 수 있는 BioCyc ( )에는 대사회로/유전체 데이터베이스(PGDBs)가 있으며, 각 PGDB는 단일 생물체의 유전체와 대사경로에 관한 정보를 제공하고 있다. BioCYC는 소프트웨어를 이용하여 서열이 완전히 알려진 생물의 대사회로 뿐만 아니라 효소나 오페론 등을 유추해준다. 또한 오믹스 데이터 분석, 비교유전체 분석, 대사회로에 대한 비교 분석 및 시각화를 위한 소프트웨어 도구를 제공한다.

NGS 자료분석 도구

전형적인 NGS 자료 분석 과정에는 매우 다양하고 많은 생물정보학 도구들이 이용된다. 이 도구들을 개별적으로 이용하려면 많은 어려움이 있어 일련의 분석을 자동으로 연결하여 원하는 최종 결과를 산출해 낼 수 있도록 연결한 파이프라인을 만들어서 사용한다(그림 1). 일반적으로 NGS 리드(read)들을 조립하여 완전한 유전체 서열을 얻어내고, 유전체에 존재하는 모든 유전자들을 찾아, 그 기능을 유추해 내는 작업, 즉 주석(annotation)이 이루어진다. 그리고 이 복잡한 결과물을 보기 좋고, 이해하기 쉽도록 시각화하는 작업을 하게 된다.

한 개의 참조유전체(reference genome)로는 한 종의 온전한 유전적 다양성을 충분히 나타내지 못한다. 같은 종에 속하는 개체들 사이에서도 유전체가 상당한 차이를 나타내기 때문이다. 이러한 차이에는 single nucleotide variations (SNVs), small insertions or deletions (indels), copy number variations (CNVs), presence/absence variations (PAVs), large structural variants (SVs)가 있다(그림 9).

그림 9. 참조유전체와 CNVs, PAVs의 개념을 나타낸 그림 (출처: )

이러한 유전체 변이를 분석하는 도구들 중에서 CNV를 검출하는 방법에는 read-pair (RP), split read (SR), read depth (RD), assembly-based (AS) 등 네 가지가 있다(그림 10).

RP 방법은 read-pair의 양 말단 서열이 라이브러리 제조 시 사용한 삽입 절편의 평균 크기와 상당히 다른 경우를 찾아내는 방법이다. 작은 경우는 참조서열과 비교했을 때 결실이 일어난 것이고, 반대로 큰 경우는 삽입이 일어난 것이다(그림 10의 1).

그림 10. NGS 자료로부터 CNVs를 검출하는 주요 4가지 방법 (출처: )

SR 방법은 read-pair의 한쪽은 mapping이 잘 되지만 다른 한쪽은 mapping이 불완전하거나(결실), 아예 안 되는 경우(삽입)를 활용하는 것이다(그림 10의2).

RD 방법은 유전체의 특정 부위에 mapping된 리드의 수를 측정하여 결실 부위를 알아낼 수 있다(그림 10의 3). 이 방법은 실험 방법에 따라 시료의 상대적 copy number를 측정할 수도 있다.

AS 방법은 de novo 조립과정에서 산출된 contig 서열과 참조유전체를 비교함으로써 알아내는 방법이다(그림 10의 4).

유전체 분석 도구

Pan-genome

한 종의 온전한 유전적 다양성을 제대로 나타내기 위해서는 새로운 개념의 도입이 필요한데 바로 pangenome이다. Pangenome은 특정 종에 존재하는 모든 유전자의 총합을 의미한다. Pangenome은 core genome과 variable (또는 accessory, dispensable) genome으로 구성되는데, core genome은 특정 종에 존재하는 모든 개체에 존재하는 core 유전자들로 구성되며, variable genome은 일부의 개체에서만 발견되는 유전자들로 구성된다. 이중에서 하나의 유전체에서만 발견되는 유전자를 유전체 특이적 유전자라고 한다(그림 11).

그림 11. Pangenome의 구성 ()

Computational Pan-Genomics Consortium이 구성되어 pangenome 자료 구조와 설계 목표를 뚜렷하게 설정하여 연구를 진행하고 있다. Pangenome 연구가 성공하기 위해서는 유전체 서열과 주석 작업의 정확성이 매우 중요하다. 또한 pangenome 분석도구에서 특히 자료 시각화의 개선이 요망된다. Genome organization framework (GOF)의 도입과 ortholog의 정확한 동정도 필수적이다.

Genome organization framework (GOF)

Core gene들 중에 일부는 염색체 상의 순서나 방향성에서 비교적 안정적인 모습을 보이는데 이를 core-gene-defined genome organizational framework (cGOF)라고 한다. 일부의 경우는 하나의 분절로 되어 있지만 나머지는 여러 개의 분절로 이루어져 있다. 여러 분절로 이루어진 cGOF는 복제의 기점과 종점을 축으로 해서 대칭적인 경우와 비대칭적인 경우가 있다(그림 12).

이러한 GOF의 체계적 분석은 앞으로 유전자의 염색체 상의 위치와 전사의 방향성, 유전자가 위치하는 DNA 가닥(즉 전사 방향)의 편향성 등 유전체의 일차원적 구조의 원리를 이해하고, 또한 유전체의 진화를 밝히는데 중요한 역할을 할 것으로 기대된다.

그림 12. cGOF의 개념과 그 유형들 (출처: )

Positional orthology

유전체의 진화와 유전체에 포함된 유전자들의 기능을 유추하고 이해하는데 orthology는 매우 중요하다. 그러나 지금까지의 orthology 분석에서는 유전자의 유전체 상의 위치가 고려되지 않았기 때문에 다른 유전체들에서 동일한 역할을 수행하는 유전자를 알아내는데 한계가 있었다. 이러한 이유에서 공통의 조상 유전체 상의 위치를 유지하고 있는 ortholog 사이의 관계를 나타내는 positional orthology라는 새로운 개념이 탄생했다. 예를 들어 그림 13에서 보듯 A종에 존재하는 single copy 유전자 Y (YA)와 ortholog 관계인 B 종의 Y 유전자(YB)가 중복을 통해 2개(YB1, YB2)가 되었다면, 기존의 orthology 분석 방법으로는 YA와 YB1, YB2가 ortholog 관계라는 것을 알아낼 뿐, YA와 YB1이 조상 유전자 Y로 부터 직접 유래되었다는 사실을 알아내지 못한다. 이런 점을 보완한 개념이 바로 positional orthology이다.

그림 13. Orthology 개념의 한계와 positional orthology 개념의 필요성 (출처: )

필수유전자와 최소유전체

생명체에서 생명 유지에 필수적인 유전자들을 밝혀내는 것은 생명을 이해하는데 반드시 필요하다. 이 연구는 합성생물학 특히 필수유전자들로만 구성된 최소유전체를 합성하는데 반드시 필요하며, 이외에도 생물공학적 응용을 위한 균주의 설계 등 다양한 분야에 활용될 수 있다.

세균의 필수유전자는 같은 종에 속하는 균주들 사이에서도 상당히 다른 양상을 보이는데, 이유 중의 하나는 서열의 기원이 다른 필수 기능 유전자들을 수평유전자전달(horizontal gene transfer, HGT)에 의해 획득하여 비직계유전자대체(non-orthologous gene displacement)라고 한다. 또한 실험적으로 필수유전자를 밝혀내는 방법에 따라서도 상이한 결과가 나타나기 때문이다(그림 14). 따라서 보다 체계적인 생물정보학적인 접근을 병행하여 수행하는 것이 바람직하다.

그림 14. 다양한 연구 결과 Baba T, et al. 2006. Construction of Escherichia coli K-12 in-frame, single-gene knockout mutants: the Keio collection. Mol. Syst. Biol. 2, 0008. Gerdes SY, et al. 2003. Experimental determination and system level analysis of essential genes in Escherichia coli MG 1655. J. Bacteriol. 185, 5673–5684. Goodall ECA, et al. 2018. The essential genome of Escherichia coli K-12. MBio 9, e02096-17. Kato J and Hashimoto M. 2007. Construction of consecutive deletions of the Escherichia coli chromosome. Mol. Syst. Biol. 3, 132. Yamazaki Y, Niki H, Kato J. 2008. Profiling of Escherichia coli chromosome database. Methods Mol. Biol. 416, 385–389. 에 따라 예측된 대장균의 필수유전자를 나타낸 벤 도표 (출처: )

메타게놈 분석 도구

샷건 메타게놈 분석 도구

메타게놈은 특정 환경에 존재하는 모든 미생물의 유전체 집합을 의미한다. 미생물 군집의 분류학적 다양성과 기능적 다양성을 탐구하기 위하여 메타게놈 서열을 이용한다. 또한 신규 유전자, 새로운 미생물, 새로운 효소나 항생물질을 탐색하기 위한 방법으로도 많이 사용된다.

군집의 분류학적 다양성을 분석하는 방법은 그림 15에 나타낸 바와 같이 세가지가 있다.

마커(marker) 유전자 분석은 각 리드를 마커 유전자의 분류학적 또는 계통유전학적 데이터베이스와 비교함으로써 이루어진다.

그림 1에 나타낸 binning 방법을 좀더 자세히 살펴보면 그림 15에 나타낸 바와 같이 세가지로 나눌 수 있는데, 첫째는 compositional binning이다. 이것은 각 메타게놈 리드들을 분류군으로 클러스터링하기 위하여 sequence composition을 이용한다. 둘째는 similarity binning으로, 기존에 알려진 유전자나 단백질과의 유사성에 근거하여 각 리드들을 분류한다. 셋째는 fragment recruitment로 각 리드들을 거의 동일한 유전체 서열 상에 정렬하여 coverage를 측정하는 것이다.

마지막으로 각 리드 서열들을 조립하여 컨티그(contig), supercontig 과정을 거쳐 최종적으로 완전한 유전체 서열을 알아내기도 한다.

그림 15. 메타게놈에 존재하는 분류군을 알아내는 전략 3가지 (출처: )

군집의 기능적 다양성을 분석하는 유전자 예측 단계와 기능 주석 단계를 그림 16에 나타내었다. 각 리드에는 유전자의 일부분이 포함되어 있을 수 있는데, 그림 16에서 보듯 앞의 유전자 말단 부위(*표)와 다음 유전자의 시작 부위(화살표)가 포함되어 있다면 유전자 예측 과정을 통해 이 두 부분의 펩티드 서열을 얻어낸다. 각각의 예측된 펩티드 서열들은 기능적 주석 작업을 하게 되는데, 이 과정에서 단백질족 데이터베이스와 비교하게 된다. 모든 리드에 걸쳐 이러한 분석을 수행하면 군집의 기능적 다양성 프로파일을 얻을 수 있다.

그림 16. 메타게놈의 기능적 주석 작업 흐름도 (출처: )

인간미생물체

인간과 더불어 살아가는 수 많은 미생물들을 총체적으로 인간미생물체(human microbiome)라고 한다. 인간미생물체의 모든 유전체 서열을 밝혀내고 우리 건강과의 연관성을 밝혀내고 있는 사업이 바로 인간 미생물체 프로젝트(human microbiome project, HMP)이다. 인체에는 사람 세포 수의 10배나 되는 100조개의 미생물 세포들이 있다. 유전자 수로는 360배에 이르는 800만개에 이른다. 최근의 연구 결과는 사람의 세포 수를 약 37조개로 추정하여 미생물 세포와 인간의 세포수 비가 약 3: 1이라고 보고 하였으며, 일부 연구는 그 비가 약 1: 1이라고 보고하기도 하였다.

그림 17. 건강한 인간 미생물체의 구성, 기능, 생태, 동력학적 정의 (출처: )

인체 내의 각종 미생물은 생체대사 조절, 소화능력, 각종 질병 등 인체의 모든 기능에 영향을 미치는 것으로 알려져 있다. 특히 알레르기나 비염, 아토피, 비만과 관련된 각종 대사ㆍ면역질환, 장염, 심장병 등이 관련된 것으로 보고되고 있다. 따라서 혹자는 인간 제2의 유전체라고도 하며, 또한 인간은 이들과 공생관계를 넘어 하나의 초유기체를 이루고 있다고도 한다. 

HMP에서는 건강한 사람의 주요 5개 신체 부위에 존재하는 미생물들을 16S와 metagenomic shotgun sequencing 방법을 이용하여 분석하였다(그림 17). 그리고 다음 단계로 마이크로비옴 관련 증상을 보이는 코호트로부터 멀티오믹스 기술을 이용하여 마이크로비옴의 특징을 분석하고 있다. 이를 integrative human Microbiome project (iHMP)라고 하는데, 임신 중의 마이크로비옴의 변화를 측정하고, 조산 사산을 방지할 수 있는 방법을 알아낸다든가, Inflammatory Bowel Disease (IBD), Type 2 당뇨병 등을 해결할 수 있는 방안을 찾아내기 위하여 연구가 진행되고 있다.

멀티오믹스 분석 도구

최근에는 유전체(genome), 후성유전체(epigenome), 전사체(transcriptome), 단백질체(proteome), 대사체(metabolome), 미생물체(microbiome) 등 오믹스 자료들을 서로 통합하여 분석하려는 시도가 활발하게 이루어지고 있다. 질병 연구를 위한 멀티오믹스 접근법엔 두 가지가 있는데, 유전체 우선 접근법과 표현형 우선 접근법이 있다(그림 18).

그림 18. 멀티오믹스 자료형과 질병 연구를 위한 접근법 (출처: )

관련용어

차세대 염기서열 분석(next-generation sequencing, NGS), 메타게놈, RNA, 개방형 해독틀(open reading frame, ORF), 프로모터, 전사종결자(transcription terminator), 오페론, 원핵생물(prokaryote), 전령 RNA (mRNA), tRNA, 리보좀 RNA (rRNA), 16S rRNA, 단백질족(protein family), 비교유전체, 리드(read), 주석(annotation), 참조유전체(reference genome), pangenome, Genome organization framework (GOF), ortholog, positional orthology, 수평유전자전달(horizontal gene transfer, HGT), 비직계유전자대체(non-orthologous gene displacement), 마커(marker), 컨티그(contig), 인간미생물체(human microbiome), 인간 미생물체 프로젝트(human microbiome project, HMP), shotgun sequencing, 유전체(genome), 후성유전체(epigenome), 전사체(transcriptome), 단백질체(proteome), 대사체(metabolome), 미생물체(microbiome)

집필

김영창/충북대학교

감수

이진원/한양대학교

참고문헌

1. 한국미생물학회. 2017. 미생물학, 범문에듀케이션.
2. 김영창. 2014. 바이오펄과 함께하는 생명정보학. 충북대학교 출판부.
3. 김영창 등. 2008. 합성생물학. 도서출판 개신

동의어

생물정보학, bioinformatics, Bioinformatics