차세대 염기서열 분석

차세대 염기서열 분석

[ Next Generation Sequencing ]

약어 NGS

차세대 염기서열 분석은 유전체의 염기서열의 고속 분석 방법이다1).

목차

개요

기존의 생어 염기서열 분석(Sanger sequencing)과 달리 많은 수(백만 개 이상)의 DNA 조각을 병렬로 처리하는 데 특징이 있다2)3). 차세대 염기서열 분석의 등장으로 유전체 분석에 필요한 비용이 급격히 낮아져 많은 분야에서 다양하게 사용되고 있다4).

그림 1. 다수의 조각난 염기서열들은 겹쳐진 부분들을 이용하여 조립하여야 한다. ()

이는, 하나의 유전체를 무수히 많은 조각으로 분해하여 각 조각을 동시에 읽어낸 뒤, 이렇게 얻은 데이터를 생물 정보학적 기법을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하고자 하기 위함이다. 이러한 NGS의 기본 개념은 1992년 시드니 브레너 등에 의해 제시되었지만, 기술적 한계 등으로 인하여 2004년에야 최초로 상용화될 수 있었다5).

그림 2. SOLiD 플랫폼에서 라이브러리 제작 방법 ()

플랫폼

얼마나 많은 read 수를 배출하고 얼마나 긴 read length를 가지느냐에 관심이 가지만, 각 플랫폼에서 배출된 염기서열의 정확도 또한 상당히 중요하다6). 주요한 플랫폼의 특징은 아래와 같다.

그림 3. (좌) Illumina MiSeq sequencer, (우) Illumina HiSeq 2500 sequencer (, )

단일 분자 실시간 염기서열 분석
플랫폼 이름 단일 분자 실시간 염기서열 분석 (Single-molecule real-time sequencing, 업체: Pacific Biosciences)
1 가닥의 길이 평균 10,000 - 15,000 bp: 최대 40,000 bp 이상7)8)9)
정확도 87% 10)
1회 운영시 가닥 수 SMRT cell 하나 당 50,000 가닥, 총 500–1000 Mbp11)12)
1회 운영 시간 30분 - 4시간13)
100만 bp 당 가격 (미국 달러) 0.13 – 0.60
장점 가닥 길이 최대. 4mC,5mC,6mA의 빠른 진단.14)
단점 중간 정도의 산출, 굉장히 비싼 기계

이온 반도체, 이온 토런트 염기서열분석
플랫폼 이름 이온 반도체, 이온 토런트 염기서열분석 (Ion semiconductor, Ion Torrent sequencing)
1 가닥의 길이 최대 400 bp
정확도 98%
1회 운영시 가닥 수 최대 8천만 가닥
1회 운영 시간 2시간
100만 bp 당 가격 (미국 달러) 1
장점 저렴한 기계 가격. 빠른 분석.
단점 연속된 염기서열 분석에 에러 발생

파이로 시퀀싱, 454 염기서열 분석
플랫폼 이름 파이로 시퀀싱, 454 염기서열 분석 (Pyrosequencing, 454 technology)
1 가닥의 길이 700 bp
정확도 99.90%
1회 운영시 가닥 수 백만 가닥
1회 운영 시간 24 hours
100만 bp 당 가격 (미국 달러) 10
장점 Long read size. Fast.
단점 Runs are expensive. Homopolymer errors.

염기서열 합성 분석
플랫폼 이름 염기서열 합성 분석 (Sequencing by synthesis, 회사: Illumina)
1 가닥의 길이 MiniSeq, NextSeq: 75-300 bp; MiSeq: 50-600 bp; HiSeq 2500: 50-500 bp;HiSeq 3/4000: 50-300 bp; HiSeq X: 300 bp
정확도 99.9% (Phred30)
1회 운영시 가닥 수 MiniSeq/MiSeq: 25백만 가닥;NextSeq: 1억3천만 가닥, HiSeq 2500: 3억-20억 가닥, HiSeq 3/4000 25억 가닥, HiSeq X: 30억 가닥
1회 운영 시간 1-11일, 분석 기계에 따라 다름15)
100만 bp 당 가격 (미국 달러) 0.05 - 0.15
장점 가닥 산출 최대, 정확한 염기서열
단점 비싼 기계와 많은 용량의 DNA 요구

염기서열 묶음 분석
플랫폼 이름 염기서열 묶음 분석 (Sequencing by ligation, 업체 : SOLiD)
1 가닥의 길이 50+35 or 50+50 bp
정확도 99.90%
1회 운영시 가닥 수 12-14억 가닥
1회 운영 시간 1-2주
100만 bp 당 가격 (미국 달러) 0.13
장점 가닥 당 저렴한 가격
단점 타 플랫폼보단 매우 느린 염기서열 분석16)

나노포어
플랫폼 이름 나노포어 (Nanopore Sequencing)17)
1 가닥의 길이 라이브러리 준비 방식마다 다름. 대략 500bp
정확도 92–97% 
1회 운영시 가닥 수 사용자 처리마다 다름
1회 운영 시간 실시간 염기서열 산출. 투입 양에 따라 1분-48시간
100만 bp 당 가격 (미국 달러) 500–999 
장점 매우 긴 기닥. 휴대가능(손바닥 크기)
단점 저렴한 기계 가격, 낮은 정확도

생어 시퀀싱
플랫폼 이름 생어 시퀀싱 (Sanger sequencing)
1 가닥의 길이 400 to 900 bp
정확도 99.90%
1회 운영시 가닥 수 384
1회 운영 시간 20분 - 3시간
100만 bp 당 가격 (미국 달러) 2,400
장점 긴 가닥. 높은 정확도. 
단점 이 방법에 대비하여 빠른 플랫폼을 NGS라 부르고 있음. NGS가 아닌 전통적 염기서열 분석법.

효과

다양한 차세대 염기서열 분석 플랫폼의 출현으로 염기서열 분석 비용은 급속히 하락했다. 2001년에서 2017년 기간 중 염기서열 분석 비용은 약 십만분의 1 정도로 하락 했다는 조사 결과가 있다(그림4).

그림 4. NHGRI(http://genome.gov) 에서 산정한 인간 유전체 전체 염기서열 분석 비용 변화 ()

집필

배진우/경희대학교

감수

김봉수/한림대학교

참고문헌

1. de Magalhães JP, Finch CE, Janssens G (2010). 'Next-generation sequencing in aging research: emerging applications, problems, pitfalls and possible solutions'. Ageing Research Reviews. 9 (3): 315–323. PMC 2878865 Freely accessible. PMID 19900591. doi: 10.1016/j.arr.2009.10.006.
2. Hall N (May 2007). 'Advanced sequencing technologies and their wider impact in microbiology'. J. Exp. Biol. 210 (Pt 9): 1518–1525. PMID 17449817. doi: 10.1242/jeb.001370.open access publication – free to read
3. Church GM (January 2006). 'Genomes for all'. Sci. Am. 294 (1): 46–54. PMID 16468433. doi: 10.1038/scientificamerican0106-46.(subscription required)
4. Schuster SC (January 2008). 'Next-generation sequencing transforms today's biology'. Nat. Methods. 5 (1): 16–8. PMID 18165802. doi: 10.1038/nmeth1156.
5. Park Soo-Jung, Cho Seong Beom, The research and trends of microbial genomics.
6. Oulas A et al.,Metagenomics: Tools and Insights for Analyzing Next-Generation Sequencing Data Derived from Biodiversity Studies. Bioinform Biol Insights. 2015; 9: 75–88. 
7. New Products: PacBio's RS II; Cufflinks In Sequence Sequencing GenomeWeb,
8. 'After a Year of Testing, Two Early PacBio Customers Expect More Routine Use of RS Sequencer in 2012'. GenomeWeb. 10 January 2012.(registration required)
9. Pacific Biosciences Introduces New Chemistry With Longer Read Lengths.
10. Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, Copeland A, Huddleston J, Eichler EE, Turner SW, Korlach J (2013). 'Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data'. Nat. Methods. 10 (6): 563–9. PMID 23644548. doi: 10.1038/nmeth.2474.
11. Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-Møller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK (25 August 2011). 'Origins of the Strain Causing an Outbreak of Hemolytic–Uremic Syndrome in Germany'. N Engl J Med. 365 (8): 709–717. PMC 3168948 Freely accessible. PMID 21793740. doi: 10.1056/NEJMoa1106920.open access publication – free to read
12. De novo bacterial genome assembly: a solved problem? In between lines of code.
13. Tran B, Brown AM, Bedard PL, Winquist E, Goss GD, Hotte SJ, Welch SA, Hirte HW, Zhang T, Stein LD, Ferretti V, Watt S, Jiao W, Ng K, Ghai S, Shaw P, Petrocelli T, Hudson TJ, Neel BG, Onetto N, Siu LL, McPherson JD, Kamel-Reid S, Dancey JE (1 January 2012). 'Feasibility of real time next generation sequencing of cancer genes linked to drug response: Results from a clinical trial'. Int. J. Cancer. 132 (7): 1547–1555. PMID 22948899. doi: 10.1002/ijc.27817.(subscription required)
14. Murray IA, Clark TA, Morgan RD, Boitano M, Anton BP, Luong K, Fomenkov A, Turner SW, Korlach J, Roberts RJ (2 October 2012). 'The methylomes of six bacteria'. Nucleic Acids Research. 40 (22): 11450–62. PMC 3526280 Freely accessible. PMID 23034806. doi: 10.1093/nar/gks891.
15. van Vliet AH (1 January 2010). 'Next generation sequencing of microbial transcriptomes: challenges and opportunities'. FEMS Microbiology Letters. 302 (1): 1–7. PMID 19735299. doi: 10.1111/j.1574-6968.2009.01767.x.open access publication – free to read
16. Huang YF, Chen SC, Chiang YS, Chen TH, Chiu KP (2012). 'Palindromic sequence impedes sequencing-by-ligation mechanism'. BMC Systems Biology. 6 Suppl 2: S10. PMC 3521181 Freely accessible. PMID 23281822. doi: 10.1186/1752-0509-6-S2-S10.
17.

동의어

next generation sequencing, NGS, 차세대 염기서열 분석, Next Generation Sequencing, 차세대 염기서열 분석(Next Generation Sequencing, NGS)