三代测序技术简介
现在的第三代测序技术中,主要以PacBio公司的SMRT和Oxford的Nanopore技术为主。与前面的两代技术比较,第三代最主要的特点在于单分子测序,就是测序的过程无需进行PCR扩增了。
PacBio SMRT技术的理念在于边合成边测序,并已SMRT芯片为测序载体。原理如下:DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。
SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
下面我们再来讲讲PacBio的HiFi(High fidelity reads)模式,相对于CLR(continuous long-read)模式,后者具有更高的准确率和PacBio HiFi模式。
* PacBio HiFi模式
HiFi reads是PacBio公司基于Sequel II平台推出的CCS(Circular Consensus Sequencing)测序模式产生的兼具长读长和高准确度的测序序列,又称CCS reads。在这种测序模式下,因酶读长(平均90-100 Kb)远大于插入片段长度(10-20 Kb),测序时,聚合酶会绕着DNA模板进行环形比对测序,使得插入片段被多次测序,产生多条subreads,来源于同一条模板链的subreads经过一致性校正,最终得到高准确度的HiFi reads,用于基因组组装。
较高的准确度使得低深度(25X)的HiFi reads即可满足基因组组装需求,结合一些特异性针对HiFi reads开发的组装软件,能够快速完成一些高杂合或超大型基因组的组装。此外,由于用于组装的数据量较小,且不需要进行三代数据自纠错,使得组装过程中所需的计算资源相对传统CLR模式更少,节约了组装成本。
PacBio SMRT存在的问题
基于之前的测序经验,PacBio SMRT技术,包括不同的模式,对于昆虫和虾蟹这些节肢动物会出现断测现象,就是提早终止测序,导致数据量不足。原因是因为这些节肢动物的基因组的特异性,组蛋白等结合到基因组的蛋白不能很稳定地去除,而基因组序列中如果还结合有其他蛋白,则可能会影响DNA聚合酶的反应,导致碱基无法结合到模板上从而提前终止。
参考: