一代测序
各式各样的基因组图谱让人们能更直观地观察基因组,绘制图谱过程中,人们也认识到诸多基因组的细节,以及基因的功能。尽管图谱从染色体水平给人们直观的印象,但其反映的信息并不连续,除了通过特定方法能够确定的各类分子标记外,其余序列以及基因组中是否存在某些隐藏的区域尚未可知。为进一步细化基因组信息,从而加速人们探索基因的步伐,自20世纪70年代始, 测序 从理论走向现实。
链终止法 (chain termination method)测序不是最早发明的测序技术,但确实为一代测序最受欢迎而广为应用的方法。该方法是1977年由Fred Sanger及其同事发明的,故常称为Sanger法。
链终止法的基本原理是利用引物促使待测片段在DNA聚合酶的作用下从一端开始发生复制,但复制往往并不能到达DNA的另一端而停止,这是因为在反应体系中除复制必需的4种脱氧核苷酸,还加入了少量双脱氧核糖核苷三磷酸(dideoxynucleotide triphosphase, ddNTP——ddATP、ddCTP、ddGTP、ddTTP)。聚合酶不能区分dNTP与ddNTP,一旦某个位点聚合了ddNTP,延伸反应便停止,因为它缺少与下一个核苷酸形成连接所需要的3’羟基。如果我们将目的片段的克隆加入体系中同时反应,由于末端加上ddNTP的随机性,便能得到一组长短不一的新分子,每个分子的末端都是一个双脱氧核苷酸。将反应加入的每种双脱氧核苷酸分别做上不同的荧光标记物,那么只需检测这些标记物便能得知目的片段的序列信息。
序列组装是测序的下游工序,但因其指导了测序文库构建,进而影响测序整体流程,因而在此介绍最经典的两种序列组装策略,其余内容在“序列组装”相关篇章再做记述。构建文库时对小基因组与大基因组采取的方法是不同的,不同文库的构建方法均是为了组装方便。
(1)鸟枪法(shotgum method)。该法是原核生物基因组组装的标准方法,原理是利用打断为小片段的DNA之间所拥有的重叠部分进行测序后组装。文库包含序列具有随机性。
(2)克隆重叠群法(clone contig method)。该法先将原DNA打断成较大片段,构建克隆重叠群,并结合分子标记定位到染色体上。对于大片段克隆,均可利用鸟枪法进行测序。该方法要求文库先构建重叠群大分子文库,待逐一测序时再构建随机序列文库。
两种方法的区别在于鸟枪法是先测序后定位,对于小基因组这不是什么难的问题,但对大基因组而言,由于重复序列的存在,序列间难以准确衔接。因而后来发展出全基因组鸟枪法(whole-genome shotgum method),该方法基于绘制好的基因组图谱,协助序列间连接。克隆重叠群法先定位后测序,能够处理大基因组组装,且片段化的鸟枪法组装较全基因组鸟枪法为易,出错亦少。但克隆重叠群法需要构建克隆重叠群,这一过程所用技术与步骤相对来说更为费力。
从测序原理可知我们需要得到目的片段的克隆,以便测序能全面覆盖所有碱基。假设我们需要得到全基因组序列,那么必须先将全基因组打断成小片段,因为ddNTP加入链末端的概率会随链增长而增大,加之dNTP浓度降低,互补链不可能延伸的非常长,通常达到1000bp后都会停止。所以基因组需打断到合适的长度,过去通常是用酶切的方法,即某些特异性内切酶位点在全基因组间隔出现;现在通常使用机械打断,如超声波打断,调节波长、频率,将DNA打断至合适的长度区间。打断的DNA经纯化、筛选后进行克隆。例如克隆到质粒载体。如果DNA采用酶切的方式打断,那么只需将用有相同酶切位点的载体加入到体系中,显然这种直接的连接不容易成功,其中的一个原因是由于被切割形成的线形质粒容易重新连接成环,以及外源片段随机组合形成串连寡聚物,从而使有用的重组子比例降低。为防止质粒重新成环,我们采用碱性磷酸酶(alkaline phosphatase)对经酶切的线形载体分子进行处理,去除5’端的磷酸基团,同时不影响外源DNA的连接(因含有5’磷酸基)。为提高外源DNA重组成功率,其根本方法在于调节载体DNA与外源DNA的加入比例,即使末端的绝对浓度足以满足分子间连接的要求,又不致引起大量寡聚体分子形成。当外源DNA末端的浓度接近质粒DNA浓度的2倍时(质粒DNA : 外源DNA的比率≤1时),有效重组子的产量最大。重组子经转染到感受态细胞中扩增,通过一些方法对转化成功的拥有有效重组子的细胞进行筛选(转化子鉴定),从中分离出扩增了的重组子,便可用于测序了。如果DNA采用机械打断,此时不得不考虑线形分子在超声处理中偏向于在片段近中部发生断裂,从而使分子各部打断的概率不等,如此一来中间序列将能接受较两端序列更多的测序次数。为此,可通过将目标分子环化的方法解决。若原先载体切割时的限制性位点相同,将使环化变得简单。然而需要注意的问题是,在DNA连接酶的作用下将产生单分子环、多分子环及不同拷贝的线形分子,同时还存在反向连接形成的反向重复序列,此时经超声处理所得的小分子片段中多达50%者将含有反向重复序列,这不利于克隆到载体中,或可导致转化子无法正常扩增。但实际对测序的影响不大,不利于克隆的分子具有随机性,只需起初加入较高浓度的靶DNA弥补即可;而在后期无法扩增的部分,通过转化子鉴定能够剔除,即便拿假阳性来测序,也无法测得序列信息。对于成功克隆与转化的反向重复,无疑不会对测序产生影响。经超声打碎所得的小分子DNA,往往具有参差不齐的两端,利用Klenow酶/Taq酶可将端口补齐,如有必要可加接头(adaptor),能够提高载体连接的效率。而后所要做的便与酶切法的相同。对于大基因组,通常是先制备出大片段DNA,筛选出末端具重叠部分的大片段构建克隆重叠群(克隆指纹图谱(clone fingerprinting)技术)。继而把大片段克隆到合适载体上,待需要使用时切割下,采用上面提到的方法构建克隆文库。
测序文库为测序提供必须的模板,假设搭载有目的DNA的是双链质粒载体,而链终止法需要单链DNA,为此它必须通过碱或煮沸变性转变为单链。其他载体亦有特定的方法能够实现转化。测序反应完成后,先要变性,然后进行聚丙烯酰胺凝胶电泳,该方法不同于琼脂糖凝胶电泳在于其能分辨出长度只差一个核苷酸的单链DNA分子。多余引物跑出凝胶外,模板则位于凝胶基部,扩增片段在凝胶上分隔开来。使用荧光检测器读取序列信息。
在“人类基因组计划”时代,普遍认为基因组的每一部分应该至少进行4次测序,才能保证其准确性达到可以接受水平,而这种覆盖次数应该增加到8-10次,才可以认为这些序列已经完成。如今,全基因组测序深度达30×、50×都是可以实现的事情,测序深度越深,精度越高。测序精度需要根据研究目的之需要酌情选择,既要考虑信息又要考虑成本。
测序使人们得以直观了解DNA,进而有机会认识更多基因,它是基因组学研究的基础。在此,想谈谈测序与作图。在基因组作图的篇章已经谈过一些。基因组作图是在测序尚未发明的20世纪初建立起来的用以认识基因组的有效手段。测序时代到来前,已经出现并发展起各式各样的图谱,一些模式物种的图谱丰富充实,成为测序的依靠与凭借,图谱上详实的分子标记为序列组装提供可靠的地标。在完成某些物种的基因组组装后,人们得以有机会重新审视图谱,不难想象,各类图谱均可能存在遗漏甚至错误之处。例如限制性位点在全基因组中变得一目了然,假使为首次测序,那么将能明确出已知限制性位点的序列。对于已知功能的基因,经研究也能获知其序列(如通过cDNA测序获取)。对于STS(EST、SSR、iSSR等)、SNP等均可直接从序列中读出,然后运用荧光杂交等手段进行验证,从而完善相应的图谱。利用新图谱还能进一步核对并修改序列拼接上的错误。
[1] T. A. 布朗. 基因组3[M]. 第一版. 北京: 科学出版社, 2009.
[2] J. 萨姆布鲁克,E. F. 弗里奇,T. 曼尼阿蒂斯. 分子克隆实验指南(第二版)[M]. 2. 北京: 科学出版社, 1992.