测序的一些基本小知识
PE :两端测序(Pair-end sequencing),对于Paried-end reads,一般是不会测通的(就是说不会有重合的部 分),比如300bp的插入片段(insert size),两端各测100bp,中间的100bp没有被测到,也就是说对于这个 300bp的插入片段,测序得到的一对reads只有200bp信息,中间的100bp是gap。
Unigene :对转录组进行组装,得到尽可能长的非冗余的序列。我们把最终序列称之为Unigene,每一个Unigene代表一段转录组序列。对组装后的Unigene的数量、长度、GC含量等进行统计,这些统计量反映了组装的质量。Unigene长度通常是反映组装质量的指标之一。对样本的每个Unigene预测ORF(open reading frame),如果一个Unigene预测有多个ORF,则取最长的ORF。把每个Unigene的可读框翻译成氨基酸序列,并且统计读框中每个片段的起始位点,终止位点,长度和GC含。
de novo 测序(从头测序) :是指在没有任何参考基因组序列时对植物基因组进行测序和组装。
全基因组重测序 :全基因组重测序是对基因组序列已知物种的个体进行基因组测序,并在个体或群体水平进行差异性分析的方法。基于全基因组重测序技术,我们能够快速的进行种子资源普查筛选,寻找到大量基因变异,并实现遗传进化分析及重要性状候选基因预测。而随着测序成本降低和已知基因组序列的物种增多,重测序已成为动植物育种研究中最为迅速有效的方法之一。
1M reads指100万条reads。