同源的遗传学中的同源
在遗传学中,同源这一概念主要是指序列同源,表明两个或多个蛋白质或DNA序列具有相同的祖先。同源的序列也很可能有相似的功能。两个序列或者同源,或者不同源,不存在“同源度”这样的概念。序列中同源的部分也被称为保守的(conserved)。
蛋白质和DNA的同源性常常通过它们序列的相似性来判定,在生物信息学中尤其是如此。例如,如果两个基因有着几乎一样的DNA序列,那么它们很可能同源,但也有例外:它们可能没有共同的祖先,而为了适应绑定(bind to)某特殊的蛋白质的需要而演化成了一样的形式(如转录因子)。这样的序列是相似的,但却不同源。
非专业人士偶尔会使用诸如“同源百分比”(percent homology)这样的术语,这是不对的。“相似百分比”(percent similarity)这样的术语的确存在,但只能用于衡量生物分子序列的相似性,而不能度量它们的同源性。不过,若有若干条序列只有一部分被认为同源(are presumed to share descent),我们可称它们部分同源。
许多算法能够将蛋白质序列聚类为若干族,每族里的序列同源。 同源序列可分为两种:直系同源(orthology)和旁系同源(paralogy)。直系同源的序列因物种形成(speciation)而被区分开(separated):若一个基因原先存在于某个物种,而该物种分化为了两个物种,那么新物种中的基因是直系同源的;旁系同源的序列因基因繁殖(gene duplication)而被区分开(separated):若生物体中的某个基因被复制了,那么两个副本序列就是旁系同源的。直系同源的一对序列称为直系同源体(orthologs),旁系同源的一对序列称为旁系同源体(paralogs)。
直系同源体通常有相同或相似的功能,但对旁系同源体则不一定:由于缺乏原始的自然选择的力量,繁殖出的基因副本可以自由的变异并获得新的功能。
肌红蛋白(myoglobin)和血红蛋白(hemoglobin)被认为是古老的旁系同源体(ancient paralogs)。类似的,已知的四种血红蛋白(血红蛋白A,血红蛋白A2,血红蛋白S,和胎儿血红蛋白)均互为旁系同源体。它们均能够运输氧气,但在功能上又有细微的分化:胎儿血红蛋白(血红蛋白F)比成年血红蛋白对氧气有更高的亲和力。
另一个例子是啮齿动物(如老鼠)体内的胰岛素基因。啮齿动物有一对旁系同源的胰岛素基因,尚不清楚它们的功能是否分化。
旁系同源体常见于同一物种,但也不是绝对如此:人类的血红蛋白和非洲黑猩猩的肌红蛋白就是旁系同源体。这是使用生物信息学方法预测基因功能的一大困难:即使不同物种的基因同源,我们也不能立刻推断它们具有相同或相似的功能,因为它们可能为具有不同功能的旁系同源体。 二倍体细胞中的同源染色体对是一对匹配的染色体。它们分别来源于生物体的双亲。除开性染色体,同源染色体对中的两条染色体有相当长的部分相似,通常也具有相同的基因序列。两条性染色体的相似部分较其他染色体少。我们推测染色体是旁系同源体。