分析 | GO 富集分析

 我来答
清宁时光17
2022-07-31 · TA获得超过1.4万个赞
知道大有可为答主
回答量:6015
采纳率:100%
帮助的人:27.4万
展开全部

从研一来到组里,一直听到 GO 富集分析几个字。直到现在,研二基本结束了,我都没做过,也不会做。
有一个大概的认识,就是,自己的基因集中某种功能基因的占比要高于这种功能的基因在所有基因中的占比。有很多人解释得更清楚,比如 GO分析学习笔记 、徐洲更的 基因表达分析(中)- 富集分析 、 转录组入门(8): 富集分析 。

我并不研究模式植物,而且已有的 OrgDb 可能存在版本问题。所以 2.2 或 2.3 是待选方法。 但是!但是! 在是否需要构建以及如何构建 OrgDb 上,我又有了疑问。

在是否需要构建的问题上,我看到徐洲更在 功能注释后如何做富集分析 中提到 “你不需要构建Orgdb,因为Orgdb的用途是进行基因编号和GO/KEGG的转换。你可以直接导入基因号和GO/KEGG编号的对应关系到R里面,然后用clusterProfiler进行数据分析”

在如何构建的问题上,网上也有许多文章进行了介绍。构建 OrgDb 时,需要 gene_info 和 gene2go 。 gene_info 需要有两列信息 GID 和 Gene_name 。 gene2go 需要三列信息 GID 、 GO 和 EVIDENCE 。
在众多博客中,都是用 EggNOG 注释所研究物种的蛋白质序列,再从注释结果中提取信息。我在重复的过程中,发现了其中的不一致,这个 Gene_name 到底是什么? 详细回顾非模式物种注释构建过程 中选择的是 seed_ortholog 列; 构建自己物种的orgDb 中选择的是 eggNOG annot 列; 使用AnnotationForge包轻松构建非模式物种Orgdb包 中选择的是不知道哪里冒出来的 X.4 列;还有选择 Prefered_name ...... 有些列甚至不同版本的 EggNOG 结果可能都不存在/不一致。

我的问题是, Gene_name 选择什么重要吗?这个东西是为 OrgDb 的其他功能服务的?如果只是进行 GO 富集分析,这个并不影响? 由于我的不求甚解,没有对比结果,也没有深究 OrgDb 到底还能干什么。也许研四快结束的时候,就弄清楚了。还有,因为没有其他证据,大家都把 EVIDENCE 定义为“IEA”。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式