RNA-seq数据的基因共表达网络分析
生物网络可以包含不同的数据类型,用点(node)和边(edge)区分。常见的网络类型:
看图说话: 某个细胞受到刺激1,也许它的A通路就会上调表达,B通路下调,结果可能比刺激前还要理想;
受到另一种刺激2后,A通路下调,B通路上调,那么可能就比较糟糕
通过共表达网络,就可以探索A、B通路是如何被调控的,以及背后基因的相互关系;另外,互作的基因一般都参与同样的生物途径
一般来讲,探索基因表达数据的 标准流程 是这样:
但是有个 弊端 ,它只能两两比较(如:感染与未感染),然后得到的结果也只是知道哪些上调哪些下调,是一个宏观的结论
使用Co-expression network 共表达网络 可以分析多个处理的基因表达数据(例如:不同时间段处理),还能推断未知基因产物的功能、检测sub-groups
利用网络进行推断:可以使用表达量数据、已知的转录因子、ChIP-ChIP或ChIP-seq、时间序列等,因为网络是有向、交叉 的,所以可以判断许多的关系信息
说到网络,就要看一下 有向和无向网络:
构建共表达网络的关键步骤:
对于多个分组信息,需要生成几组两两组合的差异比较矩阵(取决于表型数据中的因子信息);并且方差不显著的基因就要去除
这里需要了解的有 quantile normalization 、 voom