高斯混合模型
展开全部
多元高斯分布概率密度函数: 1.1
其中 是 维均值向量, 是 协方差矩阵。
定义高斯混合分布:
1.2
为混合系数,满足
假设数据集 是由高斯混合模型生成的, 令随机变量 表示生成样本的高斯混合成分(即类标签),对于聚类问题,我们需要求出
E步:
对于某个样本 ,根据贝叶斯公式,它由第 个高斯混合成分生成(或属于 类)的后验概率概率:
1.3
由于先验概率 ,而条件概率密度 恰好是对应高斯成分的密度函数,因此3.3可写为:
1.4
给出了样本 由第 个高斯成分生成的后验概率, 记为 ,为隐变量。
M步:
给定样本集 , 数据集中样本对分布的对数似然函数为:
1.5
对似然函数中的变量求偏导
1.6
令 ,得:
两端同时左乘 ,并将 代入,得:
1.7
解出 1.8
的求法参考 矩阵求导术 ,个人认为是比较好的矩阵求导方法。
首先记
根据矩阵求导术,先求 的全微分,把 当做变量,其余看做常数
其中
每个样本独立同分布,所以协方差矩阵 (该矩阵为实对称矩阵)正定,因此可逆
由 、 和 得:
化简得:
标量套上迹 并在迹内交换次序得,
对照全微分与导数的关系 有:
因此, 1.9
令1.9 为0 , 将方程左右同时乘以 ,并将 代入得:
1.10
解得: 1.11
高斯混合成分的系数 可由Lagrange乘数法求出,注意到 ,
设 1.12
1.13
1.14
代入1.13得:
1.15
以上步骤不断迭代直至算法收敛。
在半监督学习中,一部分数据是有类标签的,记为 ,另一部分是没有标签的,记为 。
对于有监督信息的数据 ,我们仍假设每个样本 又混合高斯分布生成。给定样本 ,其真实样本标记为 ,其中
为所有可能的类别。
因此 2.1
其中混合系数 。
令 表示模型 对 的预测标记, 表示样本 隶属的高斯混合成分。模型需要最大化后验概率,即:
2.2
其中
2.3
由于第 类样本只能由同样标号的高斯混合成分生成的,所以必有 ,否则 。
对 求似然, 注意 项与高斯混合聚类的似然函数相同:
2.4
其中分母部分是数据的概率密度, 对似然无影响,可以去掉,因此 等价于
2.5
E步:根据当前模型参数计算未标记样本 属于各高斯混合成分的概率(同高斯混合聚类)
2.6
M步:基于 更新模型参数,这里跟高斯混合聚类的区别就是似然函数不同。
分别计算 。 部分的值在第一部分中已经计算过,现只需要计算 部分的值。
由于带监督信息, 内部只剩第 项,其余均为 。
所以
2.7
故 2.8
令其为 ,求得:
2.9
其中 是 中属于第 类的样本标记数目
协方差同理,只计算 部分,
2.10
故
2.11
令其为 ,求得:
2.12
同理用Lagrang乘数法求得:
2.13
以上过程迭代直至算法收敛。
Reference:
《机器学习》 周志华
《统计学习方法》 李航
知乎专栏:矩阵求导术(上)
其中 是 维均值向量, 是 协方差矩阵。
定义高斯混合分布:
1.2
为混合系数,满足
假设数据集 是由高斯混合模型生成的, 令随机变量 表示生成样本的高斯混合成分(即类标签),对于聚类问题,我们需要求出
E步:
对于某个样本 ,根据贝叶斯公式,它由第 个高斯混合成分生成(或属于 类)的后验概率概率:
1.3
由于先验概率 ,而条件概率密度 恰好是对应高斯成分的密度函数,因此3.3可写为:
1.4
给出了样本 由第 个高斯成分生成的后验概率, 记为 ,为隐变量。
M步:
给定样本集 , 数据集中样本对分布的对数似然函数为:
1.5
对似然函数中的变量求偏导
1.6
令 ,得:
两端同时左乘 ,并将 代入,得:
1.7
解出 1.8
的求法参考 矩阵求导术 ,个人认为是比较好的矩阵求导方法。
首先记
根据矩阵求导术,先求 的全微分,把 当做变量,其余看做常数
其中
每个样本独立同分布,所以协方差矩阵 (该矩阵为实对称矩阵)正定,因此可逆
由 、 和 得:
化简得:
标量套上迹 并在迹内交换次序得,
对照全微分与导数的关系 有:
因此, 1.9
令1.9 为0 , 将方程左右同时乘以 ,并将 代入得:
1.10
解得: 1.11
高斯混合成分的系数 可由Lagrange乘数法求出,注意到 ,
设 1.12
1.13
1.14
代入1.13得:
1.15
以上步骤不断迭代直至算法收敛。
在半监督学习中,一部分数据是有类标签的,记为 ,另一部分是没有标签的,记为 。
对于有监督信息的数据 ,我们仍假设每个样本 又混合高斯分布生成。给定样本 ,其真实样本标记为 ,其中
为所有可能的类别。
因此 2.1
其中混合系数 。
令 表示模型 对 的预测标记, 表示样本 隶属的高斯混合成分。模型需要最大化后验概率,即:
2.2
其中
2.3
由于第 类样本只能由同样标号的高斯混合成分生成的,所以必有 ,否则 。
对 求似然, 注意 项与高斯混合聚类的似然函数相同:
2.4
其中分母部分是数据的概率密度, 对似然无影响,可以去掉,因此 等价于
2.5
E步:根据当前模型参数计算未标记样本 属于各高斯混合成分的概率(同高斯混合聚类)
2.6
M步:基于 更新模型参数,这里跟高斯混合聚类的区别就是似然函数不同。
分别计算 。 部分的值在第一部分中已经计算过,现只需要计算 部分的值。
由于带监督信息, 内部只剩第 项,其余均为 。
所以
2.7
故 2.8
令其为 ,求得:
2.9
其中 是 中属于第 类的样本标记数目
协方差同理,只计算 部分,
2.10
故
2.11
令其为 ,求得:
2.12
同理用Lagrang乘数法求得:
2.13
以上过程迭代直至算法收敛。
Reference:
《机器学习》 周志华
《统计学习方法》 李航
知乎专栏:矩阵求导术(上)
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
澳谱特
2024-11-25 广告
2024-11-25 广告
澳谱特科技(上海)专业生产纳米粒度仪。澳谱特纳米粒度及Zeta电位分析仪,Zeta电位仪具备多角度测量,毛细管电位样品池等技术优势,测量结果更具可比性。产品价格在19万至47万不等,欢迎咨询...
点击进入详情页
本回答由澳谱特提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
广告 您可能关注的内容 |