博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
EM算法知识点整理
阅读量:4221 次
发布时间:2019-05-26

本文共 1291 字,大约阅读时间需要 4 分钟。

  1. 自己的理解

    目标 θ̃ =argmaxθP(Y|θ)
    即我们要估计一个合理的 θ̃  使得 P(Y|θ) 达到最大值
    如果存在隐变量 Z ,我理解为
    Z
    是一个没有表现出来但是又是必要的一个中间态,那么 P(Y|θ) 可以表示为 P(Y|θ)=P(Y,Z|θ)=ZP(Y|Z,θ)P(Z|θ)
    然后想象一下迭代的过程,即从 θi θi+1 的过程,每次迭代应该是要满足 P(Y|θi+1)>P(Y|θi) ,考虑对数似然函数 L(θ)=logP(Y|θ)
    L(θ)L(θi)=logP(Y|θ)logP(Y|θi)
    =logZP(Y|Z,θ)P(Z|θ)logP(Y|θi)
    =logZP(Z|Y,θi)P(Y|Z,θ)P(Z|θ)P(Z|Y,θi)logP(Y|θi)
    由Jensen不等式 logjλjyjjλjlogyj ,其中 λj0,jλj=1 ,原式变为
    ZP(Z|Y,θi)logP(Y|Z,θ)P(Z|θ)P(Z|Y,θi)ZP(Z|Y,θi)P(Y|θi)
    =ZP(Z|Y,θi)logP(Y|Z,θ)P(Z|θ)P(Z|Y,θi)
    θi+i=argmaxθL(θi)+ZP(Z|Y,θi)logP(Y|Z,θ)P(Z|θ)P(Z|Y,θi)
    =argmaxθZP(Z|Y,θi)logP(Y|Z,θ)P(Z|θ)+ 常数项
    =argmaxθQ(θ,θi)
    EM的算法步骤可以因此分解成
    确隐变量,写出完全数据的对数似然函数(完全数据就是Z数据和Y数据,不完全数据就是只有Y数据)
    E 步:计算
    Q
    函数
    M 步:迭代估计
    θ

  2. 优点:简单性和普适性,可看作是一种非梯度优化方法(解决梯度下降等优化方法的缺陷:求和的项数将随 着隐变量的数目以指数级上升,会给梯度计算带来麻烦)

    缺点:对初始值敏感,不同的初值可能得到不同的参数估计值;不能保证找到全局最优值。

  3. EM求解原理:

    因为在求解一个含有隐变量的概率模型时,目标是极大化观测数据关于参数的对数似然函数,而极大化的主要困难是含有未观测数据并有包含和的对数,而EM算法是通过迭代,不断求解下界的极大化,来逐步求解对数似然函数极大化。

  4. 采用EM算法求解的模型有哪些?为什么不用牛顿法或者梯度下降法?

    一般有混合高斯、协同过滤、k-means。算法一定会收敛,但是可能会收敛到局部最优。求和的项数会随着隐变量的数目指数上升,会给梯度计算带来麻烦。EM算法是一种非梯度优化算法。

  5. 用EM算法推导解释K-means:

    k-means算法是高斯混合聚类在混合成分方差相等,且每个样本仅指派一个混合成分时候的特例。k-means算法与EM算法的关系是这样的:
    · k-means是两个步骤交替进行:确定中心点,对每个样本选择最近中心点–> E步和M步。
    · E步中将每个点选择最近的类优化目标函数,分给中心距它最近的类(硬分配),可以看成是EM算法中E步(软分配)的近似。
    · M步中更新每个类的中心点,可以认为是在「各类分布均为单位方差的高斯分布」的假设下,最大化似然值;
    来源:

转载地址:http://sfqmi.baihongyu.com/

你可能感兴趣的文章
控制Highcharts中x轴和y轴坐标值的密度
查看>>
xampp下Apache + Tomcat 集群配置的简单介绍(with sticky session)
查看>>
xampp(Apache + Tomcat)与主机的域名绑定
查看>>
增加windows下Tomcat运行时的内存
查看>>
tomcat群集中session共享的几个方案
查看>>
查看windows的开关机日志
查看>>
查找google谷歌北京IP地址的方法
查看>>
chrome的异常Uncaught ReferenceError: xl_chrome_menu is not defined
查看>>
Java不使用web容器,发布WebService应用
查看>>
大运动量的体能训练之后,如何迅速恢复体力?
查看>>
js+css 简单的高亮选中对象
查看>>
只长肌肉 不长脂肪——教你精确制导增肌餐
查看>>
转:解决mysql锁表终极方法
查看>>
MySQL 无法退出命令行中的SQL输入模式
查看>>
show engine innodb status 详解(转 )
查看>>
有氧运动和无氧运动 的能量消耗问题
查看>>
力量训练
查看>>
乱码问题!Eclipse 的控制台console必须用GBK编码。【转载】
查看>>
井上三尺的《新聊斋》
查看>>
MySql 中如何连接一列字符串(转)
查看>>