EM算法知识点整理-白红宇

EM算法知识点整理

阅读量：4221 次

发布时间：2019-05-26

本文共 1291 字，大约阅读时间需要 4 分钟。

自己的理解
目标 $\tilde{\theta} = argmax_\theta P(Y|\theta)$
即我们要估计一个合理的 $\tilde{\theta}$ 使得 $P(Y|\theta)$ 达到最大值
如果存在隐变量 $Z$ ，我理解为 $Z$ 是一个没有表现出来但是又是必要的一个中间态，那么 $P(Y|\theta)$ 可以表示为 $P(Y|\theta)=P(Y,Z|\theta)=\sum_ZP(Y|Z,\theta)P(Z|\theta)$
然后想象一下迭代的过程，即从 $\theta^i$ 到 $\theta^{i+1}$ 的过程，每次迭代应该是要满足 $P(Y|\theta^{i+1})>P(Y|\theta^i)$ ，考虑对数似然函数 $L(\theta)=log P(Y|\theta)$
$L(\theta)-L(\theta^i)=logP(Y|\theta)-logP(Y|\theta^i)$
$=log\sum_ZP(Y|Z,\theta)P(Z|\theta)-logP(Y|\theta^i)$
$=log\sum_ZP(Z|Y,\theta^i)\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}-logP(Y|\theta^i)$
由Jensen不等式 $log\sum_j\lambda_jy_j\ge \sum_j\lambda_jlogy_j$ ，其中 $\lambda_j\ge 0,\sum_j\lambda_j=1$ ，原式变为
$\ge \sum_ZP(Z|Y,\theta^i)log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}-\sum_ZP(Z|Y,\theta^i)P(Y|\theta^i)$
$=\sum_ZP(Z|Y,\theta^i)log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}$
则 $\theta^{i+i}=argmax_\theta L(\theta^i)+\sum_ZP(Z|Y,\theta^i)log\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^i)}$
$=argmax_\theta\sum_ZP(Z|Y,\theta^i)logP(Y|Z,\theta)P(Z|\theta)+$ 常数项
$=argmax_\theta Q(\theta,\theta^i)$
EM的算法步骤可以因此分解成
确隐变量，写出完全数据的对数似然函数（完全数据就是Z数据和Y数据，不完全数据就是只有Y数据）
$E$ 步：计算 $Q$ 函数
$M$ 步：迭代估计 $\theta$

优点：简单性和普适性，可看作是一种非梯度优化方法（解决梯度下降等优化方法的缺陷：求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦）
缺点：对初始值敏感，不同的初值可能得到不同的参数估计值；不能保证找到全局最优值。

EM求解原理:
因为在求解一个含有隐变量的概率模型时，目标是极大化观测数据关于参数的对数似然函数，而极大化的主要困难是含有未观测数据并有包含和的对数，而EM算法是通过迭代，不断求解下界的极大化，来逐步求解对数似然函数极大化。

采用EM算法求解的模型有哪些？为什么不用牛顿法或者梯度下降法？
一般有混合高斯、协同过滤、k-means。算法一定会收敛，但是可能会收敛到局部最优。求和的项数会随着隐变量的数目指数上升，会给梯度计算带来麻烦。EM算法是一种非梯度优化算法。

用EM算法推导解释K-means：
k-means算法是高斯混合聚类在混合成分方差相等，且每个样本仅指派一个混合成分时候的特例。k-means算法与EM算法的关系是这样的：
· k-means是两个步骤交替进行:确定中心点，对每个样本选择最近中心点–> E步和M步。
· E步中将每个点选择最近的类优化目标函数，分给中心距它最近的类(硬分配)，可以看成是EM算法中E步(软分配)的近似。
· M步中更新每个类的中心点，可以认为是在「各类分布均为单位方差的高斯分布」的假设下，最大化似然值；
来源：