LDA:潜在的Dirichlet分布。
主题模型的一种,相比于PLSA,增加了Dirichlet先验。

他与多项分布共轭。共轭即:Dirichlet先验+多项分布 = Dirichlet后验。
马尔可夫链-随机过程
满足马尔科夫链性质的随机过程,这样最后达到稳定的分布只与转移矩阵有关,与初始化无关。
吉布斯采样。不是mcmc
就是轮换坐标轴进行采样,正好满足细致平稳条件。 其实就是联合概率*条件概率。

doc —> topic -> word 的概率。
p(topic|doc)
p(word|topic)

训练:
1、初始化,对每个词随机初始化一个topic z
2、扫描语料,按照吉布斯采样公式 重新采样生成新的topic
3、直到收敛
4、统计topic-word共现频率矩阵。

 

问题是我们不知道p(E,T,W),或者说,不知道三件事的联合分布joint distribution。当然,如果知道的话,就没有必要用gibbs sampling了。但是,我们知道三件事的conditional distribution。也就是说,p(E|T,W),p(T|E,W),p(W|E,T)。现在要做的就是通过这三个已知的条件分布,再用gibbs sampling的方法,得到联合分布。