在Hierarchical Dirichlet Process中,作者以中式餐饮特许经营为例对HDP进行了解读。它说,每家餐厅都有许多桌子,不同的桌子可能在一家餐厅共用一道菜。这里的菜我们可以看作是文档中的一个主题,那么如何理解每个文档中的表格呢?我认为不同的桌子应该点不同的菜,如果两张桌子都是同一道菜,那为什么不把它们合并成一个呢?非常感谢。

发布于 2017-05-19 09:35:11
在中式餐厅特许经营(CRF)中,每个文档都是一个餐厅,每个单词都是一个顾客,集群参数是从全局菜单提供给餐桌的菜肴。一位顾客走进一家餐馆,坐在一张桌子上,概率与已经在一桌的顾客数量成正比,或者坐在一张新桌子上,概率为alpha。然后,为新的餐桌分配一个特定的菜肴,其概率与已经提供该菜肴的餐桌数量成正比,或者分配一个具有概率伽马的新菜肴。
因此,对于每个客户,我们都有一个将客户映射到餐桌的索引,对于每个餐桌,我们都有一个将餐桌映射到其中一个菜肴的索引。Gibbs采样算法首先对与数据相关联的表格进行采样,然后对与每个表格相关联的碟子进行采样。有关详细信息,请参阅Yee Whye Teh's implementation。
https://stackoverflow.com/questions/42476469
复制相似问题