我正在尝试使用Mallet的主题建模,但有一个问题。
如何知道何时需要重新构建模型?例如,我从web上抓取了大量的文档,使用Mallet提供的主题建模,我也许能够创建模型并推断文档。但随着时间的推移,随着我抓取的新数据,可能会出现新的主题。在这种情况下,我如何知道是否应该从头到尾重新构建模型?
我正在考虑对我每个月抓取的文档这样做。有人能给点建议吗?
那么,主题建模是否更适合于固定主题数量下的文本(输入参数k,no。主题)。如果不是,我如何确定要使用的数字?
发布于 2010-09-17 06:41:42
你的问题的答案在很大程度上取决于你使用的数据类型和语料库的大小。
关于频率,我担心你只需要估计你的数据以一种有意义的方式改变的频率,并以这个速度重新建模。你可以从一周开始,看看新数据是否会导致显着不同的模型。如果没有,试试两个星期,以此类推。
您选择的主题数量由您在模型中查找的内容决定。数值越高,结果越细粒度。如果你想对语料库中的内容有一个全面的了解,你可以选择10个主题。为了更仔细地观察,您可以使用200或其他适当的较高数字。
我希望这能有所帮助。
https://stackoverflow.com/questions/3636067
复制相似问题