首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为LDA生成合成文本?

如何为LDA生成合成文本?
EN

Data Science用户
提问于 2021-08-15 14:30:33
回答 1查看 126关注 0票数 3

我想玩LDA主题建模,即查看文档长度、主题编号等对准确性的影响(我知道这是在其他地方做的,但似乎没有人公布他们最初是如何生成文档的!)

有没有人有为LDA模型生成数据的方法?在哪里我可以控制主题号,文档号等?

EN

回答 1

Data Science用户

发布于 2021-08-15 17:04:42

一般来说,文本不是人工生成的,因为这会导致不现实的数据集。对于LDA来说,使用LDA本身生成数据非常容易,因为它是一个生成模型。然而,这将使LDA比实际语料库更容易估计参数。

据我所知,大多数关于主题建模的实验都是用一些真实的语料库进行的,例如联合国语料库国情咨文Europarl语料库等。主题建模的优点是不需要注释,因此可以使用大量的文本集合。

有没有人有为LDA模型生成数据的方法?在哪里我可以控制主题号,文档号等?

请注意,主题k的数量是LDA中的一个参数,所以不管数据LDA搜索的是确切的k主题。如果您使用任何大型文档集合,那么文档的数量是相当容易控制的。主题建模的主要困难是如何评估结果模型。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/100097

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档