我想玩LDA主题建模,即查看文档长度、主题编号等对准确性的影响(我知道这是在其他地方做的,但似乎没有人公布他们最初是如何生成文档的!)
有没有人有为LDA模型生成数据的方法?在哪里我可以控制主题号,文档号等?
发布于 2021-08-15 17:04:42
一般来说,文本不是人工生成的,因为这会导致不现实的数据集。对于LDA来说,使用LDA本身生成数据非常容易,因为它是一个生成模型。然而,这将使LDA比实际语料库更容易估计参数。
据我所知,大多数关于主题建模的实验都是用一些真实的语料库进行的,例如联合国语料库、国情咨文、Europarl语料库等。主题建模的优点是不需要注释,因此可以使用大量的文本集合。
有没有人有为LDA模型生成数据的方法?在哪里我可以控制主题号,文档号等?
请注意,主题k的数量是LDA中的一个参数,所以不管数据LDA搜索的是确切的k主题。如果您使用任何大型文档集合,那么文档的数量是相当容易控制的。主题建模的主要困难是如何评估结果模型。
https://datascience.stackexchange.com/questions/100097
复制相似问题