我试着运行这个code from github (按照1-2-3个步骤),它识别了莎拉·佩林14,500封电子邮件中的30个主题。作者发现的主题是here。但是,Stanford Topic Modeling Toolbox并没有为我生成lda输出目录。它生成了lda-86a58136-30-2b1a90a6,但是这个文件夹中的summary.txt只显示了主题的初始分配,而不是最终的分配。你知道如何生成lda-output目录和所发现主题的最终摘要吗?提前感谢!
发布于 2012-04-20 23:32:24
你试过posted here的说明了吗?
请注意,我看到最初的调查员用萨拉·佩林的电子邮件训练了模型,然后使用训练后的模型分析了萨拉·佩林的电子邮件。虽然我不是LDA专家,但这通常带有“找到你所拥有的”的味道。
在大多数学科中,训练将在一组已知的项目上进行,这些项目已经由专家根据判别式进行了分类。这意味着训练将包括从其他来源的已知可能主题中提供一组数据,然后使用LDA库来确定与“学习的”数据库中的主题的距离。
无论如何,祝你好运。
如果您遇到特定的问题,请发布错误,以及您为解决该错误而采取的步骤。很少有人会花时间尝试在没有指导的情况下重现问题(纠正问题的典型前提条件),甚至没有能力确定他们遇到的问题是否与您的相似。
https://stackoverflow.com/questions/10217049
复制相似问题