我有一个文档集合,其中大部分都是关于同一主题的,其余的基本上都是随机主题。我希望将这些文件分为“多数主题”或“少数主题”。如果我在这个只有2个主题的语料库上使用主题建模算法,会发生什么?语料库是否会被划分为“多数主题”和“少数主题”,即使“少数主题”可能彼此没有太多相似之处?
发布于 2015-03-25 04:20:06
您可以使用MonkeyLearn来实现这一点。
您可以创建包含两个主题的自定义分类器:“多数主题”和“少数主题”。您必须为每个类别添加一些训练样本,以便MonkeyLearn可以学习预测每个类别。
在训练分类器之后,它可以通过其API与任何编程语言集成。
你可以在这里免费试用MonkeyLearn:http://www.monkeylearn.com
如果您有任何问题,请在这里留言或发送电子邮件给我们hello@monkeylearn.com,我在这里帮助您。
干杯,
费德里科
https://stackoverflow.com/questions/29170465
复制相似问题