文章/答案/技术大牛

发布

社区首页 >问答首页 >用于内容推荐的PredictionIO (例如Tweets )

问用于内容推荐的PredictionIO (例如Tweets )
EN

Stack Overflow用户

提问于 2015-05-12 17:40:01

回答 2查看 271关注 0票数 1

我最近安装了PredictionIO。

我想要实现的是：，我想对文本中包含的单词进行分类。，但是我如何将原始Tweets这样的数据导入PredictionIO呢？是否有可能让PredictionIO浏览内容并找到强有力的单词并将它们按类别进行排序？

我想得到的是:应该出现的Query for Boston Red Sox -->关键字是：baseball, Boston, sports, ...

text-mining

predictionio

nlp

回答 2

Stack Overflow用户

发布于 2015-05-12 20:50:44

所以我要补充一下托马斯的话。他说得对，这一切都取决于你是否有与你的推特相关的标签。如果您的数据被标记，那么这将是一个文本分类问题。有关更详细的信息，请访问这：

如果您正在寻找一组未标记的观察，那么，正如Thomas所说，最好的选择是将LDA合并到工作中。查看后一个文档可以获得更多信息，但基本上，一旦您运行LDA模型，您将获得一个DistributedLDAModel类型的对象，该对象具有一个方法topicDistributions，为每个tweet提供一个向量，其中每个组件都与一个主题相关联，组件条目给出了tweet属于该主题的概率。您可以通过以最高概率分配每个tweet主题来进行聚类。

您还可以访问大小为MxN的矩阵，其中M是词汇表中的单词数，N是希望在数据中发现的主题或集群的数量。如果文档属于主题j，则可以粗略地将此Topics Matrix的ij条目解释为文档中出现的单词i的概率。聚类时可以使用的另一条规则是将与tweets相关的每个单词向量视为计数向量。然后，您可以将word矩阵的积的ij条目( tweet作为行，单词作为列)和LDA返回的Topics Matrix解释为tweet I属于主题j的概率(在某些假设下，可以随意询问是否需要更多细节)。现在再一次将tweet i分配给与结果矩阵第一行中最大数值相关联的主题。您甚至可以使用这个聚类规则将主题分配给传入的观察，一旦您使用了原来的一组tweet来进行主题发现！

现在，对于数据处理，您仍然可以使用文本分类引用通过DataSource和Preparator组件将Tweets转换为单词计数向量。至于导入数据，如果将tweet保存在文件中，则可以使用PredictionIO的Python导入数据。并给出了分类参考文献中的一个例子。

如果有什么不清楚的地方，随时可以问问题，祝你好运！

票数 3

Stack Overflow用户

发布于 2015-05-12 19:45:26

所以，真正取决于你是否有标签的数据。

例如：

Baseball :: "I love Boston Red Sox #GoRedSox"
Sports :: "Woohoo! I love sports #winning"
Boston :: "Baseball time at Fenway Park. Red Sox FTW!"
...

然后，您将能够训练一个模型来根据这些关键字来分类Tweets。您可能对MLlib 朴素贝叶斯，决策树的模板感兴趣。

如果您没有标签数据(真的，谁想手动标记Tweets)，您可能可以使用诸如主题建模(例如，LDA)之类的方法。

我不认为LDA有一个模板，但是作为一个活跃的开源项目，如果有人已经实现了这一点，我也不会感到惊讶，所以在PredictionIO、用户或开发人员论坛上询问可能是个好主意。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30197900

复制

相似问题

问用于内容推荐的PredictionIO (例如Tweets )
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于内容推荐的PredictionIO (例如Tweets )EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于内容推荐的PredictionIO (例如Tweets )
EN