我最近安装了PredictionIO。
我想要实现的是:,我想对文本中包含的单词进行分类。,但是我如何将原始Tweets这样的数据导入PredictionIO呢?是否有可能让PredictionIO浏览内容并找到强有力的单词并将它们按类别进行排序?
我想得到的是:应该出现的Query for Boston Red Sox -->关键字是:baseball, Boston, sports, ...
发布于 2015-05-12 20:50:44
所以我要补充一下托马斯的话。他说得对,这一切都取决于你是否有与你的推特相关的标签。如果您的数据被标记,那么这将是一个文本分类问题。有关更详细的信息,请访问这:
如果您正在寻找一组未标记的观察,那么,正如Thomas所说,最好的选择是将LDA合并到工作中。查看后一个文档可以获得更多信息,但基本上,一旦您运行LDA模型,您将获得一个DistributedLDAModel类型的对象,该对象具有一个方法topicDistributions,为每个tweet提供一个向量,其中每个组件都与一个主题相关联,组件条目给出了tweet属于该主题的概率。您可以通过以最高概率分配每个tweet主题来进行聚类。
您还可以访问大小为MxN的矩阵,其中M是词汇表中的单词数,N是希望在数据中发现的主题或集群的数量。如果文档属于主题j,则可以粗略地将此Topics Matrix的ij条目解释为文档中出现的单词i的概率。聚类时可以使用的另一条规则是将与tweets相关的每个单词向量视为计数向量。然后,您可以将word矩阵的积的ij条目( tweet作为行,单词作为列)和LDA返回的Topics Matrix解释为tweet I属于主题j的概率(在某些假设下,可以随意询问是否需要更多细节)。现在再一次将tweet i分配给与结果矩阵第一行中最大数值相关联的主题。您甚至可以使用这个聚类规则将主题分配给传入的观察,一旦您使用了原来的一组tweet来进行主题发现!
现在,对于数据处理,您仍然可以使用文本分类引用通过DataSource和Preparator组件将Tweets转换为单词计数向量。至于导入数据,如果将tweet保存在文件中,则可以使用PredictionIO的Python导入数据。并给出了分类参考文献中的一个例子。
如果有什么不清楚的地方,随时可以问问题,祝你好运!
发布于 2015-05-12 19:45:26
所以,真正取决于你是否有标签的数据。
例如:
Baseball :: "I love Boston Red Sox #GoRedSox"
Sports :: "Woohoo! I love sports #winning"
Boston :: "Baseball time at Fenway Park. Red Sox FTW!"
...然后,您将能够训练一个模型来根据这些关键字来分类Tweets。您可能对MLlib 朴素贝叶斯,决策树的模板感兴趣。
如果您没有标签数据(真的,谁想手动标记Tweets),您可能可以使用诸如主题建模(例如,LDA)之类的方法。
我不认为LDA有一个模板,但是作为一个活跃的开源项目,如果有人已经实现了这一点,我也不会感到惊讶,所以在PredictionIO、用户或开发人员论坛上询问可能是个好主意。
https://stackoverflow.com/questions/30197900
复制相似问题