本文采用支持向量机算法进行文本分类。我需要知道在哪里可以找到twitter数据集,以及如何在weka工具或任何其他工具中使用它?
发布于 2017-12-01 00:58:48
Twitter有限制共享完整数据集的规则,而不是限制只共享tweet ids (请参阅此讨论和开发商协议)。像双弧这样的工具可以通过调用Twitter和检索信息来“补充”tweet元数据。Twitter有速率限制,这使得这是一个有点慢的过程。
有关在R中工作的包,请参阅RTextTools或查看RWeka,它将R与Java之间的差距缩小为使用Weka。如果使用Python,还可以使用scikit-learn的svm实现。
发布于 2017-03-15 20:24:02
这是我找到的几个网站。我不是一个R程序员,所以我不知道任何Weka工具和如何使用他们,但希望这有帮助。你可以找到他们这里和这里。
发布于 2020-06-08 07:15:42
这个twitter数据集集合可能会帮助您找到要查找的数据集。主要是情感分析数据集,但也有适度分类数据集。
https://datascience.stackexchange.com/questions/17624
复制相似问题