需要一些关于spark上的音乐相关的推文情感分析的指导。
我试图对推特数据进行情感分析,以获取与音乐相关的推文。经过在网上的大量搜索,我已经了解了如何使用'tweepy‘python api获取tweet,也意识到我可以使用Naive Bayes分类器来最终对tweet进行分类。现在我对如何为这个分类定义特征感到困惑,我应该定义至少500个特征。所以这里是我的问题。我不想使用任何已经可用的API,比如'textblob‘来查找推文的情绪。
1)谁能给出一些例子,我们可以用来对与音乐相关的推文进行分类?我们可以使用带有快乐笑脸的tweet作为积极的训练集吗?如果是的话,这些tweet中的单词是我的分类器的特征吗?
2)如何为该分类器生成训练集?
3)如果要过滤音乐相关的推文,可以使用Bloom filter实现吗?
4)通过tweepy api可以获取的数据量是多少?
如果我的理解有问题,请纠正我。
发布于 2016-12-03 20:50:45
因为情感分析是有监督的任务,所以你应该有一个训练(和测试)集。在训练集上,你需要人类(通常称为专家)经常给出的标签(以防情绪分析:积极,消极)。训练集不存在一个神奇的实例数(我使用的是1k5条记录)。但是,如果你需要一个科学的证据,你应该分析模型的均方误差(MSE)作为训练集大小的函数。
1)最常见的方法是TF-IDF。它对最好的特征进行排名(也包括微笑和其他符号)。您只需要设置功能的数量。同样,没有最佳的数字,你应该做一些测试来调整你的模型
2)你需要一个训练集,每个tweet都有标签(正或负)。通常,它是由人工注释者获得的。
3)我从来没有使用过Bloom Filter。
4)一般来说,Tweet api只提供了大约1-2%的Tweet。我猜Tweepy不能给你更多。
我希望这能对你有所帮助。
https://stackoverflow.com/questions/40569773
复制相似问题