首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于与音乐相关的twitter数据的情感分析的特征

用于与音乐相关的twitter数据的情感分析的特征
EN

Stack Overflow用户
提问于 2016-11-13 10:00:26
回答 1查看 384关注 0票数 1

需要一些关于spark上的音乐相关的推文情感分析的指导。

我试图对推特数据进行情感分析,以获取与音乐相关的推文。经过在网上的大量搜索,我已经了解了如何使用'tweepy‘python api获取tweet,也意识到我可以使用Naive Bayes分类器来最终对tweet进行分类。现在我对如何为这个分类定义特征感到困惑,我应该定义至少500个特征。所以这里是我的问题。我不想使用任何已经可用的API,比如'textblob‘来查找推文的情绪。

1)谁能给出一些例子,我们可以用来对与音乐相关的推文进行分类?我们可以使用带有快乐笑脸的tweet作为积极的训练集吗?如果是的话,这些tweet中的单词是我的分类器的特征吗?

2)如何为该分类器生成训练集?

3)如果要过滤音乐相关的推文,可以使用Bloom filter实现吗?

4)通过tweepy api可以获取的数据量是多少?

如果我的理解有问题,请纠正我。

EN

回答 1

Stack Overflow用户

发布于 2016-12-03 20:50:45

因为情感分析是有监督的任务,所以你应该有一个训练(和测试)集。在训练集上,你需要人类(通常称为专家)经常给出的标签(以防情绪分析:积极,消极)。训练集不存在一个神奇的实例数(我使用的是1k5条记录)。但是,如果你需要一个科学的证据,你应该分析模型的均方误差(MSE)作为训练集大小的函数。

1)最常见的方法是TF-IDF。它对最好的特征进行排名(也包括微笑和其他符号)。您只需要设置功能的数量。同样,没有最佳的数字,你应该做一些测试来调整你的模型

2)你需要一个训练集,每个tweet都有标签(正或负)。通常,它是由人工注释者获得的。

3)我从来没有使用过Bloom Filter。

4)一般来说,Tweet api只提供了大约1-2%的Tweet。我猜Tweepy不能给你更多。

我希望这能对你有所帮助。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40569773

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档