问我应该使用清洁的标签数据进行情绪分析吗？
EN

Data Science用户

提问于 2016-06-30 11:05:59

回答 1查看 243关注 0票数 0

在我决定收集一些twitter数据并自己贴标签(pos，neg，neu)之前，我想在twitter情绪analysis.so上工作。我的疑问是，我应该在标签之前清理数据(即删除RT、#、https、@符号)，还是可以在不清理数据的情况下对它们进行标记？标签前的数据清洗会有什么不同吗？

machine-learning

sentiment-analysis

回答 1

Data Science用户

发布于 2016-06-30 12:14:55

OP问：“在标签之前清理数据有什么区别吗？”-这是一个经验性的问题.应该由EDA对你的数据进行调查。

在某些情况下，twitter特有的约定可以很好地表示特定类别(例如，http://与垃圾邮件/广告twitter相关)或情绪(例如:-)与正价相关的表情)。类似地，正如我在这个帖子中所讨论的，在某些类型的文本模型中，停止词可能是很好的特性。我对上述答案的支持是基于我所做的一个(未公布的)项目，该项目涉及约10人--在主要行业(食品、旅游、电子、中央人民政府等)对5万条推文进行评分。以及品牌(McDonalds、西南航空、iPhone、潮汐吊舱)。

我的建议是，为任何文本特征创建特征提取器，您认为这些特征在理论上或逻辑上都可以作为文本极性的良好指示器。然后对每个特征进行实证检验，以确定其是否显著提高了分类精度。保留模型中的那些；将其他的特性提取器保存起来以备不时之需。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/12514

复制

相似问题

问我应该使用清洁的标签数据进行情绪分析吗？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我应该使用清洁的标签数据进行情绪分析吗？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我应该使用清洁的标签数据进行情绪分析吗？
EN