首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我应该使用清洁的标签数据进行情绪分析吗?

我应该使用清洁的标签数据进行情绪分析吗?
EN

Data Science用户
提问于 2016-06-30 11:05:59
回答 1查看 243关注 0票数 0

在我决定收集一些twitter数据并自己贴标签(pos,neg,neu)之前,我想在twitter情绪analysis.so上工作。我的疑问是,我应该在标签之前清理数据(即删除RT、#、https、@符号),还是可以在不清理数据的情况下对它们进行标记?标签前的数据清洗会有什么不同吗?

EN

回答 1

Data Science用户

发布于 2016-06-30 12:14:55

OP问:“在标签之前清理数据有什么区别吗?”-这是一个经验性的问题.应该由EDA对你的数据进行调查。

在某些情况下,twitter特有的约定可以很好地表示特定类别(例如,http://与垃圾邮件/广告twitter相关)或情绪(例如:-)与正价相关的表情)。类似地,正如我在这个帖子中所讨论的,在某些类型的文本模型中,停止词可能是很好的特性。我对上述答案的支持是基于我所做的一个(未公布的)项目,该项目涉及约10人--在主要行业(食品、旅游、电子、中央人民政府等)对5万条推文进行评分。以及品牌(McDonalds、西南航空、iPhone、潮汐吊舱)。

我的建议是,为任何文本特征创建特征提取器,您认为这些特征在理论上或逻辑上都可以作为文本极性的良好指示器。然后对每个特征进行实证检验,以确定其是否显著提高了分类精度。保留模型中的那些;将其他的特性提取器保存起来以备不时之需。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12514

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档