在我决定收集一些twitter数据并自己贴标签(pos,neg,neu)之前,我想在twitter情绪analysis.so上工作。我的疑问是,我应该在标签之前清理数据(即删除RT、#、https、@符号),还是可以在不清理数据的情况下对它们进行标记?标签前的数据清洗会有什么不同吗?
发布于 2016-06-30 12:14:55
OP问:“在标签之前清理数据有什么区别吗?”-这是一个经验性的问题.应该由EDA对你的数据进行调查。
在某些情况下,twitter特有的约定可以很好地表示特定类别(例如,http://与垃圾邮件/广告twitter相关)或情绪(例如:-)与正价相关的表情)。类似地,正如我在这个帖子中所讨论的,在某些类型的文本模型中,停止词可能是很好的特性。我对上述答案的支持是基于我所做的一个(未公布的)项目,该项目涉及约10人--在主要行业(食品、旅游、电子、中央人民政府等)对5万条推文进行评分。以及品牌(McDonalds、西南航空、iPhone、潮汐吊舱)。
我的建议是,为任何文本特征创建特征提取器,您认为这些特征在理论上或逻辑上都可以作为文本极性的良好指示器。然后对每个特征进行实证检验,以确定其是否显著提高了分类精度。保留模型中的那些;将其他的特性提取器保存起来以备不时之需。
https://datascience.stackexchange.com/questions/12514
复制相似问题