首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从文本中提取投诉特征,以便将投诉与非投诉文本进行分类

如何从文本中提取投诉特征,以便将投诉与非投诉文本进行分类
EN

Stack Overflow用户
提问于 2017-04-26 11:07:19
回答 1查看 310关注 0票数 1

我有一个大约6000个文本的语料库,其中有来自社交网络(FB,twitter)的评论,来自一般和地区新闻和杂志等的新闻内容。我已经浏览了前300个文本,并将这300个文本中的每一个内容标记为客户投诉或非投诉。

我想知道如何准确地提取这些投诉和非投诉文本的特征,而不是幼稚的词袋方式。我的目标是使用支持向量机或其他分类算法/库,如Liblinear,在当前300个文本的训练集上,最准确地将这些文本中的其余部分分类为抱怨或非抱怨。这个过程类似于情绪分析吗?如果没有,我应该从哪里开始呢?

EN

回答 1

Stack Overflow用户

发布于 2017-04-26 13:45:15

我想你会发现词袋并不是那么天真。实际上,这是一种非常有效的表示数据的方式,可以将数据提供给SVM。如果这不能给你足够的准确性,你总是可以在你的特征向量中包括二元语法,即单词对,而不仅仅是一元语法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43624308

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档