我有一个大约6000个文本的语料库,其中有来自社交网络(FB,twitter)的评论,来自一般和地区新闻和杂志等的新闻内容。我已经浏览了前300个文本,并将这300个文本中的每一个内容标记为客户投诉或非投诉。
我想知道如何准确地提取这些投诉和非投诉文本的特征,而不是幼稚的词袋方式。我的目标是使用支持向量机或其他分类算法/库,如Liblinear,在当前300个文本的训练集上,最准确地将这些文本中的其余部分分类为抱怨或非抱怨。这个过程类似于情绪分析吗?如果没有,我应该从哪里开始呢?
发布于 2017-04-26 13:45:15
我想你会发现词袋并不是那么天真。实际上,这是一种非常有效的表示数据的方式,可以将数据提供给SVM。如果这不能给你足够的准确性,你总是可以在你的特征向量中包括二元语法,即单词对,而不仅仅是一元语法。
https://stackoverflow.com/questions/43624308
复制相似问题