首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何找到影响分类的有影响的词?

如何找到影响分类的有影响的词?
EN

Data Science用户
提问于 2018-07-04 20:34:41
回答 1查看 224关注 0票数 1

所以我知道有很多方法可以把句子分类。就像情感分析(积极,消极,中立),垃圾邮件(垃圾邮件,而不是垃圾邮件)等等。我想问的是,我如何找到对分类最负责的词。例如:sad-negative, happy-positive, the-no information, are-no information

那么,我如何找到影响分类的单词呢?

EN

回答 1

Data Science用户

发布于 2018-07-05 11:54:58

首先,让我们澄清一下,证明因果关系是相当困难的。因此,您将主要需要显示相关性。此外,对于文本分类,每个词的影响不是线性的。每个单词都会影响句子相对于其他单词的意义,反之亦然,因此,您需要记住这一点。

尽管如此,有几种方法可以观察单词对分类的影响:

频率

如果您有多个类,则可以查看每个类中某些单词出现的频率。如果"good“一词只出现在肯定句中,那么可以放心地假定它具有很大的影响。

该方法具有模型无关的优点。

特性重要性

如果您使用一个字包表示作为您的输入,您可以查看每个功能的存在/缺失对结果的影响程度。例如,假设你可以以80%的准确率对肯定句进行分类,所有的单词都作为特征。现在,尝试通过删除某些单词来重新分类这些句子。如果你把“好”这个词从句子中删除,你可以看看表现有多大。

或者,你可以做相反的事情,试着简单地对每个单词进行分类。如果你把“好”这个词归类为“好”,那就意味着它可能是一个影响句子成为积极的词。如果你的模型提供了信心,你可以用它来知道这个词给句子带来了多少信息。

注意机制

注意机制将能够告诉您输入的哪一部分对结果的影响最大。如果使用顺序模型,这会更好。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/34001

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档