所以我知道有很多方法可以把句子分类。就像情感分析(积极,消极,中立),垃圾邮件(垃圾邮件,而不是垃圾邮件)等等。我想问的是,我如何找到对分类最负责的词。例如:sad-negative, happy-positive, the-no information, are-no information。
那么,我如何找到影响分类的单词呢?
发布于 2018-07-05 11:54:58
首先,让我们澄清一下,证明因果关系是相当困难的。因此,您将主要需要显示相关性。此外,对于文本分类,每个词的影响不是线性的。每个单词都会影响句子相对于其他单词的意义,反之亦然,因此,您需要记住这一点。
尽管如此,有几种方法可以观察单词对分类的影响:
如果您有多个类,则可以查看每个类中某些单词出现的频率。如果"good“一词只出现在肯定句中,那么可以放心地假定它具有很大的影响。
该方法具有模型无关的优点。
如果您使用一个字包表示作为您的输入,您可以查看每个功能的存在/缺失对结果的影响程度。例如,假设你可以以80%的准确率对肯定句进行分类,所有的单词都作为特征。现在,尝试通过删除某些单词来重新分类这些句子。如果你把“好”这个词从句子中删除,你可以看看表现有多大。
或者,你可以做相反的事情,试着简单地对每个单词进行分类。如果你把“好”这个词归类为“好”,那就意味着它可能是一个影响句子成为积极的词。如果你的模型提供了信心,你可以用它来知道这个词给句子带来了多少信息。
注意机制将能够告诉您输入的哪一部分对结果的影响最大。如果使用顺序模型,这会更好。
https://datascience.stackexchange.com/questions/34001
复制相似问题