问识别在区分类中最有用的单词
EN

Stack Overflow用户

提问于 2017-01-18 20:40:25

回答 1查看 2.8K关注 0票数 2

在试图区分两个文本类(即积极或消极情绪等)时，是否可以使用tfidf (Python中的tfidfvectorizer)来确定哪些词最重要？例如，哪些词对识别肯定类最重要，然后分别哪些词对识别负面类最有用？

machine-learning

nlp

text-mining

回答 1

Stack Overflow用户

发布于 2017-01-19 11:19:34

你可以让scikit学习你的重担--在你的二叉树上训练一个随机森林，提取分类器的特征重要性排序，并使用它得到最重要的单词：

clf = RandomForestClassifier()
clf.fit(data, labels)

importances = clf.feature_importances_
np.argsort(importances)[::-1]

feature_names = vectorizer.get_feature_names()
top_words = []

for i in xrange(100):
    top_words.append(feature_names[indices[i]])

请注意，这只会告诉您什么是最重要的词-而不是他们说的每一个类别。要说出每个词对每个类说什么，你可以对每个单词进行分类，看看它们的分类是什么。

另一种选择是获取所有正/负数据样本，从它们中删除您正在尝试理解的单词，并查看这如何影响样本的分类。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41729043

复制

相似问题

问识别在区分类中最有用的单词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别在区分类中最有用的单词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问识别在区分类中最有用的单词
EN