首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >识别在区分类中最有用的单词

识别在区分类中最有用的单词
EN

Stack Overflow用户
提问于 2017-01-18 20:40:25
回答 1查看 2.8K关注 0票数 2

在试图区分两个文本类(即积极或消极情绪等)时,是否可以使用tfidf (Python中的tfidfvectorizer)来确定哪些词最重要?例如,哪些词对识别肯定类最重要,然后分别哪些词对识别负面类最有用?

EN

回答 1

Stack Overflow用户

发布于 2017-01-19 11:19:34

你可以让scikit学习你的重担--在你的二叉树上训练一个随机森林,提取分类器的特征重要性排序,并使用它得到最重要的单词:

代码语言:javascript
复制
clf = RandomForestClassifier()
clf.fit(data, labels)

importances = clf.feature_importances_
np.argsort(importances)[::-1]

feature_names = vectorizer.get_feature_names()
top_words = []

for i in xrange(100):
    top_words.append(feature_names[indices[i]])

请注意,这只会告诉您什么是最重要的词-而不是他们说的每一个类别。要说出每个词对每个类说什么,你可以对每个单词进行分类,看看它们的分类是什么。

另一种选择是获取所有正/负数据样本,从它们中删除您正在尝试理解的单词,并查看这如何影响样本的分类。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41729043

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档