在试图区分两个文本类(即积极或消极情绪等)时,是否可以使用tfidf (Python中的tfidfvectorizer)来确定哪些词最重要?例如,哪些词对识别肯定类最重要,然后分别哪些词对识别负面类最有用?
发布于 2017-01-19 11:19:34
你可以让scikit学习你的重担--在你的二叉树上训练一个随机森林,提取分类器的特征重要性排序,并使用它得到最重要的单词:
clf = RandomForestClassifier()
clf.fit(data, labels)
importances = clf.feature_importances_
np.argsort(importances)[::-1]
feature_names = vectorizer.get_feature_names()
top_words = []
for i in xrange(100):
top_words.append(feature_names[indices[i]])请注意,这只会告诉您什么是最重要的词-而不是他们说的每一个类别。要说出每个词对每个类说什么,你可以对每个单词进行分类,看看它们的分类是什么。
另一种选择是获取所有正/负数据样本,从它们中删除您正在尝试理解的单词,并查看这如何影响样本的分类。
https://stackoverflow.com/questions/41729043
复制相似问题