我正在考虑做一个项目,在python中进行堆栈交换问题的关键字提取。我有一个来自kaggle.com的输入数据,它有id,title,body和用于训练的标签。我正在考虑实现一些机器学习算法,如支持向量机,神经网络等来训练分类器。问题是,对于这些算法的输入,我们需要特征。我不知道如何从这些算法的输入中提取特征,因为我以前从未从段落中提取过特征。任何帮助都将不胜感激。
发布于 2016-02-18 21:28:20
特征选择是至关重要的,它为你的problem.Good提供了特征相关性的信息在Sergios Theodoridis和Konstantinos Koutroumbas的书中给出了模式识别的理论解释。我找到了这个简单的代码示例
# Feature Importance
from sklearn import datasets
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
# load the iris datasets
dataset = datasets.load_iris()
# fit an Extra Trees model to the data
model = ExtraTreesClassifier()
model.fit(dataset.data, dataset.target)
# display the relative importance of each attribute
print(model.feature_importances_)结果
0.1087327 0.06409384 0.32304493 0.50412853您可以阅读更多[http://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/],with示例。
发布于 2016-02-19 00:48:44
许多关键词提取算法都是基于经典的统计技术(包括图形模型)。流行的功能主要是基于频率的。也存在一些对单词进行排序的算法。要进一步研究,请考虑这篇论文:
http://www.hlt.utdallas.edu/~saidul/acl14.pdf
https://stackoverflow.com/questions/35482079
复制相似问题