首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为标签预测项目提取特征

为标签预测项目提取特征
EN

Stack Overflow用户
提问于 2016-02-18 20:54:46
回答 2查看 292关注 0票数 1

我正在考虑做一个项目,在python中进行堆栈交换问题的关键字提取。我有一个来自kaggle.com的输入数据,它有id,title,body和用于训练的标签。我正在考虑实现一些机器学习算法,如支持向量机,神经网络等来训练分类器。问题是,对于这些算法的输入,我们需要特征。我不知道如何从这些算法的输入中提取特征,因为我以前从未从段落中提取过特征。任何帮助都将不胜感激。

EN

回答 2

Stack Overflow用户

发布于 2016-02-18 21:28:20

特征选择是至关重要的,它为你的problem.Good提供了特征相关性的信息在Sergios Theodoridis和Konstantinos Koutroumbas的书中给出了模式识别的理论解释。我找到了这个简单的代码示例

代码语言:javascript
复制
# Feature Importance
from sklearn import datasets
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
# load the iris datasets
dataset = datasets.load_iris()
# fit an Extra Trees model to the data
model = ExtraTreesClassifier()
model.fit(dataset.data, dataset.target)
# display the relative importance of each attribute
print(model.feature_importances_)

结果

代码语言:javascript
复制
0.1087327   0.06409384  0.32304493  0.50412853

您可以阅读更多[http://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/],with示例。

票数 0
EN

Stack Overflow用户

发布于 2016-02-19 00:48:44

许多关键词提取算法都是基于经典的统计技术(包括图形模型)。流行的功能主要是基于频率的。也存在一些对单词进行排序的算法。要进一步研究,请考虑这篇论文:

http://www.hlt.utdallas.edu/~saidul/acl14.pdf

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35482079

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档