首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动特征工程

自动特征工程
EN

Data Science用户
提问于 2016-05-24 09:03:28
回答 6查看 6.3K关注 0票数 6

我遇到了一个机器学习软件,我不会命名它,它声称在没有领域知识的情况下,功能工程过程从任何来源完全自动化,这意味着数据科学家在这一步中几乎没有必要。现在,我发现这个说法有点可疑,因为它违背了我所学到的功能工程所包含的常识。

但考虑到这可能是缺乏知识,从我的部分到什么点,我们可以自动化的特色工程过程?我可以想到一些一般的方法,比如统计方法(中位数,等等)或者几种类型的编码(二进制、多项式等)对于绝对变量,谁能给我一个关于这一主题的技术方法的概述,或者指出我的正确方向?

EN

回答 6

Data Science用户

发布于 2016-05-24 17:13:12

根据我的经验,当人们声称有一种自动化的功能工程方法时,他们实际上是指“特征生成”,而他们实际上所说的是他们已经建立了某种深度的神经网络。公平地说,在有限的意义上,这可能是一个真实的主张。经过适当训练的深层神经网络可以处理任意数量的个体特征或特征组之间的两两关联。也就是说,如果没有大量的预先数据预处理工具,而这些工具知道如何智能地处理不同类型的输入数据(例如,自由文本、图像等),所有这些都是不可能的。总之,要自动完成某件事情需要大量的人工努力。

票数 13
EN

Data Science用户

发布于 2016-08-04 15:38:32

有几种方法可以这样做..。对于您一直在谈论的工具(我将不提它的名称),所有预先编码的函数都会同时运行,它基本上是一个庞大的规则引擎。

1)最简单的方法是用变量的随机组合(听起来像随机森林)运行迷你树.对分类有一定预测能力的每一棵树都是一个变量,节点是它的分类.

2)可以构建自动编码器(https://en.wikipedia.org/wiki/Autoencoder),它容易实现,但很难理解,深层学习所做的基本上是自动特性工程,这就是为什么计算需要花费这么多时间;

3)可以进行符号回归(https://en.wikipedia.org/wiki/Symbolic_回归),可以使用遗传优化算法来选择变量和一些数学算子,从而得到一个具有一定分类能力的良好公式。所以当你有公司资产负债表上的一些数据时,它提供了很多公式,比如EBITDA.

票数 5
EN

Data Science用户

发布于 2016-05-24 14:47:06

嗯,在“特征学习”的标签下,在这个方向上正在进行一些认真的研究。但据我所知,它还不够成熟,还不能打包成一个软件工具,使手工软件工程变得多余。

但在这方面正在取得重要的成功。现代图像识别的深层神经网络往往依赖于神经网络的深层计算自身的特征,而不是由人类手工制作的特征。所以这不完全是科幻小说。如果你想了解更多关于图像识别部分的主题,你可能想看这个美丽的视频讲座由安德鲁吴,在这一领域的领先研究人员之一。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/11898

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档