我遇到了一个机器学习软件,我不会命名它,它声称在没有领域知识的情况下,功能工程过程从任何来源完全自动化,这意味着数据科学家在这一步中几乎没有必要。现在,我发现这个说法有点可疑,因为它违背了我所学到的功能工程所包含的常识。
但考虑到这可能是缺乏知识,从我的部分到什么点,我们可以自动化的特色工程过程?我可以想到一些一般的方法,比如统计方法(中位数,等等)或者几种类型的编码(二进制、多项式等)对于绝对变量,谁能给我一个关于这一主题的技术方法的概述,或者指出我的正确方向?
发布于 2016-05-24 17:13:12
根据我的经验,当人们声称有一种自动化的功能工程方法时,他们实际上是指“特征生成”,而他们实际上所说的是他们已经建立了某种深度的神经网络。公平地说,在有限的意义上,这可能是一个真实的主张。经过适当训练的深层神经网络可以处理任意数量的个体特征或特征组之间的两两关联。也就是说,如果没有大量的预先数据预处理工具,而这些工具知道如何智能地处理不同类型的输入数据(例如,自由文本、图像等),所有这些都是不可能的。总之,要自动完成某件事情需要大量的人工努力。
发布于 2016-08-04 15:38:32
有几种方法可以这样做..。对于您一直在谈论的工具(我将不提它的名称),所有预先编码的函数都会同时运行,它基本上是一个庞大的规则引擎。
1)最简单的方法是用变量的随机组合(听起来像随机森林)运行迷你树.对分类有一定预测能力的每一棵树都是一个变量,节点是它的分类.
2)可以构建自动编码器(https://en.wikipedia.org/wiki/Autoencoder),它容易实现,但很难理解,深层学习所做的基本上是自动特性工程,这就是为什么计算需要花费这么多时间;
3)可以进行符号回归(https://en.wikipedia.org/wiki/Symbolic_回归),可以使用遗传优化算法来选择变量和一些数学算子,从而得到一个具有一定分类能力的良好公式。所以当你有公司资产负债表上的一些数据时,它提供了很多公式,比如EBITDA.
https://datascience.stackexchange.com/questions/11898
复制相似问题