最近,我被介绍给一个基于genetic programming的自动ML库,名为tpot。感谢诺亚·韦伯。我有几个问题
( 1)当我们有自动ML时,为什么人们通常会花时间在Feature selection或预处理等上?我的意思是他们至少减少了搜索空间/特征空间。
2)至少在一定程度上减少了我们的工作量,我们可以根据自动ML解决方案的输出进行工作,并在需要时进一步调优。我们不需要手动输入我们可能需要的值范围来执行gridsearchCV。对吗?
( 3)它有什么缺点吗?我知道这可能是黑匣子,但是对于数据分析,它们不是更容易吗?计算机科学家可能不喜欢它。当然,我们需要有一定的知识才能对模型进行微调,解释结果等等。
4)与自动ML相比,手动ML的优点是什么?
5)我们是否有可能进一步改善结果?我的意思是一旦我们得到自动ML的输出
你能帮我理解一下吗?
发布于 2020-01-03 10:57:31
( 1)特征选择应由AutoML进行;另一方面,预处理通常由用户进行,以使数据有意义。
( 2) AutoML负责超参数化。
( 3)我发现的缺点是计算成本极高。从我在Kaggle中看到的情况来看,大多数获胜的解决方案都使用手动ML,而不是AutoML。
4)对我来说,其中一个优点是,有时它找到了一个我没有尝试过(或思考)的好算法,而且它避免了我花费一些编码时间。此外,它碰巧做了一些好的组合不同的模式。
5)您可以在您的一侧执行手动ML,然后使用您的个人ML模型和AutoML进行集成。这并不能保证你的进步,但它可以提高你的表现。
您可以看看H20 AutoML,我引用这些文档,我相信在这种情况下它会有帮助,这样才能对它有一个直觉:
虽然H2O使非专家在机器学习方面的实验变得容易,但在数据科学方面仍然有相当一部分的知识和背景,这是产生高性能机器学习模型所必需的。众所周知,对于非专家来说,深度神经网络很难正确地进行调整。为了使机器学习软件能够真正地为非专家所访问,我们设计了一个易于使用的界面,使大量候选模型的培训过程自动化。H2O的AutoML对于高级用户也是一个有用的工具,它提供了一个简单的包装函数来执行大量与建模相关的任务,这些任务通常需要多行代码,并腾出时间专注于数据科学管道任务的其他方面,例如数据预处理、特性工程和模型部署。
您还可以使用看看Bojan Tunguz的博客定义AutoML的各个阶段:
发布于 2020-01-03 10:58:43
AutoML很酷,但您不会得到量身定做和最佳解决方案使用它。
之所以存在,是因为DS有一个“艺术”成分。当然,从理论上讲,您可以将一切都放在一个巨大的优化框架中,并找到最优的参数,但实际上,它将永远存在。也许量子计算机会改变这种情况,但目前我们必须利用一些启发、理论和以前的经验,把注意力集中在最优配置上。
因此,您可以使用它来帮助您的思考,甚至质疑它,但如果您正在制定量身定做的解决方案,您将无法取得最好的结果使用autoML。根据场地的不同,这可能意味着很多。例如,F1分数差0.2+-可能意味着百万美元的欺诈费用。你真的想把这件事降到最低。
https://datascience.stackexchange.com/questions/65787
复制相似问题