首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >项目的自动ML与手动ML

项目的自动ML与手动ML
EN

Data Science用户
提问于 2020-01-03 10:45:41
回答 2查看 1.2K关注 0票数 2

最近,我被介绍给一个基于genetic programming的自动ML库,名为tpot。感谢诺亚·韦伯。我有几个问题

( 1)当我们有自动ML时,为什么人们通常会花时间在Feature selection或预处理等上?我的意思是他们至少减少了搜索空间/特征空间。

2)至少在一定程度上减少了我们的工作量,我们可以根据自动ML解决方案的输出进行工作,并在需要时进一步调优。我们不需要手动输入我们可能需要的值范围来执行gridsearchCV。对吗?

( 3)它有什么缺点吗?我知道这可能是黑匣子,但是对于数据分析,它们不是更容易吗?计算机科学家可能不喜欢它。当然,我们需要有一定的知识才能对模型进行微调,解释结果等等。

4)与自动ML相比,手动ML的优点是什么?

5)我们是否有可能进一步改善结果?我的意思是一旦我们得到自动ML的输出

你能帮我理解一下吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-01-03 10:57:31

( 1)特征选择应由AutoML进行;另一方面,预处理通常由用户进行,以使数据有意义。

( 2) AutoML负责超参数化。

( 3)我发现的缺点是计算成本极高。从我在Kaggle中看到的情况来看,大多数获胜的解决方案都使用手动ML,而不是AutoML。

4)对我来说,其中一个优点是,有时它找到了一个我没有尝试过(或思考)的好算法,而且它避免了我花费一些编码时间。此外,它碰巧做了一些好的组合不同的模式。

5)您可以在您的一侧执行手动ML,然后使用您的个人ML模型和AutoML进行集成。这并不能保证你的进步,但它可以提高你的表现。

您可以看看H20 AutoML,我引用这些文档,我相信在这种情况下它会有帮助,这样才能对它有一个直觉:

虽然H2O使非专家在机器学习方面的实验变得容易,但在数据科学方面仍然有相当一部分的知识和背景,这是产生高性能机器学习模型所必需的。众所周知,对于非专家来说,深度神经网络很难正确地进行调整。为了使机器学习软件能够真正地为非专家所访问,我们设计了一个易于使用的界面,使大量候选模型的培训过程自动化。H2O的AutoML对于高级用户也是一个有用的工具,它提供了一个简单的包装函数来执行大量与建模相关的任务,这些任务通常需要多行代码,并腾出时间专注于数据科学管道任务的其他方面,例如数据预处理、特性工程和模型部署。

您还可以使用看看Bojan Tunguz的博客定义AutoML的各个阶段:

  • 0级:没有自动化。编写自己的ML算法。从零开始。在C++中。
  • 第1级:使用高级算法API.H2O,XGBoost等。
  • 二级:自动超参数调优和装配。基本模型选择
  • 三级:自动(技术)特征工程和特征选择,技术数据增强,GUI。
  • 第4级:自动领域和特定问题的特征工程,数据增强和数据集成。
  • 第5级:完全ML自动化。能够在没有任何输入或指导的情况下提出解决困难ML问题的超人类策略。与人类用户的完全会话交互。
票数 5
EN

Data Science用户

发布于 2020-01-03 10:58:43

没有一刀切的解决方案.

AutoML很酷,但您不会得到量身定做和最佳解决方案使用它。

之所以存在,是因为DS有一个“艺术”成分。当然,从理论上讲,您可以将一切都放在一个巨大的优化框架中,并找到最优的参数,但实际上,它将永远存在。也许量子计算机会改变这种情况,但目前我们必须利用一些启发、理论和以前的经验,把注意力集中在最优配置上。

因此,您可以使用它来帮助您的思考,甚至质疑它,但如果您正在制定量身定做的解决方案,您将无法取得最好的结果使用autoML。根据场地的不同,这可能意味着很多。例如,F1分数差0.2+-可能意味着百万美元的欺诈费用。你真的想把这件事降到最低。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65787

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档