我知道如何在简单的和稍微复杂的用例中使用sklearn.pipeline.Pipeline()。我知道如何为同构和异构数据设置管道,在后一种情况下,使用sklearn.compose.ColumnTransformer()。
然而,在实际的ML中,不仅需要对一组大的模型超参数进行实验,而且还要对一组潜在的预处理类和不同的估计器/模型进行实验。
我的问题是双重的:
在第一种情况下,常见的用例是文本矢量化:将CountVectorizer()或TfidfVectorizer()的选择作为要优化的超参数。
在第二种情况下,一个实际的用例可以在各种算法之间进行选择,或者在多类分类中进行选择,无论是使用OneVsOneClassifier()还是OneVsRestClassifier()。
我知道这可能正是开发AutoML解决方案的目的。我听说过开箱即用的AutoML解决方案,它可以用超参数调优自动选择模型,但我对其中任何一个都没有经验,因此我不知道它们是否确实为我在这篇文章中描述的一般主题提供了一个答案。
发布于 2021-12-30 20:45:58
一些纯粹的科学方法:
在实践中,我发现拥有一个完整的端到端管道,尝试学习所有东西,在计算上是非常昂贵的。(例如:参数、度量、模型类型、规范化阶段、特性、体系结构等),所以更多地调整最重要的是什么。
https://datascience.stackexchange.com/questions/106568
复制相似问题