文章/答案/技术大牛

发布

社区首页 >问答首页 >为ml模型寻找最佳数据源查询策略。最大限度地提高质量，降低成本

问为ml模型寻找最佳数据源查询策略。最大限度地提高质量，降低成本
EN

Data Science用户

提问于 2022-10-12 22:42:16

回答 2查看 63关注 0票数 2

查询每个索赔的所有数据源成本太高，因此有必要定义一种采购策略，以最大限度地提高模型质量评分，并将整个数据分布的预测成本(以货币表示)降至最低。

我有几个机器学习模型，它们针对不同来源的不同数据以及它们的所有组合进行培训。例如，如果只有两个源a和b，那么将有4个模型:没有源，只有a，只有b，a和b在一起。

每个源每个应用程序都有一个成本。模型预测是很好的校准，所以对整个数据集的最终预测可以看作是对一个元模型的预测。

问题是，当我们预测时，我们不知道这个或那个来源会回答什么。如果没有数据(no_hit)，则其成本为0，模型质量的增益为0(例如，roc_auc)。否则，我们就得为此付出代价。还可以确定其他可能的情况。例如，按源对模型的预测等于0.01或0.99 --显然不需要请求其他数据(no_hit、score<0.01、score>=0.01和score<0.99、score>=0.99)。

举例说明。有两个来源a和b，它们的成本分别是3和2。我知道培训数据的统计分布情况。假设有100个样本，10个只有一个源，20个只有b源，30个有两个源，40个没有。

一种可能的策略请求源a。如果a是命中，则通过源a的模型预测目标。如果a不是命中，则请求源b。如果b命中，则预测源a和b的目标。如果b没有命中，则根据模型对可用数据(源a)进行预测。

因此，10个样本仅用a模型预测，30个样本由a和b集合模型预测，其余样本不存在来源和速率。总成本为310+30(3+2)=180。元模型的最终质量是综合得分的度量( a和b仅为10，a和b为30，其余为虚拟预测)。

也就是说，策略可以表示为一棵树。但有两种床单。1视图-源(a，b，停止和预测可用数据)2视图-脚本(命中，没有命中)。这些策略都是可能的子树，在这些子树中，所有最后的叶子都可以选择停止并使用可用的数据进行预测)。如果已经选择了一个源(命中而没有命中)，这应该包括所有的场景。从原理上看，图中所述的所有可能的备选方案和战略：

如果有许多数据源(例如，10)，则不可能粗略地对所有可能的策略进行排序。

请建议如何优化此任务。也许有一个现成的解决方案，或者对这个问题有一个数学描述和算法，或者你在这个问题上有经验。

machine-learning

optimization

ensemble-modeling

回答 2

Data Science用户

发布于 2022-10-13 11:20:05

一般说来，回答情景的模型不是100%可靠的，是你的情况吗？

在这种情况下，一个好的解决方案是有一个培训数据集，在其中，您知道模型必须达到的最佳值。

在决策树中，设置可以通过培训过程修改的随机权重(数千次迭代)，直到达到可能达到最大分数的最优值为止。

一个更好的选择是使用随机森林分类，因为所有的场景都会被彻底地探索，甚至那些你无法准备的场景。

然而，探索许多场景可能需要大量的处理:在这种情况下，可以从一小组数据和模型开始，看看这个解决方案是否有效。

https://www.kaggle.com/code/prashant111/random-forest-classifier-tutorial/notebook

票数 2

Data Science用户

发布于 2022-10-14 13:11:18

我怀疑在这里可以使用标准的ML模型。但是，我认为在这里最好是自己酝酿自己的优化函数/问题。你可以分配成本，概率和收益。请计算机最大限度地发挥这一功能。即使你有10个变量，这应该是可行的；根据我的数学，1024个可能的组合。

为什么？因为我们可以看到整个状态空间并且对它有一个合理的估计。我们可以知道，如果您查询，a和b，并得到两个命中，什么可能的回报是击中任何其他的字母，如果它值得。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115179

复制

相似问题

问为ml模型寻找最佳数据源查询策略。最大限度地提高质量，降低成本
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为ml模型寻找最佳数据源查询策略。最大限度地提高质量，降低成本EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为ml模型寻找最佳数据源查询策略。最大限度地提高质量，降低成本
EN