首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为ml模型寻找最佳数据源查询策略。最大限度地提高质量,降低成本

为ml模型寻找最佳数据源查询策略。最大限度地提高质量,降低成本
EN

Data Science用户
提问于 2022-10-12 22:42:16
回答 2查看 63关注 0票数 2

查询每个索赔的所有数据源成本太高,因此有必要定义一种采购策略,以最大限度地提高模型质量评分,并将整个数据分布的预测成本(以货币表示)降至最低。

我有几个机器学习模型,它们针对不同来源的不同数据以及它们的所有组合进行培训。例如,如果只有两个源a和b,那么将有4个模型:没有源,只有a,只有b,a和b在一起。

每个源每个应用程序都有一个成本。模型预测是很好的校准,所以对整个数据集的最终预测可以看作是对一个元模型的预测。

问题是,当我们预测时,我们不知道这个或那个来源会回答什么。如果没有数据(no_hit),则其成本为0,模型质量的增益为0(例如,roc_auc)。否则,我们就得为此付出代价。还可以确定其他可能的情况。例如,按源对模型的预测等于0.01或0.99 --显然不需要请求其他数据(no_hit、score<0.01、score>=0.01和score<0.99、score>=0.99)。

举例说明。有两个来源a和b,它们的成本分别是3和2。我知道培训数据的统计分布情况。假设有100个样本,10个只有一个源,20个只有b源,30个有两个源,40个没有。

一种可能的策略请求源a。如果a是命中,则通过源a的模型预测目标。如果a不是命中,则请求源b。如果b命中,则预测源a和b的目标。如果b没有命中,则根据模型对可用数据(源a)进行预测。

因此,10个样本仅用a模型预测,30个样本由a和b集合模型预测,其余样本不存在来源和速率。总成本为310+30(3+2)=180。元模型的最终质量是综合得分的度量( a和b仅为10,a和b为30,其余为虚拟预测)。

也就是说,策略可以表示为一棵树。但有两种床单。1视图-源(a,b,停止和预测可用数据)2视图-脚本(命中,没有命中)。这些策略都是可能的子树,在这些子树中,所有最后的叶子都可以选择停止并使用可用的数据进行预测)。如果已经选择了一个源(命中而没有命中),这应该包括所有的场景。从原理上看,图中所述的所有可能的备选方案和战略:

如果有许多数据源(例如,10),则不可能粗略地对所有可能的策略进行排序。

请建议如何优化此任务。也许有一个现成的解决方案,或者对这个问题有一个数学描述和算法,或者你在这个问题上有经验。

EN

回答 2

Data Science用户

发布于 2022-10-13 11:20:05

一般说来,回答情景的模型不是100%可靠的,是你的情况吗?

在这种情况下,一个好的解决方案是有一个培训数据集,在其中,您知道模型必须达到的最佳值。

在决策树中,设置可以通过培训过程修改的随机权重(数千次迭代),直到达到可能达到最大分数的最优值为止。

一个更好的选择是使用随机森林分类,因为所有的场景都会被彻底地探索,甚至那些你无法准备的场景。

然而,探索许多场景可能需要大量的处理:在这种情况下,可以从一小组数据和模型开始,看看这个解决方案是否有效。

https://www.kaggle.com/code/prashant111/random-forest-classifier-tutorial/notebook

票数 2
EN

Data Science用户

发布于 2022-10-14 13:11:18

我怀疑在这里可以使用标准的ML模型。但是,我认为在这里最好是自己酝酿自己的优化函数/问题。你可以分配成本,概率和收益。请计算机最大限度地发挥这一功能。即使你有10个变量,这应该是可行的;根据我的数学,1024个可能的组合。

为什么?因为我们可以看到整个状态空间并且对它有一个合理的估计。我们可以知道,如果您查询,a和b,并得到两个命中,什么可能的回报是击中任何其他的字母,如果它值得。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/115179

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档