首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有可能用实时预测来检测漂移吗?

有可能用实时预测来检测漂移吗?
EN

Data Science用户
提问于 2021-02-04 01:09:31
回答 2查看 225关注 0票数 3

我一直在阅读关于检测数据漂移和概念漂移的文章,我找到了库,但是这里的所有方法似乎都检测概念漂移并接受输入,好像预测是正确的或不正确的。(要求真实)这是正确的假设吗?

然后我无意中发现了Kullback-莱布勒发散和JS-发散。我能用这些方法实时检测数据漂移吗?(示例:请求进入我的模型API,然后进行预测。然后,我将这些特征传递给计算漂移的函数)

我的一些担心是,我是否需要完整的培训数据来与之比较?据我所知,这些算法需要相同大小的数据进行比较,那么我是否需要一个与我的训练数据相同大小的数据集呢?甚至了解用于检测数据漂移与概念漂移与协变量变化的输入也会有所帮助。

EN

回答 2

Data Science用户

发布于 2021-02-04 07:36:38

你可能会也可能不会用地面真相来探测漂移。

据谷歌称:

什么是数据漂移?数据漂移是模型精度随时间的下降的主要原因之一。对于机器学习模型,数据漂移是指模型输入数据的变化导致模型性能下降。监视数据漂移有助于检测这些模型的性能问题。在预测分析和机器学习中,概念漂移意味着模型试图预测的目标变量的统计特性以不可预见的方式随时间发生变化。这会引起问题,因为随着时间的推移,预测变得不那么准确。协变量转移是协变量分布的具体变化,即自变量。

所以我看到数据漂移和协变量移动非常相似,如果不是等价的话。根据这些定义:

  • 你需要基本的真理来衡量概念的漂移。
  • 你不需要地面真相来测量数据漂移。

为了测量数据漂移:

  • 您可能需要也可能不需要所有的培训数据。如果将预测器建模(假设我将一个高斯变量与我的特性x_i相匹配,并且它有平均\mu_i和标准差\sigma_i),并保存它们分布的参数,那么就足以总结分布,并且您不需要完整的训练数据。
  • 我认为您根本不需要对服务数据有相同的样本大小。
  • 数据漂移需要以批处理的方式进行,所以只要存储结果并在服务一段时间后对其进行分析,您就可以使用API进行数据漂移。除非在非常极端的情况下,否则说一个观察结果有漂移是没有意义的。
票数 1
EN

Data Science用户

发布于 2021-02-04 08:16:00

您可以在新的预测中检测漂移,可能不是实时的,而是累积的预测,以便能够检测相关的漂移模式,而不仅仅是异常值。

我建议你看看漂流者_毫升包。在支持的分类方法列表中,您可以找到一个名为“对照新预测”的部分,其中包含以下方法:

  • 每班预测的比例
  • 类不平衡测试
  • 概率分布相似检验
  • 校准试验

正如您可以从他们的描述中了解到的那样,您不需要完整的培训数据,但是需要一些它的统计数据,甚至是一个有代表性的子集,这样您就可以与之进行比较。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88892

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档