我一直在阅读关于检测数据漂移和概念漂移的文章,我找到了这库,但是这里的所有方法似乎都检测概念漂移并接受输入,好像预测是正确的或不正确的。(要求真实)这是正确的假设吗?
然后我无意中发现了Kullback-莱布勒发散和JS-发散。我能用这些方法实时检测数据漂移吗?(示例:请求进入我的模型API,然后进行预测。然后,我将这些特征传递给计算漂移的函数)
我的一些担心是,我是否需要完整的培训数据来与之比较?据我所知,这些算法需要相同大小的数据进行比较,那么我是否需要一个与我的训练数据相同大小的数据集呢?甚至了解用于检测数据漂移与概念漂移与协变量变化的输入也会有所帮助。
发布于 2021-02-04 07:36:38
你可能会也可能不会用地面真相来探测漂移。
据谷歌称:
什么是数据漂移?数据漂移是模型精度随时间的下降的主要原因之一。对于机器学习模型,数据漂移是指模型输入数据的变化导致模型性能下降。监视数据漂移有助于检测这些模型的性能问题。在预测分析和机器学习中,概念漂移意味着模型试图预测的目标变量的统计特性以不可预见的方式随时间发生变化。这会引起问题,因为随着时间的推移,预测变得不那么准确。协变量转移是协变量分布的具体变化,即自变量。
所以我看到数据漂移和协变量移动非常相似,如果不是等价的话。根据这些定义:
为了测量数据漂移:
发布于 2021-02-04 08:16:00
您可以在新的预测中检测漂移,可能不是实时的,而是累积的预测,以便能够检测相关的漂移模式,而不仅仅是异常值。
我建议你看看漂流者_毫升包。在支持的分类方法列表中,您可以找到一个名为“对照新预测”的部分,其中包含以下方法:
正如您可以从他们的描述中了解到的那样,您不需要完整的培训数据,但是需要一些它的统计数据,甚至是一个有代表性的子集,这样您就可以与之进行比较。
https://datascience.stackexchange.com/questions/88892
复制相似问题