首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用什么技术来分析数据漂移?

用什么技术来分析数据漂移?
EN

Data Science用户
提问于 2023-03-16 23:38:04
回答 3查看 289关注 0票数 4

我创建了一个模型,这个模型最近开始受到漂移的影响。

我相信漂移是由于数据集的变化造成的,但我不知道如何在数量上显示这一点。

通常使用什么技术来分析和解释模型(数据)漂移?

额外:

数据是表格的。

EN

回答 3

Data Science用户

回答已采纳

发布于 2023-03-17 06:56:38

这取决于我们谈论的是什么类型的数据:表格,图像,文本.

这是我的PhD的一部分,所以我完全有偏见,我会建议解释转换。(我希望得到一些反馈)。它在表格数据上工作得很好。

在相关的工作部分,我们可以找到其他的方法。

“解释转移”下的主要观点是观察分布变化对模型行为的影响。通过这个,我们比较了解释(Shapley值)如何看待测试集和假设的分布外数据。

问题是在没有面向对象数据标签(y_ood)的情况下,无法评估模型的性能。需要提供一些y_ood样本,或者描述shift的类型。由于无法计算性能指标,第二个最好的方法是了解模型是如何变化的。

有一个众所周知的库Alibi https://github.com/SeldonIO/alibi-detect,它有其他方法:)

票数 3
EN

Data Science用户

发布于 2023-03-17 13:32:47

一个开始的方法是基本的探索性数据分析。

比较训练数据和新数据之间的单变量、双变量和多元分布。这些比较可以在视觉上、质量上和数量上进行。

确切的方法将取决于表格数据集的特征的数据类型。一个具体的例子是两个连续分布之间的K-L散度

票数 3
EN

Data Science用户

发布于 2023-04-07 14:12:02

  1. 选择漂移检测方法。有不同的统计检验(如Kolmogorov-Smirnov,卡方)和距离和发散方法(例如,Wasserstein距离,K-L散度,Jensen-Shannon距离,种群稳定性指数),可以用来比较表格数据上的分布。有些方法更适合于数值,有些方法适用于分类特征,而有些方法则适用于两者。

如果您想了解不同的漂移检测方法的行为,这里有一个博客(带代码),介绍将不同的漂移检测方法应用于人工移动数据集:https://www.evidentlyai.com/blog/data-drift-detection-large-datasets的实验。

  1. 定义匹配用例和预期特性行为的比较窗口:例如,您可以将最后一周的数据与前一周进行比较,或者将所有生产数据与验证数据或某些黄金集进行比较,等等。
  2. 评估预测漂移。单独研究模型预测中的分布变化(输出漂移)是有意义的,因为它通常是一个很好的指标,表明某些方面发生了变化,例如,它更经常地预测某些类别,等等。
  3. 评估特征漂移。您可以执行每个特征漂移检测,然后测量漂移特征的百分比,并查看漂移的特征,以直观地探索/解释更改的内容。或者只测试顶部模型的漂移特性。

您可以使用开源库(显然是https://github.com/evidentlyai/evidently )来实现许多漂移检测方法,并且可以快速可视化发行版。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/120272

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档