文章/答案/技术大牛

发布

社区首页 >问答首页 >用什么技术来分析数据漂移？

问用什么技术来分析数据漂移？
EN

Data Science用户

提问于 2023-03-16 23:38:04

回答 3查看 289关注 0票数 4

我创建了一个模型，这个模型最近开始受到漂移的影响。

我相信漂移是由于数据集的变化造成的，但我不知道如何在数量上显示这一点。

通常使用什么技术来分析和解释模型(数据)漂移？

额外：

数据是表格的。

data-science-model

concept-drift

data-drift

dataset

machine-learning-model

回答 3

Data Science用户

回答已采纳

发布于 2023-03-17 06:56:38

这取决于我们谈论的是什么类型的数据:表格，图像，文本.

这是我的PhD的一部分，所以我完全有偏见，我会建议解释转换。(我希望得到一些反馈)。它在表格数据上工作得很好。

包装: skshift https://skshift.readthedocs.io/
论文：https://arxiv.org/pdf/2303.08081.pdf

在相关的工作部分，我们可以找到其他的方法。

“解释转移”下的主要观点是观察分布变化对模型行为的影响。通过这个，我们比较了解释(Shapley值)如何看待测试集和假设的分布外数据。

问题是在没有面向对象数据标签(y_ood)的情况下，无法评估模型的性能。需要提供一些y_ood样本，或者描述shift的类型。由于无法计算性能指标，第二个最好的方法是了解模型是如何变化的。

有一个众所周知的库Alibi https://github.com/SeldonIO/alibi-detect，它有其他方法:)

票数 3

Data Science用户

发布于 2023-03-17 13:32:47

一个开始的方法是基本的探索性数据分析。

比较训练数据和新数据之间的单变量、双变量和多元分布。这些比较可以在视觉上、质量上和数量上进行。

确切的方法将取决于表格数据集的特征的数据类型。一个具体的例子是两个连续分布之间的K-L散度。

票数 3

Data Science用户

发布于 2023-04-07 14:12:02

选择漂移检测方法。有不同的统计检验(如Kolmogorov-Smirnov，卡方)和距离和发散方法(例如，Wasserstein距离，K-L散度，Jensen-Shannon距离，种群稳定性指数)，可以用来比较表格数据上的分布。有些方法更适合于数值，有些方法适用于分类特征，而有些方法则适用于两者。

如果您想了解不同的漂移检测方法的行为，这里有一个博客(带代码)，介绍将不同的漂移检测方法应用于人工移动数据集：https://www.evidentlyai.com/blog/data-drift-detection-large-datasets的实验。

定义匹配用例和预期特性行为的比较窗口:例如，您可以将最后一周的数据与前一周进行比较，或者将所有生产数据与验证数据或某些黄金集进行比较，等等。
评估预测漂移。单独研究模型预测中的分布变化(输出漂移)是有意义的，因为它通常是一个很好的指标，表明某些方面发生了变化，例如，它更经常地预测某些类别，等等。
评估特征漂移。您可以执行每个特征漂移检测，然后测量漂移特征的百分比，并查看漂移的特征，以直观地探索/解释更改的内容。或者只测试顶部模型的漂移特性。

您可以使用开源库(显然是https://github.com/evidentlyai/evidently )来实现许多漂移检测方法，并且可以快速可视化发行版。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/120272

复制

相似问题

问用什么技术来分析数据漂移？
EN

额外：

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用什么技术来分析数据漂移？EN

额外：

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用什么技术来分析数据漂移？
EN