我创建了一个模型,这个模型最近开始受到漂移的影响。
我相信漂移是由于数据集的变化造成的,但我不知道如何在数量上显示这一点。
通常使用什么技术来分析和解释模型(数据)漂移?
数据是表格的。
发布于 2023-03-17 06:56:38
这取决于我们谈论的是什么类型的数据:表格,图像,文本.
这是我的PhD的一部分,所以我完全有偏见,我会建议解释转换。(我希望得到一些反馈)。它在表格数据上工作得很好。
在相关的工作部分,我们可以找到其他的方法。
“解释转移”下的主要观点是观察分布变化对模型行为的影响。通过这个,我们比较了解释(Shapley值)如何看待测试集和假设的分布外数据。
问题是在没有面向对象数据标签(y_ood)的情况下,无法评估模型的性能。需要提供一些y_ood样本,或者描述shift的类型。由于无法计算性能指标,第二个最好的方法是了解模型是如何变化的。
有一个众所周知的库Alibi https://github.com/SeldonIO/alibi-detect,它有其他方法:)
发布于 2023-03-17 13:32:47
一个开始的方法是基本的探索性数据分析。
比较训练数据和新数据之间的单变量、双变量和多元分布。这些比较可以在视觉上、质量上和数量上进行。
确切的方法将取决于表格数据集的特征的数据类型。一个具体的例子是两个连续分布之间的K-L散度。
发布于 2023-04-07 14:12:02
如果您想了解不同的漂移检测方法的行为,这里有一个博客(带代码),介绍将不同的漂移检测方法应用于人工移动数据集:https://www.evidentlyai.com/blog/data-drift-detection-large-datasets的实验。
您可以使用开源库(显然是https://github.com/evidentlyai/evidently )来实现许多漂移检测方法,并且可以快速可视化发行版。
https://datascience.stackexchange.com/questions/120272
复制相似问题