我正在训练一个用于文本数据的二进制分类器。我的准确率分数是98.12%,f1分数是95%。问题是我使用一个5年前的数据集来训练我的模型。我非常确定数据漂移会在某一时刻发生,我的模型的性能会受到影响。我已经在监控置信度得分,如果给定窗口大小突然下降,我会收到警报。有没有办法识别突然的数据漂移并提醒我?提前谢谢。
发布于 2020-10-15 08:45:11
非结构化数据的美妙之处在于它很少随着时间的推移而改变。猫长得像猫有100年了。除非随着时间的推移出现大量的商业缩略语或排序形式,否则在未来50年内,大多数英语句子将是相同的。
解决方案:如果发生这种情况,您总是可以创建一个基本的单词包或任何矩阵来计算频率或以某种统计度量表示总体。编写一个函数,将上面的数据与滑动窗口中的新数据进行比较。窗口大小因情况而异。
https://stackoverflow.com/questions/61190101
复制相似问题