首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何计算文本数据中的数据漂移?

如何计算文本数据中的数据漂移?
EN

Stack Overflow用户
提问于 2020-04-13 22:31:09
回答 1查看 521关注 0票数 0

我正在训练一个用于文本数据的二进制分类器。我的准确率分数是98.12%,f1分数是95%。问题是我使用一个5年前的数据集来训练我的模型。我非常确定数据漂移会在某一时刻发生,我的模型的性能会受到影响。我已经在监控置信度得分,如果给定窗口大小突然下降,我会收到警报。有没有办法识别突然的数据漂移并提醒我?提前谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-10-15 08:45:11

非结构化数据的美妙之处在于它很少随着时间的推移而改变。猫长得像猫有100年了。除非随着时间的推移出现大量的商业缩略语或排序形式,否则在未来50年内,大多数英语句子将是相同的。

解决方案:如果发生这种情况,您总是可以创建一个基本的单词包或任何矩阵来计算频率或以某种统计度量表示总体。编写一个函数,将上面的数据与滑动窗口中的新数据进行比较。窗口大小因情况而异。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61190101

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档