首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在资源预测数据中寻找异常值

在资源预测数据中寻找异常值
EN

Data Science用户
提问于 2019-05-30 01:38:51
回答 1查看 70关注 0票数 3

不确定这是否是正确的位置,如果是,请关闭。

我是一家大型零售公司的劳动力分析师,我拥有并维持着对我们零售店的所有预测。这是基于产品销售预测()的,我通过一个模型对产品销售进行预测,该模型包含各种任务(例如,在货架上更改项目或销售汽车报警器),这些任务被绑定到定时类别中,例如

项目A需要30秒,因此500个产品预测将允许您(0.5 * 500)或4.1小时,然后进一步绑定到每周分配。

现在,对于我运行的这个模型的每一次迭代,总会有异常值(读取错误),例如商店Y在第22周没有产品数量给product,这是财务团队的一个错误。

我的大四学生说,在他在公司工作的8多年里,情况一直如此。

现在,在我的头脑中,我想我可以用某种统计方法根据历史数据找到异常值,但是,我不知道从哪里开始,我的数据如下所示,大约有1000万行数据。

代码语言:javascript
复制
import pandas as pd
import numpy as np

data =  [19,21,24,18,3]
pg = ['PG','ZF','AA','GG','ZF']
location = ['AA_1','AA_1','AA_2','AA_2','AA_2']
weeks = [1,1,2,2,2]

df = pd.DataFrame({'Location' : location,
            'productGroup' : pg,
            'Week' : weeks,
            'productVolumes' : data })
print(df)


  Location  productGroup    Week    productVolumes
0   AA_1    PG  1   19
1   AA_1    ZF  1   21
2   AA_2    AA  2   24
3   AA_2    GG  2   18
4   AA_2    ZF  2   3

在你的专家意见中,最好的方法是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-11-11 07:42:04

没有一种检测异常值的方法。大多数统计方法都假定有基本的正态分布。如果是这样的话,你可以申请汤普森-头测试。您还可以定义一些自己的标准。在您的用例中,我认为一个重要的问题是:如果您删除或修改丢失的数据,模型的质量会发生什么变化。这让您了解如何处理这些缺失的数据点。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/52877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档