不确定这是否是正确的位置,如果是,请关闭。
我是一家大型零售公司的劳动力分析师,我拥有并维持着对我们零售店的所有预测。这是基于产品销售预测()的,我通过一个模型对产品销售进行预测,该模型包含各种任务(例如,在货架上更改项目或销售汽车报警器),这些任务被绑定到定时类别中,例如
项目A需要30秒,因此500个产品预测将允许您(0.5 * 500)或4.1小时,然后进一步绑定到每周分配。
现在,对于我运行的这个模型的每一次迭代,总会有异常值(读取错误),例如商店Y在第22周没有产品数量给product,这是财务团队的一个错误。
我的大四学生说,在他在公司工作的8多年里,情况一直如此。
现在,在我的头脑中,我想我可以用某种统计方法根据历史数据找到异常值,但是,我不知道从哪里开始,我的数据如下所示,大约有1000万行数据。
import pandas as pd
import numpy as np
data = [19,21,24,18,3]
pg = ['PG','ZF','AA','GG','ZF']
location = ['AA_1','AA_1','AA_2','AA_2','AA_2']
weeks = [1,1,2,2,2]
df = pd.DataFrame({'Location' : location,
'productGroup' : pg,
'Week' : weeks,
'productVolumes' : data })
print(df)
Location productGroup Week productVolumes
0 AA_1 PG 1 19
1 AA_1 ZF 1 21
2 AA_2 AA 2 24
3 AA_2 GG 2 18
4 AA_2 ZF 2 3在你的专家意见中,最好的方法是什么?
发布于 2019-11-11 07:42:04
没有一种检测异常值的方法。大多数统计方法都假定有基本的正态分布。如果是这样的话,你可以申请汤普森-头测试。您还可以定义一些自己的标准。在您的用例中,我认为一个重要的问题是:如果您删除或修改丢失的数据,模型的质量会发生什么变化。这让您了解如何处理这些缺失的数据点。
https://datascience.stackexchange.com/questions/52877
复制相似问题