问在资源预测数据中寻找异常值
EN

Data Science用户

提问于 2019-05-30 01:38:51

回答 1查看 70关注 0票数 3

不确定这是否是正确的位置，如果是，请关闭。

我是一家大型零售公司的劳动力分析师，我拥有并维持着对我们零售店的所有预测。这是基于产品销售预测()的，我通过一个模型对产品销售进行预测，该模型包含各种任务(例如，在货架上更改项目或销售汽车报警器)，这些任务被绑定到定时类别中，例如

项目A需要30秒，因此500个产品预测将允许您(0.5 * 500)或4.1小时，然后进一步绑定到每周分配。

现在，对于我运行的这个模型的每一次迭代，总会有异常值(读取错误)，例如商店Y在第22周没有产品数量给product，这是财务团队的一个错误。

我的大四学生说，在他在公司工作的8多年里，情况一直如此。

现在，在我的头脑中，我想我可以用某种统计方法根据历史数据找到异常值，但是，我不知道从哪里开始，我的数据如下所示，大约有1000万行数据。

import pandas as pd
import numpy as np

data =  [19,21,24,18,3]
pg = ['PG','ZF','AA','GG','ZF']
location = ['AA_1','AA_1','AA_2','AA_2','AA_2']
weeks = [1,1,2,2,2]

df = pd.DataFrame({'Location' : location,
            'productGroup' : pg,
            'Week' : weeks,
            'productVolumes' : data })
print(df)


  Location  productGroup    Week    productVolumes
0   AA_1    PG  1   19
1   AA_1    ZF  1   21
2   AA_2    AA  2   24
3   AA_2    GG  2   18
4   AA_2    ZF  2   3

在你的专家意见中，最好的方法是什么？

pandas

forecasting

回答 1

Data Science用户

回答已采纳

发布于 2019-11-11 07:42:04

没有一种检测异常值的方法。大多数统计方法都假定有基本的正态分布。如果是这样的话，你可以申请汤普森-头测试。您还可以定义一些自己的标准。在您的用例中，我认为一个重要的问题是:如果您删除或修改丢失的数据，模型的质量会发生什么变化。这让您了解如何处理这些缺失的数据点。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/52877

复制

相似问题

问在资源预测数据中寻找异常值
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在资源预测数据中寻找异常值EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在资源预测数据中寻找异常值
EN