文章/答案/技术大牛

发布

社区首页 >问答首页 >数据清洗-处理CSV文件

问数据清洗-处理CSV文件
EN

Data Science用户

提问于 2018-07-17 00:45:35

回答 2查看 256关注 0票数 0

我想听听关于我的数据集问题的一些看法(我认为它是一个常见的问题)。

假设我有以下数据集

SKUID   PRODUCT QTY        MFGDT      ......     EXPDT     SUPPLIERID SUPPLIERPH CUSTOMFIELD
FD001     MILK    3   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD002    CREAM    3   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD003   CHEESE    5   12/01/18 14:12:02 ...             18/01/18    SV01    04053XXXX
FD004   BUTTER    2   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD005 ICECREAM    1   12/01/18 14:12:02 ...      SV01   04053XXXX

数据是形状的(123078,199)，而且很少有记录中的字段值是混乱的。

在使用熊猫阅读这个csv时，我使用error_bad_lines=False属性跳过了字段中出现错误匹配的行。

但是，我想知道是否有某种方法来修复数据(例如，与列中前面的项进行模式匹配；基于dtype等)。

我们通常如何处理这样一个场景:每一条记录都是至关重要的(或者说是相互依赖的)，而且在这个领域中存在不匹配的情况？

data-cleaning

python

pandas

回答 2

Data Science用户

发布于 2018-07-17 08:51:57

如果你读了整个文件而没有跳过混乱的行，它还能工作吗？这些乱七八糟的单元格中出现了什么值？

你可以沿着估算的道路走下去，即填补缺失的空白，根据你可以从那里的数据推断出的东西。

例如：

前填:填写将优先于未丢失的值。
向后填充:填充以下不丢失的值
平均填充:如果是数字，则用该列的平均值/中值等来填补空白。你也可以用一个移动平均线之类的东西。
基于模型的:使用可用值的回归模型来填充缺失的值(这需要一个目标变量，或者至少是时间戳)

最后一次检查:我认为您不可能再次尝试创建CSV文件并从源头解决问题？

票数 1

Data Science用户

发布于 2018-07-17 05:37:35

我怀疑这在一般情况下是不可能的，而且什么都不知道。

当然，您可以在数据中找到异常值，从而试图推断出什么东西是混合在一起的。但这可能不仅仅是解决CSV出口问题，还有很多工作要做。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/35562

复制

相似问题

问数据清洗-处理CSV文件
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据清洗-处理CSV文件EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据清洗-处理CSV文件
EN