首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据清洗-处理CSV文件

数据清洗-处理CSV文件
EN

Data Science用户
提问于 2018-07-17 00:45:35
回答 2查看 256关注 0票数 0

我想听听关于我的数据集问题的一些看法(我认为它是一个常见的问题)。

假设我有以下数据集

代码语言:javascript
复制
SKUID   PRODUCT QTY        MFGDT      ......     EXPDT     SUPPLIERID SUPPLIERPH CUSTOMFIELD
FD001     MILK    3   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD002    CREAM    3   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD003   CHEESE    5   12/01/18 14:12:02 ...             18/01/18    SV01    04053XXXX
FD004   BUTTER    2   12/01/18 14:12:02 ...    18/01/18    SV01    04053XXXX
FD005 ICECREAM    1   12/01/18 14:12:02 ...      SV01   04053XXXX 

数据是形状的(123078,199),而且很少有记录中的字段值是混乱的。

在使用熊猫阅读这个csv时,我使用error_bad_lines=False属性跳过了字段中出现错误匹配的行。

但是,我想知道是否有某种方法来修复数据(例如,与列中前面的项进行模式匹配;基于dtype等)。

我们通常如何处理这样一个场景:每一条记录都是至关重要的(或者说是相互依赖的),而且在这个领域中存在不匹配的情况?

EN

回答 2

Data Science用户

发布于 2018-07-17 08:51:57

如果你读了整个文件而没有跳过混乱的行,它还能工作吗?这些乱七八糟的单元格中出现了什么值?

你可以沿着估算的道路走下去,即填补缺失的空白,根据你可以从那里的数据推断出的东西。

例如:

  • 前填:填写将优先于未丢失的值。
  • 向后填充:填充以下不丢失的值
  • 平均填充:如果是数字,则用该列的平均值/中值等来填补空白。你也可以用一个移动平均线之类的东西。
  • 基于模型的:使用可用值的回归模型来填充缺失的值(这需要一个目标变量,或者至少是时间戳)

最后一次检查:我认为您不可能再次尝试创建CSV文件并从源头解决问题?

票数 1
EN

Data Science用户

发布于 2018-07-17 05:37:35

我怀疑这在一般情况下是不可能的,而且什么都不知道。

当然,您可以在数据中找到异常值,从而试图推断出什么东西是混合在一起的。但这可能不仅仅是解决CSV出口问题,还有很多工作要做。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/35562

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档