我想听听关于我的数据集问题的一些看法(我认为它是一个常见的问题)。
假设我有以下数据集
SKUID PRODUCT QTY MFGDT ...... EXPDT SUPPLIERID SUPPLIERPH CUSTOMFIELD
FD001 MILK 3 12/01/18 14:12:02 ... 18/01/18 SV01 04053XXXX
FD002 CREAM 3 12/01/18 14:12:02 ... 18/01/18 SV01 04053XXXX
FD003 CHEESE 5 12/01/18 14:12:02 ... 18/01/18 SV01 04053XXXX
FD004 BUTTER 2 12/01/18 14:12:02 ... 18/01/18 SV01 04053XXXX
FD005 ICECREAM 1 12/01/18 14:12:02 ... SV01 04053XXXX 数据是形状的(123078,199),而且很少有记录中的字段值是混乱的。
在使用熊猫阅读这个csv时,我使用error_bad_lines=False属性跳过了字段中出现错误匹配的行。
但是,我想知道是否有某种方法来修复数据(例如,与列中前面的项进行模式匹配;基于dtype等)。
我们通常如何处理这样一个场景:每一条记录都是至关重要的(或者说是相互依赖的),而且在这个领域中存在不匹配的情况?
发布于 2018-07-17 08:51:57
如果你读了整个文件而没有跳过混乱的行,它还能工作吗?这些乱七八糟的单元格中出现了什么值?
你可以沿着估算的道路走下去,即填补缺失的空白,根据你可以从那里的数据推断出的东西。
例如:
最后一次检查:我认为您不可能再次尝试创建CSV文件并从源头解决问题?
发布于 2018-07-17 05:37:35
我怀疑这在一般情况下是不可能的,而且什么都不知道。
当然,您可以在数据中找到异常值,从而试图推断出什么东西是混合在一起的。但这可能不仅仅是解决CSV出口问题,还有很多工作要做。
https://datascience.stackexchange.com/questions/35562
复制相似问题