首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Python检查数据质量

用Python检查数据质量
EN

Stack Overflow用户
提问于 2022-02-21 08:08:19
回答 1查看 76关注 0票数 0

目前正在尝试编写代码,以检查数据质量为7GB的数据文件。我试着用谷歌搜索,但没有结果。最初,代码的目的是检查有多少是nulls/NaNs,然后将其与另一个数据文件连接起来,并比较每个文件之间的质量。我们期待第二个是更可靠的,但我想稍后自动化整个过程。我想知道这里是否有人愿意使用Dask共享他们的数据质量python代码。谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-21 13:41:33

我建议采取以下办法:

  • 试图定义如何在小型数据集上检查质量,并在Pandas
  • 中实现该过程,方法是如果“文件的每个部分”或分区质量好,则整个数据集的质量高于整个数据集的质量。
  • 使用Dask的map_partitions对数据集的分区进行并行处理。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71203005

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档