首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何确定数据的质量?

如何确定数据的质量?
EN

Data Science用户
提问于 2015-05-26 22:11:54
回答 2查看 164关注 0票数 2

如何评估数据的质量?在数据科学家的世界里,我们遇到了几个数据。由于各种原因,我们经常在没有正式评估其质量的情况下对数字进行处理。其中一个原因是我们需要在截止日期前完成报告和出版物。我想知道是否有人采用或遇到了一种方法/指南来帮助发现数据中的问题(节省时间的技巧),这样我们就可以高效地分析数据。请分享你的经验、建议等。

EN

回答 2

Data Science用户

发布于 2015-05-27 10:17:19

这完全取决于您希望或目标如何处理数据,以及标记data-cleaning的含义。这可能涉及数据净化的技术过程,即修复破损的XML,但也包括手动删除异常值等。

您要执行统计来度量某些变量之间的相关性吗?

或者:你打算把数据包含到机器学习解决方案中吗?

在任何情况下,您都可以绘制描述性统计信息,以获得对数据质量的印象,例如:

  1. 用于检测异常值的方框图
  2. 标准差、均值、模式、中位数以评估它是否正态分布
  3. 更多的是,从我的头顶不知道

请记住,这些度量会让您对数据的质量有一个印象,但是即使是好的度量也可能来自糟糕的数据,反之亦然。

简而言之,评估数据质量的最佳方法是评估结果的质量,这些结果通常是经过几次实验后获得的。只有这样,你才能看到你的数据对你想要解决的问题有多适合。这--或者你需要弄脏你的手,在你使用它之前对数据进行定性的检查。

数据(数量大得惊人)通常用于识别数据所描述的现象中的某些模式。用(研究)问题和提出的解决方案或假设来描述你的任务是非常重要的。然后,您可以评估这些数据是否适合您的特定(研究)项目。请记住,理论上,您可以尝试在相同的数据上回答许多问题,或者在不同的数据集中回答相同的问题。目标是实现正确的平衡。

票数 2
EN

Data Science用户

发布于 2015-05-27 22:39:35

你的问题非常广泛,因此我不会给出非常具体的答案。你要求“节省时间的建议”,但有很多,它们取决于上下文。

相反,我将提供一组通用的启发式方法,它们在大多数情况下都是有用的。

  1. 首先说明或定义“质量”对您的分析和数据意味着什么。
  2. 使用定义/规范( 1)列举在数据收集和记录过程中可能出现的错误、遗漏、错误、修改等类型。此枚举将始终是临时的,因为有一些方法可以降低质量,而您最初并没有想到。
  3. 使用2)定义检查和测试方法,这些方法可能揭示这些错误、遗漏等的存在。默认的方法是“注意”--让一个知识渊博、经验丰富的人查看数据,看它是否正确。
  4. 当你发现错误、遗漏等时,试着找出根本原因和产生过程。例如,数十列中的错误数据是由ETL作业中的“一对一”错误造成的,该错误从源文件生成/翻译数据。
  5. 使用2)、3)和4)定义可能纠正错误数据或减轻数据质量问题影响的过程。例如,名称的Soundex转换可以减轻拼写错误的影响,但不能减少人们使用“名称”字段输入注释的情况。“纳尔逊-不要打电话”。请注意,您可能用于更正或减轻错误或问题的任何进程都可能会产生新的错误或问题(例如截断数字数据)。
  6. 在执行分析之后,回顾数据并问:“这些结果是否是数据质量问题的结果,而不是真实/准确/合适的数据?”换句话说,再查一遍。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/5913

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档