如何评估数据的质量?在数据科学家的世界里,我们遇到了几个数据。由于各种原因,我们经常在没有正式评估其质量的情况下对数字进行处理。其中一个原因是我们需要在截止日期前完成报告和出版物。我想知道是否有人采用或遇到了一种方法/指南来帮助发现数据中的问题(节省时间的技巧),这样我们就可以高效地分析数据。请分享你的经验、建议等。
发布于 2015-05-27 10:17:19
这完全取决于您希望或目标如何处理数据,以及标记data-cleaning的含义。这可能涉及数据净化的技术过程,即修复破损的XML,但也包括手动删除异常值等。
您要执行统计来度量某些变量之间的相关性吗?
或者:你打算把数据包含到机器学习解决方案中吗?
在任何情况下,您都可以绘制描述性统计信息,以获得对数据质量的印象,例如:
请记住,这些度量会让您对数据的质量有一个印象,但是即使是好的度量也可能来自糟糕的数据,反之亦然。
简而言之,评估数据质量的最佳方法是评估结果的质量,这些结果通常是经过几次实验后获得的。只有这样,你才能看到你的数据对你想要解决的问题有多适合。这--或者你需要弄脏你的手,在你使用它之前对数据进行定性的检查。
数据(数量大得惊人)通常用于识别数据所描述的现象中的某些模式。用(研究)问题和提出的解决方案或假设来描述你的任务是非常重要的。然后,您可以评估这些数据是否适合您的特定(研究)项目。请记住,理论上,您可以尝试在相同的数据上回答许多问题,或者在不同的数据集中回答相同的问题。目标是实现正确的平衡。
发布于 2015-05-27 22:39:35
你的问题非常广泛,因此我不会给出非常具体的答案。你要求“节省时间的建议”,但有很多,它们取决于上下文。
相反,我将提供一组通用的启发式方法,它们在大多数情况下都是有用的。
https://datascience.stackexchange.com/questions/5913
复制相似问题