有人能帮我定义一个数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法而已。
发布于 2019-03-01 22:32:52
我认为数据质量的六个衡量标准是-准确性、完整性、完整性、准确性、有效性和及时性。我最近在https://www.eageranalyst.com/blog/2019/2/27/data-quality-beyond-accuracy-and-completeness上完成了一篇关于高级测试方法的文章
Accuracy
查找要验证的外部受信任数据源,如果没有可用的数据源,请查找可以进行比较的代理。例如,您可能无法将单个事务与其他来源进行比较,但也许您可以将它们与总计或日终价值进行比较。
完整性
如果您有唯一的ID或引用关键字,请检查该关键字是否有多个记录,以标识重复值。
如果你有一个外部的真理来源,根据这个来源协调你的ID/引用关键字,以识别缺失值或额外的值。
如果您有一个校验和或控制总数,请确认您的数据集具有相同数量的记录或计算到相同的校验和。
为了列的完整性,确定哪些列不应该缺少值,并分析这些列中缺少数据的任何记录。
如果您没有参考号,可以考虑其他可以用来指示您的数据是过多还是少报的东西。例如,每天的交易量,一个月或每个用户的交易的合计价值。
如果您没有引用编号,请考虑您可以使用什么属性组合来识别数据中的重复项。例如,电子邮件地址、物理地址或电话号码与姓名或出生日期配对。
完整性
尝试为所提供的任何数据获取数据字典,以便对每一列预期包含的内容有一个清晰的解释。比较不同来源的这些定义。
如果您有两个来源,请比较两个来源之间的属性,以确定潜在的遗漏或不准确之处,并定义您认为哪个是该数据的权威来源。
精度
检查您拥有的值-它们是否围绕着特定的值,表明它们正在四舍五入到较小的粒度级别?
清楚地说明为什么您对记录值具有特定的精度级别。你的计算需要多高的精度?
有效性
在您期望的类别值中,检查您的数据是否属于这些类别。
如果需要显示某些字段,请检查它们是否已填充。
对于自由文本字段,分析字段长度以查找记录了伪数据的实例。
Timeliness
在关键信息字段中查找过期日期或上次更新日期。像联系信息这样的东西将不可避免地随着时间的推移而改变。
检查上次刷新或准备报告的时间。
发布于 2014-10-08 16:02:17
答案取决于你感兴趣的上下文(例如,支持特定领域或使用特定技术)……希望这些高层次的笔记能有所帮助。
因此,假设对数据所做的决策假设了该数据的质量级别--例如,使用聚合的“管理信息”做出战略决策,或者用于自动化处理--那么数据质量框架可能会考虑根据许多度量来评估该数据,以便理解数据质量的置信度级别。
在实践中,每个数据属性都可以评估可测量的东西:
第1-5项可以自动化(例如,如果您使用的是数据库,则使用SQL,或者使用定制的DQ包)。最后一项可能依赖于采样(因为您可能通过了所有规则,但只是有错误的值)。
一旦您使用框架的技术元素评估了您的数据,那么很可能还会有另一个“治理”角度,例如数据质量论坛,以评估不合规元素的影响,确定它们的优先顺序,跟踪补救措施,发布详细信息等。
https://stackoverflow.com/questions/26188857
复制相似问题