首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据质量框架定义问题

数据质量框架定义问题
EN

Stack Overflow用户
提问于 2014-10-04 09:49:32
回答 2查看 303关注 0票数 2

有人能帮我定义一个数据质量框架来分析某种数据吗?只是对它应该做什么的高级描述?只是你的想法而已。

EN

回答 2

Stack Overflow用户

发布于 2019-03-01 22:32:52

我认为数据质量的六个衡量标准是-准确性、完整性、完整性、准确性、有效性和及时性。我最近在https://www.eageranalyst.com/blog/2019/2/27/data-quality-beyond-accuracy-and-completeness上完成了一篇关于高级测试方法的文章

Accuracy

查找要验证的外部受信任数据源,如果没有可用的数据源,请查找可以进行比较的代理。例如,您可能无法将单个事务与其他来源进行比较,但也许您可以将它们与总计或日终价值进行比较。

完整性

如果您有唯一的ID或引用关键字,请检查该关键字是否有多个记录,以标识重复值。

如果你有一个外部的真理来源,根据这个来源协调你的ID/引用关键字,以识别缺失值或额外的值。

如果您有一个校验和或控制总数,请确认您的数据集具有相同数量的记录或计算到相同的校验和。

为了列的完整性,确定哪些列不应该缺少值,并分析这些列中缺少数据的任何记录。

如果您没有参考号,可以考虑其他可以用来指示您的数据是过多还是少报的东西。例如,每天的交易量,一个月或每个用户的交易的合计价值。

如果您没有引用编号,请考虑您可以使用什么属性组合来识别数据中的重复项。例如,电子邮件地址、物理地址或电话号码与姓名或出生日期配对。

完整性

尝试为所提供的任何数据获取数据字典,以便对每一列预期包含的内容有一个清晰的解释。比较不同来源的这些定义。

如果您有两个来源,请比较两个来源之间的属性,以确定潜在的遗漏或不准确之处,并定义您认为哪个是该数据的权威来源。

精度

检查您拥有的值-它们是否围绕着特定的值,表明它们正在四舍五入到较小的粒度级别?

清楚地说明为什么您对记录值具有特定的精度级别。你的计算需要多高的精度?

有效性

在您期望的类别值中,检查您的数据是否属于这些类别。

如果需要显示某些字段,请检查它们是否已填充。

对于自由文本字段,分析字段长度以查找记录了伪数据的实例。

Timeliness

在关键信息字段中查找过期日期或上次更新日期。像联系信息这样的东西将不可避免地随着时间的推移而改变。

检查上次刷新或准备报告的时间。

票数 3
EN

Stack Overflow用户

发布于 2014-10-08 16:02:17

答案取决于你感兴趣的上下文(例如,支持特定领域或使用特定技术)……希望这些高层次的笔记能有所帮助。

因此,假设对数据所做的决策假设了该数据的质量级别--例如,使用聚合的“管理信息”做出战略决策,或者用于自动化处理--那么数据质量框架可能会考虑根据许多度量来评估该数据,以便理解数据质量的置信度级别。

在实践中,每个数据属性都可以评估可测量的东西:

  1. 如果是必填项,是否填充;
  2. 如果由特定数据类型(例如,date、number)表示,是否匹配属性是否满足业务规则
    • 简单规则,如最大值/最小值;
    • 更复杂的规则,如对一组value;
    • aggregation规则的日常更改进行限制

  1. cross-attribute规则,其中的值依赖于其他属性的值;如果它存储在多个位置,则它是否为正确的值。

第1-5项可以自动化(例如,如果您使用的是数据库,则使用SQL,或者使用定制的DQ包)。最后一项可能依赖于采样(因为您可能通过了所有规则,但只是有错误的值)。

一旦您使用框架的技术元素评估了您的数据,那么很可能还会有另一个“治理”角度,例如数据质量论坛,以评估不合规元素的影响,确定它们的优先顺序,跟踪补救措施,发布详细信息等。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26188857

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档