首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据仓库中的数据质量算法

数据仓库中的数据质量算法
EN

Stack Overflow用户
提问于 2011-11-29 00:16:29
回答 2查看 812关注 0票数 1

我正在寻找一个好的算法/方法来检查数据仓库中的数据质量。因此,我希望有一些算法“知道”这些值的可能结构,然后检查这些值是否是这个结构的成员,然后决定它们是否正确。

我考虑过定义一个regexp并检查每个值是否适合。

这是一种好方法吗?有没有什么好的替代方案?(有研究论文吗?)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-29 20:24:30

我看到一些authors建议添加一个称为数据质量维度的特殊维度来进一步描述每个事实表记录。

数据质量维度中的典型值可以是“正常值”、“越界值”、“不太可能值”、“验证值”、“未验证值”和“不确定值”。

票数 3
EN

Stack Overflow用户

发布于 2011-12-18 18:02:05

我建议使用专用的数据质量工具,比如DataCleaner (http://datacleaner.eobjects.org),我在这方面已经做了很多工作。

您需要一个工具,它不仅可以检查严格的规则,比如约束,还需要一个工具,它可以为您提供数据的概况,使您能够轻松地探索和识别不一致之处。例如,尝试“模式查找器”,它将告诉您字符串值的模式-通常会显示异常值和错误值。您还可以使用该工具来实际清理数据,方法是转换值、从中提取信息或使用第三方服务进行丰富。祝你好运,提高数据质量!

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8298783

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档