我正在工作的数据质量监测项目,这是新的我。我首先使用一个数据分析来分析我的数据,并对它有一个全局视图。接下来,我考虑定义一些数据质量规则,但我对如何实现这些规则感到有点困惑。如果你们能指导我一点,因为我对此完全陌生。
发布于 2022-04-07 12:21:56
这是一个相当模糊的问题,但我试图猜测一些技巧如何开始。由于您是一个新的数据质量,并希望已经实现的提示,让我们从这开始。
目的:数据质量监控系统需要:(1)识别错误;( b)触发下一步如何处理。
首先,为数据集构建数据质量规则。规则可以是属性、记录、表或交叉表规则.让我们从属性级别规则开始。实现一条规则,该规则确认属性内容中没有“@”。运行它的电子邮件属性,并创建一个错误记录的每一行没有“@”的电子邮件属性。错误记录应该具有以下属性:
ErrorInstanceID;ErrorName;ErrorCategory;ErrorRule;ErrorLevel;ErrorReaction;ErrorScript;SourceSystem;SourceTable;SourceRecord;SourceAttribute;ErrorDate;
"asd2321sa1";“电子邮件格式无效”;"AttributeError";“不包含@";”警告@警报“;”下次登录时请求新邮件“;"ScriptID x";"Excel1";"Sheet1";"RowID=34";"Column=Email";"1.1.2022”
监测系统
您需要使上面的脚本可配置,以便您可以轻松地更改系统、表和列以及规则。当在数据集之上运行时,它们都会将错误记录填充到相同的结构中,从而对所有错误进行一致的历史存储。您应该能够构建关于特定系统中现有错误的报告,错误出现或修复的趋势等等。
接下来,您需要开始构建一个具有适当数据模型的全面销售数据质量元数据存储库,并为上述信息设计一个合适的历史版本。您需要存储信息,比如运行哪些规则、何时运行、检查哪些系统和表,等等。检测哪些系统包含在监控中,并识别系统是否没有按照正确的规则进行监视。在实践中,对数据质量监控系统进行质量监控。您应该有统计数据,哪些系统使用特定的规则进行监视,上次运行时,被检查的表、记录和错误的聚合。
通常,更重要的是关注需要立即注意的错误,并“警告”最终用户修复问题或触发源系统中的新工作流或标志。例如,无效的电子邮件可能被归类为警报,只是汇总统计数据。我们有2134223封无效邮件。没人注意你。然而,可能更重要的是识别一个人的无效电子邮件,谁订购了他的账单作为电子发票的电子邮件。警醒。这种错误(无效的电子邮件和电子邮件输入)应该触发警报,并在CRM中设置一个标志,以便最终用户尝试修复电子邮件。此错误不应有任何错误记录。但是,这种规则应该运行在所有存储客户联系和账单首选项的系统之上。
作为一个技术人员,我可以推荐这本书。这是一本关于数据质量评估和监控系统的技术和逻辑问题的更深入的好书。还有一个用于数据质量元数据结构的小元数据模型。https://www.amazon.com/Data-Quality-Assessment-Arkady-Maydanchik/dp/0977140024/
https://stackoverflow.com/questions/67154576
复制相似问题