首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >定义大数据的数据质量规则

定义大数据的数据质量规则
EN

Stack Overflow用户
提问于 2020-11-27 15:47:26
回答 1查看 95关注 0票数 1

是否有任何方法可以定义可应用于数据帧的数据质量规则。定义规则的模板应该足够简单,任何外行都可以定义,然后我们可以将这些规则转换为pyspark代码,并在数据上运行它们。

我的想法如下所示。

代码语言:javascript
复制
ID  ProjectID   RuleID  Attribute1  Value1          Condition1  Attribute2  Value2          Condition2  Type    ModifyAttribute ModificationLogic   CustomUDF
1   1           1       SerialNum   6               EQUAL                                               MODIFY  SerialNum   SUBSTR(serialNum,1,6)   
2   1           2       DriverName  ['A','B','C']   VALUEMATCH  Source      ['D','E','F']   IN          REJECT  

如果有任何工具或特定于领域的语言来定义它们,那将会有所帮助。如果有任何模板来定义可以跨属性和跨多个表应用的规则(连接,示例国家查找),也是很有帮助的。

EN

回答 1

Stack Overflow用户

发布于 2021-01-11 14:47:21

令人惊讶的是,还没有人尝试回答这个问题。通常,对于这样的用例,我会使用ConfigParser。根据您的体系结构,您可以定义易于读取和执行的部分和规则。但开发人员会发现这比普通用户更容易使用。

现在,对于您的用例来说,这是不可能的,因为python是一种具有很大灵活性的脚本语言,您可以简单地以您给定的格式创建一个excel,它将指示您的数据操作流程。我希望这能在某种程度上有所帮助。如果你需要更多信息,请告诉我。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65033677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档