是否有任何方法可以定义可应用于数据帧的数据质量规则。定义规则的模板应该足够简单,任何外行都可以定义,然后我们可以将这些规则转换为pyspark代码,并在数据上运行它们。
我的想法如下所示。
ID ProjectID RuleID Attribute1 Value1 Condition1 Attribute2 Value2 Condition2 Type ModifyAttribute ModificationLogic CustomUDF
1 1 1 SerialNum 6 EQUAL MODIFY SerialNum SUBSTR(serialNum,1,6)
2 1 2 DriverName ['A','B','C'] VALUEMATCH Source ['D','E','F'] IN REJECT 如果有任何工具或特定于领域的语言来定义它们,那将会有所帮助。如果有任何模板来定义可以跨属性和跨多个表应用的规则(连接,示例国家查找),也是很有帮助的。
发布于 2021-01-11 14:47:21
令人惊讶的是,还没有人尝试回答这个问题。通常,对于这样的用例,我会使用ConfigParser。根据您的体系结构,您可以定义易于读取和执行的部分和规则。但开发人员会发现这比普通用户更容易使用。
现在,对于您的用例来说,这是不可能的,因为python是一种具有很大灵活性的脚本语言,您可以简单地以您给定的格式创建一个excel,它将指示您的数据操作流程。我希望这能在某种程度上有所帮助。如果你需要更多信息,请告诉我。
https://stackoverflow.com/questions/65033677
复制相似问题