数据是企业最具价值的资产,但其价值需乘以质量系数。劣质数据会浪费时间和资源,甚至错失发展时机。
数据质量为何重要?
波音737MAX两起空难,根源正是“假信号”导致自动系统错误决策。这一悲剧警示我们:数据质量问题关乎生死。
数据质量问题的根源
1)源系统数据本身不可控;2)ETL程序对异常考虑不足。归根结底,都是人为因素导致。程序bug持续制造垃圾数据,且数据质量问题无法穷尽、无法根治,只能容忍。
OLAP系统必须容忍不良数据
BI、数仓、大数据系统的数据全部外部引入,抱怨源系统无济于事。容忍的前提是:事先知道存在哪些质量问题,并针对性地制定应对机制。
解决方案示例
自动维表维护:自动同步源系统代码表,补充新代码。
自描述维度:直接存储“全球通”、“男”等原文,不转码,避免因编码不一致导致统计错误。
新方法:自然维与去预处理
直接存储原始数据(如日期、地址),不做解析和预聚合。内存计算优于预聚合,更简单、快速、可靠。
某企业实践
通过人工+系统结合,包括自动维表维护、数据质量核查、元数据管理等。但每引入新数据仍需重复质量管控,投入大、周期长。