一、为什么要数据治理
数据混乱、指标口径不一、查询复杂、准确性无保障,根源在于缺乏整体统筹,只做问题驱动式修补,最终导致数据越用越重,修复越改越难。
二、数据治理六大原则
关键概念多方共识:如“成交客户”需统一口径,避免因合同主体变更、多子公司签约等场景产生歧义。
值频繁变动则冗余通用字段:如新增任务类型时未告知数据方,会导致原有指标异常。冗余通用字段可避免此类影响。
每个实体有唯一、不变的ID:确保唯一性,关联与更新不受业务变动干扰。
从源头修改错误:协作数据是串联的,只修局部会造成反复出错。
编写操作清单:明确数据关联与注意事项,操作前小范围验证。
系统工程管理数据:画出数据流循环图,定位错误环节,防止恶性循环。
三、构建数据中间表
按用户行为模型(WHO、WHEN、WHAT、HOW、WHERE)构建中间表,整合用户完整行为与动态属性,避免多表复杂关联。同时存储用户静态信息(年龄、注册地等),支撑多维分析。
四、埋点到应用全流程
埋点涉及产品、数据、业务、技术四方,需建立规范流程,由数据产品主导,数据分析师配合,确保数据准确与及时。
五、治理后的效果
节省50%修复时间,数据准确、SQL简洁,常用指标(人数、次数、金额等)可结合维度做多维交叉分析。