00:00
大家好,今天跟大家聊一聊数仓的治理,很多公司在出建数仓的时候是没有考虑好怎么做数据处理的,因为我们刚开始做数仓的时候,肯定需要考虑就是怎么利用数据驱动来让业务增值啊,这是公司时候呃模块首先要考虑到一个问题啊,那么当我们业务逐渐发展的时候,我们会发展,我们会发现工作效率有待进一步提升,或者是业务提出来一些问题啊,那随着我们这些问题,我们才能我们才会开展数据治理,那么如何进行数据治理呢?在进行数据治理的时候,我们一般考虑从数据管理开始入手啊,也就是我们需要梳理输仓现在关键的一些业,呃,数据来自业务中哪些关键流程,然后到找到对应流程的数据,来龙去脉。并找到对应的数据负责人来设置一些标准进行管控,这是第一步进行数据管理的部分。那么接下来在实际做收藏治理的过程中,呃,有四点,嗯,工工作经验嘛,就是给大家分享一下,能够实际落地的就这一块实物的划分,第二块是提高模型的复用度。
01:11
块是E任务的优化,第四块是数据质量的一个监控啊。首先我们来说第一块数据目录的重新划分,那么数据目录我们在电出仓的时候可能会有一些规则,但是发展着会发现这些规则的话被很多人误用,所以我们的数据目录看起来会杂乱无章,那么一个好的收仓,你要能让业务人员或者是开发人员能够快速找到你的模型数据啊,这样的话才能提高你的开发效率,所以重新划分数据目录,这是我们要做的一个治理工作。第二块就是模型的复用,呃,模型复用这一块的话,在数仓工作中是很重要的,因为数仓在很多公司团队一般都比较大,之前跟快手的一个朋友聊,他们数仓离线团队大概就有几百人,那你这样的话,如果我们模型得不到复用,那开发宠物工作量相当于是很大的,所以我们会要定期做这项工作,就是提高模型的复用度,同时这也可以作为收藏开发人员的一个考核指标。
02:11
第三块就是任务优化,那任务优化的话,这个对数仓来说就更重要了啊,因为刚才也说了,我们数仓开发人员有很多,那么他们的水平也都参差不齐,比如我们现在集群有就这么多资源,那如果有一些人他的开发任务占用的资源比较多,效率比较低,那就会影响大部分人来使用这个环境,所以我们要尽量进行一个优化,来把我们的任务做到最优化,提高有限资源的最大利用率。另外就是管理上也可以把呃,就是任务的执行效率作为一个指标来进行出仓人员的一个考核,同时在呃公司层面,也可以把你集群的呃利用情况,比如你呃有多少数据量,然后申请多少资源这一块作为一个整体考核指标,来评估你这一块的管理人员的情况。
03:02
那么最后一块就是数据质量,数据质量之前也跟大家说过,就是对数据异常值的一个监控,但是数据质量并不是你监控到这些异常值就结束了,呃,有很多时候我们对任务的一个执行监控的话,任务执行成功也不一定都是万事大吉的,有可能任务执行成功最后得到的一个结果是错误的。之前能碰到过一个情况,比如有些呃指标,重要的指标报表啊,或者是发送了一些监控邮件,最后发送成功了,但是发送的结果是错误的,这样业务人员就抱怨更大,所以我们要在多中间做一层,比如数据质量的一个校验,来阻止这些错误的结果推送出去,展示给业务人员。所以及时发现异常来终止下游的任务,避免错误的数据推送出去,这样才能更高的保障你出仓的一个结果。这是以上书仓治理的四个部分,其实书仓的治理是很难进行量化的,也很难评价你这个书仓治理的到底好坏,所以是很多呃收藏的人员都不愿意去做,因为这样的话,他得不到一个比如很显性的一个业务效果。
04:10
但是很多工作呢,我们不做就会很想,所以出仓治理在你出仓发展到一定程度的情况下是一定要做的,不然你越发展后面就越烂,所以你开始决定做书仓治理的时候,你要进行一些管理机制,比如会议或者其他绩效的一些管理好。以上就是今天给大家分享的收藏的治理,大家可以关注我的,关注我的视频号呃,获取更多收藏相关的内容。
我来说两句