带你看快手电商数据治理技术交流会,
年末真是各种分享的焦点,也是我等菜鸟的盛宴!今天还有很多会议,我正在同时听几个遥控器。
不过,他很快就被快手的“数据治理技术交流会”所吸引,不仅系统讲解了数据治理,还带出了快手数据治理的实践。更让人喜欢的是快手的开放心态。会后不久,所有没有水印的PPT都被分享了出来。一定要疯了!
先放一张本次交流会内容的小镇建筑全景图。本文主要分享第一个话题:快手从模型规范入手的数据治理实践。文末有PDF下载方法。
这部分由快手数据治理专家孙维维解释:
快手数据治理的基础和核心
快手基于DAMA理论开展数据治理工作。我之前也分享过国内外相关数据治理的框架和组织。详见《戳我检查:数据资产化的前提——浅谈数据治理体系建设》。遵循一定的框架,最大的好处就是会考虑方方面面,不会有遗漏。其他可以参考的数据治理框架有DMM、DMCM、DCMM等。
数据治理的理论框架有很多,但核心就是以上这些。其实还有一些没有列出来,比如策略、组织等,但是这些和数据模型规范关系不大,所以没有列出来。
这部电影的逻辑非常重要。底层规则是否完备,决定了上层建筑是否稳定。因此,模型规格的首次分享也是非常有意义的。
纵向上,数据模型决定了上层元数据乃至数据服务的构建;横向来看,质量规范和安全规范服务于数据模型,数据模型规范的重要性可见一斑。
快手模式规范治理实践
还是那句话:“如果你觉得数据治理的成本太高,就试试数据混乱的成本”!
事实上,我们在数据方面遇到的所有问题中,99% 都是由于缺乏数据治理造成的。数据治理缺失的根本原因是组织不重视。
快手的模型规范治理思路非常清晰。它首先定义规范和标准,然后确定阶段性目标和参考方法,最后使用元数据驱动数据治理。
快手的场景是业务生态太多,产品线几十条,迭代速度非常快,所以建设目标的定义是做一个为核心业务线提供数据服务的企业级数据中心。
快手型号规格
快手的数据仓库分为5层,ODS、DWD、DWS、主题层、APP层。该网站还分享了如何将数据定义到公共业务层或公共基础层的原则。其实如果业务是固定的,区分公共基础层和公共业务层是很简单的。但是,当产品迭代非常快的时候,有共同业务层的表会逐渐变得越来越重要,甚至可能沉入共同的基础层。其他数据仓库的分层内容可以参考我之前分享的另一篇文章《戳我查看:数据仓库有多少层?》
指标体系的定义和规范基本形成了统一的共识,大家基本都在做。指标类型分为原子指标、派生指标和派生指标。相关内容包括:统计周期、粒度、各种业务限制(时间、地域、各种业务情况等)。一些特殊的指标也有特殊的定义,比如统计时间点(比如财务数据需要在特定的时间统计)。具体说明请参考《Poke Me Check:如何搭建数据仓库》中的指标体系部分。
直播平台上,有些人的反馈太无聊了,没有干货。事实上,这是非常干燥的东西。虽然这些规范不够具体,但基本的管理框架已经列出来了。事实上,数据治理中最重要的是组织管理。没有这张图,其他内容再设计得再好,都是徒劳的。
很多企业没有“决策委员会”的组织,导致指标爆炸,根本无法控制。最可恶的是业务人员这帮人,如果不能完成任务,就会改变KPI的统计口径。本图中定义的指标管理流程规范给出了一个模板,A1A2为公司级指标,A3为部门级指标。部门级别的指标可以在数据分析师或数据产品经理确认合理后直接制定。A1A2是企业级指标,进入数据开发阶段前必须经过决策委员会审核。今日头条、美团、爱奇艺等公司都是这样玩的。
快手模式治理案例
左半边是常规做法。根据商业建设,这是一个一个的烟囱。事实上,这是由 Kimball 的构建逻辑造成的。右边是总体方案,要统一实施。底层尽量压平,层层自上而下构建。如果业务层想看数据,可以直接连接APP层。其实这就是Inmon的数据仓库建设的逻辑。这里是一个小知识点,自顶向下,自底向上,指的不是数据仓库的上下层,而是数据的上下层。很多人会感到困惑。
左边类似的指标需求应该是数据仓库工程师最痛恨的,但在现有的框架下没办法做到,只能不断重复工作。
统一的元数据管理和控制是不同的。通过在 DWD 层抽象出统一的事实,DWS 层可以抽象出统一的原子指标,而在 APP 层,可以通过领域建模扩展为派生指标和派生指标。以上图为例。时长指标可以抽象为原子指标,业务1时长指标为派生指标或派生指标(原子指标加业务限制为派生指标,加上聚合修改,业务目标为派生指标)。具体说明请参考《Poke Me Check:如何搭建数据仓库》中的指标体系部分。这样,即使我们再增加一个业务,也只需要在APP层进行处理,无需渗透到DWD层。
由于业务变化而导致的快速模型更改对于仓库工程师来说是一场噩梦。快手的方法有点类似于DV模型。核心模型基本不变,扩展内容单独放置,解耦后舒服。业务变更基本不渗透核心模型,变更和运维工作自然减少。
事实上,我猜我是被这部电影分心了,所以现在回想起来我真的不明白。按理说左边基本没有情况。我们说数据仓库是分层构建的,DWS的意义就是进一步抽象和解耦。只有小公司或者业务非常单一和稳定的场景,才会去掉DWS层。
快手数据治理系统
这句话很棒。长期专注于一项工作,会逐渐产生类似的启迪。单点解决问题通常会导致无休止的任务。许久,树不见林,慢慢地自杀。构建系统思维,建立全球思维框架,是解决问题的唯一法宝。依靠DAMA治理体系无疑是非常明智和正确的。
以DAMA的数据治理体系为参考,通过拆解数据、能力、产品、支持和保障,可以梳理出上图。给大家看一下就够了,稍微扩充一下也得几千字。
这个数据模型测量系统还是很有意思的。它可以作为仓库团队的KPI评估源。图片不是很清楚,可以下载PDF参考。我重绘了整个数据治理的健康度量指标体系:
这个指标体系可以细化到个人,然后直接排名。在《快手大数据成本管理》的分享中,也用到了其中一些指标的排名。似乎在任何地方都无法摆脱 KPI。
.
展望与结论
这张照片似曾相识。其实上图就是在右边增加了一个系统化的治理工具,进而强化了安全性和数据价值。
整体来看,快手数据治理的切入点非常好。框架参考DAMA,先组织,后标准,打基础,强执行,重服务。
整个事情都有目标,有组织,有纪律,有规章制度。可以作为行业数据治理的参考。
相关话题:快手快手电商