爱收集资源网

ks刷粉网站推广便宜 - 24小时自助下单平台网站便宜,qq刷赞平台全网+最低价啊免费秒刷,刷qq星星

网络 2022-07-01 20:06

快手电商如何管理数据存储成本?

快手在本次“数据治理技术交流会”中分享的内容真的很给力!前两天分享了模型规范,今天分享第二个话题:《成本管理——快手大数据存储管理的实现》。文末有PDF下载。

这部分由快手数据治理专家程维维讲解:

快手大数据存储成本管理架构

既然是成本管理,就必须遵循财务成本逻辑。但是这张图是给金融的,我想我很困惑,因为金融根本没有架构概念。但是基本逻辑是一样的,都要进行成本分析,然后进行成本控制。

凯首大数据存储策略

快手的存储量实在是太恐怖了。几个EB的存量存储,几十万个Hive表,增量存储按PB计算,速度不低,月增长8%。

数据治理、成本管理等吃力不讨好的事情,通常是痛苦和疲惫的,心里总是坚持矛盾~~~然后开始思考痛苦,做好自己的工作。按照快手的存储量,就算是便宜的存储,成本也是天文数字!

造成这种情况的原因,一方面是数据量太大,另一方面是我之前从来没有想过控制成本,也不知道怎么控制。其实,最重要的是不要耽误了业务增长的方式。

其实在其他大厂,数据配额也是数据基础团队进行资源管控的主要手段。但是,本着“谁生产谁负责”的原则,快手将每张桌子分配到人头,然后拆分计算入库成本。这样做最典型的好处是每个人都会有成本意识。

成本计算也很简单粗暴,数据存储*存储单价=存储成本。当然,这两个数据不可能很精确,只能是大致准确的估计。

此外,快手还引入了数据生命周期的概念。过去的数据都是进进出出的,都是保留下来的。不仅会持续产生成本,还会给管理和维护带来巨大挑战。

根据数据生命周期管理策略,定期直接删除临时表和价值不大的数据。对于数据相似度高、需要完全保留的数据,采用数据压缩、构建历史拉链表等方式进行极限存储。对于需要永久存储的数据,区分冷热数据,将冷数据扔到成本更低的存储中,热数据和重要数据留给最优质的资源。

这里有同学问了一个问题,为什么ODS要保留很长时间,而DWD层的数据要保留很短的时间?

ODS层的数据是最原始的数据,有些数据生产库可能没有。另外,很多机器学习需要最原始的数据,所以需要保留ODS层。 DWD的数据随着时间逐渐变冷,大概率不会被使用,可以直接删除。如有必要,您可以使用 ODS 临时用完。

仁者见仁,智者见智,各公司可根据自身情况设定。

此外,快手还使用指标设置资产登记。对于不太重要的指标数据,基本是定期删除,保证资源的充分利用。

凯首大数据存储管理实践

快手数据成本管理的实施还是很有条理的。一方面进行专项数据治理,另一方面启动全民数据自主管理。

专项数据治理是按照项目管理的逻辑进行计划、执行、检查和审查。根据以上数据生命周期管理策略,清理各种表。

专项数据治理就是动员大家朝着治理目标前进,减少对各种虚假数据的需求。

因为之前人和表格已经相互映射,我可以制作一个列表并对其进行排名以供公众曝光。果然,最快的效果就是KPI。

最终结果看起来很棒,但是这种对其他人的限制肯定会很不舒服。因此,快手也设置了“数据治理运营”的角色。运营的对象是所有数据工作者,提高组织能力,增加组织潜力,从而提高成本意识,避免浪费。最后,添加技术和产品工具。帮助控制成本。

虽然隐藏了很多细节,比如除了半强制的排名宣传方式之外,还有哪些具体的方式可以鼓励大家积极参与成本控制的方式。但这些经验足以为后来者提供一些参考。

相关话题:快手快手电商

qq