爱收集资源网

小红书引入 StarRocks 构建统一数据服务平台,提升查询能力

爱收集资源网 2024-10-01 17:14

自2017年以来,小红书数据领域迅猛发展,增长势头强烈。伴随着业务形态与用户规模迅速扩张,对数据分析的需求急剧攀升,公众对数据健康的关切度迅速提升。商业智能、数据分析报告、用户行为分析、算法策略等相关术语在小红书办公区域屡见不鲜。

数据爆炸的开始

遭遇数据挑战,小红书大数据团队迅速寻求应对之策。团队选用了多款OLAP分析工具,犹如数据战场上的勇士,有效攻克多样数据难题。引入具有科幻色彩的StarRocks软件后,构建了统一的数据服务架构。该平台犹如数据界的魔法师,极大简化了数据链路开发过程,并显著提升了高并发环境下的快速查询性能。

ClickHouse的闪电战

小红书大数据团队针对不断攀升的数据需求,引入ClickHouse技术。该系统犹如高性能跑车,展现出卓越性能与惊人的响应速度。通过ClickHouse,小红书打造了更为稳固的数据分析体系,以满足实时分析要求。目前,小红书已成功设计并构建实时数据仓库,并建立了统一数据接口,可实现多个内部与ToB系统的集成。

离线数据处理的坚实后盾

在数据科学领域,离线处理构成巩固基础的根基。小红书借助Hive与Spark卓越的批处理扩展能力,全面承担离线数据仓库的ETL与模型加工任务。这些工具犹如勤劳的工匠,默默夯实数据架构的稳固基石。

数据共享层的桥梁作用

数据共享层扮演连接数据孤岛的桥梁角色,核心职责是支持对外服务的底层数据存储。不论数据是离线还是实时,均收录于对应的数据库模块。针对多元服务和各类应用场景,此层提供数据查询功能。利用StarRocks与ClickHouse的高效OLAP查询技术,小红书在应用端搭建了报表与即时分析平台,同时向开发端提供数据接口,推动了多款数据产品的建设,包括流量分析及用户标签平台。

应用层的多样需求

应用层支持数据服务展示,主要服务于管理及运维人员,提供具备并发处理、低延迟及频繁更新需求的报表。对于数据分析师的实时查询需求,应具备执行复杂SQL操作及大规模数据检索的高级特性。根据不同业务场景,汇总数据并写入相应数据库模块,以确保各项需求均得到满足。

StarRocks的广告策略

StarRocks在数据服务集成领域展现卓越性能,尤其在广告行业扮演核心角色。其高效查询能力与高QPS支持,为广告算法、实时计费及数据报告提供全面解决方案。广告查询可按广告主ID筛选,并优先排序,迅速定位数据。同时,通过基于广告主ID的哈希分桶,StarRocks有效减少查询数据量,加快定位速度,特别适用于高并发环境,显著提高并发处理效率。

MPP查询架构的威力

StarRocks采用MPP查询架构,实现数据在底层按Range和Hash方式进行双级分片,满足广告主的高效查询需求。该架构犹如数据领域的精密工具,实现信息的精准定位和处理,保障查询结果的精确与高效。

未来的无限可能

自采用StarRocks后,小红书成功集中管理数据服务,显著优化了实时数据处理流程,确保高并发查询及低响应延迟。展望未来,StarRocks将不断强化其业务领域的服务潜力,为小红书数据库发展注入新动力与惊喜。

小红书业务分析