爱收集资源网

快手刷粉赚钱吗 - 刷抖音的危害搞笑·

网络 2023-05-03 09:08

快手的日活跃用户数目超过三亿,其背后是业界领先的人工智能技术。

人工智能技术正被科技公司广泛应用在产品中,谷歌等公司已在搜索引擎中加入了 BERT 这样的预训练模型,而加强学习这些须要花费大量算力的方式也已成为快手推荐系统的核心。

近日,我们与快手核心推荐算法团队技术负责人,卡耐基梅隆大学博士叶璨聊了聊,他向我们介绍了快手在推荐系统等核心业务中引入强化学习技术的历程,以及大规模应用强化学习技术带来的业务利润。

叶璨博士结业于卡内基梅隆大学(CMU),此前曾兼任百度资深架构师。他在 2017 年加入快手社区科学部,作为算法负责人负责推荐算法、强化学习、增长广告等技术方向。期间从 0 到 1 建立核心算法团队,主要工作之一是主导了强化学习技术在快手推荐等核心业务的落地及大规模应用。

今天当我们在刷快手的时侯,我们会获得什么样的体验?

「个性化推荐算法决定了,用户每一次刷快手时,会听到什么样的视频内容」叶璨博士说道。「推荐系统是快手生态体系的核心,而个性化推荐算法可以在每晚新增数千万视频的海量视频库中,帮助用户高效地获取感兴趣的视频内容,最大程度吸引用户,提升用户存留和黏性。」

在快手的核心推荐算法团队,AI 科学家和算法工程师们仍然在不断迭代推荐的核心技术,打造业界最前沿的推荐算法、技术能力,希望给用户带来最好的内容推荐体验。

强化学习技术这一 AI 领域的重要技术方向,在近来这波 AI 浪潮中,由 AlphaGo 而渐渐被人们所熟知。在推荐和广告算法领域,强化学习也在成为重要的技术趋势。

快手平台上每晚有数亿用户进行短视频内容的消费,而这背后有业界最大规模之一的推荐系统提供支持。超大规模的推荐系统也为最前沿的 AI 技术提供了创新平台。快手推荐团队在业界率先落地了基于强化学习技术的推荐系统,基于强化学习的推荐模型已在为数亿用户提供日常的推荐服务。它可以更精准、更实时地捕捉和满足用户的兴趣,并带来更好的内容多样性。

基于强化学习的视频推荐

在 AlphaGo 中出现的加强学习算法,是怎样帮助你刷快手的?具体来说,用户的每次推荐恳求,都是由推荐系统从数千万的候选视频中选购出数个视频返回给用户的。整个过程大致分为两个阶段:

由此可见,排序是推荐系统的核心任务。在这个过程中,传统推荐排序算法一般会采用 point-wise 排序框架,基于经验公式或则排序模型,「独立」地预估每位候选视频的排序分数,并按分数从高到低排序,截取 top N 视频返回。

这一方式可能面临一个重要的问题:排序模型忽视了相邻视频间的影响,无法从视频序列的角度优化整体的推荐疗效,这和信息流产品形态间存在天然的成见。

如果用户喜欢某一类视频,传统方式会独立对每位候选视频打分,这都会倾向于将同类视频排到后面,造成推荐内容的同质化,长期这么很可能会导致用户对内容的乏味。对此,传统方式都会加入基于规则的多样性打散策略,但这些思路其实不是最优方案。

快手核心推荐团队创新地采用强化学习重新定义了推荐排序技术:提出了基于强化学习的序列化排序框架,将输出 N 个视频序列的任务建模为连续进行 N 次决策的过程,依次从候选集中选购出 N 个视频。强化学习排序模型端到端地完成整个推荐排序过程,从数百视频候选集中选购出由数十个视频组成的有序列表,并返回展示给用户。

qq名片赞快速点赞软件_微信点赞回赞免费软件_快手点赞业务

示意图:传统排序算法 vs 强化学习排序算法。

在加强学习模型排序的过程中,每次选购视频的目标都是最大化视频序列的整体「奖励」,例如优化视频序列的整体观看时长。「这个过程和下象棋的人工智能类似,」叶璨介绍道。「在对弈的过程中,棋手不能只考虑当前这步棋的利润,而须要有更长远、更全局的视角去审视,有时会须要牺牲短期利益。」视频推荐也可以根据这样的思路来进行建模,从视频序列角度优化整体的推荐疗效,同时保证推荐内容的多样性。

另外,强化学习排序算法可以保证更好的推荐精准性与实时性:在用户每次反馈(点击、点赞、转发...)发生以后,系统就会通过加强学习算法完成排序模型的在线更新。

每个人都有机会与顶级 AI 对战

除了视频推荐之外,快手的加强学习技术也已应用在了旗下的多款小游戏中。如果你玩过快手平台的斗地主、五子棋、斗兽棋、象棋等游戏,你的对手可能会是系统委派的人工智能。

目前,AI 陪玩可能会出现在菜鸟期,或是游戏玩家数目低峰期,当然假如你的水平足够高,也会在最高难度上遇见「超越人类水平」的 AI,感受一下 AlphaGo 带来的焦虑。

qq名片赞快速点赞软件_微信点赞回赞免费软件_快手点赞业务

在游戏 AI 领域,研究人员自 2018 年初就开始在游戏中尝试强化学习技术。游戏 AI 在快手游戏产品中的主要应用形态是陪玩,这对处于孵化阶段(用户数有限)的游戏产品尤为重要。从 2018 到 2019 年,游戏 AI 技术在快手的多款棋牌类游戏上完成了落地,支持了快手游戏业务的快速发展。

强化学习早已重新定义了游戏 AI 的生产方式。在传统的游戏 AI 中,不论是基于规则的方式还是监督学习的方式都严重依赖于人类专家提供的经验和数据,最终实现的智能水平也相对有限,且难以实现动态的 AI 难度分级。

而这一切对于加强学习游戏 AI 来说并不是难事。在游戏上,快手已应用了通用游戏 AI 算法框架,其使用基于自我博弈的加强学习技术(self-play reinforcement learning),不仅可以在特定游戏上饰演不同难度的 AI 玩家,还可以实现自动化生产:只须要输入游戏规则,不依赖人类经验或数据而完全由 AI 自我博弈形成数据,通过加强学习算法实现 AI 能力的训练和进化。

这一技术的本质类似于 DeepMind 的象棋人工智能 AlphaGo Zero,是基于自我博弈加强学习的通用算法框架,可以扩充到多个不同领域,由 AI 自我博弈形成训练数据,通过加强学习算法实现智能体的自我训练和性能提高。

不过相比 AlphaGo,快手游戏 AI 更加面向应用,它可以在线为成千上万的游戏玩家提供服务,不仅考虑了游戏 AI 的高水平,还兼具了其他产品需求,包括 AI 智能分级(为不同水平的用户提供相应智能等级的 AI),拟人化等。

落地核心业务,做最精准的流量分发

作为目前中国最大的流量平台之一,快手的流量生态包含了各类业务流量的混和,包括视频推荐、直播、运营、电商、广告等,内容对用户的精准触达,是快手的核心业务问题。

快手在流量分发业务中大规模地应用了强化学习技术,比如最大的流量入口 - 个性化 tab 分发,以及各垂类产品在 feed 流中的精准分发,包括直播、游戏、音乐、社交等业务。

比如用户每次打开快手 app,强化学习算法会决定你跳转到发觉、关注、同城中的那个 tab 页面。强化学习接管的位置,是快手最大的流量分发入口,涉及主页三大 tab 页面的流量分配,影响 app 的使用时长、DAU(日活跃用户数目)等关键指标。算法会参考用户的行为偏好、习惯等进行流量分发,例如用户在特定时间段喜欢步入某个 tab 页进行消费。同时算法也会按照实时的 feed 信息进行主动引导,例如关注页有喜欢主播首播,会将用户跳转引导至关注页。

在垂类业务的流量分发中,快手已在形态上改变了传统的推送形式,他们在 feed 流中插入垂类聚铰链,由算法决定聚合页的展示时机,其中包括音悦台、游戏 TV、PYMK 、直播广场等垂类产品。

在这儿,基于传统的数据挖掘或策略规则难以做到实时确切,只有通过加强学习算法能够够实现精准分发。「如果内容被推送给了不合适的用户,或者在不合适的时机,展示聚合页入口,不仅无法产生垂类业务的消费和转化,还会影响用户正常的 feed 流体验,」叶璨说道。

快手的算法以流量为细度进行决策,每次决策的目标都是最大化一段时间内的整体利润,同时保持在线学习和更新,用户的每次反馈后,强化学习决策算法就会更新模型,快速适应用户的行为习惯。通过不断加强用户反馈,系统逐步收敛达到最优的流量分发策略,同时也保持了实时更新的能力。

从零到一的探求

强大技术的背后,是快手核心推荐算法团队不懈的努力。早在 2018 年,快手就在推荐系统上开始尝试加强学习技术。「当时业界没有任何成熟落地的方案可以参考,」叶璨表示。「部分研究团队早已有一些论文,关于强化学习在推荐、广告、搜索领域的应用,但大多偏向于概念,距离实用化还有一段距离。而我们的目标仍然是应用落地,我们希望还能用强化学习技术解决推荐系统的核心问题。」

qq名片赞快速点赞软件_微信点赞回赞免费软件_快手点赞业务

快手成为了加强学习推荐技术的先行者。在推荐系统那个阶段应用强化学习技术,应该采用哪类加强学习算法,强化学习推荐模型的在线训练框架应当怎样设计等等,这些问题都是从零开始探求的。

快手选择在推荐系统的核心——推荐排序阶段应用强化学习技术,它决定了应用最终向用户展示什么视频,以及视频的排列次序。在推荐算法领域,快手的 AI 科学家和算法工程师们完成了一项最前沿的技术突破,重新定义了推荐排序技术,使推荐系统具备了优化视频序列整体利润的能力。

2018 年底,快手在新用户推荐上完成了强化学习排序算法的验证和成功上线。2019 年,这一技术拓展应用到了全量用户,完成了对推荐全流量的覆盖。

现在,基于强化学习的推荐系统每晚为数以亿计的快手用户提供着实时的个性化推荐服务。强化学习推荐技术的研制和落地,是快手推荐过去两年最重要的技术突破。这项技术也带来了更好的推荐疗效和用户体验,推荐核心指标(如用户观看时长)的提高达到 10% 以上,这也是过去两年快手推荐单项技术上线带来的最大幅度的指标提高。

与此同时,快手将眼神瞄准新的应用场景 - 精准流量分发。在业界,快手创新地首次采用强化学习技术解决流量的精准分发问题,并将精准流量分发技术以中台化的方式输出至快手多个重要业务场景。目前在快手,这一技术已普及成为流量分发问题的常态化解决方案。

快手的算法可以在不影响用户正常 feed 流体验的同时,最大程度地帮助不同的产品和业务在合适时机完成对合适用户的精准触达,从而产生有效的用户转化。在一些业务场景下,相对于传统策略,强化学习算法对分发效率提高达到了 100% 以上。通过先进的算法,快手确保了流量的精准触达,帮助不同垂类业务实现了有效的用户转化、规模下降,提升了用户黏性和业务壁垒。

强化学习,已经成为快手的杀手锏级技术。快手表示,很多美国科技大鳄也仍未做到加强学习技术的大规模落地和应用。

「强化学习已然成为推荐、广告算法领域最重要的技术趋势,各大公司相关算法团队纷纷尝试,但据我们了解,基本还处于研究和验证阶段,」叶璨说道。「不少发表的 paper 离实际业务场景相差较远,能经过线上 AB 实验验证的工作极少,更不用说在全流量上完成落地和覆盖。」

基于强化学习的推荐技术早已成为快手推荐系统的基础设施与核心能力,从技术成熟度和应用规模而言,快手推荐无疑是业界领先的。随着互联网 C 端竞争的不断深入,科技公司在行为上也愈发趋同,这些先进技术,已为快手带来了额外的优势。

目前快手核心推荐算法团队,多数来自于清北、CMU 等国内外顶级院校的博士、硕士,以及来自 BAT 等著名公司的工程师。团队成员曾在 NeurIPS、ICML、IJCAI、KDD 等 AI 顶会上多次发表论文。目前,团队的技术支撑了快手的推荐、流量分发、增长广告、游戏等核心业务。

「我们希望从实际问题出发,以解决核心业务问题作为惟一评判标准,」叶璨表示。「AI 算法是解决问题的手段,不是目的,我们会按照实际面临的业务系统,设计合理的技术方案。我们将继续致力于解决核心业务问题,为快手的业务下降作出贡献。」

快手点赞业务