快手的日活跃用户数目超过三亿,其背后是业界领先的人工智能技术。
人工智能技术正被科技公司广泛应用在产品中,微软等公司已在搜索引擎中加入了BERT这样的预训练模型,而加强学习这些须要花费大量算力的方式也已成为快手推荐系统的核心。
日前,我们与快手核心推荐算法团队技术负责人,卡耐基梅隆学院博士叶璨聊了聊,他向我们介绍了快手在推荐系统等核心业务中引入加强学习技术的历程,以及大规模应用加强学习技术带来的业务利润。
叶璨博士结业于卡内基梅隆学院(CMU),此前曾兼任百度资深构架师。他在2017年加入快手社区科学部,作为算法负责人负责推荐算法、强化学习、增长广告等技术方向。期间从0到1构建核心算法团队,主要工作之一是主导了加强学习技术在快手推荐等核心业务的落地及大规模应用。
明天当我们在刷快手的时侯,我们会获得哪些样的体验?
「个性化推荐算法决定了,用户每一次刷快手时,会听到哪些样的视频内容」叶璨博士说道。「推荐系统是快手生态体系的核心,而个性化推荐算法可以在每晚新增数千万视频的海量视频库中,帮助用户高效地获取感兴趣的视频内容,最大程度吸引用户,提高用户存留和黏性。」
在快手的核心推荐算法团队,AI科学家和算法工程师们仍然在不断迭代推荐的核心技术,构建业界最前沿的推荐算法、技术能力,希望给用户带来最好的内容推荐体验。
加强学习技术这一AI领域的重要技术方向,在近来这波AI浪潮中,由AlphaGo而渐渐被人们所熟知。在推荐和广告算法领域,加强学习也在成为重要的技术趋势。
快手平台上每晚有数亿用户进行短视频内容的消费,而这背后有业界最大规模之一的推荐系统提供支持。超大规模的推荐系统也为最前沿的AI技术提供了创新平台。快手推荐团队在业界率先落地了基于加强学习技术的推荐系统,基于加强学习的推荐模型已在为数亿用户提供日常的推荐服务。它可以更精准、更实时地捕捉和满足用户的兴趣,并带来更好的内容多样性。
基于加强学习的视频推荐
在AlphaGo中出现的加强学习算法,是怎样帮助你刷快手的?具体来说,用户的每次推荐恳求,都是由推荐系统从数千万的候选视频中选购出数个视频返回给用户的。整个过程大致分为两个阶段:
由此可见,排序是推荐系统的核心任务。在这个过程中,传统推荐排序算法一般会采用point-wise排序框架,基于经验公式或则排序模型,「独立」地预估每位候选视频的排序分数,并按分数从高到低排序,截取topN视频返回。
这一方式可能面临一个重要的问题:排序模型忽视了相邻视频间的影响,未能从视频序列的角度优化整体的推荐疗效,这和信息流产品形态间存在天然的成见。
假如用户喜欢某一类视频,传统方式会独立对每位候选视频打分,这都会倾向于将同类视频排到后面,导致推荐内容的同质化,常年这么很可能会导致用户对内容的乏味。对此,传统方式都会加入基于规则的多样性打散策略,但这些思路其实不是最优方案。
快手核心推荐团队创新地采用加强学习重新定义了推荐排序技术:提出了基于加强学习的序列化排序框架,将输出N个视频序列的任务建模为连续进行N次决策的过程,依次从候文集中选购出N个视频。加强学习排序模型端到端地完成整个推荐排序过程,从数百视频候文集中选购出由数十个视频组成的有序列表,并返回展示给用户。
示意图:传统排序算法vs加强学习排序算法。
在加强学习模型排序的过程中,每次选购视频的目标都是最大化视频序列的整体「奖励」,比如优化视频序列的整体观看时长。「这个过程和下象棋的人工智能类似,」叶璨介绍道。「在对弈的过程中,棋手不能只考虑当前这步棋的利润,而须要有更长远、更全局的视角去审视,有时会需要牺牲短期利益。」视频推荐也可以根据这样的思路来进行建模,从视频序列角度优化整体的推荐疗效,同时保证推荐内容的多样性。
另外,加强学习排序算法可以保证更好的推荐精准性与实时性:在用户每次反馈(点击、点赞、转发...)发生以后,系统就会通过加强学习算法完成排序模型的在线更新。
每位人都有机会与顶级AI对战
不仅视频推荐之外,快手的加强学习技术也已应用在了旗下的多款小游戏中。假如你玩过快手平台的斗地主、五子棋、斗兽棋、象棋等游戏,你的对手可能会是系统委派的人工智能。
目前,AI陪玩可能会出现在菜鸟期,或是游戏玩家数目低峰期,其实假如你的水平足够高,也会在最高难度上遇见「超越人类水平」的AI,体会一下AlphaGo带来的焦虑。
在游戏AI领域,研究人员自2018年初就开始在游戏中尝试加强学习技术。游戏AI在快手游戏产品中的主要应用形态是陪玩,这对处于孵化阶段(用户数有限)的游戏产品尤为重要。从2018到2019年,游戏AI技术在快手的多款棋牌类游戏上完成了落地,支持了快手游戏业务的快速发展。
加强学习早已重新定义了游戏AI的生产方法。在传统的游戏AI中,不论是基于规则的方式还是监督学习的方式都严重依赖于人类专家提供的经验和数据,最终实现的智能水平也相对有限,且难以实现动态的AI难度分级。
而这一切对于加强学习游戏AI来说并不是难事。在游戏上,快手已应用了通用游戏AI算法框架,其使用基于自我博弈的加强学习技术(self-playreinforcementlearning),除了可以在特定游戏上饰演不同难度的AI玩家,还可以实现手动化生产:只须要输入游戏规则,不依赖人类经验或数据而完全由AI自我博弈形成数据,通过加强学习算法实现AI能力的训练和进化。
这一技术的本质类似于DeepMind的象棋人工智能AlphaGoZero,是基于自我博弈加强学习的通用算法框架,可以扩充到多个不同领域,由AI自我博弈形成训练数据,通过加强学习算法实现智能体的自我训练和性能提高。
不过相比AlphaGo,快手游戏AI愈发面向应用,它可以在线为成千上万的游戏玩家提供服务,除了考虑了游戏AI的高水平,还兼具了其他产品需求,包括AI智能分级(为不同水平的用户提供相应智能等级的AI),拟人化等。
落地核心业务,做最精准的流量分发
作为目前中国最大的流量平台之一,快手的流量生态包含了各类业务流量的混和,包括视频推荐、直播、运营、电商、广告等,内容对用户的精准触达,是快手的核心业务问题。
快手在流量分发业务中大规模地应用了加强学习技术,例如最大的流量入口-个性化tab分发,以及各垂类产品在feed流中的精准分发,包括直播、游戏、音乐、社交等业务。
例如用户每次打开快手app,加强学习算法会决定你跳转到发觉、关注、同城中的那个tab页面。加强学习接管的位置,是快手最大的流量分发入口,涉及主页三大tab页面的流量分配,影响app的使用时长、DAU(日活跃用户数目)等关键指标。算法会参考用户的行为偏好、习惯等进行流量分发,比如用户在特定时间段喜欢步入某个tab页进行消费。同时算法也会按照实时的feed信息进行主动引导,比如关注页有喜欢主播首播,会将用户跳转引导至关注页。
在垂类业务的流量分发中,快手已在形态上改变了传统的推送形式,她们在feed流中插入垂类聚合页,由算法决定聚合页的展示时机,其中包括音悦台、游戏TV、PYMK、直播广场等垂类产品。
在这儿,基于传统的数据挖掘或策略规则难以做到实时确切,只有通过加强学习算法才才能实现精准分发。「如果内容被推献给了不合适的用户,或则在不合适的时机,展示聚合页入口,除了无法产生垂类业务的消费和转化,都会影响用户正常的feed流体验,」叶璨说道。
快手的算法以流量为细度进行决策,每次决策的目标都是最大化一段时间内的整体利润,同时保持在线学习和更新,用户的每次反馈后,加强学习决策算法就会更新模型,快速适应用户的行为习惯。通过不断加强用户反馈,系统逐步收敛达到最优的流量分发策略,同时也保持了实时更新的能力。
从零到一的探求
强悍技术的背后,是快手核心推荐算法团队不懈的努力。早在2018年,快手就在推荐系统上开始尝试加强学习技术。「当时业界没有任何成熟落地的方案可以参考,」叶璨表示。「部分研究团队早已有一些论文,关于加强学习在推荐、广告、搜索领域的应用,但大多偏向于概念,距离实用化还有一段距离。而我们的目标仍然是应用落地,我们希望还能用加强学习技术解决推荐系统的核心问题。」
快手成为了加强学习推荐技术的先行者。在推荐系统那个阶段应用加强学习技术,应当采用哪类加强学习算法,加强学习推荐模型的在线训练框架应当怎样设计等等,这种问题都是从零开始探求的。
快手选择在推荐系统的核心——推荐排序阶段应用加强学习技术,它决定了应用最终向用户展示什么视频,以及视频的排列次序。在推荐算法领域,快手的AI科学家和算法工程师们完成了一项最前沿的技术突破,重新定义了推荐排序技术,使推荐系统具备了优化视频序列整体利润的能力。
2018年末,快手在新用户推荐上完成了加强学习排序算法的验证和成功上线。2019年,这一技术拓展应用到了全量用户,完成了对推荐全流量的覆盖。
如今,基于加强学习的推荐系统每晚为数以亿计的快手用户提供着实时的个性化推荐服务。加强学习推荐技术的研制和落地,是快手推荐过去五年最重要的技术突破。这项技术也带来了更好的推荐疗效和用户体验,推荐核心指标(如用户观看时长)的提高达到10%以上,这也是过去五年快手推荐单项技术上线带来的最大幅度的指标提高。
与此同时,快手将眼神瞄准新的应用场景-精准流量分发。在业界,快手创新地首次采用加强学习技术解决流量的精准分发问题,并将精准流量分发技术以中台化的方式输出至快手多个重要业务场景。目前在快手,这一技术已普及成为流量分发问题的常态化解决方案。
快手的算法可以在不影响用户正常feed流体验的同时,最大程度地帮助不同的产品和业务在合适时机完成对合适用户的精准触达,因而产生有效的用户转化。在一些业务场景下,相对于传统策略,加强学习算法对分发效率提高达到了100%以上。通过先进的算法,快手确保了流量的精准触达,帮助不同垂类业务实现了有效的用户转化、规模下降,提高了用户黏性和业务壁垒。
加强学习,早已成为快手的杀手锏级技术。快手表示,好多美国科技大鳄也仍未做到加强学习技术的大规模落地和应用。
「强化学习早已成为推荐、广告算法领域最重要的技术趋势,各大公司相关算法团队纷纷尝试,但据我们了解,基本还处于研究和验证阶段,」叶璨说道。「不少发表的paper离实际业务场景相差较远,能经过线上AB实验验证的工作极少,更不用说在全流量上完成落地和覆盖。」
基于加强学习的推荐技术早已成为快手推荐系统的基础设施与核心能力,从技术成熟度和应用规模而言,快手推荐无疑是业界领先的。随着互联网C端竞争的不断深入,科技公司在行为上也愈发趋同,这种先进技术,已为快手带来了额外的优势。
目前快手核心推荐算法团队,多数来自于清北、CMU等国外外顶级院校的博士、硕士,以及来自BAT等著名公司的工程师。团队成员曾在NeurIPS、ICML、IJCAI、KDD等AI顶会上多次发表论文。目前,团队的技术支撑了快手的推荐、流量分发、增长广告、游戏等核心业务。
「我们希望从实际问题出发,以解决核心业务问题作为惟一评判标准,」叶璨表示。「AI算法是解决问题的手段,不是目的,我们会按照实际面临的业务系统,设计合理的技术方案。我们将继续旨在于解决核心业务问题,为快手的业务下降作出贡献。」