一边是国民级短视频应用快手,另一边是致力于构建 AI 时代世界一流大学的高瓴人工智能学院,这对业界与学界的合作伙伴未来会擦除什么样的火花,我们拭目以待。
要说近几年 AI 领域最火的技术是哪些?大模型当仁不让。从微软 BERT、T5 开始,到 OpenAI GPT 系列,大模型显示出了无与伦比的生成式能力和巨大的应用潜力,更让业内人士见到了实现 AGI 的希望。
以 GPT-4 为例,它是一个多模态 AI 大模型,在语言、数学、编程、视觉等多种任务上都有出众的表现。文本、图像、语音、视频等多种模态能力的融合被觉得是最终实现 AGI 的必由之路。国内外大厂也在不遗余力地研制自己的多模态大模型,除了 GPT-4 外代表性的还有 DeepMind 的 Flamingo、微软的 Kosmos-1、谷歌的 PaLM-E 等。
建立跨场景、多任务的统一多模态基础模型成为目前主流 AI 发展趋势之一。然而只研制不落地也是不行的,大模型要发挥其价值必须要有其应用场景。国内国民级短视频 App 快手在研制多模态超大模型的同时加速在短视频场景的落地,并应用于内部搜索、广告、推荐、直播、电商等核心业务,探索出了一条自己的大模型训练到落地的技术路径。
与此同时,业界与学界的连通对于大模型研制与应用同等重要。因此,快手也十分重视校企生态的建设,积极推进与院校的合作。如今,在多模态 AI 大模型蓬勃发展之际,快手找到了其在学界的合作伙伴——人大高瓴人工智能学院。该院文继荣教授率领团队研制了首个英文超大规模多模态预训练模型「文澜」,产生了广泛影响。
4 月 22 日下午,快手与高瓴人工智能学院联合组建的中国人民大学 - 快手未来媒体智能联合实验室启动了签约典礼。签约典礼由该联合实验室部长、高瓴人工智能学院长聘副教授宋睿华主持,双方阐述将围绕多模态 AI 大模型、跨模态智能创作、智能算法推荐等领域优势互补,资源共享,合作共赢,通过产学研用深度融合,在人才培养、科学研究、成果转化等多方面举办多层次、多领域和多形式的合作。
中国人民大学高瓴人工智能学院执行主任文继荣(左一)与快手副总裁王仲远(右一)签约
中国人民大学副校长王轶(左二)与快手中级副总裁于冰(右二)鉴签
联合实验室签约典礼上,快手与高瓴人工智能学院双方合影留念
谈及这次快手与高瓴人工智能学院的深度合作,莅临签约典礼的人大副校长王轶表示,「高瓴人工智能学院承当着重构人学院科的重要角色,是人学院科体系调整创新的战略支撑。高瓴人工智能学院和快手都十分有眼光,找对了合作伙伴。此次签约是双方合作伙伴关系往前推动的第一步,希望借此为契机将来才能进一步推进在科学研究、人才培养、社会服务、国际交流、文化弘扬等方方面面的合作。同时相信在快手的诚心和支持下,高瓴人工智能学院未来一定会办得越来越好。」
快手中级副总裁于冰表示,「互联网产业的爆发式下降得益于规模与技术的乘积效应。快手作为国民级的短视频直播平台,有高密度技术人才、丰富的应用场景、巨大的用户与数据规模,以及大规模算力资源,积极向学界开放合作,能为科研提供真实可靠的验证环境,大幅提高相关科研成果的含金量。双方的强强联合,突破 AI 硬核技术,每个方向上能作出 1 个点的利润,都可以对各行各业形成深远的影响,发挥更大的价值。」
中国人民大学副校长王轶祝词(左)、快手中级副总裁于冰祝词(右)
从内容生成、理解到分发,快手进入大模型驱动的智能媒体新时代
自 2011 年创立以来,快手不断地拓展自身业务形态,现如今早已发展成为了集短视频、社交、直播、电商等多种功能于一体的数字化社区。
快手副总裁王仲远介绍到, 快手用户关注量和活跃度已经今非昔比,2022 年日活和月活用户分别达到了 3.66 亿和 6.4 亿。如此大和活跃的用户社区蕴育了多样化的内容生态,如快手短剧、体育、二次元、三农以及面向人文教育的泛知识类视频等。
快手副总裁王仲远发表讲演
在创意内容尤其是短视频创作中,AI 技术充分赋能了高质量视频生成。以直播内容为例,快手拥有行业顶级的人像美化和视频特效技术,在手机端能够随心变换人像风格。在最近热门的文生图领域,快手推出了其首个中文版图象生成系统。此外快手精耕数字人领域,推出其首个官方虚拟主播关小芳,助力蒙牛集团推出首位数字职工奶思,并且赋能快手蓝领急聘平台 “快聘”。
快手蓝领急聘平台 “快聘” 数字人
在多模态内容的精准理解上,大规模多模态大模型开始发挥重要作用。快手自研了千亿参数多场景统一大模型 ——K7 大模型,基于多模态模型得到的多模态特点及其相关讯号在推荐、直播、商业化、电商等众多场景中推全并取得了明显的线上利润。同时,在多模态理解领域国际权威榜单 VCR 上,快手自研 VLUA 算法保持榜单第一超过半年时间。快手还借助千万级标签描画快手内容,保证用户更快更准找到满意的内容。
快手短视频理解标签体系
此外,快手构建的业宿州个多模态短视频百科体系快知,通过多模态和知识图谱从海量视频中挖掘知识,提升用户知识获取体验,构建良性知识分享生态。与此同时,对于最近火热的语言大模型(Large Language Model,LLM),快手也正在重点推动中。
在视频内容的分发上,背后是通过复杂多样的智能推荐算法来驱动的。快手副总裁宋洋表示,「快手短视频直播推荐面临的挑战是巨大的,一方面是用户群体大,每天分发到用户观看的视频超过千亿次,其中数据包含的讯号多,交互方法丰富,业务关键指标多,不同目标对应的预估任务存在相关性和差异性,另一方面是快手业务场景多,生态复杂,平台兼顾内容、社交、电商等多种属性 ,需要兼具消费、营收、社交等业务要求,业务之间相互影响。快手投入上千名算法工程师在推荐算法的模型与策略研制上。」
快手副总裁宋洋发表讲演
为了精准描述和捕捉不同用户的兴趣,结合了用户行为序列建模、长短期兴趣建模、门控专家算法等算法,快手研制并落地业界首个万亿参数精排模型,它具有 1.9 万亿参数规模和千亿模型特点量。同时针对用户历史行为序列做了超长建模,从近来几十个历史行为扩长到百万量级的历史行为,实现了对用户全生命周期的建模。快手排序模型支持多任务多场景建模,用大模型方式解决不同场景的用户行为与候选项分布不一致的困局,融合万人千模 PEPNet(见论文 [1])和两段式兴趣网路 TWIN(见论文 [2])等多项前沿技术成果,捕捉并满足用户不同场景全生命周期的兴趣和需求。同时,快手将搜索与推荐联合建模,实现搜促推的疗效。
快手万亿参数精排模型构架
除了云端布署大模型技术外,快手在业界短视频领域首次提出端智能重排技术(见论文 [3]),利用联通设备算力和储存资源布署深度学习模型推理甚至训练,实现用户反馈讯号和客户端独有特点的实时借助,从而得到当前上下文下更确切的预估值,提升用户体验,并带来明显的线上疗效提高。该成果获得信息检索和数据挖掘领域重要学术会议 CIKM 2022 的最佳论文奖。
快手端智能短视频推荐系统
此外,快手在推荐算法方向上布局广泛。快手副总裁江鹏表示,「快手在推荐算法上技术创新投入很大,近年来在加强学习、因果推论、图学习、搜推联合、端智能等前沿方向上取得突破,大量成果发布在 WWW、KDD、SIGIR 等顶尖学术会议上。随着 GPT-4 多模态大模型的发布,我们积极探求生成式大模型在推荐系统领域的创新。」
多模态 AI 大模型蓬勃发展之际,快手在校企合作上积极布局,找准学界合作伙伴。高瓴人工智能学院在 AI 尤其是大模型、多模态大模型领域的科研成果让快手见到了合作的潜力,成为双方达成进一步合作、建立联合实验室的重要根基。
强强联合,与高瓴人工智能学院合作促应用、创价值
高瓴人工智能学院创立于 2019 年,旨在塑造一所才能影响和打造未来人工智能时代的世界一流大学,为全球思索并创造「智能而有体温」的未来。成立至今,学院早已取得了好多成绩,在业界也有口皆碑。2020 至 2022 年,互联网与信息检索方向连续三年高踞 CSRankings 排行榜世界第一,人工智能学科排行已稳定坐落世界前列。2022年1月,学院师生论文发表数目已达到 200 篇。2023 年 1 月,文继荣、赵鑫、窦志成、徐君、宋睿华等班主任申报的「以用户需求为中心的互联网信息获取关键理论与技术」项目获得教育部自然科学银奖。
2019 年 4 月,高瓴人工智能学院即将落成创立
文继荣教授介绍了高瓴人工智能学院发展情况。4 月 22 日,恰逢学院建院 4 周年,四年来,学院在学科建设、人才培养、重大平台建设、对外合作等方面高速发展、成绩斐然。学院师生持续产出高水平科研成果,尤其在大模型、多模态大模型领域成果引人瞩目。此次与快手成立联合实验室,期望能强强联合,在人工智能这一前沿领域共同加码,有所成就。
中国人民大学高瓴人工智能学院执行主任文继荣发表讲演
学院一直秉持 AI + 社会科学研究新范式,在信息检索与自然语言处理、机器学习与计算机视觉、数据挖掘和人工智能理论与交叉应用等领域持续产出高水平的科研成果,如英文超大规模多模态预训练模型「文澜」、检索提高的内容生成模型 WebBrain。
中国人民大学高瓴人工智能学院副院长窦志成发表讲演
我们以信息检索领域为例,高瓴人工智能学院副院长窦志成介绍称,新一代信息检索呈现为三种方式:个性化、对话式和生成式。在信息获取手段方面主要有检索和生成两种手段,前者以索引为核心,高效快速从海量文档中检索出相应的内容,如搜索引擎、推荐系统;后者以大模型为核心,一步到位直接生成满足用户信息需求的内容,如 LLM、ChatGPT。
然而三者皆有缺点,检索未能有效整合信息,而生成则可能会形成过时、虚假和错误内容。因此探求检索与生成融合的信息检索新范式至关重要,比如端到端生成式检索、检索提高的生成以及基于 LLM 增强的搜索。对于检索提高生成范式,WebBrain 是高瓴人工智能学院的代表之作。
与 GPT-3 等已有预训练生成模型相比,WebBrain 将互联网上已有的海量信息与预训练模型结合,通过提取英语维基百科文章以及参考文献建立了一个大规模数据集 WebBrain-Raw 和分别用于训练域内检索器和生成器的任务特定数据集 WebBrain-R 和 WebBrain-G。
最终 WebBrain 成为了在大规模语料上定向训练的检索生成模型,可以直接产生一篇完整的文档。WebBrain 或许将极大地改变人们获取信息的方法,未来可以广泛用于知识洞察助手、搜索问答、辅助阅读等场景。
文本生成任务与 WebBrain 的比较。图源:论文 [4]
除了信息检索,高瓴人工智能学院在多模态通用生成模型领域颇具建设。学院卢志武院士团队前段时间推出了国产多模态通用大模型「元乘象 ChatImg」快手热门算法,不仅支持文字聊天,还能读懂图片上的内容并按照图片内容回答问题。
卢志武院长觉得,ChatGPT 和 GPT-4 带来了研究范式的革新,需要积极去应对和适应。不过应听到,现有多模态生成模型都存在各自的问题,比如 GPT-4 暂时没有视觉版,因此在该方向上加码还是有机会和前景的。
能用图片聊天的「ChatGPT」
此外,在平台生态与机制设计、图神经网路设计及应用等其他方面,高瓴人工智能学院的科研团队也有深入研究和成果,前者如长聘副教授祁琦团队,后者如准聘助理教授黄文炳团队。
具体地,祁琦团队致力于研究平台生态环境下的机制设计(包括流量竞争机制、最优扶植机制以及多目标机制),同时探究通过扶植机制来维护平台生态,展现出了机制设计在平台经济领域的宽广应用前景。黄文炳团队致力于通过设计图机器学习方法和图神经网路模型,挖掘图数据内在的拓扑和几何结构,解决抗生素发觉、3D 物理场景模拟、智能体行为决策、社交网路剖析等跨领域重要问题。
中国人民大学高瓴人工智能学院长聘副教授祁琦发表讲演(左)、中国人民大学高瓴人工智能学院准聘助理院长黄文炳发表讲演(右)
对于这次与快手创立联合实验室,文继荣校长觉得,「学院自构建之初就跟快手有着千丝万缕的联系快手热门算法,快手给与了我们很大的支持。」其实,快手上述研究成果中就可以看见高瓴人工智能学院的身影,比如快手搜索与推荐单向推动的研究。宋洋表示,「后续与高瓴人工智能学院加强合作的一个方向是继续借助序列建模预测用户搜索情况。」
不仅这么,高瓴人工智能学院还在其他多个科研领域与快手展开了合作,如基于用户搜索和浏览行为的推荐系统研究、 基于知识图谱的推荐系统研究、基于视频 - 文本预训练模型以及基于检索的文生视频模型研究。
目前,双方在科技创新与人才培养方面均取得了丰硕成果,比如联合发表顶会论文 5 篇、联合培养 11 位硕博生。相关研究成果也着力提高了快手的业务疗效,提升了观看时长、完播率、点赞率、生产作品数等核心指标。
如今,中国人民大学 - 快手未来媒体智能联合实验室的创立将双方的合作推向了更深的层次,合作方式也会愈加丰富。
4 月 22 日上午,中国人民大学 - 快手未来媒体智能联合实验室举行了首届学术研讨会 ——WWW 2023 论文分享会。快手的一众算法专家和中级算法工程师与高瓴人工智能学院的博(硕)士生共聚一堂,分别就基于多任务 / 偏好 / 表示的推荐、个性化搜索与推荐、可信搜索与推荐和基于强化学习的推荐等主题进行了精彩分享。另外,此次分享会的直播得到了中国人民大学实验室管理与教学条件保障处的大力支持。
在这次分享会上,高瓴人工智能学院副院长窦志成与快手副总裁江鹏分别做了贺词。国际万维网大会(The Web Conference,旧称 WWW)是中国计算机学会推荐的 A 类国际学术会议,WWW 2023 已是第 32 届。高瓴人工智能学院和快手都分别有 7 篇论文被本届 WWW 会议录用,其中后者被录用论文囊括了对话式搜索、个性化搜索、推荐系统公平性、可解释推荐算法等方向,后者被录用论文涉及了加强学习、因果表征、提示学习、序列推荐、多目标推荐等方向。
窦志成称,作为未来媒体智能联合实验室的开门红活动,本次分享会为双方提供了学习和交流的平台,未来也将更多、更细致地举行类似学术活动。江鹏表示,本次分享会致力学习分享双方在推荐与搜索上的最新前沿技术成果,碰撞出更多的创新火花。
高瓴人工智能学院副院长窦志成祝词(左)、快手副总裁江鹏祝词(右)
未来,中国人民大学 - 快手未来媒体智能联合实验室将围绕多模态大模型、AIGC、数字人和搜推广等主题展开全面探求。「契合国家重大战略的发展需求,面向未来进行技术布局和联合研制,继往开来再创新的辉煌。」王仲远对此憧憬到。
快手与人大高瓴人工智能学院将会擦出什么样的火花,我们拭目以待!
参考内容:
[1] PEPNet: Parameter and Embedding Personalized Network for Infusing with Personalized Prior Information()
[2] TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou()
[3] Real-time Short Video Recommendation on Mobile Devices, CIKM 2022()
[4] WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus()