一边是国民级短视频应用快手,另一边是旨在于塑造AI时代世界一流大学的高瓴人工智能大学,这对业界与学界的合作伙伴未来会擦除哪些样的火花,我们拭目以待。
要说近几年AI领域最火的技术是哪些?大模型当仁不让。从微软BERT、T5开始,到OpenAIGPT系列,大模型显示出了无与伦比的生成式能力和巨大的应用潜力,更让业内人士听到了实现AGI的希望。
以GPT-4为例,它是一个多模态AI大模型,在语言、数学、编程、视觉等多种任务上都有出众的表现。文本、图像、语音、视频等多种模态能力的融合被觉得是最终实现AGI的必由之路。国外外大厂也在不遗余力地研制自己的多模态大模型,不仅GPT-4外代表性的还有DeepMind的Flamingo、微软的Kosmos-1、谷歌的PaLM-E等。
构建跨场景、多任务的统一多模态基础模型成为目前主流AI发展趋势之一。但是只研制不落地也是不行的,大模型要发挥其价值必需要有其应用场景。国外国民级短视频App快手在研制多模态超大模型的同时加速在短视频场景的落地,并应用于内部搜索、广告、推荐、直播、电商等核心业务,探求出了一条自己的大模型训练到落地的技术路径。
与此同时,业界与学界的连通对于大模型研制与应用同等重要。为此,快手也十分重视校企生态的建设,积极推进与院校的合作。现在,在多模态AI大模型蓬勃发展之际,快手找到了其在学界的合作伙伴——人大高瓴人工智能大学。该院文继荣校长率领团队研制了首个英文超大规模多模态预训练模型「文澜」,形成了广泛影响。
4月22日中午,快手与高瓴人工智能大学联合组建的中国人民学院-快手未来媒体智能联合实验室启动了签约典礼。签约典礼由该联合实验室处长、高瓴人工智能大学长聘副院长宋睿华主持,双方阐述将围绕多模态AI大模型、跨模态智能创作、智能算法推荐等领域优势互补,资源共享,合作共赢,通过校企用深度融合,在人才培养、科学研究、成果转化等多方面举办多层次、多领域和多方式的合作。
中国人民学院高瓴人工智能大学执行主任文继荣(左一)与快手总工裁王仲远(右一)签约
中国人民学院副院长王轶(左二)与快手中级总工裁于冰(右二)鉴签
联合实验室签约典礼上,快手与高瓴人工智能大学双方合照留影
谈及这次快手与高瓴人工智能大学的深度合作,亲临签约典礼的人大副主任王轶表示,「高瓴人工智能大学承当着塑造人大学科的重要角色,是人大学科体系调整创新的战略支撑。高瓴人工智能大学和快手都十分有眼光,找对了合作伙伴。这次签约是双方合作伙伴关系往前推动的第一步,希望借此为抓手将来才能进一步推进在科学研究、人才培养、社会服务、国际交流、文化弘扬等方方面面的合作。同时相信在快手的诚心和支持下,高瓴人工智能大学未来一定会办得越来越好。」
快手中级总工裁于冰表示,「互联网产业的爆发式下降得益于规模与技术的乘积效应。快手作为国民级的短视频直播平台,有莱州度技术人才、丰富的应用场景、巨大的用户与数据规模,以及大规模算力资源,积极向学界开放合作,能为科研提供真实可靠的验证环境,急剧提高相关科研成果的含金量。双方的强强联合,突破AI硬核技术,每位方向上能作出1个点的利润,都可以对各行各业形成深远的影响,发挥更大的价值。」
中国人民学院副院长王轶致词(左)、快手中级总工裁于冰致词(右)
从内容生成、理解到分发,快手进入大模型驱动的智能媒体新时代
自2011年创立以来,快手不断地拓展自身业务形态,现现在早已发展成为了集短视频、社交、直播、电商等多种功能于一体的数字化社区。
快手总工裁王仲远介绍到,快手用户关注量和活跃度已经今非昔比,2022年日活和月活用户分别达到了3.66亿和6.4亿。这么大和活跃的用户社区蕴育了多样化的内容生态,如快手短剧、体育、二次元、三农以及面向人文教育的泛知识类视频等。
快手总工裁王仲远发表讲演
在创意内容尤其是短视频创作中,AI技术充分赋能了高质量视频生成。以直播内容为例,快手拥有行业顶级的人像美化和视频特效技术,在手机端能够随心变换人像风格。在最近热门的文生图领域,快手推出了其首个英文版图像生成系统。此外快手精耕数字人领域,推出其首个官方虚拟主播关小芳,推动伊利集团推出首位数字职工奶思,但是赋能快手蓝领急聘平台“快聘”。
快手蓝领急聘平台“快聘”数字人
在多模态内容的精准理解上,大规模多模态大模型开始发挥重要作用。快手自研了千亿参数多场景统一大模型——K7大模型,基于多模态模型得到的多模态特点及其相关讯号在推荐、直播、商业化、电商等众多场景中推全并取得了明显的线上利润。同时,在多模态理解领域国际权威榜单VCR上,快手自研VLUA算法保持榜单第一超过半年时间。快手还借助千万级标签描画快手内容,保证用户更快更准找到满意的内容。
快手短视频理解标签体系
据悉,快手构建的业界首个多模态短视频百科体系快知,通过多模态和知识图谱从海量视频中挖掘知识,提高用户知识获取体验,建立良性知识分享生态。与此同时,对于最近火热的语言大模型(LargeLanguageModel快手热门算法,LLM),快手也正在重点推动中。
在视频内容的分发上,背后是通过复杂多样的智能推荐算法来驱动的。快手总工裁宋洋表示,「快手短视频直播推荐面临的挑战是巨大的,一方面是用户群体大,每晚分发到用户观看的视频超过千亿次,其中数据包含的讯号多,交互方法丰富,业务关键指标多,不同目标对应的预估任务存在相关性和差别性,另一方面是快手业务场景多,生态复杂,平台兼顾内容、社交、电商等多种属性,须要兼具消费、营收、社交等业务要求,业务之间互相影响。快手投入上千名算法工程师在推荐算法的模型与策略研制上。」
快手总工裁宋洋发表讲演
为了精准描述和捕捉不同用户的兴趣,结合了用户行为序列建模、长短期兴趣建模、门控专家算法等算法,快手研制并落地业界首个万亿参数精排模型,它具有1.9万亿参数规模和千亿模型特点量。同时针对用户历史行为序列做了超长建模,从近来几十个历史行为扩长到百万量级的历史行为,实现了对用户全生命周期的建模。快手排序模型支持多任务多场景建模,用大模型方式解决不同场景的用户行为与候选项分布不一致的困局,融合万人千模PEPNet(见论文[1])和两段式兴趣网路TWIN(见论文[2])等多项前沿技术成果,捕捉并满足用户不同场景全生命周期的兴趣和需求。同时,快手将搜索与推荐联合建模,实现搜促推的疗效。
快手万亿参数精排模型构架
不仅云端布署大模型技术外,快手在业界短视频领域首次提出端智能重排技术(见论文[3]),借助联通设备算力和储存资源布署深度学习模型推理甚至训练,实现用户反馈讯号和顾客端独有特点的实时借助,因而得到当前上下文下更确切的预市值,提高用户体验,并带来明显的线上疗效提高。该成果获得信息检索和数据挖掘领域重要学术大会CIKM2022的最佳论文奖。
快手端智能短视频推荐系统
据悉,快手在推荐算法方向上布局广泛。快手总工裁江鹏表示,「快手在推荐算法上技术创新投入很大,近些年来在加强学习、因果推论、图学习、搜推联合、端智能等前沿方向上取得突破,大量成果发布在WWW、KDD、SIGIR等顶尖学术大会上。随着GPT-4多模态大模型的发布,我们积极探求生成式大模型在推荐系统领域的创新。」
多模态AI大模型蓬勃发展之际,快手在校企合作上积极布局,找准学界合作伙伴。高瓴人工智能大学在AI尤其是大模型、多模态大模型领域的科研成果让快手见到了合作的潜力,成为双方达成进一步合作、建立联合实验室的重要根基。
强强联合,与高瓴人工智能大学合作促应用、创价值
高瓴人工智能大学创立于2019年,借以塑造一所才能影响和打造未来人工智能时代的世界一流大学,为全球思索并创造「智能而有体温」的未来。创立至今,大学早已取得了好多成绩,在业界也有口皆碑。2020至2022年,互联网与信息检索方向连续三年高踞CSRankings排名榜世界第一,人工智能学科排行已稳定坐落世界前列。2022年1月,大学师生论文发表数目已达到200篇。2023年1月,文继荣、赵鑫、窦志成、徐君、宋睿华等班主任申报的「以用户需求为中心的互联网信息获取关键理论与技术」项目获得教育部自然科学银奖。
2019年4月,高瓴人工智能大学即将落成创立
文继荣教授介绍了高瓴人工智能大学发展情况。4月22日,适逢大学建院4华诞,四年来,大学在学科建设、人才培养、重大平台建设、对外合作等方面高速发展、成绩卓著。大学师生持续产出高水平科研成果,尤其在大模型、多模态大模型领域成果引人瞩目。这次与快手创立联合实验室,期望能强强联合,在人工智能这一前沿领域共同加码,有所成就。
中国人民学院高瓴人工智能大学执行主任文继荣发表讲演
大学一直秉持AI+社会科学研究新范式,在信息检索与自然语言处理、机器学习与计算机视觉、数据挖掘和人工智能理论与交叉应用等领域持续产出高水平的科研成果,如英文超大规模多模态预训练模型「文澜」、检索提高的内容生成模型WebBrain。
中国人民学院高瓴人工智能大学副校长窦志成发表讲演
我们以信息检索领域为例,高瓴人工智能大学副校长窦志成介绍称,新一代信息检索呈现为三种方式:个性化、对话式和生成式。在信息获取手段方面主要有检索和生成两种手段,后者以索引为核心,高效快速从海量文档中检索出相应的内容,如搜索引擎、推荐系统;前者以大模型为核心,一步到位直接生成满足用户信息需求的内容,如LLM、ChatGPT。
但是二者皆有缺点,检索未能有效整合信息,而生成则可能会形成过时、虚假和错误内容。因而探求检索与生成融合的信息检索新范式至关重要,例如端到端生成式检索、检索提高的生成以及基于LLM提高的搜索。对于检索提高生成范式,WebBrain是高瓴人工智能大学的代表之作。
与GPT-3等已有预训练生成模型相比,WebBrain将互联网上已有的海量信息与预训练模型结合,通过提取英文维基百科文章以及参考文献重构了一个大规模数据集WebBrain-Raw和分别用于训练域内检索器和生成器的任务特定数据集WebBrain-R和WebBrain-G。
最终WebBrain成为了在大规模语料上定向训练的检索生成模型,可以直接产生一篇完整的文档。WebBrain似乎将极大地改变人们获取信息的方法,未来可以广泛用于知识洞察助手、搜索问答、辅助阅读等场景。
文本生成任务与WebBrain的比较。图源:论文[4]
不仅信息检索,高瓴人工智能大学在多模态通用生成模型领域颇具建设。大学卢志武院士团队前段时间推出了国产多模态通用大模型「元乘象ChatImg」,除了支持文字聊天,就能读懂图片上的内容并按照图片内容回答问题。
卢志武院长觉得,ChatGPT和GPT-4带来了研究范式的革新,须要积极去应对和适应。不过应听到,现有多模态生成模型都存在各自的问题,例如GPT-4暂时没有视觉版,因而在该方向上加码还是有机会和前景的。
能用图片聊天的「ChatGPT」
据悉,在平台生态与机制设计、图神经网路设计及应用等其他方面,高瓴人工智能大学的科研团队也有深入研究和成果,后者如长聘副院长祁琦团队,前者如准聘助理院长黄文炳团队。
具体地,祁琦团队旨在于研究平台生态环境下的机制设计(包括流量竞争机制、最优扶植机制以及多目标机制),同时探究通过扶植机制来维护平台生态,凸显出了机制设计在平台经济领域的宽广应用前景。黄文炳团队旨在于通过设计图机器学习技巧和图神经网路模型,挖掘图数据内在的拓扑和几何结构,解决抗生素发觉、3D化学场景模拟、智能体行为决策、社交网路剖析等跨领域重要问题。
中国人民学院高瓴人工智能大学长聘副院长祁琦发表讲演(左)、中国人民学院高瓴人工智能大学准聘助理院长黄文炳发表讲演(右)
对于这次与快手创立联合实验室,文继荣教授觉得,「学院自构建之初就跟快手有着千丝万缕的联系,快手给与了我们很大的支持。」其实,快手上述研究成果中就可以看见高瓴人工智能大学的身影,例如快手搜索与推荐单向推动的研究。宋洋表示,「后续与高瓴人工智能大学加强合作的一个方向是继续借助序列建模预测用户搜索情况。」
除了这么,高瓴人工智能大学还在其他多个科研领域与快手展开了合作,如基于用户搜索和浏览行为的推荐系统研究、基于知识图谱的推荐系统研究、基于视频-文本预训练模型以及基于检索的文生视频模型研究。
目前,双方在科技创新与人才培养方面均取得了丰硕成果,例如联合发表顶会论文5篇、联合培养11位硕博生。相关研究成果也着力提高了快手的业务疗效,提高了观看时长、完播率、点赞率、生产作品数等核心指标。
现在,中国人民学院-快手未来媒体智能联合实验室的创立将双方的合作推向了更深的层次,合作方式也会愈加丰富。
4月22日上午,中国人民学院-快手未来媒体智能联合实验室举行了首届学术研讨会——WWW2023论文分享会。快手的一众算法专家和中级算法工程师与高瓴人工智能大学的博(硕)士生共聚一堂,分别就基于多任务/偏好/表示的推荐、个性化搜索与推荐、可信搜索与推荐和基于加强学习的推荐等主题进行了精彩分享。另外,这次分享会的直播得到了中国人民学院实验室管理与教学条件保障处的大力支持。
在这次分享会上快手热门算法,高瓴人工智能大学副校长窦志成与快手总工裁江鹏分别做了贺词。国际万维网会议(TheWebConference,旧称WWW)是中国计算机学会推荐的A类国际学术大会,WWW2023已是第32届。高瓴人工智能大学和快手都分别有7篇论文被本届WWW大会录用,其中后者被录用论文囊括了对话式搜索、个性化搜索、推荐系统公正性、可解释推荐算法等方向,前者被录用论文涉及了加强学习、因果表征、提示学习、序列推荐、多目标推荐等方向。
窦志成称,作为未来媒体智能联合实验室的开门红活动,本次分享会为双方提供了学习和交流的平台,未来也将更多、更细致地开展类似学术活动。江鹏表示,本次分享会致力学习分享双方在推荐与搜索上的最新前沿技术成果,碰撞出更多的创新火花。
高瓴人工智能大学副校长窦志成祝词(左)、快手总工裁江鹏祝词(右)
未来,中国人民学院-快手未来媒体智能联合实验室将围绕多模态大模型、AIGC、数字人和搜推广等主题展开全面探求。「契合国家重大战略的发展需求,面向未来进行技术布局和联合研制,继往开来再创新的辉煌。」王仲远对此憧憬到。
快手与人大高瓴人工智能大学将会擦出哪些样的火花,我们拭目以待!
参考内容:
[1]PEPNet:ParameterandEmbeddingPersonalizedNetworkforInfusingwithPersonalizedPriorInformation()
[2]TWIN:TWo-stageInterestNetworkforLifelongUserBehaviorModelinginCTRPredictionatKuaishou()
[3]Real-timeShortVideoRecommendationonMobileDevices,CIKM2022()
[4]WebBrain:LearningtoGenerateFactuallyCorrectArticlesforQueriesbyGroundingonLargeWebCorpus()