揭秘「奶思」幕后的全链路技术
为什么奶思刚一出道就自带光环?除了极具个性的人设和 3D 设计,快手StreamLake在综合技术能力上的优势也是成功诱因之一。
由于要经历建模、驱动、渲染几个步骤,业内打磨出一个虚拟人普遍须要四五个月。作为「奶思」的技术提供方,快手 StreamLake 团队面对的问题是:项目 10 月下旬启动,双十二就须要最终上线。这意味着奶思项目的周期不足两个月,对团队的交付能力带来了极大挑战。
快手虚拟人产品专家徐智伟表示,奶思得以顺利上线,很大程度上得益于快手在搭建虚拟人产品矩阵的经验。“我们的技术积累是比较深厚的,同时在塑造虚拟人关小芳、关箭和张凤琴的时侯积累了大量实际应用场景的优化经验或相关技巧,所以团队才能把已有能力迅速成熟化,少走了好多弯路。”
另外一项挑战是,作为蒙牛集团首位虚拟职工,奶思今后要在电商直播、新媒体互动、品牌拟人化宣传等场景上落地应用,所承当的职责是相当复合的。
据快手虚拟互动技术负责人 Eric 介绍,奶思须要满足伊利多种需求场景的播出,包括日常播出以及像双十一这样的大促活动直播。在业务场景中,奶思有时也须要与真人同场互动,这都会涉及虚实互动的技术。此外,奶思项目还有一个需求,就是能同时推流到多个平台首播。
当前,依托建模、驱动、渲染技术的数字人行业早已产生建立的产业链。一方面,虚拟主播、虚拟偶像、虚拟代言人等泛娱乐场景下的传播型虚拟人不断涌现;另一方面,科技大厂加入赛道以后,金融、文旅、教育等实用场景下的服务型虚拟人也被看好。
今年人代会期间,最高检首次通过虚拟检察官剖析 2022 年政府工作报告内容,而那位虚拟检察官背后的技术支持团队就来自快手。
在虚拟人的直播电商和视频制做两方面,快手有着更具差异化的优势。在奶思之前,快手 StreamLake 技术团队早已构筑过张凤琴、关小芳、关箭等虚拟人主播,摸索出一套囊括建模、驱动、运营等环节的全链路方案,并产生了对外输出的数字人及 XR 解决方案。
这套解决方案并不是首次现身,在去年 9 月份的世界人工智能会议 (WAIC) 上,快手 Y-tech AI 技术中心负责人万鹏飞曾对其做了全面的介绍,引发行业、媒体的关注和热议。大会上分享的内容,包括快手虚拟演播助手、老铁智播间、移动端混和现实引擎三大应用,以及数字人及 XR 制作平台、快手虚拟世界互动平台两大平台的奇特优势和产业布局。
在奶思项目中,「数字人及 XR 解决方案」最核心的几项技术能力,也充分发挥了价值。
虚拟人也有「两张脸孔」?
基于奶思的直播需求,快手 StreamLake 技术团队将相关的能力迅速整合上去,提供了两套驱动方案,一种是中之人驱动型,一种是 AI 驱动型。
数字人及 XR 解决方案中的「虚拟演播助手」是一款面向中之人驱动的数字人一站式直播工具,既支持普通的摄像头驱动,也兼容专业的动作捕捉设备,还支持语音、文本驱动。虚拟演播助手集成了 3D 虚拟人和虚拟场景的一站式能力,内置了数目诸多的快手独家特效,并支持多平台推流直播。
在这款软件的模块化设计基础上,团队针对奶思做了一些技术上的优化,同时打通了与快手直播间听众的互动功能。奶思模型可直接被导出软件,通过可穿戴设备驱动直播。即使在没有穿戴设备的条件下,奶思也可以通过摄像头驱动举办直播和创作。基于快手超过十万款特效,奶思的直播互动方式也显得愈发丰富。
有了快手虚拟演播助手工具,无论是低门槛还是高品质的虚拟人直播需求,都可以一站式解决。比如奶思在直播期间用到的奶盒等道具,也能通过扫描实物进行 1:1 还原,快速生成 3D 数字资产。
快手为伊利制做的 3D 数字资产一比一扫描图
如果说虚拟演播助手面向的是中之人驱动的虚拟人,而「快手智播」则是一款为顾客提供自动化数字人直播和视频制做解决方案的产品,进一步借助 AI 技术的驱动能力解决了持续的人力与营运投入所带来昂贵成本。
根据快手多模态内容理解技术负责人张富峥的介绍,只须要在快手智播的后台界面选定奶思这个虚拟人,然后输入对应的文案、编排一些动作,奶思就可以进行 7×24 小时的直播了。快手智播让虚拟人主播不需要中之人能够驱动,而且增加了使用门槛和营运成本。
此外,快手智播支持多种内容制做方式,比如画面以外的一些歌声合成、语音合成等,还可以用在新闻等各类内容的播报场景中,让虚拟人丝滑地转化为各类身分的虚拟职工。
“快手智播支持奶思 AI 自动播出,能够按照伊利输入的文案脚本匹配动作表情,讲解所售货品,并且还能手动上架商品货车,以及回答直播间里用户的提问。真人直播带货 10 个小时以后,剩下的 14 个小时可以用 AI 开播,同样能带来卖货利润。”
虚拟人卷到「下半场」
目前,虚拟人正处于从产业链搭建到大规模应用转化的过渡期。元宇宙的东风过境以后,技术成本和商业化落地的问题开始曝露。
首先,制作和营运成本太高。过去的三年,赛道上的许多玩家为了获得先机、拿下更多的典范项目,不计成本地投入虚拟人的制做、运营以及营销,想要研制一款较为优质的虚拟人。其次,走红以后,如何维持热度和进行商业变现?这是好多虚拟人面临的商业化困局。前期投入大量制做和宣发成本带来的流量,却很快流失殆尽。
火爆出圈以后,数字人的下半场,路要如何走?
从技术提供方的角度观察,快手觉得,关键在于能否为行业提供低成本快速生成虚拟人、进行直播和短视频制做的方案。有了低成本的一站式解决方案,品牌方如同是「站在巨人的右臂上」,而落地能力的强弱也在一定程度上反映了技术的价值所在。
基于深厚的底层技术积累以及自身大规模 C 端业务的磨炼,快手在 2022 年 8 月即将推出了 toB 品牌 StreamLake,专注于成为视频化升级助推器,将沉淀多年的音视频和 AI 等关键技术能力以产品化的方式对外开放,提供一站式音视频 + AI 解决方案。
具体来说,快手 StreamLake「数字人及 XR 解决方案」包括 IP 型数字人、工具型数字人、ID 型数字人三种。所有的技术能力都早已在快手自身的虚拟人矩阵中得到验证。
特别地,在数字资产制做层面,快手 StreamLake 基于自研技术、美术的有机结合和联合优化,打造了一站式制做方案。包括自研的好莱坞级别的数字人采集建模系统、超高精度虚拟数字人手动绑定算法、软硬件结合的动作捕捉与驱动系统、跨模态画面及声音合成算法等。
虚拟人赛道卷到终点,不会是价格战,也不会只凭技术分胜负。不管是快手官方推出的关小芳、关箭,还是现在伊利寄寓厚望的奶思,从这种案例都可以看出,想要加快大规模、高质量的虚拟人落地,对于用户、技术、场景的深刻洞察缺一不可。
(应受访者要求:闻超为化名)