OpenAI让大模型风暴风靡全球的最初那段时间里,快手并不是一个闪亮的角色。彼时,百度掏出文心一言,阿里掏出通义千问,腾讯掏出混元大模型,彼此追赶,研制与开放速率都很快。
快手不在最初的争夺名单里,甚至到如今,都甚少有人能叫出快手大语言模型的名子:快意。
战局在去年的6月6日发生改变,快手视频生成大模型可灵开放内测申请,这天也是快手13华诞司庆日。媒体经常将可灵和OpenAI的Sora对标,但从2月的爆燃性现身后,Sora迟迟未向公众开放。于是,好奇的中国用户开始涌入可灵。
10天后,可灵“已经(收到)好几万的申请量”,这一数据来自当日出席智源会议的万鹏飞,讲演时,他的头衔是快手视觉生成与互动中心负责人,也是可灵的实际负责人。到7月19日,申请使用人数超过百万。从万量级到百万量级的申请下降,可灵只用了一个多月,在儒佛大厂上半年的大模型进展中,这是最亮眼的表现。
可灵生成的图片,提示词:胡蜂在花丛中
翻身仗的故事总是大众喜闻乐见的。但仔细盘点可灵及背后的快手大模型业务即可发觉,这不是一场高调沉寂而后横空出世的古言戏码,也不是天才少年率领小团队后发制人的英雄叙事。
率先卷出AI视频的大厂,为何是快手?是业务需求带来了强烈成因和高优先级,是产品形态下的数据和技术积累带来了迭代速率,是业务场景的匹配度带来了真实顾客。
可灵的出现,不是一个偶发风波。国外,快手在AI视频领域的最大对手,大机率将来自字节跳动。
有需求,才有成因
创作者是快手内容生态内最重要的环节之一。依据快手官方公布的数据,2023年,首次在快手发布短视频的创作者就有1.38亿,全年发布的视频在平台内获得超过1万亿次双击。
拥有海量内容创作者,意味着快手须要承接她们对于内容工具的需求,否则追逐新兴生产力的创作者,很快还会驶向其他工具乃至其他平台的怀抱。这也是此前快影之于快手,和剪映之于字节的价值。
所以快手此前在大语言模型上的投入并不激进,但在多模态大模型的竞争中却要力争上游。
在可灵之前,快手自研的文生图大模型能力已接入快手,公测的结果是,用户在评论区月均生成5亿+AI图片。
可灵生成的图片,提示词:外星人站在黄河边
需求带来的强烈成因,纵然是可灵横空出世的必要条件,但拥有这种条件的并非只有快手一家。假如说对于可灵的问世还有哪些重要的影响因子,那可能是决心。
决心首先来自快手高层。
此前,快手在大模型上的动作总是变得稍慢半步。提到国产大语言模型,你们会率先想到文心一言、通义千问;提到大语言模型应用,市场上风头正劲的是Kimi和豆包。到文生图领域,国外市场率先出圈的则是商汤的日日新5.0——发布第二天早上,商汤科技股价大跌超过30%,临时复牌。
而此前的一系列故事里,快手在一个看似边沿的位置。视频大模型及其应用,是其在风口之争最不容错过的节点,也是整体大模型布局中最重要的一环。
此前科技媒体硅星人的报导中,可灵团队技术人员称:“盖坤常说的就是,公司的卡都给大家用,公司竭力支持。”盖坤即于越,快手中级总工裁,兼任主站线业务负责人,担任社会科学线负责人。前CTO陈定佳离任后,盖坤成为快手技术线最高负责人之一。
万鹏飞及其团队可能拥有更甚的决心。一个细节是,在决定接手可灵项目后,万鹏飞将原有承接各方业务需求的工作,交接给了张迪团队的其他同级别负责人。与之相对应的,可灵团队的其他成员,也各自交接掉了手头原有的业务,竭力投入可灵的研制中,假期加班赶进度是工作常态。
“其实即将发布一个多月前,可灵的测试疗效都还不算太好。”一位大模型行业从业者告诉刺猬公社,“老万她们算是背水一战。前面真的是‘大力出奇迹’,最后能有这样的疗效,好多人都没有预想到。”
于是决心成为最后一个变量。
有积累,才有速率
快手,或则说任何一个背部短视频平台,在研制AI视频上的积累彰显在两个方面,内容和技术。
视频由用户生产,经过平台的标明理解,筛选出可被分发的内容,这本就是快手业务逻辑中的固有路线。经过处理的内容成为一种数据,从对内容本身的描述,到分发后的受欢迎程度,快手把握了海量的内容数据,浅显地说,她们既有内容,也晓得什么是用户爱看的“好内容”。
对生成式视频大模型的训练而言,这一过程好比提前把菜备好了。
甚至“厨子”也是现成的。
可灵项目组的大部份核心研制成员,都是万鹏飞在Y-tech时期的老部下。年初,团队成员相继接触相关信息和资料,开始步入可灵的研制工作中。
此前,万鹏飞团队主要负责承接快手创作生态下的UGC智能创作需求,跟主站生产、快影、一甜单反等业务方合作紧密,产品形态包括人像美化、影音特效、直播虚拟形象等。
2021年,万鹏飞在全球人工智能技术会议上曾以“Y-tech部门AI技术平台负责人”身份公开讲演,当时分享的案例中,就有“活相片特效”——前大模型时代的图生视频玩法。当初,快手和快影的模板库就曾上线过“会动的老相片”特效,用户上传一张相片后,相片中的人物可以作出笑容、眨眼、点头等动作,产生视频疗效。据报导,这一动态特效在快影的使用量超过344万。
快手网友@森屿和鹿2021年发布的会动的老相片视频
2021年的万鹏飞就对生成式技术的发展十分有信心,并提出“生成模型会越来越强悍,生成的内容愈加逼真,且生成的过程愈发稳定可控。”
五年后,可灵再次以“复活老相片”作品出圈,一些申请到使用权限的用户,通过“图生视频”功能,将逝世亲戚的相片转变为视频。和五年前的“活相片特效”相比,通过开放式的指令,用户可以让相片中的人物完成更复杂的动作,这正是新的大模型技术带来的变化。
Sora发布于去年2月,快手可灵团队在接近的时间点开始成立,但对多模态驱动的视频生成技术的研制和应用,仍然在万鹏飞及其团队的工作范围内。
上述从业者向刺猬公社抒发了相像的观点:“实际上Sora的出现,相当于让你们在哪个节点把技术路线或则说方案确定出来了,并且好多对视觉技术的应用,包括多模态的事情是她们仍然以来都在做的。”
可灵须要的技术层面积累正来自于此。厨子遇到了备好的菜,在全世界都听到一张新菜谱后,快手成为最快炒出成品的团队之一。
但同时,上述从业者也对可灵能够常年在技术和产品上坐落领先位置持观望心态。“大家现今用的算法是类似的,各家可能有一些微调,但大差不差。”在他看来,有卡、有数据、算法差不多,各家作出疗效接近的产品只是时间问题。
所以速率只是快手暂时的优势,她们须要在领先的窗口期,把优势真正转化为稳定的顾客。
有场景,才有顾客
2020年12月29日,快手在内部全员信里首次即将发布作为企业价值观的“快手派”,并称“痴迷顾客”是快手价值观的核心。
此前,不管是快手内部还是其他互联网大厂,更常提到的概念是“用户”。因此,快手特地解释了这一词汇变动的诱因。“公司业务复杂度变高,从‘用户’扩展到‘客户’,顾客包含了生产者和消费者、B端顾客和C端用户、外部顾客和内部顾客。我们须要加大对生产者、B端顾客的理解与认知,我们也须要指出对内部顾客的服务意识。”
站在2024年回首,那确实是快手业务结构变化的重要分水岭。2020年,快手的全年净利中,直播产值占比从前一年的80.4%增长到56.5%,线上营销服务产值占比从19%上升至37.2%,包括电商在内的其他服务产值占比,则迅速从前一年的1%飙升至6.3%。
就像快手自己曾阐述的那样,生产者和消费者、B端顾客和C端用户、外部顾客和内部顾客,都是快手的重要顾客,也将成为快手大模型的目标顾客。
生产者和消费者,共同建构了快手最基本的业务链条,生产者生产内容,消费者消费内容。大模型产品的价值,在于增加生产门槛,同时提高内容质量。
后者挺好理解,正如可灵目前能实现的那样,输入文本或图片,即可获得一段视频,对没有拍摄条件和制做能力的人来说,生产门槛被急剧减少。
前者初听有点反常识——以当前AI视频产品的拟真能力和输出宽度,如何可能在质量上胜于真实拍摄和专业制做?但在快手和抖音这样的腹部平台,每晚被生产出的数千万个短视频中,大部份来自普通用户,专业内容生产者眼里“不够精致”的AI技术,早已足以让普通用户的随手拍平添素材与丰富度。
B端店家同样可能成为快手大模型能力的顾客。依据快手去年在世界人工智能会议上公布的数据,其AI广告收入已突破2000万/天。AI生成的广告素材,可以在单条成本增加到0.47元的同时,将CTR保持在基准线上。
可灵生成图片,提示词:苹果汁广告素材,蓝色桌面上有一杯苹果汁,边上有两个红苹果
对好多大模型产品而言,找落地场景是贯串产品生命周期的困局,但快手其实不缺场景。正如快手总工裁、大模型负责人张迪说的那样,可灵的出圈源自“在真场景中挖掘真价值满足用户的真需求”。
她们要面对的困局在于,在现有场景下,怎么让用户成为快手大模型的高频使用者,并乐意因此持续付费,先在自家生态内实现大模型的商业化。
7月25日,可灵全面开放注册,同三天,可灵上线会员体系,步入收费阶段。
依据可灵官网信息,非会员用户当日每日登入时可获赠66个灵感值,根据当前的“标价”,大概可免费生成6个视频或330张图片。
付费模式则分为两种,一是会员模式,用户可以按月、季度、半年、一年为周期选购不同等级的会员,等级越高,可生成作品数越多;二是冲值模式,用户可以直接付费冲值,换算出来,用户每位视频的生成成本为1元,每张图片的生成成本为2毛钱。
可灵生成的图片,提示词:日出,天边有漂亮的云彩和晚霞,太阳藏在云层里
对于可灵的定价体系,值得关注的有两点。
一是快手没有提供可无限次生成作品的会员选项,这意味着,无论选择冲值模式还是会员模式,用户实际上都在“花钱买次数”。区别只是每次生成的均价,以及去水印、视频延长、大师运镜等比异性功能。
AI视频的生成成本高,不提供可无限次生成的会员,快手其实是想防止可能出现的成本失控,也能在一定程度上杜绝灰产。
二是作为可灵“支付货币”的灵感值,和快手生态内打赏主播所用的快币,在定价上是等值的。1块钱人民币,可以订购10个快币,也可以订购10个灵感值。这样的定价方法,显然是为后续在快手生态内打通支付系统保留可能性。
同时拥有需求、场景、客户、设备、数据、技术、人才储备的,远不止快手一家。
上述行业人士预判,在不久的将来,字节才能作出同级别的生成式视频产品。而在此之前,快手须要在窗口期内完成用户沉淀和内容沉淀,让AI内容在快手生态内有效运转上去,最好能够跑通商业化路径,在领跑者的位置上坐得更久一点。
常规的下降和营运手段已被提上日程。可灵官网迅速上线了会员全线七折活动,同时用户每日登入可获得66个灵感值,以减轻付费模式对用户下降和存留的影响,让所有用户起码可以先无门槛地使用尝鲜。
据悉,在快手站内的营运中,可灵并未过多指出生成式视频、扩散模型方案、分布式训练集群等概念,而是用“老相片变视频”“穿越时空拥抱你”“复活40年前合照”等玩法,先吸引用户上手使用,以减少用户的理解成本。
对于普通用户来说,新的玩法和过去的快影特效玩法难度一致路径一致,她们将其理解为一种更强悍的特效,无论是否据说过“大模型”这三个字,都不阻碍她们成为大模型产品的实际用户。
这正是快手和字节做AI视频的终极先手,假如用户是自家的;也是它们在AI时代面临的终极危机,假如用户被新的断层式产品吸引走。
与其说是它们要角逐AI视频时代的入口,倒不如说它们都是守擂者。新的生产力会制造出新的内容形态,最终缔造新的平台,这个故事,程一笑和张一鸣都再熟悉不过。
她们必须做第一梯队。