爱收集资源网

快手粉丝下单秒刷平台,快手5元一千粉丝·

网络 2023-05-27 15:14

口述 | 王仲远,快手技术 VP

整理 | 王强

审校 | 刘燕

在 AICon 全球人工智能与机器学习技术会议(2021)北京站上,快手技术 VP 王仲远带来了主题为《Al 技术在快手短视频创作与理解的应用》的讲演,分享了快手在 AI 技术领域的实践与探求成果。本文由 InfoQ 根据王仲远的讲演内容整理,希望对你有所启发。作为国外短视频行业背部平台之一,快手有 3.2 亿日活用户,月活达 5.7 亿,此外还有 1.8 亿海外月活用户,存量短视频已达数百亿量级。在快手平台上,用户每晚会花超过 100 分钟观看短视频及直播内容,用户互相关注数也超过 140 亿。

快手平台内容丰富多彩,山河景色、萌宠、搞笑、极限运动、才艺、美食……包罗万象。从内容在快手平台上的流转过程这一视角剖析,可以将全流程具象为内容生产、内容理解和内容分发三大环节。本次分享将分别介绍 AI 技术在这三大环节的应用。

AI 技术在内容生产环节的应用

sss视频在线今日看点_今朝多看点2016视频_快手和看点赞视频

AI 技术在快手平台内容生产环节应用十分广泛,其中美肤、美体、自动字幕、自动配音是标配的基础 AI 能力;智能变音、魔法表情、AR/MR、智能视频创作、虚拟主播等属于中级 AI 应用。

美颜几乎是每一个同类 App 标配的能力。传统美肤技术主要依赖滤波器 LUT 的形式,需要大量的去锐化、接滤镜等工作。

在 AI 时代,很多 AI 技术被用于美肤流程,获得较传统方法愈发自然的疗效。除美肤外还有毛发生长、画质提高、双眼皮等变美形式,通过 AI 可以轻松实现。

在核心技术实现上,快手采用 encoder-decoder 结构,其中的重采样频域结构采用先聚类,再升维的网路结构,从而能在手机上流畅运行。除美肤外,AI 还可以应用于人脸属性的变换,如年轻人变老、瘦人发福、改变性别等。

在人脸属性变换中有两种技术路线。一种是域迁移技术,使用青年组相片通过 CycleGAN 这样的形式学习预设的老年组相片。另一种技术路线使用隐空间来做一些属性的编辑操控,如 StyleClip,从而改变人脸属性,实现变老、变年青或则变性别的疗效。

平台还在流行人像风格化,比如特别流行的手绘画、东方国漫风格等。此类复杂的变化基本都通过 StyleGAN 等深层次网路实现。为了更高效获得数据,快手团队使用 StyleGAN-blending 等方法生成高质量的配对数据,并使用半监督混和训练框架及 Human-in-loop 策略,以适配快手场景的风格模型训练与迭代,来深层匹配人像风格化的生成结果。

除了对人脸视觉信息的变换外,团队还可以对声音做多种变化。以智能 RAP 为例,用户只需上传一个视频,系统会手动做视频场景理解,通过 NLP 技术生成一段 rap,使用语音技术生成饶舌疗效。此外,原始声音可以变换为小妹妹、卡通小新、四川土话等种种风格。

音频领域的另一大 AI 应用是 AI 歌手,该项目立项已有两年多时间,音准等指标有了显著进步。AI 歌手的能力帮助好多快手用户,尤其是不太擅长跳舞的用户实现了当歌手的梦想,因为智能变音功能可以学习用户的音质,通过 AI 歌手功能确切唱出歌曲。此外,快手团队还研制了 AI 自动编曲能力,已经在小森唱 App 上线相关功能。

视觉及声音的好多变换玩法落地就会搭配快手的魔法表情功能,这是一个帮助用户低成本创作视频的辅助工具。团队将 AI、MR 技术融入到了魔法表情功能中,例如在视频中的建筑上作出熊猫,在地毯上加花纹,放飞许愿灯,建筑物表面加 AR 广告等等。此外还有团队自研的流体特效,可以按照手机方位感知水流变动。魔法表情功能背后涉及三大核心模块,包括位姿跟踪、深度恐怕和场景重建。

智能创作是平台内容生产环节近日的研制重点,旨在依托素材的混剪帮助用户愈发方便地创作高质量短视频。它的应用场景特别广泛,如用户下降、商业化广告、内容供给补齐等各种各样的新玩法。

例如一段疗效接近专业水准的宣传视频,传统上须要数十万成本、几周时间才会制做完成,现在 AI 模型只需 30 秒才能生成。这样的专业级短视频制做能力是每一个用户都能体验到的,会促使高质量视频制做步入到普惠化时代。

短视频智能创作背后同样依赖于平台强悍的素材理解能力,以及跨模态语义匹配、智能配乐、语音合成、转场特效等能力,最终合成疗效出众的电影。

AI 技术在内容理解环节的应用

当众多内容生产后上传到快手平台,平台须要对那些内容做内容理解。每一天有数千万短视频被上传到平台,团队希望让机器也能像人类一样理解那些视频的内容。

理解内容的第一步是对杂乱无章的视频做基础的分类和标签,像图书馆归纳书籍一样一样对视频分门别类。快手平台的类目达到 4 至 5 层级,类目树有数千个节点。例如运动属于一级类目,下分游泳、滑雪、健身等次级类目。

快手通过这种类目和标签对平台上每一个作品进行结构化处理,表达成让机器可以理解的多模态 Embedding。通过多模态 Embedding,系统可以快速检索出在平台上和某个视频相像的其他视频。

除了视频级内容理解以外,快手团队还在研制“万物检索”功能,希望实现元素级检索。例如某个视频中某一件画作出自谁手,某个包的品牌等信息,都须要愈发细粒度的内容理解能力。

快手早已实现了对内容视频中的实体或则元素进行辨识的能力,并能通过辨识来找到包含同款商品或则相像元素的短视频。该功能背后用到了多模态理解细细度元素的系统,其中包含细粒度主体检查和检索功能。

今朝多看点2016视频_快手和看点赞视频_sss视频在线今日看点

AI 技术在内容分发环节的应用

在内容分发侧,快手团队将 AI 技术和推荐技术做了融合。

在快手平台上,推荐是无处不在的,推荐场景也有诸多差别,例如单列精选页、上下降形态、双列发觉页等等。关注页的推荐融合了社交信息,同城页融入了地理信息,以此类推。

不同的推荐场景背后使用的推荐模型也大有不同。快手在推荐系统方面研制了一个超过 1.9 万亿参数的模型,其中还深度融合了内容理解能力。

举两个简单反例展示内容理解 AI 技术和推荐系统结合的实例:

1、视频的冷启动。

快手和看点赞视频_今朝多看点2016视频_sss视频在线今日看点

一个新视频上传到平台做完结构化理解后,最初并没有其他用户的反馈,很多基于用户行为的推荐方式最开始是无效的。

一种方式是给它分配一个固定的流量池,获得用户的初始反馈,这是比较低效率的分发。

另一种方式是基于内容理解对视频质量做预估,基于不同的质量预估分数给与它不同的流量初始分配,帮助视频更好地扩散。

2、长期兴趣建模。

大部分行业的推荐系统都是基于过去数百个客户体验来做建模,而快手这一创新构架升级才能把数万个用户行为序列与内容结构化结果结合上去。该技术在行业里处于领先水平。

本次分享介绍了 AI 技术在快手平台上方方面面的一些应用。快手会将这种 AI 技术向全行业更广泛地分享出去,希望你们关注快手 AI 开放平台 (ai.kuaishou.com)。

快手和看点赞视频