主讲人|快手科技多媒体内容理解部负责人李岩量子位编辑|公众号QbitAI
“AI技术贯串于整个快手产品的骨髓之中,通过AI技术进行多维赋能,让更多人有机会被世界听见,也能看见更宽广的世界。”5月25日,在2019全球人工智能技术会议(2019GAITC)上,快手科技多媒体内容理解部负责人李岩如是表示。
会议在北京召开,李岩在“人工智能与媒体融合前沿峰会”作了讲演。李岩作为快手科技的代表,述说了快手怎样用AI技术去赋能每一个普通用户,让每一个人的记录方式更丰富、有趣、高质量。
李岩说,快手在AI技术上的精耕,增加了短视频的创作门槛,使用户尽可能地接近专业水准。而在理解内容、理解用户中实现视频和用户的精准匹配,让每个用户获得更大的诠释空间,同时见到了更大的世界。
他觉得,通过短视频实现的记录,让人与人以及人与世界联接上去,是很有意义的,从整体来看,提高了网民之间的信任。
以下为讲演内容实录(有删减):
十分高兴有机会介绍在快手这样一个短视频社区,AI是怎样应用的,具体会形成哪些样好玩的AI应用。
我的分享分为三部份。第一部份简单介绍一下快手;第二部份介绍AI技术怎么帮助用户提高视频创作质量,减少创作门槛;第三部份介绍AI技术怎么理解视频,理解用户,并做好分发。
快手是哪些
快手把自己定位成普通人记录生活和分享生活的社区型产品,通过短视频、照片以及直播的方式,帮助人们记录自己的生活,使每一个人都有机会被世界看见,也能见到更宽广的世界。
快手在2011年诞生,去年创立8华诞,目前DAU已达到2亿。2011年,GIF快手是做动图的工具,2013年联通互联网盛行,我们看见了短视频的重要影响和作用,2013年7月,工具型产品变革为短视频社区。变革短视频社区以后,快手的数据实现了指数级下降,2015年1月,快手日活用户超过1000万,截至到如今,快手的日活早已抵达2亿。
在中国的互联网市场gif快手 热门,日活2亿量级的APP十分少。凭着数亿用户几年的积累,现今有超过100亿条短视频记录在我们的社区里,并以每晚新增1500万条短视频的速率降低gif快手 热门,4年前这个数字只有几十万。
在快手里,用户记录了大千世界里的方方面面,在这儿我们可以看见好多种真实有力量的生活,有些画面是我们在大众媒体看不到的。
例如这个视频,鸭绿江的放排人在运输木材,把高山上的木材沿着水流运到山下,这些古老的水运方法早已甚少被人知晓,在快手这群人被数百万人关注到。
还有这个视频,这是城市工地上的“水鬼”,这个职业很冷门,但一二线城市的每一座高楼大楼都须要她们,在用建高楼大楼打地基的时侯,须要用电锤挖几十米的大坑,电锤头掉了须要她们潜到几十米深的混浊泥水中,把电锤恢复原位。
普通用户记录的生活,囊括的内容赶超了之前的记者或则专业人士记录、调研的范围。有数亿人在快手记录自己的生活,这儿有当代的百工图,有全球各地的田野习俗,还有用户记录的各色各样的旅行生活,也有复旦、人大等院校院长讲解知识进行知识传播,这种画面集聚上去就是一幅我们当代生活的端午上河图。
AI帮助用户用更低成本创作出更高水平的视频
接出来,我重点讲一下AI技术怎么帮助这款短视频产品做得更好。我希望帮助诸位媒体的同学们了解到,AI技术虽然是贯串于快手的产品骨髓之中,应用在视频生产、视频理解、用户理解到视频推荐的整个环节。
视频创作环节,我们希望每位人都能成为自己生活的编剧,用手机去记录生活,并且生成相对较高质量的视频。怎样帮助每位人成为自己的编剧呢?在视频创作环节快手广泛应用了AI技术,用科技去赋能普通用户,使她们尽可能接近专业制做视频的水准。
我们希望让用户用更低的成本创作出更高水平的视频,这就须要让AI推动于内容生产。
例如,快手之前上线的一款魔法表情叫“快手岁月机”,用户可以在几十秒钟内看见自己容貌变老的过程。一个人拍自己的视频是很无趣的,我们希望用户就能体验到自己变老之后的样子。
又例如,把AR技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟的元素,这属于提高现实,使虚拟世界和现实世界更好的互动,使人们在记录自己生活的时侯有更多的新奇的体验。
再例如,我们会运用图象相关的算法,帮助用户去矫治拍摄中出现问题的视频,例如脏镜头引起的视频画面模糊,光线问题引起的画面狭小及画面偏色的问题。
这种玩法和功能的背后是快手对前沿AI技术的开发,涉及人体姿态恐怕、手势辨识、背景分割等多个技术模块。那些都是快手努力将记录方式显得愈发有趣的新尝试。
这儿有一个挑战,上述技术都要在手机本地实时地进行估算与渲染。快手拥有数亿用户,用户的手机型号千差万别的,这要求我们的算法必须在所有的型号上都能流畅运行,这对我们AI能力的要求是十分高的,十分消耗估算资源。为了解决这个问题快手自研了YCNN深度推理学习引擎,解决了AI技术运行受限于用户设备估算量的问题。
音频方面,我们也做了特别多的工作。例如之前专业的人在创作视频时,编辑字幕是十分苦闷的事情。如今我们通过语音辨识技术,可以帮视频制做者手动添加、编辑字幕,但是还可以以各类各样的方式展示字幕,利用AI的技术极大地增加了生成字幕的成本。
在短视频场景里音乐起了十分重要的作用。据统计,快手的视频中,有60%-80%的视频用背景音乐衬托氛围。怎么选择恰当的音乐抒发心情,虽然是不容易事情。让用户尽量贴合音乐的节奏创作动作,对于用户的要求也是十分高的,具备很强乐感的人虽然十分少。
为了增加用户创作视频时选择音乐的门槛,我们开发了智能配乐及AI生成音乐的技术。智能配乐可以依据视频画面及用户画像为用户推荐适宜视频画面,并被用户喜欢的背景音乐供用户选择。
AI生成音乐通过AI的剖析算法,可以感知到视频画面中人的动作,之后让生成的音乐节奏匹配人的动作,这样是极大地增加了用户创作视频时选择音乐的门槛,让你们更乐意创作自己的视频。
用AI理解视频,理解用户,做好分发
里面分享的是AI技术怎么增加人工创作短视频的门槛,使普通用户都可以创作出质量还不错的短视频。用户创作并上传到我们的社区后,我们又做了什么事情更好的分发那些视频呢?
理解视频显然十分复杂,对人脸经度的解析、场景类的解析、音乐类的解析等等,这种都是从单个角度进行建模,虽然视频须要多模态的解析。
我们须要做到让机器高效的判定用户上传的视频是不是符合规则的,判定视频内容是不是原创的,以及要做到把视频精准的匹配给对他感兴趣的用户。
我们让机器就能帮助我们管理好上传的海量视频,同时帮我们做好视频的推荐,并且推荐给用户的视频是能迸发用户兴趣的。
这儿还涉及用户理解,指的是让机器理解我们的用户,其中包括理解用户在社会学上的特点,以及用户的兴趣,包括他的短期兴趣爱好以及中常年兴趣爱好,以及海量的才能代表用户特点的更小的向量。
在视频的分发上,快手上有一个十分有意思的现象,我们不希望腹部的视频内容抢占太多的爆光,我们用经济学上的基尼系数控制平台上用户之间的“贫富差别”。
互联网上的注意力资源是十分宝贵的资源,我们希望这些宝贵的资源也能分给普通人,而不是像聚光灯一样集聚在少量的腹部用户头上。
所以我们设计了快手的推荐机制,无论是名星还是普通人在快手都是一样的。快手注重生产者的利益,注重长尾视频内容的分发。
我们希望注意力资源可以向阳光一样撒给所有生产视频的用户,这样普通人就有机会被更多人关注,才能感遭到被关注被认可的幸福感。
通过短视频实现的记录,让人与人以及人与世界联接上去。我们觉得,构建这些联接是十分有意义的事情。我们每位人的内心深处都是孤寂的,都希望通过联接去获得关注、认可,但是能结识同学。
因而,快手用户之间的关系会黏性更高,更稳固。从整体来看,这可以提高网民之间的信任。