快手是如何一步步积累人工智能的? 《机器之心》采访了快手多个业务部门的老手,希望能还原快手人工智能从0到1的全过程。
我在CVPR上看到的快手和我记忆中的不一样。
CVPR,全称IEEE International Conference on Computer Vision and Pattern Recognition,是计算机视觉领域与ICCV、ECCV并列的三大顶级会议。今年的 CVPR 于当地时间 6 月 16 日在美国加利福尼亚州长滩开幕,吸引了 9000 多名与会者、284 家赞助商和 104 家参展商。
这是快手第一次参加CVPR。在一个约40平方米的展区,快手展示了一个基于面部特征识别的demo,可以在海量视频库中找到与参与者长相相似的用户。有趣的演示很快引起了与会者的注意,人群聚集在展位周围,一睹他们的“双胞胎”的真实面貌。
给我印象最深的是一位黑色短袖短发留胡子的大叔。因为匹配的结果太相似了,大家都笑了。
这种新奇的体验让我对快手的人工智能产生了兴趣。曾经有过用快手“暗黑”的日子,也知道“记录世界,记录你”“老铁双击666”的快手标语。这个短视频应用给我的生活带来了很多乐趣。 然而,快手的人工智能似乎从来没有被认真讨论过,至少与其他活跃在手电筒下的中国科技公司——BAT、TMD,或者商汤、旷视、依图相比。
想想看,快手应该比大多数中国科技公司更依赖人工智能。成立8年来,快手的日活跃人口已超过2亿。公司业务涉及生产、审核、配送、消费,需要处理海量数据,快手自身业务的特点。没有机器学习的支持,很难达到今天。 .
快手是如何一步步积累人工智能的?带着这样一个问题,我采访了快手多个业务部门的老手,希望能还原快手人工智能从0到1的全过程。
第一个深度学习团队
2015 年 12 月,彭博社发表了一篇题为“为什么 2015 年是 AI 突破性的一年”的文章。
这一年,人工智能遍地开花。谷歌开源机器学习平台TensorFlow,成为全球最大的机器学习平台;此前冷门的亚马逊智能音箱Echo已经占据了整个音箱市场25%的销量; 10 月,一个名为 AlphaGo 的智能体首次亮相,击败了职业围棋选手。没有人会想到,这个智能体会在不久的将来掀起一股巨大的科技浪潮。
1-12月,全球超过300笔投资涉及人工智能领域,几乎每天都有人工智能初创公司获得融资的消息;人工智能也在中国被资本追逐。德勤报告显示,2015年中国人工智能总投资达4.50.7亿元,同比增长306%。
在此背景下,2015年底,快手迈出了深度学习的第一步。创始人兼CEO苏华找到李彦,希望他可以组建一个深度学习部门(DL组),利用算法打击盗版和非法内容。彼时,快手已经拥有超过1亿的Android和iOS用户,用户分布在北京、上海、广州等一二线城市和多个三四线城市。
苏花
确保内容的安全性和原创性是几乎所有视频应用程序的必要条件。过多的非法内容会挤压内容生产者的流量,进而拖垮整个平台。也就是说,这是快手生存的底线。
受苏华委托,李彦毕业于中科院计算所。 2015年11月,李彦组建了一个不到十人的团队,目标是秒杀非法内容,包括色情、暴力等,以及识别非原创和盗版视频内容。
为了招人,李岩尝试了各种方法,甚至在知乎上寻找人才。当时有些研发人员对快手并不了解,有些工程师只是因为离家近就来面试,但面试后被快手的所作所为所吸引,毅然选择加入快手。
在技术积累的过程中,快手对视频内容的理解提出了更多需求:视频中的人在说什么?场景在哪里?你想表达什么?深度学习部门不再局限于解决视频安全或版权问题,而是希望帮助快手“老铁”更快地找到自己喜欢的内容。
深度学习部门只有图像和音频两个单模态内容理解团队,但视频理解出身的李彦坚信,多模态内容理解对于快手这样的短视频公司来说极其重要在2018年的一次公开演讲中,他举了一个例子,“在一个男人表演腹语的视频中,如果把声音关掉,光看图片信息我们不知道他在做什么,可能感觉他是在唱歌还是在唱歌。这表明如果您只看它,您可能无法获得真实的信息。”
“视频是一种结合了视觉、听觉和文本模态的信息形式,而用户行为也是来自另一个模态的数据,所以视频本身就是一个多模态问题,加上用户行为。这是一个更复杂的多模式问题。因此,多模态研究对于快手来说是一个非常重要的课题。”
2016年,深度学习部门开始涉足语音、文字、音乐等多种媒体形式。李岩决定将团队名称从深度学习组改为多媒体理解组(简称MMU)。
这一年后来被称为短视频元年,资本涌入这个风口。 65%的市值投资于短视频内容创作者,垂直细分领域的短视频内容达到76%。
在接下来的2017年初,完成了3.5亿美元融资的快手率先在短视频领域的“厮杀”中脱颖而出,总用户和日活跃用户达到400分别为 100 万和 4000 万。截至年底,这两组数据分别增长到7亿和1亿,视频日均上传量超过1000万。快手团队的规模也从200多人扩大到800多人。
自此以来,MMU群迅速扩张,各个单模群都引进了业内顶尖人才进行算法优化和工程实施。起初,不同形态的业务组独立发展,2018年各组算法开始融合。
多模式理解的挑战
作为快手的第一个深度学习团队,MMU团队面临着巨大的挑战。
这几年,单模态内容理解的能力在学术界还不够成熟,学术界对视频理解也没有强烈的研究需求,导致一套视频理解的解决方案还没有已形成。在业内,即使是全球最大的视频平台YouTube,也能在一定程度上绕过视频理解,因为它的视频拥有丰富的文字信息——标题、简介、标签。
但快手不一样。作为移动互联网时代兴起的短视频应用,快手为用户提供了轻量级、新颖的视频拍摄体验。用户喜欢拍摄后上传视频,但不喜欢文字编辑,描述视频的文字信息严重缺失。快手还需要看懂内容来做推荐算法,而视频理解成为了一道不可逾越的坎。李岩表示,快手是一家早期的公司,对视频内容分析有很强的需求。
复杂的应用场景和多样化的用户分布给MMU带来了另一个维度的挑战。负责视频理解方向的赵旭,是MMU团队的老员工。他给机器之心举了个例子:快手有很多风景的视频内容,一些风景优美、灵感自由的图片就像《仙境》,所以快手的《仙境》标签需要描述诸如“仙境”;但在学术界的数据集中,你不会看到这种“怪异”的标签。
“这不再是具体的分类算法问题,而是如何定义一个合理的标注系统。”
语音组最直观的问题是方言口音。 MMU语音集团岳朗表示,快手用户的地域分布结构与中国移动互联网的人口分布结构基本一致:一线城市仅占人口的7%左右,其余93%生活在非一线城市的人,尤其是很多小城镇的年轻人,或者三四线以下的人,说话口音很重,这就需要快手收集特定方言区域的语音和文字数据。
音乐团队面临的挑战之一是为用户评分。传统的歌唱评分是将用户演唱的歌曲与原始歌唱音频进行比较,匹配度越高,评分越高。但是在快手,很多用户都是来自偏远地区的少数民族,他们唱的民歌和民歌在快手的检索库中是找不到的。
“我们现在要问的不是 1+1 等于 2 的问题,而是当你计算 1+1 的时候,你会发现你连笔纸都没有。”赵旭说。
经过两年的探索,MMU集团逐渐形成了基于多模态技术的两大业务体系:信息分发和人机交互。前者利用多模态来实现对视频内容的准确理解,后者利用多模态帮助人们更好地记录生活。
为了更好的理解这两个方向,我们分别举个例子:冷启动项目属于内容分发,即用户第一次打开快手APP时,算法除了获取到的字符外,无法获取任何行为。内容和视频数据,因为用户打开快手的页面是为了“发现”而不是“关注”,所以快手需要在冷启动阶段提供个性化的内容推荐。 MMU小组在2018年参与了一个优化冷启动的项目。
在人机交互中,视频配乐是典型的多模态理解场景。 MMU音乐组的水涵告诉机器之心,快手需要先了解视频,包括人脸识别、年龄性别、动作时间、地点和场景识别,然后再了解风格、节奏、主题、适合度。的音乐。这个过程涉及多个部门之间的协作,包括视频理解、人脸识别、自然语言处理、视频检索、音乐检索,最后是推荐算法等方面。
算法优化带来的红利是显着的。 2018年第二季度,快手APP月活跃用户数达到2.4亿,日活跃用户数突破1亿。今年4月,腾讯为快手追加4亿美元融资,让快手估值接近200亿美元。
但多模式研究给 MMU 团队带来的挑战并没有就此停止。李岩表示,多模态研究还存在三大难点:单一模态的语义鸿沟在多模态融合后会进一步加大,因为样本空间变大了;建模,会有数据异质性缺口;多模态数据集构建困难,存在数据缺失问题。
MMU的下一个目标是从低层次的感知过渡到高层次的语义理解,李彦认为这是“目前业界最难的问题”。 MMU目前正在开发一个视频分级系统,为了更好的保障未来成人使用快手,这就需要算法对视频内容有更深入的理解:一个视频表达了什么样的概念?流露出什么样的情绪?
“我认为视频内容理解是未来人工智能在现实生活中大规模爆发的关键技术,而快手在这方面既有战场,也有数据。我们的 MMU 应该是未来的人工智能产业。关键力量,”李彦说。
凯首的“Google X”
在MMU发展的同时,快手也在大力发展其他部门,比如负责音视频传输和质量保证的音视频技术团队,负责推荐的社科团队。与 MMU 一样,这些部门以业务为导向,专注于产品开发和技术实施。
随着快手视频理解技术在推荐、内容安全等方面的应用越来越成熟,苏华希望成立一个专注于前沿算法的实验室,为用户添加好莱坞等特效内容'内容制作。人工智能可以让用户获得新颖的体验。
于是,2016年,苏华找到了他在清华大学的老同学,斯坦福计算机系的郑文博士。在斯坦福大学期间,郑文的研究主要集中在计算机图形和电影特效方面,他的导师曾两次获得奥斯卡科技奖。毕业后,郑文在美国继续从事机器学习和计算机视觉方面的研究。
文成
2016年9月,在苏华的劝说下,郑文回国加入快手,成立了Y-Lab。郑文当时对国内媒体表示,“我觉得他想做的事情很有意思,很符合我的经历,我也很感兴趣,所以就回来了。”苏华没有设定具体的考核标准,只要做点有趣的事就行。
Y-Lab 的早期员工、现任增强现实 (AR) 技术负责人孟松回忆了与苏华的对话。他表示,苏华想成立一个类似Google X的技术部门,从事AI和AR领域前沿技术的研究和探索,规划未来。
Google X 是谷歌最神秘的部门之一,汇集了世界顶级专家,他们开发了谷歌最早的神经网络系统、谷歌眼镜、自动驾驶汽车(后来分别孵化了 Waymo)等项目。据国内媒体报道,Y-Lab中的Y代表Young,Y是X的下一个字母,所以也代表超越X。
“我们现在为 5G 做的技术研究和 3D 图像捕捉的初衷是成为 AI 和 AR 的世界领先者,”孟松说。
在接下来的两年里,Y-Lab开发了各种有趣新颖的demo,涵盖AR特效、人脸关键点、手势识别、语义分割、人体关键点检测等领域。
去年,Y-Lab 的“AR 上的面部移植效果”受到了网友的好评。用户可以选择相册中的照片,将相册中的人脸转移到AR 3D模型中,生成一个带有人脸的长3D头像。
同样在去年推出的神奇表情“凯首时光机”,可以预测60年后用户的面貌,并演示了随着年份的整个变化过程,引起了众多网友的情感共鸣。在这款神奇手表的背后,其实涵盖了快手的动态人脸抓拍、基于时间的人脸变形与美颜、头发分割与染色、动态控制老化等技术。
快速时光机
为了让AI算法能够在不同的移动设备上运行,Y-Lab自主研发了深度学习推理引擎YCNN。负责人脸关键点开发的修虎告诉机器之心,YCNN可以在手机上进行底层的神经网络运算(如卷积运算);建立量化流程,配合手机码,加快推理速度,不失准确性。团队在做算法的时候,也会有意识地根据YCNN的特点设计匹配网络结构。
然而,Y-Lab 遇到了许多企业实验室的共同问题:优秀的尖端算法无法转化为产品价值。由于Y-Lab本身的定位是前沿探索,预计业务产出不高。但是,作为企业实验室,Y-Lab不能像学术机构那样做“春暖花开”的研究,需要为企业做贡献。
2018 年,Y-Lab 为魔术表情部门设计了许多新的底层算法,例如 3D 照片、天空图像、面部关键点等。但由于 Y-Lab 和下游特效团队分属两个部门,因此他们之间的沟通问题导致魔幻表情的整个上线过程不如预期,用户数据也不理想。
调查原因,负责语义分割的晨星透露,在算法真正落到产品上之前,涉及多个部门。 “我们(Y-Lab)只关注算法层面,算法完成后如何去实现算法,不是一个部门能完成的事情,这样一来,就有问题了。算法做好之后,一定要保证实现后的效果好。是的,如果不在一个部门,中间的沟通成本会比较高,算法最终效果不可控。”
去年底,部门为了解决这个问题进行了调整,将魔法表达部的特效团队并入Y-Lab,并招聘了几名计算机视觉相关的算法专家,加入了产品经理,并添加产品。设计和工程能力。
为了增加团队内部的交流,除了周会,Y-Lab今年还新设了一个单元叫“胜利会”:员工聚在一起分享本周的进展和成果,大家可以带来小吃会上谈笑风生。
据几位资深员工透露,部门调整后,团队的沟通变得更加顺畅。合并后的第一个项目是做染发特效。 Morningstar 的团队使用深度学习为头发区域创建了语义分割算法。获得公司内部“闪电奖”。
染色效果
作为此次重组的标志,快手正式更名为Y-Lab Y-Tech。从Lab到Tech,背后是整个实验室定位的转变。
组织架构的调整对团队产生了一定的影响。晨星表示,过去团队的主要精力主要集中在研发上,但现在也需要关注产品落地的业务,负责的事情更多。不过,他并不认为整个部门的基因都发生了变化。 “我们仍在跟踪最前沿的技术,并在做非常愿意和有很大潜力的事情。”
为了继续加强整个实验室的前沿探索能力,在本次结构调整中,快手又为Y-Tech增添了一支生力军——来自西雅图和硅谷的海外实验室。
算法背后的包容性价值
刘季和王华燕是去年下半年加入快手的。当他们提到加入快手的原因时,他们都提到了价值观。
2018年初,刘季在北京国贸饭店宴会厅认识了苏华,两人同时入选《麻省理工科技评论》中国青年英雄榜。刘霁当时是腾讯人工智能实验室的专家研究员,罗切斯特大学的助理教授。因“让机器学习算法更精准高效,探索人工智能潜力边界”获得发明者称号;在快手取得的巨大成功,荣获“企业家”称号。
两人素未谋面,但与苏华交流后,刘吉对加入快手产生了兴趣。 “我们(指他和苏华)做事更注重逻辑,国内很多公司还是习惯于复制粘贴,但我认为他做事是从解决问题本身,从原则出发,和我的差不多。方法论是一致的。”
刘继去年11月加入快手,担任西雅图人工智能实验室和FeDA商业化实验室的负责人。
王华彦是斯坦福大学的博士。 Coursera 创始人兼斯坦福大学教授 Daphne Koller 的学生。毕业后加入硅谷人工智能独角兽Vicarious创始团队,并在此待了四年。
王华燕在2019CVPR快手展台
为了招募王华彦,郑文飞到硅谷与他交流。王华彦表示,他能感觉到,快手提升AI算法效率的需求非常迫切。 “快手希望把最先进的算法用在手机上,这个需求和我的研究兴趣——比如如何让人工智能算法和人一样高效——是一样的。”去年7月,王加入快手担任硅谷实验室负责人。
虽然都是海外,但两个实验室的研究方向和定位不同:硅谷实验室专注于数据效率和计算效率,瞄准的是Y-Tech的产品业务。据王华燕介绍,硅谷实验室近期将推出一个项目,可以在安卓上实现与iOS机型版本相同的效果。和手机一样的美颜效果。”
Yato AI 实验室目前专注于设备端模型压缩的尖端算法。今年,刘霁教授带领的快手研究团队与美国罗彻斯特大学合作,发表了两篇基于能量建模的模型压缩论文,分别发表在ICLR 2019和CVPR 2019上。两种方法都是基于硬件模型的个性化模型压缩——让人工智能惠及大量低端电脑用户。第一篇 ICLR 2019 论文主要通过权重级别的细粒度剪枝获得稀疏性。 CVPR 2019第二篇论文主要通过通道级粗粒度剪枝获得稀疏度。
不同于学术界对未知可能性的探索,刘季的研究思路围绕着快手的平等和包容的价值观,即让每个人都有平等记录的权利。 “我们和现在很多学术论文最大的不同就是,实际上都是离线完成的,不受实际硬件的限制。我们现在做的一切都必须在手机上完成,而且数据是实时的。而且,很多快手用户 我们的很多 AI 功能都需要运行在这些低端配置上,这对我们的技术提出了更高的要求。”刘继说。
另一个以刘霁教授为首的部门——FeDA智能决策实验室。这是与商业化团队建立的西雅图-北京联合实验室,主要专注于利用前沿的搜索技术,高效、准确地连接用户价值和商业价值。这也是2018年10月成立的部门,当时快手正式宣布开启“商业化元年”。还有一点,Fe指的是快手的专有名词——“朋友经济”,也是化学元素符号中铁原子的缩写。
据刘霁介绍,目前整个西雅图实验室大概有十个人左右,但是“一个人支持一个项目”。近期,FeDA为广告推荐部门重新设计了基础计算设施,从主流的CPU处理方式转变为GPU方案,单机效率提升600多倍;将强化学习应用于广告竞价,收入增长 5 个百分点。
刘霁在2019CVPR快手展台
“极端”的含义
在2019年的快手年会上,苏华和另一位创始人程以晓谈了20次“追求极致”。苏华在年会上强调,“希望每一个学生都能拥有追求极致的精神”,“不追求极致,就无法取胜。”
如果想起最近快手曝光的一封内部信,不难看出一向稳重佛系的苏华为何在年会上情绪激动。
6月18日,快手两位创始人的内部信被曝光,罕见而猛烈地警告公司员工,快手将“改革组织,优化结构,提前实现3亿DAU的目标” 2020年春节。。”
在这封内部信发表之前,快手还在快速成长。 2018年全年,快手DAU增加6000万,DAU达到1.6亿。不久前,快手副总裁王强宣布,快手日活跃用户超过2亿。成立八年来,快手拥有员工8000余人。但快手的竞争对手也在努力。截至2019年1月上旬,快手日活跃数已超过快手,超过2.5亿,月活跃数已超过5亿。
创始人在一封内部信中说,“在看起来不错的数字背后,我们看到了一个深层次的隐患:我们不再是最快的团队,随着我们的成长,我们的肌肉开始增长。我们变得更弱,响应速度变慢,我们与用户的联系感也在减弱。”
“是的,我们对现状非常不满,松散的组织,佛家的态度,‘慢公司’正在成为我们的标签。这让我们彻夜难眠。从去年年底开始,从我们两个开始,快手的管理层进行了深刻的反省和反思。”
据快手内部员工告诉机器之心,快手各个部门已经开始进入战斗状态。不少员工周六自发来公司加班,甚至有的部门出现“996”状态。这是过去。快手比较少见。
因为3亿DAU的“大KPI”,技术部门没有做出明显的调整。他们能做的,就是像苏华所说的那样“追求极致”。
Y-Tech的孟松举了一个例子,“我们在同时研究很多前沿的新技术,项目要求至少领先竞品3到6个月,这些都没有。技术成熟了,有解决方案可以参考,甚至业内很少有人在尝试,但大家都非常愿意和有动力朝这些方向努力。”比如在混合现实领域,快手正在探索适合快手用户的产品形态,并致力于融合先进技术,在用户的手机平台上实现,用算法为用户带来新奇的体验. 这是一个非常具有挑战性的项目,但即便如此,快手还是要走这条路。
快手圣地亚哥实验室负责人王祥林告诉机器之心,可能大部分内部人员都不知道他的音视频团队目前的工作:快手正在参与新一代的制定视频压缩标准。快手与全球各大公司、高校科研院所共同致力于将自主研发的技术融入国际标准,掌握下一代视频压缩标准的话语权。
追求极致听起来像是一个抽象的概念,但对快手来说却有着重要的战略意义。
在快手中,用户行为随时随地影响内容推荐,比如点击视频、加心、评论、观看视频时长等。当用户下拉页面时,内容也在发生变化即时的。快手的生产者比例非常高,因此要求快手处理的UGC数量是竞品的数倍。快手是一家重算法的技术驱动型公司。即使算法改进百分之一也可以转化为巨大的商业价值。 A small step in pursuit of the ultimate is a giant leap for Kuaishou.
Conclusion: Artificial intelligence improves happiness
Most of these Kuaishou veterans interviewed are loyal "old irons" of the Kuaishou platform.
After having children, Morningstar has made two or three hundred videos of her own children. He said that he belongs to the minimalist school and doesn't use magic expressions very much, but his wife likes to use them. For example, he uses magic expressions to make a child ugly and then makes a video, which is very interesting.
"Because we understand algorithmic logic, we think this thing may not be so magical; then they will think this is very magical, and they like to take pictures. When they see people playing this magic watch at home, they are very surprised. I In fact, I still feel quite accomplished.”
Chao Xu said that he is an extremely serious Kuaishou veteran. "I usually spend about an hour on Kuaishou, and this does not include the time to watch the background data." See what he didn't recognize. "For example, did I not add this tag, and where I am not very accurate."
Because he has been in Silicon Valley all the year round, Wang Huayan added a touch of nostalgia to Kuaishou. "I saw a video, it was a scene in a rural area. The old lady was walking on the road, and then a neighbor came up and asked to take the old lady to her house for dinner. In rural China, you know that the human touch is very important, and then the old lady is reluctant to go. , and then that person insisted on pulling away, and the two of them were like a fight, and they started pulling like that on the road."
"If it is in rural China, people who have this experience will think this is a very common scene, but it will not appear in any official records. If there is no platform like Kuaishou, this kind of Chinese folk culture may be gone in another 50 years.”
At last year's Turing Conference, Su Hua once said: "What kind of problems should AI be used to solve, not mathematical problems, but what problems should be solved for society and human beings? After thinking about it for a long time, I have an answer. In the field of practice over the years, I want to understand that no matter what kind of technology we do, it should be used to improve the happiness of human beings, or to improve the sense of happiness. "
This feeling of happiness refers to these.
(Note: Chaoxu, Shuihan, Yuelang, Xiuhu, Chenxing and Mengsong are all pseudonyms in the text)
Shibei GMIS 2019 Global Data Intelligence Summit was held in Jing'an District, Shanghai from July 19th to 20th. With the theme of "Data Intelligence", this summit focuses on the most cutting-edge research directions, and at the same time pays more attention to the development of the data intelligence economy and its industrial ecology, so as to provide reference for the technology from research to implementation.
The summit will set up keynote speeches, keynote speeches, AI art exhibition, "AI00" data intelligence list release, closed-door dinner and other links. The confirmed guests are as follows: