创立八年,短视频平台快手目前早已有超过两亿人在每晚登入使用,每天还有超过 1500 万条短视频被制做和上传,每天的累计观看数更是达到 150 亿。
拥有这么庞大的用户数,快手用户囊括中国社会的各个地域和阶级,生产丰富的视频内容。这些用户拍摄的视频如同一个社会博物馆,几十年后许多生活方式和民俗就会随着社会变革而消失,但它们都以最原始的方式保存在快手用户视频里,其覆盖之广泛其实连任何官方或专业的影像资料都未能取代。
有媒体用这样一句话来概括快手平台的作用:在快手上遇到最辽阔的中国。几年前在新闻稿上读到这句话,让王华彦至今印象深刻。
提高两种 AI 算法效率服务快手“老铁”
毫无疑问,王华彦认可快手作为短视频平台传递出的这些价值理念,如今作为快手坐落硅谷的 Y-tech 实验室负责人,他告诉 AI科技大本营(ID:rgznai100),这也是其加入快手的其中一个主要诱因。
价值理念的匹配尚且重要,但自己的研究兴趣与快手在同一技术方向上的注重,让这些单向碰撞会一拍即合。2018 年 7 月,王华彦在其耶鲁师弟、现快手 Y-tech 负责人郑文的牵线下即将加入。
王华彦,现快手 Y-tech 硅谷实验室负责人。他是斯坦福大学计算机科学博士,师从概率图模型(graphical models)领域的顶级学者和奠基人之一的 Daphne Koller 教授研究计算机视觉。就读斯坦福大学人工智能实验室期间,为复杂化的概率图模型开发了高效的推理算法。他的研究曾登上在ACM 通讯(CACM)的研究亮点(research highlights),并在多个顶尖大会上发表。王华彦专科和硕士阶段就读于北京大学,师从査红彬教授,也曾在香港科技大学杨强院士的实验室访学。
在此之前,无论是在哈佛读博,还是后来在硅谷做通用人工智能的公司 Vicarious AI 担任中级研究员,王华彦的主要专注点仍然是怎样从各类角度增强 AI 算法的效率。他进一步解释,**效率包含两方面:一是学习阶段借助数据的效率,即借助更丰富的模型先验结构从更少的数据学到更多知识,二是推理阶段的估算效率。**围绕这两大方向,他的一项研究成果入围了 2013 年 ACM 通讯(CACM)的研究亮点(research highlights)。
在 Vicarious AI,他和团队的研究工作继续围绕提升效率这一目标,重点关注数据效率和泛化(generalization)能力,他们发觉,在特定场景下高度结构化的模型还能用几百分之一的训练数据就超过业内最强的卷积神经网络(CNN)的泛化能力。这一研究最终发表在 2017 年的《科学》(Science)杂志。
快手的核心技术需求与王华彦的研究方向高度契合。为了辅助用户进行更多内容生产,快手在业务中使用了大量 AI 技术进行赋能,比如美妆装饰特效、跳舞机游戏、控雨特效、AR 特效、染发特效、背景替换和魔法表情等。这些特效用到了人脸关键点、人体关键点辨识、手势辨识、视觉惯性里程计、头发分割、背景分割等 AI 技术。
这些技术应用背后,需要通过标明大量图象,作为数据集进行监督学习,训练出模型。但这些方法并不非常有效,相比人类只须要少量样本的学习方法而言,效率很低。
同时,快手的“老铁”们普遍使用的大众型手机对 AI 算法的推理估算效率提出了前所未有的高要求,这促使她们快速开发并在大众联通设备上布署最先进的 AI 算法,而目前业界开发 AI 算法的主要困局在于数据,如果能急剧增强数据借助效率能够提升开发效率。
问题在于,快手具体怎么提升借助数据的效率以及推理估算效率?
追求极至效率:开发下一代计算机视觉算法
坐落在耶鲁校园门口的快手 Y-tech 硅谷实验室,其研究大方向是追求 AI 算法的极至效率,王华彦称,他们在技巧上主要专注于借助愈发结构化的模型以及结构化的视觉信息表示,充分利用先验知识,提高算法效率,从而落地到内容理解、编解码和内容生产等不同的场景。
将这种模型应用布署到端上,主要的挑战来自任务的多样性以及联通估算设备及其底层软硬件的多样性。他强调,将一般性的普适性方式应用到不同的场景中须要适应它们各自的性质和需求。
而所谓的追求“极致效率”,在研究方面的彰显就是开发下一代计算机视觉算法。
目前业界和学界基于卷积神经网络(CNN)和大数据的计算机视觉方式有比较显著的局限性,王华彦举例称,人的视觉系统只须要极少的样本能够学习一个概念,而 CNN 需要特别多的样本。这是因为人在听到一个物体的时侯,对于它的形状、轮廓、纹理、颜色等属性有一个结构化的(structural)、可分拆的(compositional)表示方法,而 CNN 在“看到”一个物体的时侯,这些不同方面的属性是被混和在一个“黑袋子”里面,造成了 CNN 在学习概念的时侯借助样本的效率很低,因为它未能将不同的样本以比较合理的方法联系上去。
值得注意的是,在深度学习盛行之前,早期的计算机视觉方式更多的是采用这些结构化的表示方法,但并没有取得深度学习方法这样成功以及业界的广泛应用。从近年的发展来看,王华彦觉得,越来越丰富的结构化信息表示方法正在被引入到深度学习方法中,但离才能从极少的数据中高效率学习的“下一代计算机视觉算法”还有特别大的距离。
从推理估算效率方面来说,人的视觉系统在面对动态场景的时侯,会将物体的属性和运动信息分离开来,并不会每时每刻都反复重新“识别”一个在运动或变型的物体。一个高效的计算机视觉系统也应当对动态信息采取类似的表示方法及推理方法,即由当前时刻物体的属性和状态自然推演下一时刻物体的属性和状态。这一过程就须要将物体的形状、纹理等各方面的属性进行一种可分拆的(compositional)表示,从而对它们分别运用对应的先验知识进行推理。
而基于 CNN 的方式因为未能将物体各方面的属性分开表示,在面对一个动态场景时,不可避免地须要进行大量冗余估算,反复重新“识别”物体及其状态。这其中很大部份的估算资源浪费都须要在一套可分拆的视觉信息表示方式下才有可能解决。
当然,AI 算法处理信息的方法和人脑还是有特别大的不同,所以他觉得以上所述不能被粗鲁地理解为“模仿人脑建造 AI”,而应从人的认知行为在个别特定方面的个别特点获得启发,找到目前 AI 算法潜在困局以及才能提升的地方。
探索计算机视觉等 AI 前沿算法尚且不错,但更常见的是,大部分实验室环境下表现优秀的算法却在实际落地到应用时不尽人意。
在王华彦看来,前沿算法因为很“前沿”,往往欠缺一个成熟的“使用说明书”。比如在 A 情形和 B 情形下应当怎样 debug 等等,这常常须要有一定研究经验的算法科学家和工程师来按照具体情况剖析解决方案。而学界做研究跟业界做研究一个明显的不同点在于,前者发表一篇论文常常是展示一两个新算法的成功案例,而后者的一个方法性研究工作要想成功落地,则须要一个比较流程化的描述,对各类可能碰到的情形都还能做到有章可循。在他看来,如何开发一个这样的“流程”应是算法落地的主要挑战。
————————————————
前方高能!「2020 AI 开发者万人大会」强势袭来!此次会议特邀来自谷歌、英伟达、亚马逊、华为、腾讯、百度、阿里、华为、字节跳动、美团、快手、蚂蚁金服等100+位技术大咖,分享最新AI技术、产品与行业施行案例、技术实践经验与AI未来发展趋势。
心动不如行动!私信发送“优惠码”,即可获取报考地址+优惠码,你将免费获取299元套票一张!!