计算机视觉和模式识别领域的顶级会议CVPR-3D任务

网络整理 2024-01-31 01:05

机器之心发布

机器之心编辑部

在正在进行的 CVPR2021 上，快手有多篇论文被接收，涵盖三维视觉、目标测量、视频目标分割、人脸伪造技术检查等热门研究领域。

计算机视觉和模式识别领域的顶尖大会 CVPR 正在进行中，本次会议接收率为 23.7%，其中快手有 14 篇论文被接收，这也是快手在国际视觉技术相关领域顶尖大会上中稿最多的一次，研究成果数目的阶段性爆发标志着快手校企合作从探索期逐渐步入成熟期。

此次快手的中稿论文，涵盖了三维视觉、目标测量、视频目标分割、人脸伪造技术检查等热门研究领域，部分研究成果已应用于快手业务中，实用价值明显。本文将对部份论文成果进行评析介绍。

1、Camera-Space Hand Mesh Recovery via Semantic Aggregation and Adaptive 2D-1D Registration

论文链接：

本文的主要贡献是借助语义聚合与多维度插值实现了单反空间的手部三维重建。针对虚拟交互任务，我们对手部三维重建进行了研究，称为 hand mesh recovery。mesh 包含 pose 和 shape 两层含意。人体本身是一种很强的先验条件，在这些条件下，2D-to-3D 任务是一个非常有价值的研究方向，其核心问题不再是进行某种 3D 测量，而是完善图象特点与几何形状以及人体运动学之间的关系。同时，由于生活中少有 multi-view image 或者 3D sensor，2D-to-3D 任务有较强的应用价值。

详细论文剖析：

2、Regressive Domain Adaptation for Unsupervised Keypoint Detection

论文链接：

深度网路的成功取决于大规模的标记数据，然而人工标明数据一般须要消耗大量的人力物力，域自适应（Domain Adaptation）的目标是让模型从有标记的源域迁移到没有标记的目标域，因此可以有效地减少标明数据的成本。将虚拟数据训练出的模型迁移到真实数据上，是一个很有前景的方向。

尽管行业上提出了不少域自适应的理论和算法，但大部分域自适应算法在回归问题上都不奏效。为了解决这个问题，我们首先可视化了模型的预测结果。结果显示，当无标记目标域上预测出错时，错误预测的位置并不是在象素空间均匀分布的。例如，当左脚跟腱关键点预测错误，则错误预测很可能坐落右脚脚背或则其他关键点处，而坐落背景的可能性极小。这一发觉说明，在机率意义上，模型的输出空间是稀疏的。如果能将输出空间从完整的象素空间缩小到仅有 K 个关键点的离散空间，则缩小回归问题与分类问题之间的差别将成为可能。

详细论文剖析：

3、Cycle4Completion: Unpaired Point Cloud Completion using CycleTransformation with Missing Region Coding

论文链接：

三维扫描设备在对三维物体进行扫描的过程中，受限于视角、遮挡和设备等各类诱因，扫描下来的三维物体常常是不完整的。为了补全缺位的三维物体部份形状的研究——三维点云形状补全，便应运而生。本文的研究正是聚焦于这一问题，通过借助深度神经网络来训练和学习补全三维模型的方式。通常而言，这一类的研究方式是通过有监督（Supervised）训练的方式，然而在现实中，获取残缺三维模型的完整形状常常是十分困难的，使用有监督的方式会面临训练数据不足的问题。对此，该研究提出了使用无配对的形状补全方式（Unpair）。我们受启发于 CycleGAN 的无监督学习方法，提出了在不完整形状数据和完整形状数据之间，通过 cycle transformation 学习两个数据集的形状对应性，并结合非对称形状约束的方式，让网路学习出将不完整三维形状转变为完整三维形状的技巧。在 3D-EPN 数据集上基于非配对训练的实验结果也证明了，该方式才能在完整和不完整形状的迁移学习过程中，充分学习到两类形状之间的对应性，并取得非配对形状补全方式中的 SOTA 水平。

4、PMP-Net: Point Cloud Completion by Learning Multi-step Point Moving Paths

快手热门计算公式_快手热门算法机制_快手热门算法

论文链接：

近年来，基于深度神经网络的三维点云形状补全研究遭到了广泛的关注。在诸多的三维点云形状补全的研究中，网络的结构设计遵照的是生成式网路框架。但是，三维点云作为一种离散数据，使用生成式网路一般很难在预测的过程中正确地打造出无序点集内在的拓扑结构和几何形状，导致在三维点云形状补全的任务中，网络除了要预测残缺区域的完整几何信息，还要兼具高质量的三维点云形状生成。

针对这一问题，本文提出了一种全新的点云补全网路 PMPNet（point moving path network)，以绕开对完整点云形状的直接预测，采用将残缺点云形弄成完整点云的方法来间接地预测残缺点云的完整形状。

详细论文剖析：

5、 Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

论文链接：

本文的算法主要集中在交互式视频目标分割（interactive VOS， iVOS ）领域, 用户可以不断迭代交互优化目标分割结果。该技术在短视频智能编辑、特效制做和短视频创作等领域具有宽广应用前景。

文中提出了一种模块化的交互式视频目标分割算法，包括高度前馈的三个模块，分别是单帧图片交互分割（Interaction-to-mask）、帧间目标掩膜传播（Mask Propogation）和帧间差别感知融合（Difference-aware Fusion）；这种高度前馈的特点让算法可以取得更好的性能以及更高的泛化性。经过单独训练的单帧图片交互分割模块可以让用户更便捷地获取其感兴趣目标的掩膜（Object Mask）; 然后由 Mask Propogation 模块使用一种新颖的 Top-k 过滤策略将已获取的 Object Mask 前后传播，自动获取前后多帧中感兴趣目标的 Mask; 最后，Difference-aware Fusion 模块借助时空记忆器机制（Space-time Memory）融合每次交互后的 Object Mask，从而获取更精细的感兴趣目标分割结果。基于不同方式的用户交互（例如，涂抹，点击）模式，作者在 DAVIS 数据集上进行了定性和定量评估，实验表明该算法在须要较少的帧交互的情况下可以获得精确的分割结果，胜过当前最先进的算法。

详细论文剖析：

6、Deep Video Matting via Spatio-Temporal Alignment and Aggregation

论文链接：

传统的抠图技术借助图象的色调等底层特点来分离前景，但疗效受制于底层特点的有限抒发能力。随着深度学习的发展，深度神经网路被应用于抠图技术中，从深度网路提取的高层语义特点就能从复杂场景中确切区别前后背景，从而极大的提高了抠图疗效，基于深度学习的图象抠图技术也因而成为主流的图象抠图技术。近年来，短视频的大热进一步催生了更复杂的视频抠图的需求，如何提高视频抠图疗效也成为了时下的重要课题。

快手联合香港科技大学推出了新的视频抠图框架，这是第一个基于深度学习的视频抠图算法。该算法是一个两阶段算法，可以在仅提供少量关键帧的 Trimap 下，将 Trimap 传播到其他帧，并融合相邻帧的频域信息形成具有连续性和一致性的预测结果。该算法的两个阶段都不需要估算光流，为并行估算提供了便利。在深度视频抠图技术仍未被有效探求之际，该研究弥补了这一技术空缺。考虑到深度视频算法一般须要大规模的训练数据，文中还提出了一个基于合成的大规模视频抠图数据集，用来支持后续的视频抠图技术研究。

详细论文剖析：

7、 Group Collaborative Learning for Co-Salient Object Detection

论文链接：

人类的视觉系统复杂且高效，不仅可以从单张图片中测量出最吸引人的物体，还能从一组图片中提取出图象中共现的物体。对于计算机来说，前一种能力被称为显著性物体检查，而后一种能力被称为协同显著性物体检查。显著性目标测量只须要对单张图片进行处理和检查，根据人眼的视觉注意机制找出图片中最具有信息量的区域和物体。而协同显著性物体检查须要对一组图片中的多张图片进行处理，通过探求多张相关图片之间的内在联系来发觉图象中共同的明显目标。但是现有的协同显著性目标测量算法的鉴别能力不足，无法分辨不同类别的物体。

该研究提出了一种基于协作学习的协同显著性物体检查算法，在训练过程中加入了不同类别的条件信息，使得网路按照给定的类别条件对图片进行测量，大大提高了模型的鉴别能力，进而提高了协同显著性物体测量的性能。

快手热门算法机制_快手热门算法_快手热门计算公式

论文详尽剖析：

8、Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers

论文链接：

由于物体的真实轮廓和遮挡边界之间一般没有区别，对高度重叠的对象进行分割是十分具有挑战性的。与之前的自顶向下的实例分割方式不同，本文提出遮挡感知下的双视口实例分割网路 BCNet，将图象中的感兴趣区域（Region of Interest，RoI）建模为两个重叠视口，其中底部视口检查遮挡对象，而底视口推理被部份遮挡的目标物体。双视口结构的显式建模自然地将遮挡和被遮挡物体的边界前馈，并在 Mask 预测的同时考虑遮挡关系的相互影响。该研究在具有不同主干和网路层选择的 One-stage 和 Two-stage 目标检测器上验证了单层前馈的疗效，显著改善了现有图象实例分割模型在处理复杂遮挡物体的表现，并在 COCO 和 KINS 数据集上均取得总体性能的急剧提高。

详细论文剖析：

9、 Semantic Image Matting

论文链接：

一张图象可以简单看成是由两部份组成，即前景和背景。而图象抠图（Image Matting），就是指从图象中提取出我们所感兴趣的前景目标，同时过滤掉背景部份。假设原始图象用 I 来表示，α为对应的 Alpha 通道快手热门算法，F 和 B 分别表示对应的前景和背景图象。那么一张 RGBA 通道的图象可以通过公式

得来。

不同于语义分割，抠图属于软分割（Soft Segmentation）之一，其难点在于怎样处理精细的头发结构以及具有不同透明度的前景物体。由于抠图是一个不适定问题（ill-posed），即在只给定 RGB 图像的情况下，Alpha、前景以及背景视口都是未知数，因此在前景物体未知的抠图场景中，通常用户会提供额外的输入告诉模型待求解的前景物体的大致位置和形状，如 Trimap 图。Trimap 图，又称三类别掩膜图，是由三个类别的组成的，前景的 Alpha 值为 1，背景的 Alpha 值为 0，未知区域一般为待求解区域。给定 RGB 图像和 Trimap 图的情况下，传统抠图算法一般基于取样（Sampling）或传播（Propagation）来求解前景物体的 Alpha，但其性能一般受制于传统图象特点的抒发能力。随着深度前馈网路（CNN）的广泛应用，基于 CNN 框架的抠图算法日渐成熟，抠图性能也有了质的飞跃。

详细论文剖析：

10、Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection

论文链接：

随着基于自编码器和生成对抗网路的图象生成技术的快速发展，以 deepfake 为代表的人脸伪造技术在娱乐大众的同时快手热门算法，也带来巨大的安全隐患。与之对应的，人脸伪造检查也渐渐成为计算机视觉领域研究的热点。

目前的测量方式大多数将伪造检查任务转化为二分类任务来处理，使用 softmax loss 监督网路在自然和篡改人脸的混和数据集上训练。但是如图所示，在 softmax loss 监督下学习到的特点本质上差异性不足，因为 softmax loss 没有明晰的约束类内的紧凑性和类间的离散性。一些研究注意到了这个问题，尝试使用 triplet loss 提取差异性特点。但是，常规的测度学习方法一般无差别的约束特点类内的紧凑性，忽略不同类别类内分布的差异性。为了解决这个问题，来自中交大、快手的研究者提出了一种新的单中心损失 SCL （single-center loss）。

详细论文剖析：

关于快手技术的更多新鲜内容，欢迎搜索快手官方技术公众号（id：gh_96fee918d420）详细了解。

THE END

快手热门算法

上一篇：QQ代刷网稳定、安全、值得信赖多一份保障！下一篇：没有了

计算机视觉和模式识别领域的顶级会议CVPR-3D任务

合作伙伴

商务合作

关于我们