机器之心编辑部会freestyle的AI来了，给定动作与音乐

网络 2023-02-27 15:01

机器之心专栏

机器之心编辑部

会freestyle的AI来了，给定起始动作与音乐，新方式DanceNet3D就可以生成一段与音乐合拍且流畅优美的群舞。

最近，AI街舞生成技术的擂台大有你方唱罢我登场之势。微软团队的AIChoreographer刚推出不久，就迎来了强劲的对手——DanceNet3D。

先来看段Demo：

眼球运动神经_bp神经网络算法反向传播原理_神经网络反向运动学

DanceNet3D是由来自慧夜科技、北航以及港英文MMLab的学者联合推出的高质量三维街舞动作生成算法。给定起始动作与一段音乐，该算法可以生成一段与音乐合拍且流畅优美的街舞。该算法结合了慧夜科技在动漫产业界的技术经验，采用了人体运动的关键动作-中间运动参数曲线的抒发方式，为运动生成的建模提供了一种全新的思路。

相比于其他运动生成方式，该方式的生成疗效具有明显优势：

据悉，该工作还提出了首个由专业动画师团队构建的高质量街舞数据集PhantomDance。该数据集收集了Niconico、YouTube上的300个热门街舞，包含宅舞、嘻哈、爵士、OldSchool等多种风格，由专业动漫团队在职业舞者指导下，长达18个月完成。对比目前学术界来自运动捕捉或真人街舞视频的三维重建算法，PhantomDance在音乐匹配程度、动作柔美程度、艺术表现力上都具有绝对优势。目前该团队公开了其中的100个街舞-音乐数据对，这种数据对组成了PhantomDance100。

bp神经网络算法反向传播原理_眼球运动神经_神经网络反向运动学

两阶段街舞生成框架

因为数据基本都来始于动作捕捉、三维重建，街舞合成、乃至更广泛的运动合成研究领域，因而常常会把问题建模成逐帧的骨骼参数（位移、旋转）的输出。但是在实际的3D动漫产业中，无论是动漫制做软件Maya、Blender，还是游戏引擎Unity3D、Unreal，角色运动都是用曲线来编辑和表示的。这儿的曲线指的是位移的(t_x,t_y,t_z)，旋转的(r_x,r_y,r_z)等参数中的每一维作为横轴，以时间为纵轴的函数曲线。动画师通常会先制做一系列的关键帧来确定动作的主体方式，之后通过曲线编辑器调节特定参数的曲线形状来建立动作细节。受此启发，DanceNet3D提出了关键坐姿(keypose)-中间曲线(inbetweenmotioncurve)的两阶段街舞生成框架，如右图所示。

每位阶段都采用相像的编码器-解码器（encoder-decoder）结构，并使用对抗训练（adversarialtraining）的训练模式，如右图所示。

眼球运动神经_bp神经网络算法反向传播原理_神经网络反向运动学

其中编码器部份采用常见的Transformer模型，而解码器部份则是该研究提出的MoTrans模型。MoTrans是对NLP领域传统Transformer针对运动合成的悉心改建，其核心由运动链网路（KinematicChainNetworks，图中的KCN）和可学习局部注意力机制（LearnedLocalAttention，LLA）构成。接出来我们分别看一下KCN和LLA。

KCN是一种以SMPL模型的24个关节点为运算结点的图神经网路（GNN）变体。区别于常规GNN的操作，KCN采用了模拟机器人控制理论中的正向运动学（ForwardKinematics）和反向运动学（InverseKinematics）的网路操作方法，通过线性层把结点特点映射到运动学控制空间后，先从根结点向叶结点传播特点参数，并沿路径进行特点融合，之后再自叶结点向根结点做一遍相像操作，如右图所示。

常规transformer中的注意力属于全局注意力，即一个query对所有的key做内积，对所有value进行加权求和。但是人体运动是有明显局部性的，一个时刻的姿态和它临近时间内的姿态动作强相关，并且和距离较远的时间几乎没有关系，比如十秒前角色抬起了右手，在当前时刻既可能是抬起右手，也可能是放下右手，甚至可能处于坐下的状态。按照这个性质，DanceNet3D在解码器中引入了带有可学习核函数的LLA模块，如右图所示。

眼球运动神经_神经网络反向运动学_bp神经网络算法反向传播原理

值得一提的是，因为注意力的输入来自KCN的输出，以关节点的方式排布，天然符合原始transformer中多头（multi-head）的理念，于是DanceNet3D中把每位KCN输出的节点作为一个head，采用线性投影（linearprojection）进行并行操作，因为注意力以后的卷积（fead-forward）操作一直使用KCN模型，所以省去了原始多头注意力中最后的concat操作和线性操作，在head数目相同的情况下降低了估算量。研究者将其称为结构化多头注意力（structuredmulti-headattention），其将节点作为head的定义，相比于原始的多头机制更具数学意义。

实验及结果

该研究首先进行了消融实验，验证了曲线建模、KCN和LLA各自的有效性：

以后该研究在AIST++和PhantomDance两个数据集上进行的对比实验表明，DanceNet3D与包括微软的AIChoreographer在内的其他工作相比，都具有明显优势。

神经网络反向运动学_眼球运动神经_bp神经网络算法反向传播原理