爱收集资源网

机器之心编辑部会freestyle的AI来了,给定动作与音乐

网络 2023-02-27 15:01

机器之心专栏

机器之心编辑部

会freestyle的AI来了,给定起始动作与音乐,新方式DanceNet3D就可以生成一段与音乐合拍且流畅优美的群舞。

最近,AI街舞生成技术的擂台大有你方唱罢我登场之势。微软团队的AIChoreographer刚推出不久,就迎来了强劲的对手——DanceNet3D。

先来看段Demo:

眼球运动 神经_bp神经网络算法反向传播原理_神经网络 反向运动学

DanceNet3D是由来自慧夜科技、北航以及港英文MMLab的学者联合推出的高质量三维街舞动作生成算法。给定起始动作与一段音乐,该算法可以生成一段与音乐合拍且流畅优美的街舞。该算法结合了慧夜科技在动漫产业界的技术经验,采用了人体运动的关键动作-中间运动参数曲线的抒发方式,为运动生成的建模提供了一种全新的思路。

相比于其他运动生成方式,该方式的生成疗效具有明显优势:

据悉,该工作还提出了首个由专业动画师团队构建的高质量街舞数据集PhantomDance。该数据集收集了Niconico、YouTube上的300个热门街舞,包含宅舞、嘻哈、爵士、OldSchool等多种风格,由专业动漫团队在职业舞者指导下,长达18个月完成。对比目前学术界来自运动捕捉或真人街舞视频的三维重建算法,PhantomDance在音乐匹配程度、动作柔美程度、艺术表现力上都具有绝对优势。目前该团队公开了其中的100个街舞-音乐数据对,这种数据对组成了PhantomDance100。

bp神经网络算法反向传播原理_眼球运动 神经_神经网络 反向运动学

两阶段街舞生成框架

因为数据基本都来始于动作捕捉、三维重建,街舞合成、乃至更广泛的运动合成研究领域,因而常常会把问题建模成逐帧的骨骼参数(位移、旋转)的输出。但是在实际的3D动漫产业中,无论是动漫制做软件Maya、Blender,还是游戏引擎Unity3D、Unreal,角色运动都是用曲线来编辑和表示的。这儿的曲线指的是位移的(t_x,t_y,t_z),旋转的(r_x,r_y,r_z)等参数中的每一维作为横轴,以时间为纵轴的函数曲线。动画师通常会先制做一系列的关键帧来确定动作的主体方式,之后通过曲线编辑器调节特定参数的曲线形状来建立动作细节。受此启发,DanceNet3D提出了关键坐姿(keypose)-中间曲线(inbetweenmotioncurve)的两阶段街舞生成框架,如右图所示。

每位阶段都采用相像的编码器-解码器(encoder-decoder)结构,并使用对抗训练(adversarialtraining)的训练模式,如右图所示。

眼球运动 神经_bp神经网络算法反向传播原理_神经网络 反向运动学

其中编码器部份采用常见的Transformer模型,而解码器部份则是该研究提出的MoTrans模型。MoTrans是对NLP领域传统Transformer针对运动合成的悉心改建,其核心由运动链网路(KinematicChainNetworks,图中的KCN)和可学习局部注意力机制(LearnedLocalAttention,LLA)构成。接出来我们分别看一下KCN和LLA。

KCN是一种以SMPL模型的24个关节点为运算结点的图神经网路(GNN)变体。区别于常规GNN的操作,KCN采用了模拟机器人控制理论中的正向运动学(ForwardKinematics)和反向运动学(InverseKinematics)的网路操作方法,通过线性层把结点特点映射到运动学控制空间后,先从根结点向叶结点传播特点参数,并沿路径进行特点融合,之后再自叶结点向根结点做一遍相像操作,如右图所示。

常规transformer中的注意力属于全局注意力,即一个query对所有的key做内积,对所有value进行加权求和。但是人体运动是有明显局部性的,一个时刻的姿态和它临近时间内的姿态动作强相关,并且和距离较远的时间几乎没有关系,比如十秒前角色抬起了右手,在当前时刻既可能是抬起右手,也可能是放下右手,甚至可能处于坐下的状态。按照这个性质,DanceNet3D在解码器中引入了带有可学习核函数的LLA模块,如右图所示。

眼球运动 神经_神经网络 反向运动学_bp神经网络算法反向传播原理

值得一提的是,因为注意力的输入来自KCN的输出,以关节点的方式排布,天然符合原始transformer中多头(multi-head)的理念,于是DanceNet3D中把每位KCN输出的节点作为一个head,采用线性投影(linearprojection)进行并行操作,因为注意力以后的卷积(fead-forward)操作一直使用KCN模型,所以省去了原始多头注意力中最后的concat操作和线性操作,在head数目相同的情况下降低了估算量。研究者将其称为结构化多头注意力(structuredmulti-headattention),其将节点作为head的定义,相比于原始的多头机制更具数学意义。

实验及结果

该研究首先进行了消融实验,验证了曲线建模、KCN和LLA各自的有效性:

以后该研究在AIST++和PhantomDance两个数据集上进行的对比实验表明,DanceNet3D与包括微软的AIChoreographer在内的其他工作相比,都具有明显优势。

神经网络 反向运动学_眼球运动 神经_bp神经网络算法反向传播原理

建新·见智——2021亚马逊云科技AI在线会议

4月22日14:00-18:00

会议包括主题讲演和六大分会场。内容涵括亚马逊机器学习实践解密、人工智能赋能企业数字化变革、大规模机器学习实现之道、AI服务推动互联网快速创新、开源开放与前沿趋势、合作共赢的智能生态等众多话题。

亚马逊云科技技术专家以及各个行业合作伙伴将亮相说法,讲解AI/ML在实现组织高效运行过程中的巨大作用。每位热爱技术创新的AI/ML的爱好者及实践者都不容错过。

曲线 操作 生成 舞蹈 下图
相关文章