投资观察界 7月6日讯(记者 吴翠娥)随着 GAN 网络的出现,深度学习一次又一次的突破了人类对于人工智能的想象。本文所提的算法就首次实现这样一种愿景:给定一张静态人物照片,一连串的骨骼关节运动序列,电脑自动生成一个运动视频,让该照片中的人物按照所给出的运动模式动起来,如跳舞、运动等。怎么样,是不是很像哈利波特的魔法世界中的会动的相框和报纸呢? 简介 这项工作的创新点在于在国际上首先尝试了基于骨骼序列的人体运动视频生成技术, 很好地解决了传统生成方法生成人体运动问题。所提出的算法采用了双输入的模式,将参考人物静态照片和运动模式(即关节点序列)输入到 Conditional GAN 网络中,并辅以 Triplet Loss 的网络训练目标函数,以保证所生成连接体运动的的前后帧动作的一致性。所生成的人物运动序列效果真实,并且已经在两个国际标准数据集上进行测试,获得了很好的视觉效果。 方法
图 1 算法结构 所提出的方法具体如图 1 所示。给出一张包含某个人外表的照片 X,最终目标是生成一系列共享相同外表的照片 Y = {y1,…, yn},并且按照一定的运动模式进行运动。因此需要将原始照片 x 和骨架的运动序列 S={S1,S2,…} 一起作为输入到所构建的深度神经网络中。根据条件生成对抗网络 CGAN 的基本数学形式,损失函数可以写成:
其中生成网络生成新的一帧,判别网络进行判别对抗。为了保证生成图像的质量,加入了 L1 项损失函数。
然而由于生成的主要目标是视频,需要考虑前后帧的联系,所以在损失函数中再加入一项 triplet loss,使得相近的帧生成的结果比较相近。假设某一帧的生成结果 anchor image 为 ta,则认为与这一帧相近的帧生成结果为正样本 tp,较远的生成结果为负样本 tn,最终希望 ta 与 tp 的距离小于 ta 与 tn 的距离,对应的损失函数为:
最终的损失函数是上面三个公式的和。
图3 另一方面,由于希望将动态的骨骼信息与静态的外貌信息共同输入,并且共享高层的语义信息,这里采取了 Siamese 结构,并将这个结构称为 Siamese 生成器。该生成器具体的网络结构如下(如图 3 所示):
实验结果 最终在两个国际著名的运动视频数据集上进行了测试:KTH dataset 和 Human3.6M dataset。下图是所生成的视频的一些例子。
视频生成结果为:
可以看出使用该方法,最终生成的视频视觉效果非常好。在实验中还发现,视频的前景生成的非常好,运动模式捕捉的十分到位,能够摆出骨架运动的动作,外貌特征也被很好的保留了下来。在我们的论文中还对与损失函数的有效性进行了一系列的讨论。参考论文 4.3 部分。 总结 学术界中对于骨架的讨论与数据集有很多,但采取 LSTM 不能解决长时间生成中视频模糊,畸变的问题,生成的动作也常常不能保持人体结构。这论文中的方法首次巧妙地融合了骨架运动和关节信息以及人物表象信息,最终生成了栩栩如生的运动视频 (即真实的人体连接体运动视频)。相信我们都被这神奇的算法震撼了。想要了解详情,可以参考论文:Skeleton-aided Articulated Motion Generation 刚刚被 2017 ACM Multimedia 收录,由上海交通大学电子系人工智能实验室博士生晏轶超,徐经纬完成,倪冰冰教授,杨小康教授指导。 【免责声明】 凡本站未注明来源为投资观察界:www.tzgcjie.com的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。其他媒体、网站或个人转载使用时必须保留本站注明的文章来源,并自负法律责任。 如您不希望作品出现在本站,可联系我们要求撤下您的作品。联系邮箱:xinxifankuui@163.com
|