CVPR2020之姿势变换GAN：图像里谁都会劈叉？

Original bryant8 机器学习与生成对抗网络 2022-04-22

收录于合集 #生成对抗网络应用 101个

点击上方“机器学习与生成对抗网络”，关注"星标"

获取有趣、好玩的前沿干货！

上学期，老朱的体育课选了舞蹈，嘿嘿嘿。不料，老师让每个同学都要学会劈叉。。。苦练一个学期，老朱终于能劈叉了！！！

图自网络，侵删

但是！经过在家一个长长长长的寒假之后，老朱吃罢即睡，早已难复当日之勇！这日，线上体育课，体育老师让同学们展示劈叉。。而老朱……

情急之下，老猪骗老师说，家里网线昨天被老鼠要断了，手机有问题，又买不了大流量包，，让家里人拍个劈叉照片发过去可不可以？老师说，可……

接下来，你觉得GAN可以完成图像处理，帮老朱完成劈叉动作吗？

前面涉及姿势转换的图像处理，今天看到一篇CVPR2020的关于这方面的一个思路，下面做极简分享，更多细节参读原文：

Deep Image Spatial Transformation for Person Image Generation

https://arxiv.xilesou.top/pdf/2003.00696.pdf

https://github.com/RenYurui/Global-Flow-Local-Attention

姿势转换，指的是将源图像的姿势转变到目标姿势。此任务需要对源图像进行空间上的操作。而卷积神经网络缺乏在空间上转换输入图像的能力。本文提出了一个可微的全局流-局部注意（global-flowlocal-attentio）的框架以在特征层面对输入进行重新转换整合。具体来说，首先计算源图像和目标图像之间的全局相关性、预测流场flow field。然后，从特征图提取the flowed local patch pair去计算局部注意力。最后，将获得的局部注意系数使用内容感知采样的方法转换源图像特征。主客观的验证实验进行了方法验证。此外，图像动画化和视图合成等实验结果也表明模型适用于其它需要空间变换的任务。

网络结构如下所示，一个目标姿势图像生成器G（蓝色部分），一个流估计器F（红色部分）。

流估计器F

接收（原姿势图像、原姿势结构、目标姿势结构图像）为输入，输出流场w（包含坐标偏移信息）和遮挡掩膜m（指示目标位置信息是否在原图中存在）：

涉及的损失有采样正确性损失（sampling correctness loss），它使用VGG19层的特征来计算目标图像和源图采样特征之间的余弦距离

采样正确性损失约束流场对语义相似的区域进行采样。而图像邻域的转换变形是高度相关的，如果能够提取这种关系将是有益的。因此，添加正则项用于惩罚不是仿射变换的局部区域：

目标（姿势）图像生成器G（见上网络结构图）

它接收的输入和输出如下定义：

根据流w和f_t、f_s，提取一对特征块进行注意力计算：

具体计算方式：

值得注意的是，由于源姿势图像可能出现一些遮挡和移动，并非可以都找到目标图像的所有内容。为了使目标图像生成器G补充生成新内容，遮挡掩模m（在0和1之间）具有特征选择的作用。下面给出其处理方式以及剩余的损失函数：

具体整个网络结构图：

数据集和评估标准：