查看原文
其他

CVPR2020之姿势变换GAN:图像里谁都会劈叉?

bryant8 机器学习与生成对抗网络 2022-04-22

点击上方机器学习与生成对抗网络”,关注"星标"

获取有趣、好玩的前沿干货!

上学期,老朱的体育课选了舞蹈,嘿嘿嘿  。不料,老师让每个同学都要学会劈叉。苦练一个学期,老朱终于能劈叉了!


图自网络,侵删

但是!经过在家一个长长长长的寒假之后,老朱吃罢即睡,早已难复当日之勇!这日,线上体育课,体育老师让同学们展示劈叉。。而老朱……


  


情急之下,老猪骗老师说,家里网线昨天被老鼠要断了,手机有问题,又买不了大流量包,,让家里人拍个劈叉照片发过去可不可以?老师说,可……


接下来,你觉得GAN可以完成图像处理,帮老朱完成劈叉动作吗?



前面涉及姿势转换的图像处理,今天看到一篇CVPR2020的关于这方面的一个思路,下面做极简分享,更多细节参读原文:


Deep Image Spatial Transformation for Person Image Generation

https://arxiv.xilesou.top/pdf/2003.00696.pdf

https://github.com/RenYurui/Global-Flow-Local-Attention

 

姿势转换,指的是将源图像的姿势转变到目标姿势。此任务需要对源图像进行空间上的操作。而卷积神经网络缺乏在空间上转换输入图像的能力。本文提出了一个可微的全局流-局部注意(global-flowlocal-attentio)的框架以在特征层面对输入进行重新转换整合。具体来说,首先计算源图像和目标图像之间的全局相关性、预测流场flow field。然后,从特征图提取the flowed local patch pair去计算局部注意力。最后,将获得的局部注意系数使用内容感知采样的方法转换源图像特征。主客观的验证实验进行了方法验证。此外,图像动画化和视图合成等实验结果也表明模型适用于其它需要空间变换的任务。

 

                       

网络结构如下所示,一个目标姿势图像生成器G(蓝色部分),一个流估计器F(红色部分)。



流估计器F

接收(原姿势图像、原姿势结构、目标姿势结构图像)为输入,输出流场w(包含坐标偏移信息)和遮挡掩膜m(指示目标位置信息是否在原图中存在):



涉及的损失有采样正确性损失(sampling correctness loss),它使用VGG19层的特征来计算目标图像和源图采样特征之间的余弦距离

 

 

采样正确性损失约束流场对语义相似的区域进行采样。而图像邻域的转换变形是高度相关的,如果能够提取这种关系将是有益的。因此,添加正则项用于惩罚不是仿射变换的局部区域:

 

 


目标(姿势)图像生成器G(见上网络结构图)

它接收的输入和输出如下定义:


 

根据流w和f_t、f_s,提取一对特征块进行注意力计算:

 


具体计算方式:

 

 

值得注意的是,由于源姿势图像可能出现一些遮挡和移动,并非可以都找到目标图像的所有内容。为了使目标图像生成器G补充生成新内容,遮挡掩模m(在0和1之间)具有特征选择的作用。下面给出其处理方式以及剩余的损失函数:

 


具体整个网络结构图:

 

数据集和评估标准:



实现细节:



部分实验结果:



 

其它任务:

 




公众号近期荐读:
GAN整整6年了!是时候要来捋捋了! 
新手指南综述 | GAN模型太多,不知道选哪儿个?
数百篇GAN论文已下载好!搭配一份生成对抗网络最新综述!
CVPR2020之MSG-GAN:简单有效的SOTA
有点夸张、有点扭曲!速览这些GAN如何夸张漫画化人脸!
见微知细之超分辨率GAN!附70多篇论文下载!
天降斯雨,于我却无!GAN用于去雨如何?
脸部转正!GAN能否让侧颜杀手、小猪佩奇真容无处遁形?
容颜渐失!GAN来预测?
强数据所难!SSL(半监督学习)结合GAN如何?
弱水三千,只取你标!AL(主动学习)结合GAN如何?
异常检测,GAN如何gan ?
虚拟换衣!速览这几篇最新论文咋做的!
脸部妆容迁移!速览几篇用GAN来做的论文
【1】GAN在医学图像上的生成,今如何?
01-GAN公式简明原理之铁甲小宝篇

GAN&CV交流群,无论小白还是大佬,诚挚邀您加入!
一起讨论交流!长按备注【进群】加入:
更多分享、长按关注本公众号:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存