CVPR 2019 | INIT：针对实例级的图像翻译

Original 薛洁婷 PaperWeekly 2021-09-10

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

研究动机

近年来关于图像翻译的研究越来越多，其中比较经典的有监督模型包括 Pix2Pix, BicycleGAN 等，无监督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。

由于这些模型无论是针对多领域翻译还是单领域翻译都是将目标域图像的风格/属性整个迁移到源域图像上，因此虽然这些方法可以很好的解决风格统一或者内容相关的图像翻译问题，但对于有大量实例物体并且物体与背景之间的风格差异非常巨大的复杂结构图像翻译来说是很困难的。

为了解决该问题，作者基于 MUNIT 模型提出了基于端到端的训练模型 INIT，其采用不同的风格编码来独立的翻译图像中的物体、背景以及全局区域。

▲ 图1. 现有图像翻译模型的局限

模型架构

INIT 的网络架构非常类似于 MUNIT 模型，但不同于 MUNIT 模型，作者提出的模型不仅对全局图像进行内容和属性编码，而且还对实例物体以及背景也进行内容-属性编码。即首先给定一对未对齐的图像和实例物体的坐标位置，应用全局编码器 Eg 以及局部编码器 Eo 分别获取全局图像和实例物体图像内容 c 和属性向量 s，然后通过交换属性向量来获取跨域的目标实例对象图像，整个模型的架构如下图所示。

▲ 图2. INIT模型网络结构

另外作者修改了原始的循环重建过程使其不仅包括跨域（X 域->Y 域）模式重建还包括了跨粒度级（实例物体->全局图像）模式重建。对于跨域来说是完全基于 MUNIT 模型所提出的循环重建，针对跨粒度级的重建过程如图 3 所示，作者通过交换图像和实例物体的编码-解码对后生成图像，再对生成图像继续重复上一操作使得再次生成出的图像和实例物体应和原始图像以及实例物体一致。

▲ 图3. 循环一致性损失（仅针对跨粒度级）

对于交换粒度级内容-属性编码对需要注意的是，作者采用了从粗略（全局）属性向量去结合细粒度级内容向量的交换方式，而如果逆转这一过程即利用细粒度的属性向量去结合粗粒度级的内容向量则无法实现（如图 4 所示）。

▲ 图4. 内容-属性对交换策略

综上所述，模型采用的损失包括重构损失以及对抗损失，重构损失包括了全局图像重构以及局部实例物体重构，这两类的重构中又包括了图像重建损失、内容重建损失以风格重建损失。对抗损失也包括了全局对抗损失以及局部实例对抗损失，整个模型的损失函数如下。

实验结果

作者的实验主要采用了自己设计的 INIT 数据集以及 COCO 数据集，INIT 数据集是由作者设计并首次应用于图像翻译问题，其中包含 155529 张高清街景图像并且不仅设计了 sunny, night, cloud, rain 四种域标签而且还对详细实例对象边界框注释（车，人以及交通标志）。

作者使用 LPIPS 矩阵、Inception-Score 以及 Conditional Inception-Score 对 INIT 模型进行评估，并和 CycleGAN, UNIT, MUNIT, DRIT 进行比对，其中 INIT w/Ds 表示全局图像和局部实例对象共享一个鉴别器，INIT w/o Ds 则表示两个鉴别器独立，以下是实验结果。

总结

作者基于 MUNIT 的架构提出了针对实例级图像翻译技术，通过对提取实例对象的风格/属性来直接影响和指导目标域该物体的生成，这使得在进行复杂结构图象翻译时能产生更细致的结果。

从实验的效果图来看也能发现翻译后的图像在具体实例对象上也能更符合现实场景。另外作者还设计了 INIT 街景数据集，该数据集包括了对具体实例对象的注释框，有助于今后的图像翻译问题研究。

点击以下标题查看更多往期内容：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

一把短刀，怎么就让他连捅18人？！

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

向不容妄议的杨市长道歉

CVPR 2019 | INIT：针对实例级的图像翻译

研究动机

模型架构

实验结果

总结

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

13岁工作的常务副县长，接连缺席官方活动

内塔尼亚胡喊话伊朗人民：我们是一伙的，哈梅内伊政权才是敌人

向杨大市长道歉

向不容妄议的杨市长道歉

生成图片，分享到微信朋友圈

CVPR 2019 | INIT：针对实例级的图像翻译

研究动机

模型架构

实验结果

总结

您可能也对以下帖子感兴趣