当前位置: 主页 > 域名学堂 >

最新图像合成GAN架构解读:核心理念、关键成就、商业化路径篮球比分直播188手机版

时间:2019-03-17 20:47来源:备案域名 作者:5A域名网 点击:
本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落

[导读]本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读。

新智元报道

来源:topbots

编辑:元子

【新智元导读】本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读。

本文总结了5个最近推出的用于图像合成的GAN架构,对论文从核心理念、关键成就、社区价值、未来商业化及可能的落地应用方向对论文进行解读,对创业者、开发者、工程师、学者均有非常高的价值。

1. STARGAN:

多域图像到图像翻译的统一生成网络。作者YUNJEY CHOI,MINJE CHOI,MUNYOUNG KIM,JUNG-WOO HA,SUNGHUN KIM,JAEGUL CHOO。论文地址:

https://arxiv.org/abs/1711.09020

论文摘要

最近的研究表明,两个领域的图像到图像转换取得了显著的成功。然而,现有方法在处理两个以上的域时,可扩展性和鲁棒性的比较有限,因为需要为每对图像域独立地构建不同的模型。

StarGAN的出现就是为了解决这一问题。研究人员提出了一种新颖且可扩展的方法,可以实现仅靠单个模型就能对多个域执行图像到图像的转换。

StarGAN这种统一模型架构,允许在单个网络内同时训练具有不同域的多个数据集。与现有模型相比,StarGAN有着更高的图像转化质量,以及将输入图像灵活地转换为任何所需目标域的新颖功能。

我们凭经验证明了我们的方法在面部属性转移,和面部表情综合任务方面的有效性。

核心理念

StarGAN是一种可扩展的图像到图像转换模型,可以使用单个网络从多个域中学习:

生成器不是学习固定的转换(例如,年轻到年老),而是接收图像和域信息作为输入,以在相应的域中生成图像

提供域信息作为标签(例如,二进制或one-hot矢量)

StarGAN还可以从包含不同类型标签的多个数据集中学习:

例如,作者展示了如何使用具有头发颜色,性别和年龄等属性的CelebA数据集,以及具有与面部表情相对应的标签的RaFD数据集来训练模型

将mask向量添加到域标签后,生成器会学着忽略未知标签,并专注于明确给定的标签

关键成就

定性和定量评估表明,StarGAN在面部属性转移和面部表情综合方面优于基准模型:

在更复杂的多属性传输任务中,优势尤为明显,这反映了StarGAN处理具有多个属性更改的图像转换的能力

由于多任务学习的隐含数据增强效果,StarGAN还可以生成更具视觉吸引力的图像

社区评价

该研究论文在计算机视觉的重要会议CVPR 2018 oral上被接受。

未来的研究领域

探索进一步改善生成图像的视觉质量的方法。

可能的商业应用

图像到图像转换可以降低用于广告和电子商务用途的媒体创意的成本。

源码

https://github.com/yunjey/stargan

2. ATTNGAN

用细致的文字生成图像,作者TAO XU, PENGCHUAN ZHANG, QIUYUAN HUANG, HAN ZHANG, ZHE GAN, XIAOLEI HUANG, XIAODONG HE。论文地址:

https://arxiv.org/abs/1711.10485

论文摘要

在论文中,我们提出了一种Attentional生成对抗网络(AttnGAN)。它允许注意力驱动的多阶段细化,以实现细粒度粒度的文本到图像的生成。

通过新颖的注意力生成网络,AttnGAN可以通过关注自然语言描述中的相关单词,来合成图像的不同子区域的细粒度细节。此外,提出了一种深度attentional多模态相似度模型,来计算用于训练生成器的细粒度图像文本匹配损失。

AttnGAN明显优于当前最先进的技术水平,在CUB数据集上提升了14.14%的最佳报告得分,在更具挑战性的COCO数据集上得到170.25%的提升。同时还通过可视化AttnGAN的注意力层来执行详细分析。它首次表明分层注意力GAN能够自动选择单词级别的条件,以生成图像的不同部分。

核心理念

可以通过多阶(例如,单词级和句子级)调节来实现细粒度的高质量图像生成。因此,研究人员提出了一种体系结构,其中生成网络通过这些子区域最相关的单词来绘制图像。

Attentional Generative AdversarialNetwork有两个新颖的组件:Attentional generative network和深度Attentional多模态相似度模型(DAMSM)。

Attentional generative network包括以下2个方面

利用全局句子向量在第一阶段生成低分辨率图像

将区域图像矢量与对应的词语上下文矢量组合以在周围子区域中生成新的图像特征

而深度Attentional多模态相似度模型(DAMSM),用于计算生成的图像和文本描述之间的相似性,为训练生成器提供额外的细粒度图文匹配损失。

关键成就

CUB数据集上提升了14.14%的最佳报告得分

COCO数据集提升了170.25%

证明分层条件GAN能够自动关注相关单词以形成图像生成的正确条件

社区评价

该论文在计算机视觉的重要会议2018年CVPR上发表。

未来的研究领域

探索使模型更好地捕获全局相干结构的方法;增加生成图像的照片真实感。

可能的商业应用

根据文本描述自动生成图像,可以提高计算机辅助设计和艺术品的生产效率。

源码

GitHub上提供了AttnGAN的PyTorch实现。

3. 通过条件生成式GAN获得高分辨率图像合成及语义操作

作者TING-CHUN WANG, MING-YU LIU, JUN-YAN ZHU, ANDREW TAO, JAN KAUTZ, BRYAN CATANZARO。论文地址:

https://arxiv.org/abs/1711.11585

论文摘要

(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容