选自 arXiv
作者:David Bau, Jun-Yan Zhu等
机器之心编译
参加:Panda W
生成对立网络(GAN)现在现已能组成极具实在感的图画了,但 MIT、IBM 和香港中文大学的一项研讨标明 GAN 在组成图画时会遗失方针散布中的一些细节。未来的 GAN 设计者假如可以充分考虑这种遗失状况,应该可以打造出愈加高质量的图画生成器。研讨者现已发布了相关论文、代码和数据。
论文:https://arxiv.org/abs/1910.11626v1
项目:https://ganseeing.csail.mit.edu
生成对立网络(GAN)在组成传神的图画方面才能超卓,但咱们不由要问:怎样才能知道 GAN 无法生成的东西呢?形式丢掉或形式坍塌被视为 GAN 所面临的最大难题之一,此刻 GAN 会忽视方针散布中的某些部分,可是关于 GAN 中的这一现象,当时的剖析东西所能供给的见地十分少。
MIT 的这项研讨在散布层面和实例层面临形式坍塌进行了可视化。
首要,作者布置了一个语义切割网络,以比较生成的图画与练习集的方针散布中通过切割的方针的散布。核算数据的差异可以提醒 GAN 忽视的方针类别。
图 1a 展现了在一个教堂 GAN 模型中,比较于练习散布,人、车和栅门等方针类别在生成散布中呈现的像素更少。
图 1:看 GAN 不能生成什么:(a)作者比较了 LSUN 教堂练习会集的方针切割散布与生成成果的散布:生成器丢掉了人、车和栅门等方针。(b)一张实在图画及其重建图画的比较,其间一个人和栅门的实例无法生成。每组图中,左上角的是实在相片,右上角的是生成的重建图画,下面两张是各自的切割映射图。
然后,给定识别出的省掉过的方针类别,作者对 GAN 的遗失状况直接进行了可视化。详细来说,作者比较了各张相片与 GAN 逆推出的邻近图画之间的详细差异。为了做到这一点,作者放宽了逆推问题的约束,而且求解的是易于处理的逆推 GAN 一个层(而非整个生成器)的问题。
办法
量化散布层面的形式坍塌
GAN 的系统误差可通过运用场景图画的层次结构来剖析。每个场景都可以天然地分化为方针(object),这样做才可以通过估量组成方针核算数据的误差来估量与实在场景散布的误差。举个比方,烘托卧室的 GAN 也应该烘托一些窗布。假如窗布的核算数据与实在相片的核算数据存在误差,那么咱们就知道可以终究靠检查窗布来检查 GAN 的详细缺点。
为了完结这一主意,作者运用了 [44] 提出的一致感知解析网络来切割一切图画,这会用 336 个方针类别中的一个类别来符号图画的每个像素。关于每个图画样本,作者收集了每个方针类别的总像素区域,并收集了一切被切割方针类别的均值和协方差核算数据。作者在一个大型生成图画集以及练习集图画上采样了这些核算数据。作者将一切方针切割的核算数据称为「生成图画切割核算数据(Generated Image Segmentation Statistics)」。
图 2 可视化了两个网络的均匀核算信息。在每张图中,每个生成方针类别的均匀切割频率都与实在散布的状况做了比较。
图 2:运用生成图画切割核算数据来了解在 LSUN 卧室数据集上练习的两个模型的不同行为。
因为大多数类别都不会呈现在大多数图画上,所以作者按降序对类别进行了分类,然后要点重视了其间最常见的类别。这种比较可以提醒许多当时最佳模型之间的许多详细差异。剖析运用的两个模型都是在同一图画散布(LSUN 卧室集)上练习的,但 WGAN-GP 与实在散布的间隔比 StyleGAN 与实在散布的间隔要大得多。
运用单个数值总结切割的核算差异也是或许的。要做到这一点,作者界说了 Frechet 切割间隔(FSD),这相似于常用的 Frechet Inception 间隔(FID)衡量,但 FSD 是可解释的:
其间, _t 是一个练习图画样本上每个方针类别的均匀像素数,Σ_t 是这些像素数量的协方差。相似地, _g 和 Σ_g 反映了生成模型的切割核算状况。作者在试验中比较了 10000 个生成样本和 10000 张天然图画的核算状况。
生成图画切割核算数据衡量的是整个散布:比方它们可以提醒生成器疏忽特定方针类别的状况。可是,它们并不独自扫除应该生成某个方针但却没有生成的特定图画。为了得到进一步的见地,需求一种可视化生成器在每张图画上的遗失状况的办法。
量化实例层面的形式坍塌
为了处理上述问题,作者比较了图画对 (x, x'),其间 x 是实在图画(包括 GAN 生成器 G 遗失的特定方针类别),x' 是在可由 GAN 模型层生成的一切图画的空间上的投射。
界说一个可处理的逆推问题
在抱负状况下,可以找到由生成器 G 完美组成的图画,并使之与实在图画 x 坚持较近的间隔。用数学言语来说,方针是找到,其间
,l 是图画特征空间中的间隔衡量。不幸的是,因为 G 中层数较多,之前的办法都无法处理生成器的这个彻底逆推问题。因而,作者转而求解这个彻底逆推问题的一个可处理的子问题。作者将生成器 G 分化成了层:
其间 g_1, ..., g_n 是生成器的几个前期层,G_f 是将 G 的一切后期层组合到一同。
任何可由 G 生成的图画都可由 G_f 生成。也就是说,假如用 range(G) 标明可由 G 输出的一切图画的调集,那么有 range(G) range(G_f )。也就是说,G 无法生成任何 G_f 不能生成的图画。因而,在 range(G_f ) 中可以确认的任何遗失状况也都是 range(G) 遗失的当地。
因而,关于层逆推而言,作者通过更简略地逆推 G_f 的后期层完结了对遗失状况的可视化:
作者标明,虽然终究要找的是中心表征 r,但从估量的 z 开始能供给许多协助:对 z 有个初始估量能有助于对更好的 r 值的查找,这些值更有或许由 z 生成。因而,求解这个逆推问题的进程分为两步:首要,构建一个近似逆推整个 G 的神经网络 E,并核算一个估量成果 z_0 = E(x)。之后,求解一个优化问题,以确认一个中心表征,其可生成一个重建的图画,以十分邻近地康复 x。图 3 展现了这种层逆推办法。
图 3:层逆推办法概略。首要,练习一个反转 G 的网络 E;这可用于获取对隐含的 z_0 = E(x) 的初始估量及其间间表征。然后将 r_0 用于初始化对 r* 的查找,以得到挨近方针 x 的重建 x'。
逐层网络逆推
通过在更小的问题上预练习各个层,可以更轻松地练习深度网络。因而,为了学习逆推神经网络 E,作者挑选了逐层履行的办法。关于每一层 g_i ∈ ,练习一个小网络 e_i 以近似地逆推 g_i。也就是说,界说 r_i = g_i(r_i 1),方针是学习一个网络 e_i,使其能近似核算 r_ ≈ e_i(r_i)。作者也期望网络 e_i 的猜测可以很好地保存层 g_i 的输出,因而需求 r_i ≈ g_i(e_i(r_i))。作者通过最小化左逆推和右逆推丢失来练习 e_i:
为了将练习会集在生成器所得到的表征的流形邻近,作者对 z 进行了采样,并运用层 g_i 核算了 r_ 和 r_i 的样本,因而 r_ = g_(· ·· g_1(z)· ··)。这儿 ||·||_1 标明 L1 丢失,作者将 λ_R 设为 0.01 以着重 r_ 的重建。
一旦一切层都完结逆推后,可为整个 G 组成一个逆推网络:
通过联合微调这个为以全体逆推 G 而组成的网络 E*,成果还可得到进一步的优化。作者将通过微调的成果记为 E。
成果
图 2 和图 5 展现了在 LSUM 卧室集上练习的 WGAN-GP、StyleGAN、Progressive GAN 的生成图画切割核算数据。
图 5:一个卧室生成器的省掉状况可视化;这儿测验了根据 lSUM 卧室集的 Progressive GAN。
直方图标明,关于多种不同的切割方针类别,StyleGAN 能比 Progressive GAN 更好地匹配这些方针的实在散布,而 WGAN-GP 的匹配最差。
表 1 用 Frechet 切割间隔总结了这些差异,证明更好的模型全体上的切割核算状况与实在散布愈加匹配。
表 1:用 FSD 总结的生成图画切割核算数据。
图 4 在 10000 张图画的有限样本集上测量了生成图画切割核算状况的敏感度。
图 4:生成图画切割核算状况的敏感度测验成果。
图 1 和图 5 给出了运用新提出的办法在教堂和卧室数据集上剖析所生成的切割核算状况的成果。这些直方图标明生成器会部分地越过困难的子使命。
图 6 的前 3 列比较了新的逆推办法与之前的逆推办法。图 6 的后 3 列比较了完好的新办法(f)与两种融化试验版别。
图 6:在 LSUN 教堂图画上比较逆推 Progressive GAN 的生成器的几种办法
作者使用了上述逆推东西来测验各种生成器组成练习集之外的图画的才能。图 7 运用在 LSUN 卧室集上练习的 Progressive GAN 展现了使用办法(f)来逆推和重建不同场景的天然相片的定性成果。
图 7:Progressive GAN 卧室图画生成器的逆推层。
图 8 展现了在 LSUN 教堂外数据集上练习的 Progressive GAN 得到的相似定性成果。
图 8:Progressive GAN 教堂外生成器的逆推层。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------