该方法能够生成不同的姿态的人物图像以及改变人物的外观。而且这个模型能够在不改变shape的情况下从appearance distribution 中进行采样。
1 Approach 记$x$为dataset $X$中的一张图片,我们想要理解$x$中的object是如何被其shape $y$和appearance $z$所影响的。因此图像生成器可以被表示为最大化后验概率(极大似然估计:给定$y$和$z$,哪种$x$最有可能发生。) $$ arg\ max\ p(x|y,z) $$
1.1 VAE based on latent shape and appearance $p(x|y,z)$可以视为隐变量(含两个隐变量)的生成模型,可以求得这个生成模型的联合概率分布$p(x,y,z)$。
$\because$ $$ p(x|y,z)=\frac{p(x,y,z)}{p(y,z)} $$
$\therefore$ $$ p(x,y,z)=p(x|y,z)p(y,z) $$ 含隐变量的概率密度估计可以采用VAE的方法进行求解,求解过程包含了两个步骤推断和生成。实际上我们最终的目的是为了求出图像$x$的分布$p(x,\theta),\theta$为参数,给定样本$x$,其对数边际似然函数为 $$ \log p(x,\theta)=ELBO(q,x,\theta,\phi)+KL[q(y,z|x;\phi),p(y,z|x;\theta)] $$ 其中$q(y,z|x;\phi)$为变分密度函数,$\phi$为参数,ELBO为证据下界: $$ ELBO(q,x,\theta,\phi)=\mathbb{E}_q\log \frac{p(x|y,z)p(y,z)}{q(y,z|x;\phi)} $$
$$ \begin{aligned} \log p(x)&=\log \int p(x,y,z)dz\ dy\
&=\log \int \frac{p(x,y,z)}{q(y,z|x)}q(y,z|x)dz\ dy\
&\geq \int q(y,z|x)\log \frac{p(x,y,z)}{q(y,z|x)}dz\ dy\
&= \mathbb{E}_q\log \frac{p(x,y,z)}{q(y,z|x;\phi)}\
&=\mathbb{E}_q\log \frac{p(x|y,z)p(y,z)}{q(y,z|x;\phi)}
\end{aligned} $$
实际上 $$ \begin{aligned} \log p(x)&=\int q(y,z|x)\log \frac{p(x,y,z)}{q(y,z|x)}dz\ dy-\int q(y,z|x)\log \frac{p(y,z|x)}{q(y,z|x)}dz\ dy\
参考文献
注意到,这里评判的指标是志愿者将生成图像标记为真实图像的概率,也就是生成图像“欺骗”的概率(G2R)
参考文献
要点:
给出一组真实图像和一组生成图像(以不同的次序),让志愿者为每一张图像进行标记(该张图像是真实图像还是生成图像) 每一张图像只出现1秒 前10张图像由于warming up,会告知志愿者正确的结果 若有多个算法进行比较时,一组实验只进行测试一种算法 注意到评价的指标通常为R2G、G2R,即将真实图像标记为真实图像的概率以及将生成图像标记为生成图像的概率,也就是“fool rate”。
该文提出了一种简单但高效的实时(转换速度更快)的能进行任意风格迁移的模型。该模型的核心为adaptive instance normalization (AdaIN) layer,AdaIN能够对齐content feature 与style feature的均值和方差。
1 Introduction 深度神经网络能够将图像的内容以及风格信息进行编码,而且图像的内容和风格是可分离的,因此可以实现在保存图像内容的同时对图像的风格进行改变。
现存的方法存在两个弊端:1.能够实现任意风格的迁移,但是速度较慢。2.速度较快,但是只能够实现单一风格的迁移。
在这篇文章中实现了速度快且能够实现任意风格转换。
AdaIN由instance normalization (IN)所启发。IN在feed-forward风格迁移中是十分高效的,IN的作用可以解释为:IN通过归一化包含图像风格信息的feature statistics(特征的统计特性,例如均值和方差)来进行风格归一化。
AdaINs是IN的拓展,其以内容和风格作为输入,通过调整内容的均值和方差来匹配风格输入d的均值和方差。
2 related work style transfer 风格迁移问题起源于non-photo-realistic rendering(非真实性渲染:通过风格形式的艺术化加工。相对的真实性渲染强调其输出的外观尽可能的与目标图像相同。),并且与纹理合成和转移密切相关。一些早期使用的方法包括了直方图匹配和非参数采样。这些方法通常依赖于低层次的统计特性并且不能够很好的捕获语义结构信息。Gray等人首次通过在深度神经网络中匹配卷积层的统计特性来进行风格迁移,并达到了十分出色的效果。
Gray等人提出的网络框架由于需要最小化内容损失函数和风格损失函数来迭代更新图像,因此优化的过程十分的缓慢,在实际的应用中常常需要较长的时间来处理图像(文中并没有采用常用的梯度下降的方法,采用的是L-BFGS的优化算法,其实本身这个风格转换只是利用的VGG网络进行特征提取,实际上L-BFGS优化的是从一张由白噪声组成的图片,最终根据定义的损失优化得到最终的风格转换图片)。一种常见的解决为使用训练后的前馈神经网络将优化过程替代,这能够极快的提升处理图像的速度,实现实时的转换。然而这些基于前馈网络的方法存在着局限性:一个网络框架只能够生成有限风格的图像。
…
各种归一化方法图例
3 Background 如果一个机器学习算法在缩放全部或部分特征后不影响它的它的学习和预测,我们就称该算法具有尺度不变性。
从理论上,神经网络应该具有尺度不变性,可以通过参数的调整来适应不同特征的尺度.但尺度不同的输入特征会增加训练难度.假设一个只有一层的网络𝑦 = tanh(𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏),其中𝑥1 ∈ [0, 10],𝑥2 ∈ [0, 1].之前我们提到tanh 函数的导数在区间[−2, 2] 上是敏感的,其余的导数接近于0.因此,如果𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏 过大或过小,都会导致梯度过小,难以训练.为了提高训练效率,我们需要使𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏 在[−2, 2] 区间,因此需要将𝑤1 设得小一点,比如在[−0.1, 0.1] 之间.可以想象,如果数据维数很多时,我们很难这样精心去选择每一个参数.因此,如果每一个特征的尺度相似,比如[0, 1] 或者[−1, 1],我们就不太需要区别对待每一个参数,从而减少人工干预。
除了参数初始化比较困难外,不同输入特征的尺度差异比较大时,梯度下降法的效率也会受到影响。
该文提出了基于外观流(clothflow)的生成模型来进行姿态引导下的人物图像生成研究(以及虚拟试衣)。
通过估计source clothing 和target clothing之间的光流,能够的建立两者之间的几何变换。
共分为三个阶段:
第一阶段: 以条件姿态为指导,来生成target person semantic layout 来对生成过程提供丰富的指导。将姿态和外观进行解耦,使得clothflow生成更加空间相关的结果。
阶段二: 阶段二为clothflow flow 估计阶段(flow的作用是什么:用于表示原图像中的哪些像素可以被用于生成目标图像的二维坐标向量)。
使用上一阶段得到的target person semantic layout作为输入来得到cloth flow。source cloth region之后通过cloth flow进行warping,以解决几何变形。 预测的外观流提供了视觉对应关系的准确估计,并有助于无缝转移源衣服区域以合成目标图像。
阶段三: 生成模型以warped clothing region作为输入来对target pose进行渲染。
introduction 受到image-to-image translation工作的启发,一些工作直接将原图像和目标姿态作为输入,来生成目标图像。但是这些工作并没有考虑由于人体非刚性的特征引起的变形和遮挡问题,这导致了不能够生成精细的纹理细节。
为了解决geometric deformation问题以更好的进行appearance transfer,提出了两种不同的方法:deformation-based methods and DensePose-based methods.
deformation-based methods estimate a transformation,包括了使用affine和TPS来对source image pixel或者是feature map进行deform,以解决由于姿态变化引起的不对齐问题。尽管通过这两种几何建模方法已经取得了很大的进步,但是这种方法的自由度不够高,不能够准确的进行deform。
DensePose-based methods能够将2Dpixel映射到3D body surface,这能够更容易的获得纹理信息。但是基于dense pose的方法生成的图像引入artifacts,例如在原图像和目标图像中有不对应的部分,生成的图像产生空洞。除此之外,基于dense pose的方法的计算量较大。
related work Warping-based Image Matching and Synthesis 在这篇文章中,我们的目标是将source cloth warp 成 target cloth。cloth region是非刚性的,source和target之间没有明确的对应关系。
1. Idea 可控性的图像生成
提出了具有两个独立pathways的生成器。其中一个pathway是用于pose encoding,另一个用于decomposed component encoding。
对于后者首先使用预训练的human parser从source person image 中自动地分离出component attributes(得到的是semantic layouts)。得到的component layouts之后通过multi-branch embeddings送入global texture encoder中(得到相应的latent code)。得到的latent code通过一种特殊的形式结合得到style code。之后这些表示component attribute的style code通过AdnIN中的仿射变换与pose code相结合。最后进行图像生成。
2. Contribution 通过直接提供的的不同的源人物图像来控制人物图像属性的生成,解决pose和component attribute之间错综复杂的关系。 提出了attribute-decomposed GAN来进行人物属性合成。 通过利用off-the-shelf human parser 来提取component layouts,使得component attributes进行自动分离,解决了人物属性不高效的标注问题。 3. Related work image synthesis person image synthesis 目前的person image synthesis方法只是将条件图像转换为具有目标姿态的图像。但是本文中的方法不仅仅能够对姿态进行控制,还能够对component attributes(例如头,上衣和裤子)进行控制。而且生成的图像具有更加真实的纹理和连续的ID信息。
4. Method description 本文的目标生成具有用户控制属性(例如头发,上衣和裤子)的人物图像。与之前的属性编辑方式不同(之前的方法需要每一个属性都进行标注的标签数据),本文中通过精心设计的生成器来对component attributes进行自动和无监督的分离。因此本文中只需要无需对每一属性进行标注的人物图像训练数据。在训练期间,目标图像$p_t$和条件图像$I_s$送入生成器中,输出生成图像$I_g$。
4.1 Generator 生成器通过两个独立pathways将$p_t$和$I_s$表示为两个隐变量,分别称为pose encoding和decomposed component encoding。这两个pathways通过一系列的style blocks连接,style blocks将源人物图像的纹理风格嵌入到pose feature。
4.1.1 pose encoding 在pose pathways中$p_t$通过pose encoder映射到隐空间中,用$C_{pose}$表示,其中pose encoder有N个下采样卷积层构成(N=2)。
该文提出了一种基于深度学习的姿态引导下的图像生成方法。
该方法的核心是能够基于单一图像估计出完整身体的纹理。