该文提出了一种建立两张图像间密集语义对应关系的模型(ANC-Net),
non-isotrppic(非各向同性) 4D convolution kernel – 核心, multi-scale self-similarity module orthogonal loss ANC-Net 以两张图像作为输入,输出为4D correlation map – 包含两张图像间所有可能匹配的匹配分数。
Method 网络结构如图所示。
输入$(I^s,I^t)$ feature extractor $\mathcal{F}$ ->输出 $F^s$和$F^t$ multi-scale self-similarity $\mathcal{S}$ ->输出 multi-scale self-similarity $S^s$和$S^t$->captures the complex self-similarity feature map We can then obtain the 4D correlation map $C_s$ from $S^s$ and $S^t$ , and the 4D correlation map $C_f$ from $F^s$ and $F^t$ . However, $C_s$ and $C_f$ are often noisy as they lack the constraints to enforce the correspondence validity, and thus are unreliable for directly extracting correspondences.
该文提出了一种新颖的图像翻译网络框架。
cross-domain correspondence network: 网络的输入为style input和content input,由于style input和content input在结构上是不对齐的,为了建立style input和content input之间的对应关系,提出了一种cross-domain correspondence network,如图所示:
该部分首先通过特征金字塔网络提取多尺度图像特征(这能够利用到局部和全局的图像内容),之后将提取到的多尺度特征通过下采样网络映射到相同的域$S$中(只有当$x_s$和$y_s$在同一个域时才能用某种相似性度量方法进行匹配(对齐))。数学表达式如下: $$ x_s=\mathcal{F}{A\rightarrow S}(x_A;\theta{A\rightarrow S}) \quad x_s\in\mathbb{R}^{HW \times C}\
y_s=\mathcal{F}{B\rightarrow S}(x_B;\theta{B\rightarrow S}) \quad y_s\in\mathbb{R}^{HW \times C} $$ 接下来使用空间自注意力机制操作计算$x_s$与$y_s$间pixel与pixel之间的相关性,如下图所示:
translation network: cross-domain correspondence network的输出视为将content input warping 之后的结果,translation network采用了类似style GAN的网络结构,如下图所示:
与style GAN不同的是,这里将AdaIN模块进行了替换,替换的模块为SPADE block与PN的结合,表达式为: $$ \alpha {h,w}^i(r{y \rightarrow x}) \times\frac{F_{c,h,w}^i-\mu_{h,w}^i}{\sigma_{h,w}^i}+\beta_{h,w}^i(r_{y \rightarrow x}) $$ $F_{c,h,w}^i$为输入值,注意此处的统计特征$\mu_{h,w}^i$和$\sigma_{h,w}^i$是在空间方向进行统计的,目的是为了保存$r_{y \rightarrow x}$的结构信息。
损失函数: 该文采用了无监督的训练方式。
总的网络结构:
姿态引导下的图像生成研究就是要在保留原图像外观的同时将原图像中人物的姿态转换为目标姿态。这一任务需要对原图像进行空间转换。但实际上基于卷积的神经网络更擅长于特征的提取而不擅长于特征的空间转换,所以单纯的使用卷积神经网络并不能很好的完成这一任务。
这篇文章提出了一种global-flow local-attention 模型进行姿态应引导下的图像生成研究。具体来说第一步使用全局流场估计器计算原图像和目标图像之间的全局相关性,以此来预测flow fileds。第二步为使用从feature maps提取出来的flowed local patch pairs来计算局部注意力系数。第三步为使用局部注意力机制作为content aware sampling method来进行图像的外观渲染。
该文将注意力机制和流场操作相结合,使得每一个输出位置只与原图像的局部特征块相关
将目标图像视为原图像的变形结果
该文的观点是将目标图像视为原图像的变形结果,每一个输出位置只与原图像的局部特征相关。
Introduction 图像的空间转换可以用于解决许多输入图像和目标图像空间不对齐的图像生成任务,这些不对齐可能是由于姿态变换或者是视角的变换。这一类任务包括了姿态引导下的图像生成研究
卷积神经网络使用共享参数的卷积核来计算输出,这也是卷积神经网络的一个重要特性,称为平移等变(equivariance to transformation),这意味着当输入发生平移空间变化时,输出也会发生平移相同的空间变化。这一特性对于输入输出的空间结构是对齐的任务来说是十分有益的,例如图像分割,图像检测以及图像翻译。但是这一特性也限制了卷积神经网络对输入数据进行空间变换。
卷积神经网络具有平移等变得性质,但是并不能够对旋转、缩放等操作具有等变性,特别是对于人体这种非刚体,卷积神经网络并不能对输入数据进行空间变换
STN的通过引入空间转换模块来解决这一问题,该模块对全局转换参数进行回归,并通过仿射转换来扭曲输入特征。但是,由于它假定了源和目标之间的全局仿射变换,因此该方法无法处理非刚性对象的变换。
注意力机制通过利用非局部信息,建立特征之间的长程依赖。但是对于空间转换任务,目标图像和原图像在空间上是不对齐的,每一个输出图像上位置与原图像上的位置有明确的对应关系。因此原图像和目标图像之间的注意力权重矩阵应该是一个稀疏矩阵。
基于流场的操作通过为每一个输出位置采样一个局部的原图像块会迫使注意力权重矩阵变为稀疏矩阵。这些方法预测二维坐标偏移量,指定可以对源中的哪些位置进行采样以生成目标。
然而为了稳定训练,大多数的基于流场的方法会在像素级别扭曲数据,这会限制模型生成新的内容。由于需要生成全分辨率流场,因此难以提取大的运动。在特征级别进行输入数据的扭曲能够解决这一问题,然而,这些网络很容易陷入局部最小值由于以下两个原因:(1)输入特征和流场相互限制。没有准确的流场,输入特征无法获得合理的梯度,没有如果没有合理的特征,网络也无法提取相似性以生成正确的流场。(2)常用的双线性采样方法提供的不良梯度传播进一步导致训练中的不稳定。
Approach 对于姿态引导下的图像生成研究,目标图像是原图像的变形结果,这意味着目标图像中的每一个点是与原图像中的某个特定的局部区域唯一对应。
该文设计了global-flow local-attention 网络结构来合理的对原图像特征进行采样和重构。网络包含两个部分:全局流场估计器F和局部自然纹理渲染器G。F负责估计原图像和目标图像的运动(差别),其生成全局流场w和二进制掩模m。利用w和m,G利用局部注意力模块将原图像的纹理渲染在目标图像。
Global Flow Filed Estimator $$ w,m=F(x_s,p_s,p_t) $$
其中$x_s$表示原图像,$p_s$表示原图像姿态,$p_t$表示目标姿态。$w$包含了原图像和目标图像的坐标偏移量。$m$的值在0至1之间,表示原图像中是否存在目标位置的信息。F为全卷积网络,w和m权重共享。
由于真实的坐标偏移量是未知的,这里使用了sampling correctness loss来计算$w$。$v_s,v_t$分别表示原图像和目标图像通过预训练的VGG19的特定层提取出来的特征。$v_{s,w}=w(v_s)$表示$v_s$通过$w$转换之后的结果。sampling correctness loss计算$v_{s,w}$和$v_t$之间的余弦相似性。 $$ \mathcal{L}_c=\frac{1}{N}\sum_{l\in \Omega}exp(-\frac{\mu(v_{s,w}^l,v_t^l)}{\mu_{max}^l}) $$ $\mu$表示余弦相似度。$\Omega$表示特征图中的所有的N个点,$l$表示其中的一个点$(x,y)$。$\mu_{max}^l$表示正则项。也就是说需要对**所有的点**计算余弦相似度,然后再求平均值。
sampling correctness loss能够限制流场采样语义相关的区域。由于图像领域之间的变形是高度相关的,如果能够将这种关系提取出来是十分有益的,因此进一步在流场中添加了正则项。令$c_t$表示目标特征的二位坐标。$\mathcal{N}(c_t,l)$表示$c_t$的$n\times n$个领域图像块,假设$\mathcal{N}(c_t,l)$和$\mathcal{N}(c s,l)$之间的变换为仿射变换 $$ T_l=A_l S_l $$ $T_l$表示$\mathcal{N}(C_l,l)$的坐标集合,$S_l$表示$\mathcal{N}(c_s,l)$的坐标集合,$A_l$表示仿射参数,通过最小二乘法计算出来 $$ \hat{A_l}=(S_l^HS_l)^{-1}S_l^HT_l $$ 因此正则损失函数为 $$ \mathcal{L}r=\sum{l\in\Omega}|| T_l-\hat{A}_lS_l ||^2 $$
该工作为根据提供的两张视频帧和草图,来来生成连续的视频帧。
将粗糙的草图进行简化,提取出主要的结构
建立草图与图像之间的语义对应关系:
2.1 通过以两帧图片为条件的transformation module来将草图中的大部分空白区域进行填充,
2.2 然后通过来两个独立的特征提取模块将图像和草图映射到一个common space
2.3 为了解决遮挡问题,通过两张图像间光流来估计occlusion mask,并通过blending module使用mask来动态的从两帧之间挑选和结合像素。(合成与草图空间结构一样的视频帧)
利用 arbitrary-time frame interpolation module生成任意中间的视频帧
利用video post processing进一步改善结果
Sketch Simplification and Generation 由于草图可能是粗糙且随意的,所以通过该模块来将草图多余的细节清除,只留下清晰的线条。采用的是现有的方法。
Sketch-guided Frame Synthesis 2.1 通过以两帧图片为条件的transformation module来将草图中的大部分空白区域进行填充: The transformer consists of several dilated residual
2.2 然后通过来两个独立的特征提取模块将图像和草图映射到一个common space 2.3 利用现有的光流预测模型预测光流,注意:预测的光流为双向光流:$f_{0-t},f_{t-1}$。 损失函数:
该文为人物的时尚编辑
网络包含三个部分:
Free-form Parsing Network
Parsing-aware Inpainting Network
Attention Normalization Layers
Free-form Parsing Network 给定不完整的人体语义分析图以及任意的草图和笔画,能够合成完整的人体语义分析图。 网络结构 : U-net
输入:
an incomplete parsing map,
2. a binary sketch that describes the structure of the removed region 3. a noise sampled from the Gaussian distribution, 4. sparse color strokes 5. a mask. 注意:相同的incomplete parsing map和不同的sketch和strokes能够合成不同的parsing map,这意味这parsing generation model是可控的。
参考
注意到图c,此时生成器的损失函数是平稳上升的,训练过程是稳定的(在实际的GAN训练过程中,生成器的损失函数是上升的,判别器的损失函数是下降的?还是生成器和判别器的损失函数最终都是下降的?)从该论文的观点来看似乎是前者是正确的。
但是可以肯定的是,如果生成器的损失函数出现了a,b的情况就表示GAN的训练过程是不稳定的。
DCGAN验证实验 code
实验1:没有进行谱归一化 训练过程中损失函数的变化:
真实图像和生成图像的对比:
从损失函数的变化来看,生成器的损失函数是逐渐增大的,而判别器的损失函数似乎并没有发生多大的变化。从生成图像来看,生成的图像虽然不太逼真,但是似乎并没有发生模型崩溃的情况,似乎可以认定训练过程是稳定的。