2.1 生成器网络
生成器 $G$ 通常是一个深度神经网络(通常是反卷积网络),它将一个随机噪声向量 $z$(从先验分布如高斯分布中采样)映射到数据空间。其目标是学习变换 $G(z)$,使其输出分布 $p_g$ 与真实数据分布 $p_{data}$ 相匹配。
关键见解: 生成器无法直接访问真实数据;它仅通过来自判别器的反馈信号进行学习。
生成对抗网络(GANs)由Ian Goodfellow等人于2014年提出,是无监督机器学习领域一个开创性的框架。其核心思想是在一个竞争性的对抗环境中训练两个神经网络——生成器和判别器。生成器的目标是生成与真实数据无法区分的合成数据(如图像),而判别器则学习区分真实样本与生成样本。这种对抗过程驱动两个网络迭代改进,从而生成高度逼真的数据。
GANs通过提供一种无需显式密度估计即可学习复杂高维数据分布的强大方法,彻底改变了计算机视觉、艺术创作和数据增强等领域。
GAN框架建立在参与极小极大博弈的两个基本组件之上。
生成器 $G$ 通常是一个深度神经网络(通常是反卷积网络),它将一个随机噪声向量 $z$(从先验分布如高斯分布中采样)映射到数据空间。其目标是学习变换 $G(z)$,使其输出分布 $p_g$ 与真实数据分布 $p_{data}$ 相匹配。
关键见解: 生成器无法直接访问真实数据;它仅通过来自判别器的反馈信号进行学习。
判别器 $D$ 充当一个二元分类器。它接收输入 $x$(可以是真实数据样本或来自 $G$ 的生成样本),并输出一个标量概率 $D(x)$,表示 $x$ 来自真实数据分布的可能性。
目标: 最大化正确分类真实样本和伪造样本的概率。它被训练为对真实数据输出1,对生成数据输出0。
训练过程是一个具有价值函数 $V(G, D)$ 的双人极小极大博弈:
$$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$$
在实践中,训练交替进行:更新 $D$ 以最大化其分类准确率,以及更新 $G$ 以最小化 $\log(1 - D(G(z)))$(或最大化 $\log D(G(z))$)。
原始的GAN论文将问题表述为极小极大优化。在理论最优状态下,生成器的分布 $p_g$ 收敛于 $p_{data}$,判别器在所有地方都输出 $D(x) = 1/2$,变得完全不确定。
当判别器过于强大时,原始的极小极大损失可能在训练早期导致梯度消失。为了缓解这个问题,使用了替代损失函数:
训练GANs以不稳定而闻名。提高稳定性的关键技术包括:
问题: 生成器坍缩为仅产生少数几种类型的输出(模式),未能捕捉训练数据的全部多样性。
解决方案: 小批量判别、展开GANs、使用辅助分类器或变分方法来鼓励多样性。
问题: 如果判别器过早变得过于熟练,它会给生成器提供接近零的梯度,从而停止其学习。
解决方案: 使用非饱和生成器损失、带梯度惩罚的Wasserstein损失或双时间尺度更新规则(TTUR)。
定量评估GANs具有挑战性。常用指标包括:
核心对抗博弈可以通过散度最小化的视角来理解。生成器旨在最小化 $p_g$ 和 $p_{data}$ 之间的散度(例如Jensen-Shannon散度、Wasserstein散度),而判别器则估计这个散度。
最优判别器: 对于固定的生成器 $G$,最优判别器由下式给出: $$D^*_G(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$$
将其代回价值函数,得到 $p_{data}$ 和 $p_g$ 之间的Jensen-Shannon散度 (JSD): $$C(G) = \max_D V(G, D) = -\log(4) + 2 \cdot JSD(p_{data} \| p_g)$$
因此,当且仅当 $p_g = p_{data}$ 时,$C(G)$ 达到全局最小值,此时 $C(G) = -\log(4)$ 且 $D^*_G(x) = 1/2$。
开创性论文中的实证结果展示了GANs的能力:
图表描述(假设): 一张折线图,比较了在CelebA数据集上,标准GAN、WGAN-GP和StyleGAN2在训练迭代过程中的FID分数(越低越好)。该图表将显示,与标准GAN(约40)相比,StyleGAN2收敛到显著更低的FID(约5),突显了架构和训练进展的影响。
为了说明GAN变体的实际应用和分析,考虑图像到图像转换任务,例如将卫星照片转换为地图,或将夏季景观转换为冬季景观。
框架应用:
GANs的发展指向几个有前景的前沿领域:
核心洞察: GANs不仅仅是生成漂亮图片的工具;它们是通过对抗竞争来学习数据分布的一个深刻(尽管不稳定)的引擎。其真正价值在于将生成问题构建为一个动态博弈,绕过了对难以处理的显式似然的需求——这是Goodfellow原始论文中强调的一个神来之笔。然而,该领域的发展轨迹揭示了一个核心矛盾:建立在摇摇欲坠的理论基础和一堆未被充分理解的工程“技巧”之上的惊人实证进展。
逻辑脉络: 叙述始于优雅的极小极大公式,承诺收敛到真实数据分布。现实情况是,正如来自MIRI等机构和Arjovsky等研究人员的无数后续论文所记载的那样,这是一个充满模式崩溃和梯度消失的险恶训练环境。逻辑进展一直是一种反应性的稳定化过程:WGAN使用Wasserstein距离重新表述问题以获得更好的梯度,谱归一化和梯度惩罚强制执行Lipschitz约束,渐进式增长/基于风格的架构(StyleGAN)精心构建生成过程以提高稳定性和控制力。这一脉络与其说是单一突破,不如说是一系列战略性的补丁,以使核心思想能够大规模工作。
优势与缺陷: 优势是毋庸置疑的:在图像合成方面具有无与伦比的感知质量,FFHQ等基准测试上的FID分数证明了这一点。GANs多年来定义了最先进的技术。缺陷同样明显。训练过程脆弱且资源密集。评估仍然是一场噩梦——初始分数和FID是代理指标,而不是分布保真度的基本度量。最致命的是,与VAEs等模型相比,潜在空间缺乏可解释性和可控性。尽管StyleGAN取得了进展,但它通常是一种艺术工具,而不是精确的工程工具。这项技术可能危险地有效,助长了深度伪造危机,并引发了研究界迟迟未能解决的紧迫伦理问题。
可操作的见解: 对于从业者:不要从原始GAN开始。 从现代、稳定的变体如StyleGAN2或WGAN-GP开始,应用于你的领域。大力投入评估,使用多种指标(FID、精确率/召回率)和人工评估。对于研究者:架构调整的低垂果实已经摘完。下一个前沿是效率(参见LightGAN等模型)、跨模态鲁棒性,以及——关键的是——发展更强大的理论基础,能够预测和防止故障模式。对于行业领导者:利用GANs进行数据增强和设计原型制作,但为面向公众的应用实施严格的伦理护栏。未来不属于生成最逼真人脸的模型,而属于高效、可控且负责任地做到这一点的模型。