2.1 核心架構
系統由兩個元件組成:
- 生成器 (G): 從先驗分佈(例如高斯分佈)中取得隨機雜訊 z 作為輸入,並輸出合成數據 G(z)。其目標是欺騙判別器。
- 判別器 (D): 作為一個二元分類器。它接收來自真實數據的樣本以及來自 G 的偽造樣本,並輸出輸入為真實數據的機率。其目標是正確區分真實與偽造。
生成對抗網路(Generative Adversarial Networks, GANs)由Ian Goodfellow等人於2014年提出,代表了非監督式與半監督式學習的典範轉移。此框架讓兩個神經網路——生成器(Generator)與判別器(Discriminator)——在一個極小極大博弈中相互對抗。其核心目標是學習生成與真實數據難以區分的新數據。本文件對GAN架構、其訓練挑戰、評估方法論,以及其演進與應用的前瞻性觀點,提供全面的分析。
基礎的GAN模型建立了對抗式訓練原則,此原則支撐了所有後續的變體。
系統由兩個元件組成:
訓練被表述為一個具有價值函數 V(G, D) 的雙玩家極小極大博弈:
$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$
實務上,訓練在最佳化 D 以最大化其分類準確度,與最佳化 G 以最小化 $\log(1 - D(G(z)))$ 之間交替進行。常見的挑戰包括模式崩潰(G 僅產生有限種類的樣本)以及訓練不穩定性。
為了解決基礎模型的限制,已提出了許多進階架構。
cGANs由Mirza和Osindero提出,透過將生成器和判別器都基於額外資訊 y(例如類別標籤、文字描述)進行條件化,擴展了基礎框架。這使得能夠控制生成特定類型的數據。其目標函數變為:
$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x|y)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z|y)))]$
循環一致性對抗網路(Cycle-Consistent Adversarial Networks, CycleGAN)由Zhu等人提出,能夠在沒有配對訓練數據的情況下進行影像到影像的轉換。它使用兩組生成器-判別器對,並引入循環一致性損失,以確保將影像從領域A轉換到B再轉回A時,能得到原始影像。這在非配對領域轉換上是一個里程碑,如其開創性論文中所詳述。
定量評估GAN並非易事。常見的指標包括:
對抗損失是基石。對於一個固定的生成器,最優判別器由下式給出:
$D^*(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$
將此式代回價值函數顯示,當 $p_g = p_{data}$ 時,虛擬訓練準則的全局最小值達成,其值為 $-\log 4$。訓練過程可視為最小化真實數據分佈與生成數據分佈之間的詹森-香農(JS)散度,儘管後續研究指出了JS散度的限制,從而催生了像WGAN中使用的瓦瑟斯坦距離等替代方案。
如StyleGAN2和BigGAN等最先進的GAN展現了卓越的成果。在FFHQ(Flickr-Faces-HQ)和ImageNet等資料集上:
圖表說明: 一個假設的長條圖將顯示在CelebA資料集上,如DCGAN、WGAN-GP、StyleGAN和StyleGAN2等模型的FID分數隨時間的進展,說明FID有明顯的下降趨勢(改善),突顯了生成品質的快速進步。
評估新GAN論文的框架:
個案研究:分析一個文字轉影像GAN: 應用此框架。該模型使用基於Transformer的文字編碼器和StyleGAN2生成器。創新之處在於跨模態注意力。它可能同時使用對比損失和對抗損失。在COCO或CUB資料集上,與AttnGAN或DM-GAN等基準比較其FID。評估論文是否包含消融研究,證明每個新元件的貢獻。
GAN發展的軌跡指向幾個關鍵領域:
核心洞見: GAN革命的重點不在於單一的「殺手級應用」,而在於確立對抗式學習作為密度估計和數據合成的一個基本、靈活的先驗。其真正價值在於提供了一個框架,其中「判別器」可以是任何可微分的真實性度量,這開啟了遠超越影像生成的大門——從分子設計到物理模擬,正如在DeepMind和各種生物科技AI公司的專案中所見。
邏輯流程與演進: 敘事是清晰的:從基礎的極小極大博弈(Goodfellow等人)開始,該領域迅速分支以解決直接缺陷。cGANs增加了控制性。WGANs透過將損失函數理論奠基於瓦瑟斯坦距離來解決不穩定性。StyleGANs解耦了潛在空間以實現前所未有的控制。CycleGAN解決了配對數據的瓶頸。每一步不僅是漸進式的改進;更是針對核心弱點的戰略性轉向,展示了一個以極快速度迭代的領域。
優勢與缺陷: 其優勢無可否認:在影像和音訊等領域具有無與倫比的輸出保真度。對抗式批評器是一個強大的、可學習的損失函數。然而,缺陷是系統性的。訓練仍然以極不穩定和對超參數敏感而聞名——一種「黑色藝術」。模式崩潰是一個持續存在的幽靈。評估仍然是一個棘手的問題;像FID這樣的指標是代理指標,並非效用的完美衡量。此外,最先進模型的計算成本驚人,造成了進入障礙並引發了環境擔憂。
可行動的見解: 對於實務工作者:不要從原始的GAN開始。 基於穩定的框架(如StyleGAN2/3)構建,或從一開始就使用瓦瑟斯坦損失的變體。優先使用多個指標(FID、精度/召回率)進行穩健的評估。對於研究人員:低垂的果實已經摘完。下一個前沿不僅僅是更好的影像,而是改善效率、可控性以及對非視覺數據的適用性。 探索混合模型;擴散模型的興起表明對抗訓練並非通往高品質的唯一途徑。未來不單屬於GAN,而是屬於那些能夠利用穩定訓練、可解釋潛在空間和高效取樣的原理性框架——GAN可能是一個關鍵組成部分,但很可能不是唯一的架構。