2.1 生成器網路
生成器 $G$ 通常是一個深度神經網路(通常是反卷積網路),它將一個隨機雜訊向量 $z$(從先驗分佈如高斯分佈中取樣)映射到數據空間。其目標是學習轉換 $G(z)$,使其輸出分佈 $p_g$ 與真實數據分佈 $p_{data}$ 相匹配。
關鍵見解: 生成器無法直接存取真實數據;它僅透過判別器的回饋訊號進行學習。
生成對抗網路 (GANs) 由 Ian Goodfellow 等人於 2014 年提出,代表了無監督機器學習領域一個突破性的框架。其核心思想是在一個競爭性的對抗環境中訓練兩個神經網路——生成器與判別器。生成器的目標是產生與真實數據難以區分的合成數據(例如圖像),而判別器則學習區分真實樣本與生成樣本。這種對抗過程驅使兩個網路迭代改進,從而生成高度逼真的數據。
GANs 透過提供一種強大的方法來學習複雜的高維數據分佈,而無需進行顯式的密度估計,從而徹底改變了電腦視覺、藝術創作和數據增強等領域。
GAN 框架建立在參與極小極大博弈的兩個基本元件之上。
生成器 $G$ 通常是一個深度神經網路(通常是反卷積網路),它將一個隨機雜訊向量 $z$(從先驗分佈如高斯分佈中取樣)映射到數據空間。其目標是學習轉換 $G(z)$,使其輸出分佈 $p_g$ 與真實數據分佈 $p_{data}$ 相匹配。
關鍵見解: 生成器無法直接存取真實數據;它僅透過判別器的回饋訊號進行學習。
判別器 $D$ 充當一個二元分類器。它接收輸入 $x$(可以是真實數據樣本或來自 $G$ 的生成樣本),並輸出一個標量機率 $D(x)$,代表 $x$ 來自真實數據分佈的可能性。
目標: 最大化正確分類真實與偽造樣本的機率。它被訓練為對真實數據輸出 1,對生成數據輸出 0。
訓練過程是一個具有價值函數 $V(G, D)$ 的雙人極小極大博弈:
$$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$$
在實務中,訓練交替進行:更新 $D$ 以最大化其分類準確率,以及更新 $G$ 以最小化 $\log(1 - D(G(z)))$(或最大化 $\log D(G(z))$)。
原始的 GAN 論文將問題表述為極小極大最佳化。在理論最優點,生成器的分佈 $p_g$ 收斂到 $p_{data}$,而判別器在各處輸出 $D(x) = 1/2$,變得完全不確定。
當判別器過於強大時,原始的極小極大損失可能在訓練早期導致梯度消失。為緩解此問題,會使用替代損失函數:
訓練 GANs 以不穩定而聞名。提高穩定性的關鍵技術包括:
問題: 生成器崩潰為僅產生少數幾種類型的輸出(模式),無法捕捉訓練數據的完整多樣性。
解決方案: 小批次判別、展開式 GANs,以及使用輔助分類器或變分方法來鼓勵多樣性。
問題: 如果判別器過早變得太過熟練,它會向生成器提供接近零的梯度,從而停止其學習。
解決方案: 使用非飽和生成器損失、帶有梯度懲罰的 Wasserstein 損失,或雙時間尺度更新規則 (TTUR)。
定量評估 GANs 具有挑戰性。常見指標包括:
核心的對抗博弈可以透過散度最小化的角度來理解。生成器旨在最小化 $p_g$ 和 $p_{data}$ 之間的散度(例如 Jensen-Shannon、Wasserstein),而判別器則估計此散度。
最優判別器: 對於固定的生成器 $G$,最優判別器由下式給出: $$D^*_G(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$$
將此代回價值函數,可得到 $p_{data}$ 和 $p_g$ 之間的 Jensen-Shannon 散度 (JSD): $$C(G) = \max_D V(G, D) = -\log(4) + 2 \cdot JSD(p_{data} \| p_g)$$
因此,當且僅當 $p_g = p_{data}$ 時,$C(G)$ 達到全域最小值,此時 $C(G) = -\log(4)$ 且 $D^*_G(x) = 1/2$。
來自開創性論文的實證結果展示了 GANs 的能力:
圖表描述(假設性): 一個折線圖,比較在 CelebA 資料集上,標準 GAN、WGAN-GP 和 StyleGAN2 的 FID 分數(越低越好)隨訓練迭代的變化。該圖表將顯示 StyleGAN2 收斂到顯著更低的 FID(約 5),而標準 GAN 約為 40,突顯了架構和訓練進步的影響。
為了說明 GAN 變體的實際應用和分析,考慮 圖像到圖像轉換 任務,例如將衛星照片轉換為地圖,或將夏季景觀轉換為冬季。
框架應用:
GANs 的演進指向幾個有前景的前沿領域:
核心洞見: GANs 不僅僅是生成漂亮圖片的工具;它們是一個透過對抗競爭來學習數據分佈的深刻(儘管不穩定)引擎。其真正價值在於將生成問題框架為一個動態博弈,繞過了對難以處理的顯式概似函數的需求——這是原始 Goodfellow 論文中強調的絕妙之舉。然而,該領域的發展軌跡揭示了一個核心矛盾:建立在搖搖欲墜的理論基礎和一堆理解不足的工程「技巧」之上的驚人實證進展。
邏輯流程: 敘述始於優雅的極小極大公式,承諾收斂到真實數據分佈。現實情況是,正如來自 MIRI 等機構和 Arjovsky 等研究人員的無數後續論文所記載的,一個充滿模式崩潰和梯度消失的危險訓練環境。邏輯進展一直是反應性的穩定化:WGAN 使用 Wasserstein 距離重新表述問題以獲得更好的梯度,譜歸一化和梯度懲罰強制 Lipschitz 約束,而漸進式增長/基於風格的架構 (StyleGAN) 則精心建構生成過程以提高穩定性和控制力。這個流程與其說是單一突破,不如說是一系列策略性修補,以使核心思想能夠大規模運作。
優點與缺陷: 其優點是毋庸置疑的:在圖像合成方面具有無與倫比的感知品質,正如在 FFHQ 等基準測試上的 FID 分數所證明的那樣。多年來,GANs 一直定義著最先進的技術。其缺陷同樣明顯。訓練過程脆弱且耗費大量資源。評估仍然是一場噩夢——Inception 分數和 FID 是代理指標,而非分佈保真度的基本衡量標準。最致命的是,與變分自編碼器 (VAEs) 相比,其在潛在空間中缺乏可解釋性和可控性。儘管 StyleGAN 取得了進展,但它通常是一種藝術工具,而非精確的工程工具。這項技術可能危險地有效,助長了深度偽造危機,並引發了研究界遲遲未能解決的緊迫倫理問題。
可操作的見解: 對於實務工作者:不要從原始的 GAN 開始。 為您的領域選擇一個現代、穩定的變體,如 StyleGAN2 或 WGAN-GP。在評估上大量投入,使用多種指標(FID、精確率/召回率)和人工評估。對於研究人員:架構調整的低垂果實已經摘完。下一個前沿是效率(參見 LightGAN 等模型)、跨模態穩健性,以及——至關重要的——發展更強大的理論基礎,能夠預測和防止失敗模式。對於產業領導者:利用 GANs 進行數據增強和設計原型製作,但為面向公眾的應用實施嚴格的倫理防護措施。未來不屬於生成最逼真人臉的模型,而是屬於能夠高效、可控且負責任地做到這一點的模型。