2.1 生成器網絡
生成器 $G$ 通常係一個深度神經網絡(通常係反卷積網絡),將一個隨機噪聲向量 $z$(從先驗分佈如高斯分佈中採樣)映射到數據空間。其目標係學習變換 $G(z)$,令其輸出分佈 $p_g$ 匹配真實數據分佈 $p_{data}$。
關鍵見解: 生成器無法直接存取真實數據;佢只係透過判別器嘅反饋信號進行學習。
生成對抗網絡(GANs)由Ian Goodfellow等人於2014年提出,係無監督機器學習領域一個突破性框架。其核心思想係喺一個競爭性、對抗性嘅環境中訓練兩個神經網絡——一個生成器同一個判別器。生成器嘅目標係產生同真實數據難以區分嘅合成數據(例如圖像),而判別器則學習區分真實樣本同生成樣本。呢個對抗過程驅使兩個網絡迭代改進,從而生成極度逼真嘅數據。
GANs為學習複雜、高維度數據分佈提供咗強大方法,而無需進行顯式密度估計,從而徹底改變咗電腦視覺、藝術創作同數據增強等領域。
GAN框架建基於兩個參與極小極大博弈嘅基本組件。
生成器 $G$ 通常係一個深度神經網絡(通常係反卷積網絡),將一個隨機噪聲向量 $z$(從先驗分佈如高斯分佈中採樣)映射到數據空間。其目標係學習變換 $G(z)$,令其輸出分佈 $p_g$ 匹配真實數據分佈 $p_{data}$。
關鍵見解: 生成器無法直接存取真實數據;佢只係透過判別器嘅反饋信號進行學習。
判別器 $D$ 充當一個二元分類器。佢接收一個輸入 $x$(可以係真實數據樣本或來自 $G$ 嘅生成樣本),並輸出一個標量概率 $D(x)$,表示 $x$ 來自真實數據分佈嘅可能性。
目標: 最大化正確分類真實同虛假樣本嘅概率。佢被訓練為對真實數據輸出1,對生成數據輸出0。
訓練過程係一個具有價值函數 $V(G, D)$ 嘅雙玩家極小極大博弈:
$$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$$
實際上,訓練會交替更新 $D$ 以最大化其分類準確度,同更新 $G$ 以最小化 $\log(1 - D(G(z)))$(或最大化 $\log D(G(z))$)。
原始GAN論文將問題表述為極小極大優化。喺理論最優點,生成器嘅分佈 $p_g$ 收斂到 $p_{data}$,而判別器喺任何地方都輸出 $D(x) = 1/2$,變得完全不確定。
當判別器過早變得太強時,原始極小極大損失會導致訓練早期出現梯度消失。為咗緩解呢個問題,會使用替代損失函數:
訓練GANs係出名嘅唔穩定。提高穩定性嘅關鍵技術包括:
問題: 生成器崩潰,只產生幾種類型嘅輸出(模式),無法捕捉訓練數據嘅全部多樣性。
解決方案: 小批量判別、展開GANs,以及使用輔助分類器或變分方法來鼓勵多樣性。
問題: 如果判別器過早變得太熟練,佢會向生成器提供接近零嘅梯度,令其學習停止。
解決方案: 使用非飽和生成器損失、帶梯度懲罰嘅Wasserstein損失,或雙時間尺度更新規則(TTUR)。
定量評估GANs具有挑戰性。常見指標包括:
核心對抗博弈可以透過散度最小化嘅角度來理解。生成器旨在最小化 $p_g$ 同 $p_{data}$ 之間嘅散度(例如Jensen-Shannon散度、Wasserstein散度),而判別器則估計呢個散度。
最優判別器: 對於固定嘅生成器 $G$,最優判別器由下式給出: $$D^*_G(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$$
將呢個代返入價值函數,得到 $p_{data}$ 同 $p_g$ 之間嘅Jensen-Shannon散度 (JSD): $$C(G) = \max_D V(G, D) = -\log(4) + 2 \cdot JSD(p_{data} \| p_g)$$
因此,當且僅當 $p_g = p_{data}$ 時,$C(G)$ 達到全局最小值,此時 $C(G) = -\log(4)$ 且 $D^*_G(x) = 1/2$。
來自開創性論文嘅實證結果展示咗GANs嘅能力:
圖表描述(假設性): 一個折線圖,比較標準GAN、WGAN-GP同StyleGAN2喺CelebA數據集上隨訓練迭代次數變化嘅FID分數(越低越好)。圖表會顯示StyleGAN2收斂到顯著更低嘅FID(約5),而標準GAN約為40,突顯咗架構同訓練改進嘅影響。
為咗說明GAN變體嘅實際應用同分析,考慮圖像到圖像轉換任務,例如將衛星照片轉換為地圖,或將夏季景觀轉換為冬季。
框架應用:
GANs嘅發展指向幾個有前景嘅前沿領域:
核心見解: GANs唔單止係生成靚圖嘅工具;佢哋係一個深刻(儘管唔穩定)嘅引擎,透過對抗競爭來學習數據分佈。佢哋嘅真正價值在於將生成問題構建為一個動態博弈,繞過咗處理棘手嘅顯式似然嘅需要——呢個係Goodfellow原始論文強調嘅高明之處。然而,該領域嘅發展軌跡揭示咗一個核心矛盾:令人驚嘆嘅實證進展建立喺搖搖欲墜嘅理論基礎同大量未被充分理解嘅工程「技巧」之上。
邏輯流程: 敘述始於優雅嘅極小極大公式,承諾收斂到真實數據分佈。現實情況,正如MIRI等機構同Arjovsky等研究人員無數後續論文所記載,係一個充滿模式崩潰同梯度消失嘅危險訓練環境。邏輯進展一直係反應性穩定化:WGAN使用Wasserstein距離重新表述問題以獲得更好梯度,譜歸一化同梯度懲罰強制執行Lipschitz約束,而漸進式增長/基於風格嘅架構(StyleGAN)則精心構建生成過程以提高穩定性同控制力。呢個流程唔係關於單一突破,而係一系列戰略性修補,令核心想法能夠大規模運作。
優點與缺陷: 優點係不可否認嘅:圖像合成中無與倫比嘅感知質量,正如FFHQ等基準測試上嘅FID分數所證明。GANs多年來定義咗最先進水平。缺陷同樣明顯。訓練脆弱且耗費資源。評估仍然係噩夢——初始分數同FID係代理指標,唔係分佈保真度嘅基本衡量標準。最致命嘅係,與變分自編碼器 (VAEs) 相比,潛在空間缺乏可解釋性同可控性。雖然StyleGAN取得咗進展,但佢通常係一個藝術工具而非精確嘅工程工具。呢項技術可以危險地有效,助長深度偽造危機並引發緊迫嘅道德問題,而研究界對此反應遲緩。
可行建議: 對於從業者:唔好從原始GAN開始。 為你嘅領域選擇一個現代、穩定嘅變體,例如StyleGAN2或WGAN-GP。大力投資評估,使用多個指標(FID、精確率/召回率)同人類評估。對於研究人員:架構調整嘅低垂果實已經冇晒。下一個前沿係效率(參見LightGAN等模型)、跨模態穩健性,以及——關鍵嘅——發展更強嘅理論基礎,能夠預測同防止失敗模式。對於行業領導者:利用GANs進行數據增強同設計原型製作,但為面向公眾嘅應用實施嚴格嘅道德防護欄。未來唔屬於生成最逼真人臉嘅模型,而屬於能夠高效、可控且負責任地做到呢一點嘅模型。