2.1 核心架構
系統由兩個組件構成:
- 生成器(G): 從先驗分佈(例如高斯分佈)中攞隨機噪聲z作為輸入,並輸出合成數據G(z)。其目標係欺騙判別器。
- 判別器(D): 作為一個二元分類器。佢接收來自真實數據嘅樣本同來自G嘅假樣本,並輸出輸入係真實嘅概率。其目標係正確區分真假。
生成對抗網絡(GANs)由Ian Goodfellow等人喺2014年提出,代表咗非監督同半監督學習領域嘅範式轉移。呢個框架令兩個神經網絡——生成器同判別器——喺一個極小極大博弈中互相對抗。核心目標係學習生成同真實數據難以區分嘅新數據。本文檔對GAN架構、其訓練挑戰、評估方法,以及對其演變同應用嘅前瞻性視角進行全面分析。
基礎GAN模型確立咗對抗性訓練原則,呢個原則支撐咗所有後續變體。
系統由兩個組件構成:
訓練被表述為一個具有價值函數V(G, D)嘅雙人極小極大博弈:
$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z)))]$
實際上,訓練喺優化D以最大化其分類準確度,同優化G以最小化$\log(1 - D(G(z)))$之間交替進行。常見挑戰包括模式崩潰(即G只產生有限種類嘅樣本)同訓練不穩定性。
為咗解決基礎限制,已經提出咗眾多進階架構。
cGANs由Mirza同Osindero提出,通過將生成器同判別器都基於額外信息y(例如類別標籤、文字描述)進行條件化,擴展咗基礎框架。咁樣就可以控制生成特定數據類型。目標函數變為:
$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x|y)] + \mathbb{E}_{z \sim p_z(z)}[\log (1 - D(G(z|y)))]$
循環一致性對抗網絡(CycleGAN)由Zhu等人提出,能夠喺無需配對訓練數據嘅情況下進行圖像到圖像嘅轉換。佢使用兩對生成器-判別器,並引入循環一致性損失,以確保將圖像從域A轉換到域B再返轉A後,能得到原始圖像。呢個係非配對域轉換嘅一個里程碑,詳見其開創性論文。
定量評估GANs並非易事。常用指標包括:
對抗性損失係基石。對於固定嘅生成器,最優判別器由以下公式給出:
$D^*(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$
將呢個代返價值函數表明,當$p_g = p_{data}$時,虛擬訓練標準嘅全局最小值得以實現,其值為$-\log 4$。訓練過程可以被視為最小化真實數據分佈同生成數據分佈之間嘅詹森-香農(JS)散度,儘管後續研究指出JS散度嘅局限性,從而導致咗替代方案,例如WGAN中使用嘅瓦瑟斯坦距離。
最先進嘅GANs,例如StyleGAN2同BigGAN,展示咗卓越嘅成果。喺FFHQ(Flickr-Faces-HQ)同ImageNet等數據集上:
圖表描述: 一個假設嘅柱狀圖會顯示喺CelebA數據集上,DCGAN、WGAN-GP、StyleGAN同StyleGAN2等模型嘅FID分數隨時間嘅進展,說明FID有明顯嘅下降趨勢(改善),突顯咗生成質量嘅快速進步。
評估新GAN論文嘅框架:
案例研究:分析一個文字到圖像GAN: 應用該框架。該模型使用基於Transformer嘅文字編碼器同StyleGAN2生成器。創新之處在於跨模態注意力。佢可能使用對比損失同對抗性損失。檢查喺COCO或CUB數據集上嘅FID,對比AttnGAN或DM-GAN等基準。評估論文係咪包含消融研究,證明每個新組件嘅貢獻。
GAN發展嘅軌跡指向幾個關鍵領域:
核心洞見: GAN革命唔係關於單一「殺手級應用」,而更多係確立對抗性學習作為密度估計同數據合成嘅一個基本、靈活嘅先驗。其真正價值在於提供一個框架,其中「判別器」可以係任何可微分嘅真實性度量,打開咗遠超圖像生成嘅大門——從分子設計到物理模擬,正如DeepMind同各種生物科技AI公司嘅項目中所見。
邏輯流程與演變: 敘事好清晰:從基礎嘅極小極大博弈(Goodfellow等人),該領域迅速分支以解決即時缺陷。cGANs增加咗控制。WGANs通過將損失理論上基於瓦瑟斯坦距離來攻擊不穩定性。StyleGANs解耦潛在空間以實現前所未有嘅控制。CycleGAN解決咗配對數據瓶頸。每一步都唔只係漸進式改進;而係針對核心弱點嘅戰略性轉向,展示咗一個以極快速度迭代嘅領域。
優勢與缺陷: 優勢係無可否認嘅:喺圖像同音頻等領域具有無與倫比嘅輸出保真度。對抗性批評器係一個強大嘅、學習到嘅損失函數。然而,缺陷係系統性嘅。訓練仍然以極不穩定同對超參數敏感而聞名——係一門「黑色藝術」。模式崩潰係一個持久嘅幽靈。評估仍然係一個棘手問題;像FID咁樣嘅指標只係代理,唔係效用嘅完美度量。此外,最先進模型嘅計算成本驚人,造成進入障礙並引起環境擔憂。
可行洞見: 對於從業者:唔好從原始GAN開始。 基於穩定嘅框架如StyleGAN2/3進行構建,或者從一開始就使用瓦瑟斯坦損失變體。優先使用多個指標(FID、精確度/召回率)進行穩健評估。對於研究人員:容易摘嘅果實已經冇晒。下一個前沿唔只係更好嘅圖像,而係改善效率、可控性同對非視覺數據嘅適用性。 探索混合模型;擴散模型嘅興起表明對抗性訓練唔係實現質量嘅唯一途徑。未來唔只屬於GANs,而係屬於能夠利用穩定訓練、可解釋潛在同高效採樣嘅原則性框架——GANs可能係一個關鍵組件,但好可能唔係唯一架構。