擴(kuò)散模型——核心原理與強(qiáng)化學(xué)習(xí)優(yōu)化
定 價(jià):79.8 元
- 作者:陳云 牛雅哲 張金歐文
- 出版時(shí)間:2025/11/1
- ISBN:9787115676122
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP181
- 頁(yè)碼:178
- 紙張:
- 版次:01
- 開(kāi)本:小16開(kāi)
本書(shū)通過(guò)系統(tǒng)化的理論講解與實(shí)戰(zhàn)導(dǎo)向的案例分析,幫助讀者掌握擴(kuò)散模型與強(qiáng)化學(xué)習(xí)的結(jié)合應(yīng)用,探索其針對(duì)實(shí)際問(wèn)題的解決方案。書(shū)中首先介紹了生成模型的發(fā)展史,特別是擴(kuò)散模型的起源和核心思想,為讀者學(xué)習(xí)后續(xù)章節(jié)奠定基礎(chǔ);然后深入探討了擴(kuò)散模型在構(gòu)建決策智能體、結(jié)合價(jià)值函數(shù)等方面的應(yīng)用,還詳細(xì)講解了如何利用擴(kuò)散模型解決軌跡優(yōu)化和策略?xún)?yōu)化等問(wèn)題;接下來(lái)探索了擴(kuò)散模型在多任務(wù)泛化和世界模型建模方面的擴(kuò)展應(yīng)用,展示了其在復(fù)雜環(huán)境中的適應(yīng)性和靈活性;最后討論了利用強(qiáng)化學(xué)習(xí)優(yōu)化擴(kuò)散模型的新進(jìn)展,以及擴(kuò)散模型在決策問(wèn)題上的前沿研究方向。
·前沿技術(shù)解析:系統(tǒng)梳理Diffusion-QL、Plan Diffuser、DDPO、Diffusion-DPO等關(guān)鍵算法,緊跟學(xué)術(shù)與工業(yè)界進(jìn)展。
·學(xué)用雙向賦能:不僅講解擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的應(yīng)用,更深入探討強(qiáng)化學(xué)習(xí)對(duì)擴(kuò)散模型的優(yōu)化,實(shí)現(xiàn)技術(shù)閉環(huán)。
·理論實(shí)戰(zhàn)融合:提供大量可運(yùn)行的代碼實(shí)例,涵蓋機(jī)器人控制、自動(dòng)駕駛等場(chǎng)景。
·系統(tǒng)知識(shí)脈絡(luò):從數(shù)學(xué)基礎(chǔ)、模型設(shè)計(jì)到應(yīng)用擴(kuò)展,構(gòu)建“原理—實(shí)現(xiàn)—系統(tǒng)—優(yōu)化”的完整知識(shí)體系。
·面向生產(chǎn)科研:適合希望將擴(kuò)散模型應(yīng)用于復(fù)雜決策場(chǎng)景的工程師閱讀,也能夠滿(mǎn)足研究者對(duì)技術(shù)本質(zhì)與前沿方向的深度探索。
陳云
北京大學(xué)智能科學(xué)與技術(shù)專(zhuān)業(yè)學(xué)士、軟件工程碩士,現(xiàn)任阿里巴巴國(guó)際數(shù)字商業(yè)集團(tuán)智能技術(shù)部推薦算法工程師,主要研究方向?yàn)樯墒饺斯ぶ悄茉谥悄芡扑]與商業(yè)廣告中的創(chuàng)新應(yīng)用。曾于上海人工智能實(shí)驗(yàn)室擔(dān)任研究員,深度參與開(kāi)源強(qiáng)化學(xué)習(xí)平臺(tái)DI-engine的研發(fā)與維護(hù),并在生成式策略學(xué)習(xí)與擴(kuò)散模型方向持續(xù)輸出技術(shù)博客文章與開(kāi)源實(shí)踐項(xiàng)目,目前多項(xiàng)研究成果發(fā)表于國(guó)際頂級(jí)會(huì)議及期刊。
牛雅哲
上海人工智能實(shí)驗(yàn)室前沿探索中心研究員,開(kāi)源決策智能組織OpenDILab(GitHub Star
數(shù)超2.7萬(wàn),為國(guó)內(nèi)影響力廣泛的決策智能開(kāi)源組織)負(fù)責(zé)人。曾在NeurIPS、ICLR、AAAI等機(jī)器學(xué)習(xí)頂級(jí)會(huì)議上發(fā)表多篇論文,在強(qiáng)化學(xué)習(xí)、分布式系統(tǒng)及大模型訓(xùn)練基建等領(lǐng)域擁有多年研發(fā)經(jīng)驗(yàn),長(zhǎng)期致力于探索機(jī)器學(xué)習(xí)算法與系統(tǒng)設(shè)計(jì)優(yōu)化相結(jié)合的最佳實(shí)踐路徑。
張金歐文
上海人工智能實(shí)驗(yàn)室AI For Science中心算法工程師,研究方向?yàn)樯赡P汀?qiáng)化學(xué)習(xí)、科學(xué)智能與工業(yè)智能。
第 1 章 起源:擴(kuò)散模型簡(jiǎn)介 1
11 生成模型的發(fā)展史 1
12 擴(kuò)散模型核心思想介紹 4
121 擴(kuò)散過(guò)程及其逆過(guò)程 4
122 擴(kuò)散模型的訓(xùn)練 7
123 擴(kuò)散模型的推斷 8
124 擴(kuò)散模型的評(píng)價(jià)指標(biāo) 9
125 擴(kuò)散模型的類(lèi)型 10
13 條件擴(kuò)散模型 13
131 分類(lèi)器引導(dǎo)采樣和無(wú)分類(lèi)器引導(dǎo)采樣 13
132 ControlNet 15
14 擴(kuò)散模型加速采樣方法 17
141 training-free 加速采樣方法 18
142 training-based 加速采樣方法24
參考文獻(xiàn)27
第 2 章 基石:擴(kuò)散模型與軌跡優(yōu)化問(wèn)題 29
21 離線(xiàn)強(qiáng)化學(xué)習(xí) 29
22 第 一個(gè)基于擴(kuò)散模型的決策智能體:Plan Diffuser 31
221 以軌跡片段為對(duì)象的擴(kuò)散模型 31
222 Plan Diffuser 的建模與優(yōu)化 32
223 Plan Diffuser 的特性 39
224 從實(shí)驗(yàn)中解析 Plan Diffuser 40
225 靈活的測(cè)試目標(biāo) 42
226 離線(xiàn)強(qiáng)化學(xué)習(xí) 43
227 擴(kuò)散模型熱啟動(dòng) 44
23 條件生成決策模型的集大成者:Decision Diffuser 45
231 Decision Diffuser 的建模與優(yōu)化 45
232 回報(bào)以外的條件變量 47
24 代碼實(shí)戰(zhàn) 54
241 導(dǎo)入第三方庫(kù) 54
242 準(zhǔn)備數(shù)據(jù)集 54
243 配置擴(kuò)散模型 56
244 實(shí)例化擴(kuò)散模型 57
245 訓(xùn)練條件擴(kuò)散模型 57
246 條件采樣 58
參考文獻(xiàn)60
第 3 章 基石:擴(kuò)散模型與價(jià)值函數(shù)的結(jié)合 61
31 強(qiáng)化學(xué)習(xí)中基于價(jià)值函數(shù)的策略?xún)?yōu)化 61
32 Diffusion-QL :高效建模離線(xiàn)數(shù)據(jù)集中的行為策略 62
33 CEP 和 QGPO :借助能量函數(shù)設(shè)計(jì)新的引導(dǎo)器 64
331 對(duì)比能量預(yù)測(cè)法 65
332 基于 Q 價(jià)值函數(shù)引導(dǎo)的策略?xún)?yōu)化 69
34 LDCQ :擴(kuò)散模型約束下的 Q-learning 77
341 背景知識(shí) 78
342 隱空間擴(kuò)散強(qiáng)化學(xué)習(xí) 80
343 以目標(biāo)為條件的隱空間擴(kuò)散模型 84
344 實(shí)驗(yàn)與分析 84
345 局限性與展望 88
參考文獻(xiàn)89
第 4 章 基石:擴(kuò)散模型訓(xùn)練技巧指南 90
41 如何設(shè)計(jì)去噪網(wǎng)絡(luò) 90
411 U-Net 90
412 DiT 92
413 文本編碼器 98
42 如何設(shè)計(jì)訓(xùn)練方案 99
421 連續(xù)時(shí)間擴(kuò)散模型的訓(xùn)練 99
422 擴(kuò)散過(guò)程的設(shè)計(jì)與選擇 100
423 擴(kuò)散模型建模目標(biāo)與訓(xùn)練方式的選擇 102
43 如何選擇擴(kuò)散模型的類(lèi)型 104
44 代碼實(shí)戰(zhàn) 105
參考文獻(xiàn) 106
第 5 章 擴(kuò)展:多任務(wù)泛化 108
51 離線(xiàn)元強(qiáng)化學(xué)習(xí) 108
52 MetaDiffuser 108
521 面向任務(wù)的上下文編碼器 109
522 條件擴(kuò)散模型架構(gòu) 110
523 雙引導(dǎo)增強(qiáng)規(guī)劃器 111
參考文獻(xiàn) 112
第 6 章 擴(kuò)展:世界模型建模 113
61 世界模型簡(jiǎn)介 113
62 基于 RNN 的世界模型 114
621 論文“World Models” 114
622 DreamerV3 115
63 基于 Transformer 的世界模型 122
631 IRIS 122
632 TWM 124
633 STORM 124
64 基于擴(kuò)散模型的世界模型 126
641 擴(kuò)散范式的最佳實(shí)踐126
642 實(shí)驗(yàn)結(jié)果 129
參考文獻(xiàn) 132
第 7 章 反轉(zhuǎn):用強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化擴(kuò)散模型 133
71 引言 133
72 DDPO :將去噪過(guò)程建模為序列決策過(guò)程 133
721 將擴(kuò)散模型建模為多步 MDP 135
722 策略梯度估計(jì) 136
723 各種獎(jiǎng)勵(lì)模型下的采樣表現(xiàn) 136
73 Diffusion-DPO :運(yùn)用于擴(kuò)散模型的直接偏好優(yōu)化 139
731 從 RLHF 到 DPO 140
732 將 RLHF 用于文本圖像對(duì)齊 141
733 將 DPO 用于文本圖像對(duì)齊 142
734 將 DPO 用于擴(kuò)散模型優(yōu)化 143
735 文本圖像對(duì)齊實(shí)驗(yàn) 145
736 從強(qiáng)化學(xué)習(xí)角度推導(dǎo) Diffusion-DPO 147
74 DRaFT :通過(guò)可微分獎(jiǎng)勵(lì)函數(shù)直接優(yōu)化擴(kuò)散模型 149
741 DRaFT 149
742 DRaFT-K 150
743 DRaFT-LV 151
744 實(shí)驗(yàn)結(jié)果 151
75 代碼實(shí)戰(zhàn) 152
參考文獻(xiàn) 157
第 8 章 擴(kuò)展:擴(kuò)散模型在決策問(wèn)題上的新進(jìn)展 158
81 基于生成模型的強(qiáng)化學(xué)習(xí)策略 158
82 決策基模型中的擴(kuò)散模型 161
821 ViNT 162
822 NoMaD 166
823 SuSIE 170
83 總結(jié)與展望 177
參考文獻(xiàn) 177