強(qiáng)化學(xué)習(xí)入門:從原理到實(shí)踐
定 價(jià):79 元
- 作者:葉強(qiáng) 閆維新 黎斌
- 出版時(shí)間:2020/8/1
- ISBN:9787111661269
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP181
- 頁(yè)碼:0
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16K
本書以理論和實(shí)踐相結(jié)合的形式深入淺出地介紹強(qiáng)化學(xué)習(xí)的歷史、基本概念、經(jīng)典算法和一些前沿技術(shù),共分為三大部分:第壹部分(1~5章)介紹強(qiáng)化學(xué)習(xí)的發(fā)展歷史、強(qiáng)化學(xué)習(xí)的基本概念以及一些經(jīng)典的強(qiáng)化學(xué)習(xí)算法;第二部分(6~9章)在簡(jiǎn)要回顧深度學(xué)習(xí)技術(shù)的基礎(chǔ)上著重介紹深度強(qiáng)化學(xué)習(xí)的一些前沿實(shí)用算法;第三部分(*后一章)以五子棋為例詳細(xì)講解戰(zhàn)勝了人類頂級(jí)圍棋選手的Alpha Zero算法的核心思想。
前言
致謝
常用數(shù)學(xué)符號(hào)
主要算法列表
第1章 概述1
1.1 強(qiáng)化學(xué)習(xí)的歷史1
1.2 強(qiáng)化學(xué)習(xí)的基本概念2
1.3 章節(jié)組織6
1.4 編程環(huán)境與代碼資源6
第2章 從一個(gè)示例到馬爾可夫決策過(guò)程7
2.1 馬爾可夫過(guò)程7
2.2 馬爾可夫獎(jiǎng)勵(lì)過(guò)程9
2.3 馬爾可夫決策過(guò)程13
2.4 編程實(shí)踐:學(xué)生馬爾可夫決策示例20
2.4.1 收獲和價(jià)值的計(jì)算20
2.4.2 驗(yàn)證貝爾曼方程22
第3章 動(dòng)態(tài)規(guī)劃尋找最優(yōu)策略29
3.1 策略評(píng)估29
3.2 策略迭代32
3.3 價(jià)值迭代33
3.4 異步動(dòng)態(tài)規(guī)劃算法36
3.5 編程實(shí)踐:動(dòng)態(tài)規(guī)劃求解小型格子世界最優(yōu)策略37
3.5.1 小型格子世界MDP建模37
3.5.2 策略評(píng)估40
3.5.3 策略迭代41
3.5.4 價(jià)值迭代41
第4章 不基于模型的預(yù)測(cè)43
4.1 蒙特卡羅強(qiáng)化學(xué)習(xí)43
4.2 時(shí)序差分強(qiáng)化學(xué)習(xí)45
4.3 n步時(shí)序差分學(xué)習(xí)50
4.4 編程實(shí)踐:蒙特卡羅學(xué)習(xí)評(píng)估21點(diǎn)游戲的玩家策略54
4.4.1 21點(diǎn)游戲規(guī)則54
4.4.2 將21點(diǎn)游戲建模為強(qiáng)化學(xué)習(xí)問(wèn)題55
4.4.3 游戲場(chǎng)景的搭建55
4.4.4 生成對(duì)局?jǐn)?shù)據(jù)64
4.4.5 策略評(píng)估64
第5章 無(wú)模型的控制67
5.1 行為價(jià)值函數(shù)的重要性67
5.2 ?貪婪策略68
5.3 同策略蒙特卡羅控制69
5.4 同策略時(shí)序差分控制70
5.4.1 Sarsa算法70
5.4.2 Sarsa(λ)算法73
5.4.3 比較Sarsa和Sarsa(λ)74
5.5 異策略Q學(xué)習(xí)算法76
5.6 編程實(shí)踐:蒙特卡羅學(xué)習(xí)求解21點(diǎn)游戲的最優(yōu)策略78
5.7 編程實(shí)踐:構(gòu)建基于gym的有風(fēng)的格子世界及個(gè)體81
5.7.1 gym庫(kù)簡(jiǎn)介81
5.7.2 狀態(tài)序列的管理83
5.7.3 個(gè)體基類的編寫84
5.8 編程實(shí)踐:各類學(xué)習(xí)算法的實(shí)現(xiàn)及與有風(fēng)的格子世界的交互88
5.8.1 Sarsa算法89
5.8.2 Sarsa(λ)算法90
5.8.3 Q學(xué)習(xí)算法91
第6章 價(jià)值函數(shù)的近似表示93
6.1 價(jià)值近似的意義93
6.2 目標(biāo)函數(shù)與梯度下降95
6.2.1 目標(biāo)函數(shù)95
6.2.2 梯度和梯度下降97
6.3 常用的近似價(jià)值函數(shù)100
6.3.1 線性近似101
6.3.2 神經(jīng)網(wǎng)絡(luò)101
6.3.3 卷積神經(jīng)網(wǎng)絡(luò)近似104
6.4 DQN算法108
6.5 編程實(shí)踐:基于PyTorch實(shí)現(xiàn)DQN求解PuckWorld問(wèn)題109
6.5.1 基于神經(jīng)網(wǎng)絡(luò)的近似價(jià)值函數(shù)110
6.5.2 實(shí)現(xiàn)DQN求解PuckWorld問(wèn)題113
第7章 基于策略梯度的深度強(qiáng)化學(xué)習(xí)117
7.1 基于策略學(xué)習(xí)的意義117
7.2 策略目標(biāo)函數(shù)119
7.3 Actor-Critic算法121
7.4 深度確定性策略梯度算法124
7.5 編程實(shí)踐:DDPG算法實(shí)現(xiàn)125
7.5.1 連續(xù)行為空間的PuckWorld環(huán)境125
7.5.2 Actor-Critic網(wǎng)絡(luò)的實(shí)現(xiàn)127
7.5.3 確定性策略下探索的實(shí)現(xiàn)130
7.5.4 DDPG算法的實(shí)現(xiàn)130
7.5.5 DDPG算法在PuckWorld環(huán)境中的表現(xiàn)135
第8章 基于模型的學(xué)習(xí)和規(guī)劃137
8.1 環(huán)境的模型137
8.2 整合學(xué)習(xí)與規(guī)劃——Dyna算法139
8.3 基于模擬的搜索140
8.3.1 簡(jiǎn)單蒙特卡羅搜索140
8.3.2 蒙特卡羅樹(shù)搜索141
第9章 探索與利用143
9.1 多臂游戲機(jī)143
9.2 常用的探索方法145
9.2.1 衰減的?貪婪探索145
9.2.2 不確定行為優(yōu)先探索146
9.2.3 基于信息價(jià)值的探索149
第10章 Alpha Zero算法實(shí)戰(zhàn)151
10.1 自博弈中的蒙特卡羅樹(shù)搜索154
10.2 模型評(píng)估中的蒙特卡羅搜索156
10.3 策略價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)及策略提升160
10.4 編程實(shí)踐:Alpha Zero算法在五子棋上的實(shí)現(xiàn)161
10.4.1 從零開(kāi)始搭建棋盤環(huán)境161
10.4.2 搭建兩種MCTS以實(shí)現(xiàn)Alpha
Zero自博弈與模型評(píng)估168
10.4.3 搭建策略價(jià)值網(wǎng)絡(luò)并進(jìn)行策略提升177
10.4.4 訓(xùn)練自己的Alpha Zero
模型182
參考文獻(xiàn)184