關(guān)于我們
書單推薦
新書推薦
|
深度強化學(xué)習(xí):基礎(chǔ)、研究與應(yīng)用 讀者對象:本書是為計算機科學(xué)專業(yè)背景、希望從零開始學(xué)習(xí)深度強化學(xué)習(xí)并開展研究課題和實踐項目的學(xué)生準備的。本書也適合沒有很強的機器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。
深度強化學(xué)習(xí)結(jié)合深度學(xué)習(xí)與強化學(xué)習(xí)算法各自的優(yōu)勢解決復(fù)雜的決策任務(wù)。得益于 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強化學(xué)習(xí)受到大量的關(guān)注,相關(guān)技術(shù)廣泛應(yīng)用于不同的領(lǐng)域。本書分為三大部分,覆蓋深度強化學(xué)習(xí)的全部內(nèi)容。第一部分介紹深度學(xué)習(xí)和強化學(xué)習(xí)的入門知識、一些非;A(chǔ)的深度強化學(xué)習(xí)算法及其實現(xiàn)細節(jié),包括第 1~6 章。第二部分是一些精選的深度強化學(xué)習(xí)研究題目,這些內(nèi)容對準備開展深度強化學(xué)習(xí)研究的讀者非常有用,包括第 7~12 章。第三部分提供了豐富的應(yīng)用案例,包括 AlphaZero、讓機器人學(xué)習(xí)跑步等,包括第 13~17 章。本書是為計算機科學(xué)專業(yè)背景、希望從零開始學(xué)習(xí)深度強化學(xué)習(xí)并開展研究課題和實踐項目的學(xué)生準備的。本書也適合沒有很強的機器學(xué)習(xí)背景、但是希望快速學(xué)習(xí)深度強化學(xué)習(xí)并將其應(yīng)用到具體產(chǎn)品中的軟件工程師閱讀。
董 豪 北京大學(xué)計算機系前沿計算研究中心助理教授、深圳鵬城實驗室雙聘成員。于 2019 年秋獲得英國帝國理工學(xué)院博士學(xué)位。研究方向主要涉及計算機視覺和生成模型,目的是降低學(xué)習(xí)智能系統(tǒng)所需要的數(shù)據(jù)。致力于推廣人工智能技術(shù),是深度學(xué)習(xí)開源框架 TensorLayer 的創(chuàng)始人,此框架獲得 ACM MM 2017 年度最佳開源軟件獎。在英國帝國理工學(xué)院和英國中央蘭開夏大學(xué)獲得一等研究生和一等本科學(xué)位。丁子涵 英國帝國理工學(xué)院碩士。獲普林斯頓大學(xué)博士生全額獎學(xué)金,曾在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經(jīng)歷。本科就讀于中國科學(xué)技術(shù)大學(xué),獲物理和計算機雙學(xué)位。研究方向主要涉及強化學(xué)習(xí)、機器人控制、計算機視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級期刊與會議發(fā)表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 開源項目的貢獻者。仉尚航 加州大學(xué)伯克利分校,BAIR 實驗室(Berkeley AI Research Lab)博士后研究員。于 2018年獲得卡內(nèi)基·梅隆大學(xué)博士學(xué)位。研究方向主要涉及深度學(xué)習(xí)、計算機視覺及強化學(xué)習(xí)。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智能頂級期刊和會議發(fā)表多篇論文。目前主要從事 Human-inspired sample-efficient learning 理論與算法研究,包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award, 美國 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎勵。袁 航 英國牛津大學(xué)計算機科學(xué)博士在讀、李嘉誠獎學(xué)金獲得者,主攻人工智能安全和深度學(xué)習(xí)在健康醫(yī)療中的運用。曾在歐美各大高校和研究機構(gòu)研習(xí),如帝國理工學(xué)院、馬克斯普朗克研究所、瑞士聯(lián)邦理工和卡內(nèi)基·梅隆大學(xué)。張鴻銘 中國科學(xué)院自動化研究所算法工程師。于 2018 年獲得北京大學(xué)碩士研究生學(xué)位。本科就讀于北京師范大學(xué),獲理學(xué)學(xué)士學(xué)位。研究方向涉及統(tǒng)計機器學(xué)習(xí)、強化學(xué)習(xí)和啟發(fā)式搜索。張敬卿 英國帝國理工學(xué)院計算機系博士生,師從帝國理工學(xué)院數(shù)據(jù)科學(xué)院院長郭毅可院士。主要研究方向為深度學(xué)習(xí)、機器學(xué)習(xí)、文本挖掘、數(shù)據(jù)挖掘及其應(yīng)用。曾獲得中國國家獎學(xué)金。2016年于清華大學(xué)計算機科學(xué)與技術(shù)系獲得學(xué)士學(xué)位,2017 年于帝國理工學(xué)院計算機系獲得一等研究性碩士學(xué)位。黃彥華 就職于小紅書,負責(zé)大規(guī)模機器學(xué)習(xí)及強化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用。2016 年在華東師范大學(xué)數(shù)學(xué)系獲得理學(xué)學(xué)士學(xué)位。曾貢獻過開源項目 PyTorch、TensorFlow 和 Ray。余天洋 啟元世界算法工程師,負責(zé)強化學(xué)習(xí)在博弈場景中的應(yīng)用。碩士畢業(yè)于南昌大學(xué),是TensorLayer-RLzoo 開源項目的貢獻者。張華清 谷歌公司算法和機器學(xué)習(xí)工程師,側(cè)重于多智能體強化學(xué)習(xí)和多層次結(jié)構(gòu)博弈論方向研究,于華中科技大學(xué)獲得學(xué)士學(xué)位,后于 2017 年獲得休斯敦大學(xué)博士學(xué)位。黃銳桐 Borealis AI (加拿大皇家銀行研究院)團隊主管。于 2017 年獲得阿爾伯塔大學(xué)統(tǒng)計機器學(xué)習(xí)博士學(xué)位。本科就讀于中國科學(xué)技術(shù)大學(xué)數(shù)學(xué)系,后于滑鐵盧大學(xué)獲得計算機碩士學(xué)位。研究方向主要涉及在線學(xué)習(xí)、優(yōu)化、對抗學(xué)習(xí)和強化學(xué)習(xí)。廖培元 目前本科就讀于卡內(nèi)基·梅隆大學(xué)計算機科學(xué)學(xué)院。研究方向主要涉及表示學(xué)習(xí)和多模態(tài)機器學(xué)習(xí)。曾貢獻過開源項目 mmdetection 和 PyTorch Cluster,在 Kaggle 數(shù)據(jù)科學(xué)社區(qū)曾獲Competitions Grandmaster 稱號,最高排名全球前 25 位。
基礎(chǔ)部分 1 第 1 章 深度學(xué)習(xí)入門 2
1.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 多層感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.4 激活函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 損失函數(shù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.6 優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6.1 梯度下降和誤差的反向傳播 . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.6.2 隨機梯度下降和自適應(yīng)學(xué)習(xí)率 . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.6.3 超參數(shù)篩選 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.7 正則化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.1 過擬合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.2 權(quán)重衰減 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7.3 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.7.4 批標(biāo)準化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.7.5 其他緩和過擬合的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.8 卷積神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.9 循環(huán)神經(jīng)網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.10 深度學(xué)習(xí)的實現(xiàn)樣例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.10.1 張量和梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.10.2 定義模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1.10.3 自定義層 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 1.10.4 多層感知器:MNIST 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . . . . 33 1.10.5 卷積神經(jīng)網(wǎng)絡(luò):CIFAR-10 數(shù)據(jù)集上的圖像分類 . . . . . . . . . . . . . . . . 35 1.10.6 序列到序列模型:聊天機器人 . . . . . . . . . . . . . . . . . . . . . . . . . . 36 第 2 章 強化學(xué)習(xí)入門 43 2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.2 在線預(yù)測和在線學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.2 隨機多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2.3 對抗多臂賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.4 上下文賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.3 馬爾可夫過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.3.2 馬爾可夫獎勵過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.3 馬爾可夫決策過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.3.4 貝爾曼方程和最優(yōu)性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.3.5 其他重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4.1 策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.4.2 價值迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.4.3 其他 DPs:異步 DP、近似 DP 和實時 DP . . . . . . . . . . . . . . . . . . . 68 2.5 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.1 蒙特卡羅預(yù)測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.2 蒙特卡羅控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.3 增量蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.6 時間差分學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.6.1 時間差分預(yù)測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.6.2 Sarsa:在線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 Q-Learning:離線策略 TD 控制 . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7 策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7.2 基于價值的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 2.7.3 基于策略的優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.7.4 結(jié)合基于策略和基于價值的方法 . . . . . . . . . . . . . . . . . . . . . . . . 105 第 3 章 強化學(xué)習(xí)算法分類 110 3.1 基于模型的方法和無模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.2 基于價值的方法和基于策略的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3.3 蒙特卡羅方法和時間差分方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.4 在線策略方法和離線策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 第 4 章 深度 Q 網(wǎng)絡(luò) 119 4.1 Sarsa 和 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.2 為什么使用深度學(xué)習(xí): 價值函數(shù)逼近 . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 4.3 DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.4 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.5 Dueling DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.6 優(yōu)先經(jīng)驗回放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.7 其他改進內(nèi)容:多步學(xué)習(xí)、噪聲網(wǎng)絡(luò)和值分布強化學(xué)習(xí) . . . . . . . . . . . . . . . 128 4.8 DQN 代碼實例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 第 5 章 策略梯度 146 5.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.2 REINFORCE:初版策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.3 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 5.4 生成對抗網(wǎng)絡(luò)和 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.5 同步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.6 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.7 信賴域策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.8 近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.9 使用 Kronecker 因子化信賴域的 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . 159 5.10 策略梯度代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 . . . . . . . . . . . . . . . . . . . . . 165 5.10.3 AC: CartPole-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.10.4 A3C: BipedalWalker-v2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.10.5 TRPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.10.6 PPO: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 第 6 章 深度 Q 網(wǎng)絡(luò)和 Actor-Critic 的結(jié)合 200 6.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6.2 深度確定性策略梯度算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.3 孿生延遲 DDPG 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 6.4 柔性 Actor-Critic 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4.1 柔性策略迭代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 6.4.2 SAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 6.5 代碼例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.1 相關(guān)的 Gym 環(huán)境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.2 DDPG: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.5.3 TD3: Pendulum-V0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 6.5.4 SAC: Pendulum-v0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 研究部分 236 第 7 章 深度強化學(xué)習(xí)的挑戰(zhàn) 237 7.1 樣本效率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 7.2 學(xué)習(xí)穩(wěn)定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 7.3 災(zāi)難性遺忘 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 7.4 探索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 7.5 元學(xué)習(xí)和表征學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 7.6 多智能體強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 7.7 模擬到現(xiàn)實 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 7.8 大規(guī)模強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 7.9 其他挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 第 8 章 模仿學(xué)習(xí) 258 8.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 8.2 行為克隆方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.2.1 行為克隆方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 8.2.2 數(shù)據(jù)集聚合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 8.2.3 Variational Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8.2.4 行為克隆的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 8.3 逆向強化學(xué)習(xí)方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 8.3.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 8.3.2 逆向強化學(xué)習(xí)方法的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 8.3.3 生成對抗模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 8.3.4 生成對抗網(wǎng)絡(luò)指導(dǎo)性代價學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . 266 8.3.5 對抗性逆向強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 8.4 從觀察量進行模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.4.1 基于模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 8.4.2 無模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 8.4.3 從觀察量模仿學(xué)習(xí)的挑戰(zhàn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 8.5 概率性方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 8.6 模仿學(xué)習(xí)作為強化學(xué)習(xí)的初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 8.7 強化學(xué)習(xí)中利用示范數(shù)據(jù)的其他方法 . . . . . . . . . . . . . . . . . . . . . . . . . . 280 8.7.1 將示范數(shù)據(jù)導(dǎo)入經(jīng)驗回放緩存 . . . . . . . . . . . . . . . . . . . . . . . . . . 280 8.7.2 標(biāo)準化 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 8.7.3 用示范數(shù)據(jù)進行獎勵塑形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 8.8 總結(jié) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 第 9 章 集成學(xué)習(xí)與規(guī)劃 289 9.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 9.2 基于模型的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 9.3 集成模式架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 9.4 基于模擬的搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 9.4.1 樸素蒙特卡羅搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 9.4.2 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 9.4.3 時間差分搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 第 10 章 分層強化學(xué)習(xí) 298 10.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 10.2 選項框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 10.2.1 戰(zhàn)略專注作家 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 10.2.2 選項-批判者結(jié)構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 10.3 封建制強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.3.1 封建制網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.3.2 離線策略修正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 10.4 其他工作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 第 11 章 多智能體強化學(xué)習(xí) 315 11.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 11.2 優(yōu)化和均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 11.2.1 納什均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 11.2.2 關(guān)聯(lián)性均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 11.2.3 斯塔克爾伯格博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 11.3 競爭與合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.1 合作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.2 零和博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 11.3.3 同時決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 11.3.4 順序決策下的競爭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 11.4 博弈分析架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324 第 12 章 并行計算 326 12.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 12.2 同步和異步 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 12.3 并行計算網(wǎng)絡(luò) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 12.4 分布式強化學(xué)習(xí)算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.4.1 異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 12.4.2 GPU/CPU 混合式異步優(yōu)勢 Actor-Critic . . . . . . . . . . . . . . . . . . . . . 332 12.4.3 分布式近端策略優(yōu)化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 12.4.4 重要性加權(quán)的行動者-學(xué)習(xí)者結(jié)構(gòu)和可擴展高效深度強化學(xué)習(xí) . . . . . . . . 336 12.4.5 Ape-X、回溯-行動者和分布式深度循環(huán)回放 Q 網(wǎng)絡(luò) . . . . . . . . . . . . . 338 12.4.6 Gorila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 12.5 分布式計算架構(gòu) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 應(yīng)用部分 343 第 13 章 Learning to Run 344 13.1 NeurIPS 2017 挑戰(zhàn):Learning to Run . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 13.1.1 環(huán)境介紹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344 13.1.2 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346 13.2 訓(xùn)練智能體 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 13.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 13.2.2 小技巧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 13.2.3 學(xué)習(xí)結(jié)果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 第 14 章 魯棒的圖像增強 354 14.1 圖像增強 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 14.2 用于魯棒處理的強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 第 15 章 AlphaZero 366 15.1 簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366 15.2 組合博弈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 15.3 蒙特卡羅樹搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 15.4 AlphaZero:棋類游戲的通用算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 第 16 章 模擬環(huán)境中機器人學(xué)習(xí) 388 16.1 機器人模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 16.2 強化學(xué)習(xí)用于機器人任務(wù) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 16.2.1 并行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 16.2.2 學(xué)習(xí)效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 16.2.3 域隨機化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408 16.2.4 機器人學(xué)習(xí)基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 16.2.5 其他模擬器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 第 17 章 Arena:多智能體強化學(xué)習(xí)平臺 412 17.1 安裝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 17.2 用 Arena 開發(fā)游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413 17.2.1 簡單的單玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 17.2.2 簡單的使用獎勵機制的雙玩家游戲 . . . . . . . . . . . . . . . . . . . . . . . 416 17.2.3 高級設(shè)置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420 17.2.4 導(dǎo)出二進制游戲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424 17.3 MARL 訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 17.3.1 設(shè)置 X-Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 17.3.2 進行訓(xùn)練 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 17.3.3 可視化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 17.3.4 致謝 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431 第 18 章 深度強化學(xué)習(xí)應(yīng)用實踐技巧 433 18.1 概覽:如何應(yīng)用深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 18.2 實現(xiàn)階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 18.3 訓(xùn)練和調(diào)試階段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 總結(jié)部分 445 附錄 A 算法總結(jié)表 446 附錄 B 算法速查表 451 B.1 深度學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 B.1.1 隨機梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 B.1.2 Adam 優(yōu)化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2 強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2.1 賭博機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452 B.2.2 動態(tài)規(guī)劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 B.2.3 蒙特卡羅 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 B.3 深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 B.4 高等深度強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 B.4.1 模仿學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 B.4.2 基于模型的強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 B.4.3 分層強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 B.4.4 多智能體強化學(xué)習(xí) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 B.4.5 并行計算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 附錄 C 中英文對照表 476
你還可能感興趣
我要評論
|