人工智能超入門叢書--強化學(xué)習(xí):人工智能如何知錯能改
定 價:69.8 元
叢書名:人工智能超入門叢書
- 作者:龔超、王冀、梁霄、貴寧 著
- 出版時間:2024/8/1
- ISBN:9787122452825
- 出 版 社:化學(xué)工業(yè)出版社
- 中圖法分類:TP18-49
- 頁碼:234
- 紙張:
- 版次:01
- 開本:32開
“人工智能超入門叢書”致力于面向人工智能各技術(shù)方向零基礎(chǔ)的讀者,內(nèi)容涉及數(shù)據(jù)素養(yǎng)、機器學(xué)習(xí)、視覺感知、情感分析、搜索算法、強化學(xué)習(xí)、知識圖譜、專家系統(tǒng)等方向。本叢書體系完整、內(nèi)容簡潔、語言通俗,綜合介紹了人工智能相關(guān)知識,并輔以程序代碼解決問題,使得零基礎(chǔ)的讀者能夠快速入門。
《強化學(xué)習(xí):人工智能如何知錯能改》是“人工智能超入門叢書”中的分冊,以科普的形式講解了強化學(xué)習(xí)的核心知識,內(nèi)容生動有趣,帶領(lǐng)讀者走進強化學(xué)習(xí)的世界。本書包含強化學(xué)習(xí)方向的基礎(chǔ)知識,如動態(tài)規(guī)劃、時序差分等,讓讀者在開始學(xué)習(xí)時對強化學(xué)習(xí)有初步的認識;之后,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學(xué)習(xí)的關(guān)鍵內(nèi)容;同時,本書也重點解析了策略迭代與價值迭代兩種核心算法,也對蒙特卡洛方法、時序差分算法、深度強化學(xué)習(xí)及基于策略的強化學(xué)習(xí)算法進行了深度剖析。本書內(nèi)容結(jié)構(gòu)完整、邏輯清晰、層層遞進,并配有相關(guān)實例與代碼,讓讀者在閱讀學(xué)習(xí)過程中能夠加深理解。
本書適合強化學(xué)習(xí)及人工智能方向的初學(xué)者閱讀學(xué)習(xí),也可供高等院校人工智能及計算機類專業(yè)的師生參考。
龔超,工學(xué)博士,清華大學(xué)日本研究中心主任助理,中日創(chuàng)新中心主任研究員,深圳清華大學(xué)研究院下一代互聯(lián)網(wǎng)研發(fā)中心核心成員,?诮(jīng)濟學(xué)院雅和人居工程學(xué)院客座教授。中國高科技產(chǎn)業(yè)化研究會理事、中國自動化學(xué)會普及工作委員會委員、中國人工智能學(xué)會中小學(xué)工作委員會委員、中國青少年宮協(xié)會特聘專家、未來基因(北京)人工智能研究院首席專家、教育部教育信息化教學(xué)應(yīng)用實踐共同體項目特聘專家,多家500強企業(yè)數(shù)字化轉(zhuǎn)型領(lǐng)域高級顧問。研究方向為人工智能優(yōu)化算法、人工智能在數(shù)字化轉(zhuǎn)型中的應(yīng)用等。著有15本人工智能相關(guān)圖書,在國內(nèi)外期刊上發(fā)表文章共計70余篇。
王冀,工學(xué)博士,西北工業(yè)大學(xué)計算機學(xué)院助理教授,研究方向為關(guān)鍵數(shù)據(jù)提取及圖像編碼,在本領(lǐng)域優(yōu)秀期刊、會議發(fā)表論文20余篇,參與起草行業(yè)及團體標準2項,出版專著4部。曾獲PCSJ學(xué)會WBVC競賽特別獎、圖像信息媒體學(xué)會優(yōu)秀發(fā)表獎。
梁霄,中國人民大學(xué)附屬中學(xué)教師,任信息學(xué)競賽教練,本科畢業(yè)于清華大學(xué)電子工程系,博士畢業(yè)于清華大學(xué)計算機系。截至2024年6月,指導(dǎo)學(xué)生許庭強以世界第一的成績獲得2023國際信息學(xué)奧林匹克競賽金牌,指導(dǎo)學(xué)生黃洛天以總分第一名獲得2023年APIO國際金牌,指導(dǎo)6人次獲得NOI金牌(全部為國家集訓(xùn)隊)。此外還開設(shè)了多門人工智能相關(guān)課程,致力于探索計算機科學(xué)的中小學(xué)教育。
貴寧,本科畢業(yè)于清華大學(xué)自動化系,目前在清華大學(xué)深圳研究生院智能機器人實驗室攻讀碩士學(xué)位。研究方向集中于魯棒強化學(xué)習(xí)及其在機器人領(lǐng)域的應(yīng)用。在碩士學(xué)習(xí)期間,專注于強化學(xué)習(xí)與大模型在機器人技術(shù)上的實際應(yīng)用,積累了豐富的經(jīng)驗。
第1章 強化學(xué)習(xí)概述 001
1.1 什么是強化學(xué)習(xí) 002
1.1.1 初識強化學(xué)習(xí) 002
1.1.2 強化學(xué)習(xí)的關(guān)鍵要素 005
1.1.3 監(jiān)督、無監(jiān)督與強化學(xué)習(xí) 007
1.2 三條主線 009
1.2.1 試錯 009
1.2.2 動態(tài)規(guī)劃 011
1.2.3 時序差分 012
1.3 強化學(xué)習(xí)的方法與應(yīng)用 014
1.3.1 強強聯(lián)合之深度強化學(xué)習(xí) 014
1.3.2 強化學(xué)習(xí)的跨界賦能 017
1.3.3 強化學(xué)習(xí)的分類 021
第2章 馬爾可夫與貝爾曼方程 024
2.1 “隨機”那些事兒 025
2.1.1 概率的基本概念 025
2.1.2 網(wǎng)格迷宮的探索 031
2.1.3 探索的策略與獎勵 034
2.1.4 探索的足跡 037
2.2 馬爾可夫大家族 040
2.2.1 馬爾可夫過程 040
2.2.2 馬爾可夫獎勵過程 043
2.2.3 馬爾可夫決策過程 044
2.3 貝爾曼方程 046
2.3.1 價值函數(shù)與動作價值函數(shù) 046
2.3.2 貝爾曼方程 050
2.3.3 貝爾曼最優(yōu)方程 052
第3章 動態(tài)規(guī)劃 056
3.1 動態(tài)規(guī)劃基礎(chǔ)與環(huán)境 057
3.1.1 動態(tài)規(guī)劃基礎(chǔ) 057
3.1.2 環(huán)境:冰湖 059
3.2 策略迭代算法 063
3.2.1 原理 063
3.2.2 代碼 067
3.3 價值迭代算法 072
3.3.1 原理 072
3.3.2 代碼 074
第4章 蒙特卡洛 078
4.1 隨機變量的數(shù)字特征 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙特卡洛方法與應(yīng)用 083
4.2.1 圓面積的估計 084
4.2.2 均值估計 087
4.3 蒙特卡洛與強化學(xué)習(xí) 091
4.3.1 原理 091
4.3.2 環(huán)境:21點 101
4.3.3 代碼 102
第5章 時序差分 107
5.1 時序差分 108
5.1.1 時序差分基礎(chǔ) 108
5.1.2 環(huán)境:懸崖漫步 116
5.2 Sarsa算法 118
5.2.1 原理 118
5.2.2 代碼 120
5.3 Q-Learning算法 124
5.3.1 原理 124
5.3.2 代碼 127
第6章 深度強化學(xué)習(xí) 134
6.1 DQN入門 135
6.1.1 DQN的基本概念 135
6.1.2 環(huán)境:車桿 139
6.2 BP神經(jīng)網(wǎng)絡(luò)+強化學(xué)習(xí) 141
6.2.1 原理 141
6.2.2 代碼 145
6.3 卷積神經(jīng)網(wǎng)絡(luò)+強化學(xué)習(xí) 157
6.3.1 原理 157
6.3.2 代碼 162
6.4 DQN的改進 167
第7章 策略學(xué)習(xí) 170
7.1 策略梯度算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE算法 173
7.1.3 代碼 176
7.2 Actor-Critic算法 184
7.2.1 原理 184
7.2.2 環(huán)境:LunarLander 189
7.2.3 代碼 190
7.3 其他基于策略的算法 197
附錄 203
附錄A 環(huán)境設(shè)置與行為探索 204
A.1 Gym庫與環(huán)境設(shè)置 204
A.2 具有人類偏好的多智能體強化學(xué)習(xí) 206
附錄B 博弈與策略 209
B.1 什么是博弈 209
B.2 混合策略博弈 212
B.3 序貫博弈 215
B.4 無限博弈與有限博弈 216
附錄C 收益衡量 222
C.1 理性收益:期望價值 223
C.2 效用收益:期望效用 226
C.3 情感收益:前景理論 228