多智能體即時(shí)策略對抗方法與實(shí)踐
定 價(jià):85 元
叢書名:智能科學(xué)技術(shù)著作叢書
- 作者:蘇炯銘[等]編著
- 出版時(shí)間:2019/12/1
- ISBN:9787030621429
- 出 版 社:科學(xué)出版社
- 中圖法分類:G898.3
- 頁碼:172
- 紙張:
- 版次:31
- 開本:B5
本書旨在以主流的即時(shí)策略游戲星際爭霸作為案例,研究多智能體協(xié)同對抗技術(shù),闡述目前游戲智能中解決復(fù)雜環(huán)境下不完全信息動(dòng)態(tài)博弈問題的方法,提供具體的實(shí)踐開發(fā)指導(dǎo)。復(fù)雜環(huán)境下不完全信息動(dòng)態(tài)博弈問題已成為亟待解決的前沿?zé)狳c(diǎn)問題,特別是在軍事智能應(yīng)用中尤為突出,而多智能體協(xié)同對抗技術(shù)是其核心關(guān)鍵之一。本書探討的多智能體協(xié)同對抗主要是指即時(shí)策略游戲中的微觀管理(微操),而不是指其游戲的全流程對戰(zhàn)。微觀管理問題難度隨智能體數(shù)量和種類增加而增加,兼顧難度和可實(shí)現(xiàn)性,與智能化作戰(zhàn)有很大的相似度,是當(dāng)前研究與游戲智能競賽的主流。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
《智能科學(xué)技術(shù)著作叢書》序
前言
第1章 緒論 1
1.1 概念與內(nèi)涵 2
1.2 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢 5
1.2.1 國內(nèi)外研究現(xiàn)狀 5
1.2.2 發(fā)展趨勢分析 11
1.3 《星際爭霸》AI比賽 11
1.4 小結(jié) 13
思考題 14
第2章 多智能即時(shí)策略對抗基礎(chǔ) 15
2.1 多智能體即時(shí)策略對抗形式化描述 16
2.2 多智能體強(qiáng)化學(xué)習(xí)基礎(chǔ) 18
2.2.1 完全合作任務(wù)算法 22
2.2.2 完全競爭任務(wù)算法 24
2.2.3 混合競爭與合作任務(wù)算法 26
2.3 解決方法 29
2.3.1 基于知識驅(qū)動(dòng)的啟發(fā)式方法 30
2.3.2 基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法 31
2.4 強(qiáng)化學(xué)習(xí)算法研究流程 33
2.5 即時(shí)策略對抗研究環(huán)境 34
2.6 對抗場景與算法性能基準(zhǔn) 39
2.7 小結(jié) 41
思考題 42
第3章 多智能體雙向協(xié)調(diào)網(wǎng)絡(luò) 43
3.1 算法架構(gòu) 44
3.2 訓(xùn)練方法 48
3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 49
3.4 小結(jié) 54
思考題 54
第4章 反事實(shí)多智能體策略梯度 55
4.1 算法架構(gòu) 56
4.2 學(xué)習(xí)算法 58
4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 62
4.4 小結(jié) 64
思考題 64
第5章 共享參數(shù)多智能體策略下降Sarsa(λ)算法 65
5.1 算法架構(gòu) 66
5.2 訓(xùn)練方法 70
5.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 72
5.4 小結(jié) 73
思考題 74
第6章 進(jìn)化策略算法 75
6.1 進(jìn)化策略 75
6.2 基于進(jìn)化策略的多智能體動(dòng)作策略模型 78
6.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 81
6.4 小結(jié) 85
思考題 85
第7章 《星際爭霸》AI研究環(huán)境搭建 86
7.1 Anaconda與PyCharm工具 86
7.2 《星際爭霸》AI研究環(huán)境搭建方式一:Win-Linux模式 88
7.2.1 Windows 服務(wù)器端安裝 88
7.2.2 Linux 客戶端安裝 89
7.2.3 運(yùn)行示例代碼測試環(huán)境安裝的正確性 91
7.3 《星際爭霸》AI研究環(huán)境搭建方式二:單Linux模式 92
7.3.1 基于Linux 的環(huán)境搭建 93
7.3.2 運(yùn)行示例代碼測試環(huán)境安裝的正確性 94
7.4 小結(jié) 95
思考題 95
第8章 《星際爭霸》即時(shí)策略對抗AI開發(fā)基礎(chǔ) 96
8.1 Gym接口規(guī)范 96
8.2 基于Gym接口規(guī)范的《星際爭霸》對抗環(huán)境開發(fā) 97
8.3 最簡單的多智能體對抗策略實(shí)例—隨機(jī)攻擊 100
8.4 小結(jié) 108
思考題 108
第9章 基于知識驅(qū)動(dòng)的啟發(fā)式策略開發(fā)實(shí)戰(zhàn) 109
9.1 《星際爭霸》Gym環(huán)境設(shè)計(jì) 109
9.2 攻擊最近敵方策略設(shè)計(jì) 114
9.3 攻擊最弱最近敵方策略設(shè)計(jì) 115
9.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 116
9.4.1 不同決策頻率對勝率的影響 117
9.4.2 不同初始陣型對勝率的影響 118
9.4.3 不同對戰(zhàn)規(guī)模對勝率的影響 119
9.4.4 不同策略間相互對抗勝率 119
9.5 小結(jié) 120
思考題 120
第10章 多智能體強(qiáng)化學(xué)習(xí)方法開發(fā)實(shí)戰(zhàn) 121
10.1 BiCNet《星際爭霸》Gym環(huán)境設(shè)計(jì)實(shí)現(xiàn) 121
10.2 訓(xùn)練算法實(shí)現(xiàn) 127
10.3 運(yùn)行模型 134
10.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 135
10.5 小結(jié) 136
思考題 137
附錄A 深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)簡介 138
A.1 深度神經(jīng)網(wǎng)絡(luò) 138
A.1.1 多層感知器 138
A.1.2 卷積神經(jīng)網(wǎng)絡(luò) 139
A.1.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 140
A.2 強(qiáng)化學(xué)習(xí) 141
A.2.1 時(shí)間差分學(xué)習(xí) 141
A.2.2 蒙特卡羅方法 142
A.2.3 策略梯度方法 142
附錄B 《星際爭霸》游戲基礎(chǔ) 144
B.1 游戲種族與兵種 145
B.1.1 人族 145
B.1.2 神族 147
B.1.3 蟲族 148
B.2 游戲地圖制作與編輯 150
B.2.1 角色戰(zhàn)斗力修改 150
B.2.2 游戲中觸發(fā)器修改 150
參考文獻(xiàn) 155