神經(jīng)網(wǎng)絡與深度學習是人工智能研究的重要領域,是機器學習的重要組成部分。人工智能是研究理解和模擬人類智能、智能行為及其規(guī)律的科學。本書緊緊圍繞神經(jīng)網(wǎng)絡和深度學習的基礎知識體系進行系統(tǒng)的梳理,力求從基礎理論、經(jīng)典模型和前沿應用展開論述,便于讀者能夠較為全面地掌握深度學習的相關知識。全書共 16 章。第 1 章是緒論,簡要介紹人工智能、機器學習、神經(jīng)網(wǎng)絡與深度學習的基本概念及相互關系,并對神經(jīng)網(wǎng)絡的發(fā)展歷程和產(chǎn)生機理進行闡述;第2章介紹神經(jīng)網(wǎng)絡的基本神經(jīng)元模型、網(wǎng)絡結構、學習方法、學習規(guī)則、正則化方法、模型評估方法等基礎知識;第3~8章介紹多層感知器神經(jīng)網(wǎng)絡、自組織競爭神經(jīng)網(wǎng)絡、徑向基函數(shù)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、注意力機制與反饋網(wǎng)絡;第9章介紹深度學習網(wǎng)絡優(yōu)化的相關內容;第 10~13章介紹受限玻爾茲曼機和深度置信網(wǎng)絡、棧式自編碼器、生成對抗網(wǎng)絡和圖神經(jīng)網(wǎng)絡;第 14 章介紹深度強化學習;第15章介紹深度學習的可解釋性;第16章介紹多模態(tài)預訓練模型。深度學習是源于對含有多個隱藏層的神經(jīng)網(wǎng)絡結構進行的研究,以便建立和模擬人腦的學習過程。本書整理了人工神經(jīng)網(wǎng)絡從簡單到復雜的模型,歸納和總結了神經(jīng)網(wǎng)絡的理論、方法和應用實踐。本書可以作為高等院校人工智能及相關專業(yè)或非計算機專業(yè)的參考用書,也可以作為人工智能領域的科技工作者或科研機構工作人員的參考用書。
趙眸光,博士,以工業(yè)互聯(lián)網(wǎng)、大數(shù)據(jù)、機器學習、計算機視覺和自然語言處理等內容為研究方向,服務于智慧城市產(chǎn)業(yè)化應用。大數(shù)據(jù)產(chǎn)業(yè)聯(lián)合會會員,人工智能協(xié)會會員。大數(shù)據(jù)與人工智能智庫專家。曾擔任過首席架構專家、首席數(shù)據(jù)專家、企業(yè)信息資源規(guī)劃專家。在清華從事過信息規(guī)劃咨詢,產(chǎn)學研合作、技術成果轉化工作。從事過智慧城市的頂層設計規(guī)劃工作。參與過多項項目評審工作。圍繞數(shù)字金融、智慧醫(yī)療、智能交通、智能制造、智慧旅游、智慧教育、智慧園區(qū)等參與過多個項目和課題研究。出版過智慧城市、大數(shù)據(jù)、企業(yè)信息規(guī)劃、信息安全等領域多本著作。從事過大型企業(yè)互聯(lián)網(wǎng)、企業(yè)ERP、MES、云計算、大數(shù)據(jù)等信息化項目。
第1章 緒論1
1.1 與深度學習有關的幾個概念1
1.1.1 人工智能2
1.1.2 機器學習4
1.1.3 表示學習10
1.1.4 機器學習、神經(jīng)網(wǎng)絡及深度學習的關系12
1.1.5 深度學習常用的框架14
1.2 神經(jīng)網(wǎng)絡與深度學習的發(fā)展歷程15
1.2.1 神經(jīng)網(wǎng)絡的誕生16
1.2.2 神經(jīng)網(wǎng)絡的復興16
1.2.3 深度學習的崛起17
1.3 神經(jīng)網(wǎng)絡的產(chǎn)生機理18
1.3.1 大腦研究的基本情況19
1.3.2 腦組織的基本組成20
1.3.3 腦組織的分層結構22
1.3.4 大腦的基本工作原理22
1.4 生物神經(jīng)網(wǎng)絡基礎25
1.4.1 神經(jīng)元的基本結構25
1.4.2 神經(jīng)元的基本分類28
1.4.3 神經(jīng)元的信息傳遞機理28
1.4.4 生物神經(jīng)網(wǎng)絡的構成31
1.5 本書的知識框架體系32
1.6 本章小結33
第2章 人工神經(jīng)網(wǎng)絡計算35
2.1 神經(jīng)網(wǎng)絡概述35
2.2 人工神經(jīng)元模型36
2.2.1 基本神經(jīng)元模型36
2.2.2 常用激活函數(shù)38
2.2.3 Softmax輸出分類42
2.3 神經(jīng)網(wǎng)絡結構43
2.3.1 單層前饋網(wǎng)絡44
2.3.2 多層前饋網(wǎng)絡45
2.3.3 反饋網(wǎng)絡46
2.3.4 圖網(wǎng)絡46
2.4 神經(jīng)網(wǎng)絡的學習方法47
2.4.1 無監(jiān)督學習的Hebb算法48
2.4.2 監(jiān)督學習的Delta規(guī)則49
2.5 神經(jīng)網(wǎng)絡的損失函數(shù)50
2.5.1 均方差損失函數(shù)50
2.5.2 平均絕對誤差損失函數(shù)50
2.5.3 交叉熵損失函數(shù)51
2.6 神經(jīng)網(wǎng)絡的學習規(guī)則55
2.6.1 極大似然估計55
2.6.2 經(jīng)驗風險最小化準則57
2.6.3 過擬合與欠擬合57
2.7 梯度下降法58
2.7.1 一維梯度下降59
2.7.2 多維梯度下降60
2.7.3 隨機梯度下降61
2.8 網(wǎng)絡正則化方法62
2.8.1 L1和L2正則化62
2.8.2 提前停止63
2.8.3 權重衰減64
2.8.4 丟棄法64
2.8.5 數(shù)據(jù)增強69
2.8.6 標簽平滑69
2.9 模型評估方法70
2.9.1 混淆矩陣70
2.9.2 準確率、精確率、召回率71
2.9.3 ROC/AUC/PR曲線72
2.10 本章小結74
第3章 多層感知器神經(jīng)網(wǎng)絡75
3.1 感知器及其發(fā)展過程75
3.2 感知器學習算法76
3.2.1 離散單輸出感知器學習算法76
3.2.2 離散多輸出感知器學習算法77
3.2.3 多層感知器線性處理問題79
3.3 多層感知器的算法實現(xiàn)82
3.4 反向傳播算法84
3.4.1 反向傳播多層感知器模型84
3.4.2 反向傳播算法的原理85
3.4.3 反向傳播算法的執(zhí)行步驟89
3.4.4 梯度消失和梯度爆炸問題91
3.4.5 反向傳播網(wǎng)絡的數(shù)據(jù)擬合問題92
3.5 本章小結97
第4章 自組織競爭神經(jīng)網(wǎng)絡98
4.1 競爭學習的概念與原理98
4.1.1 競爭學習規(guī)則98
4.1.2 競爭學習原理100
4.2 SOFM網(wǎng)絡101
4.2.1 SOFM網(wǎng)絡結構101
4.2.2 運行原理102
4.2.3 學習過程103
4.2.4 兩階段學習104
4.3 ART網(wǎng)絡105
4.3.1 ART網(wǎng)絡結構105
4.3.2 網(wǎng)絡運行與訓練107
4.3.3 網(wǎng)絡運行的參數(shù)說明108
4.4 自組織競爭神經(jīng)網(wǎng)絡的算法實現(xiàn)108
4.5 本章小結109
第5章 徑向基函數(shù)神經(jīng)網(wǎng)絡111
5.1 徑向基函數(shù)介紹及結構111
5.2 函數(shù)逼近與內插112
5.2.1 插值問題的定義112
5.2.2 徑向基函數(shù)的一般形式112
5.2.3 徑向基函數(shù)的性質113
5.3 正則化理論114
5.4 徑向基函數(shù)神經(jīng)網(wǎng)絡學習117
5.4.1 隨機選取徑向基函數(shù)中心117
5.4.2 自組織學習選取徑向基函數(shù)中心118
5.4.3 有監(jiān)督學習選取徑向基函數(shù)中心119
5.5 本章小結120
第6章 卷積神經(jīng)網(wǎng)絡122
6.1 卷積神經(jīng)網(wǎng)絡的概念及特點122
6.1.1 卷積的定義122
6.1.2 卷積的變形123
6.1.3 卷積與互相關操作124
6.1.4 卷積神經(jīng)網(wǎng)絡的特點125
6.2 卷積神經(jīng)網(wǎng)絡的基本結構126
6.2.1 卷積層127
6.2.2 匯聚層131
6.2.3 全連接層133
6.2.4 輸出層134
6.3 卷積神經(jīng)網(wǎng)絡參數(shù)學習134
6.4 卷積神經(jīng)網(wǎng)絡常用模型137
6.4.1 LeNet模型137
6.4.2 AlexNet模型139
6.4.3 VGGNet模型140
6.4.4 GoogLeNet模型141
6.4.5 ResNet模型146
6.4.6 DenseNet模型148
6.5 卷積神經(jīng)網(wǎng)絡的算法實現(xiàn)149
6.6 本章小結152
第7章 循環(huán)神經(jīng)網(wǎng)絡153
7.1 循環(huán)神經(jīng)網(wǎng)絡的概念153
7.2 循環(huán)神經(jīng)網(wǎng)絡模型154
7.3 循環(huán)神經(jīng)網(wǎng)絡參數(shù)學習156
7.3.1 BPTT算法156
7.3.2 RTRL算法157
7.4 網(wǎng)絡梯度問題改進157
7.5 長短期記憶158
7.6 門控循環(huán)單元網(wǎng)絡161
7.7 深度循環(huán)神經(jīng)網(wǎng)絡162
7.7.1 堆疊循環(huán)神經(jīng)網(wǎng)絡162
7.7.2 雙向循環(huán)神經(jīng)網(wǎng)絡163
7.8 循環(huán)神經(jīng)網(wǎng)絡算法實現(xiàn)——手寫體數(shù)字識別問題164
7.9 本章小結168
第8章 注意力機制與反饋網(wǎng)絡169
8.1 注意力機制網(wǎng)絡170
8.1.1 注意力機制網(wǎng)絡的概念及分類170
8.1.2 自注意力模型174
8.2 離散型Hopfield神經(jīng)網(wǎng)絡176
8.2.1 網(wǎng)絡的結構與工作方式176
8.2.2 網(wǎng)絡的能量狀態(tài)分析178
8.2.3 網(wǎng)絡吸引子的性質181
8.3 連續(xù)型Hopfield神經(jīng)網(wǎng)絡183
8.3.1 網(wǎng)絡的拓撲結構183
8.3.2 網(wǎng)絡的能量與穩(wěn)定性分析185
8.4 Hopfield神經(jīng)網(wǎng)絡應用實例186
8.5 Hopfield神經(jīng)網(wǎng)絡求解TSP190
8.6 本章小結192
第9章 深度學習網(wǎng)絡優(yōu)化193
9.1 參數(shù)初始化193
9.1.1 固定方差參數(shù)初始化194
9.1.2 方差縮放參數(shù)初始化195
9.1.3 正交初始化197
9.2 數(shù)據(jù)預處理198
9.3 逐層歸一化201
9.3.1 批量歸一化201
9.3.2 層歸一化203
9.3.3 權重歸一化204
9.3.4 局部響應歸一化205
9.4 超參數(shù)優(yōu)化205
9.4.1 網(wǎng)格搜索206
9.4.2 隨機搜索206
9.4.3 貝葉斯優(yōu)化207
9.4.4 動態(tài)資源分配208
9.4.5 神經(jīng)架構搜索208
9.5 優(yōu)化算法209
9.5.1 空間變量的非凸優(yōu)化209
9.5.2 Momentum210
9.5.3 NAG211
9.5.4 AdaGrad211
9.5.5 AdaDelta212
9.5.6 RMSProp212
9.5.7 Adam212
9.6 本章小結213
第10章 受限玻爾茲曼機和深度置信網(wǎng)絡214
10.1 概率圖模型214
10.2 受限玻爾茲曼機的基本結構215
10.3 受限玻爾茲曼機的能量模型和似然函數(shù)216
10.4 受限玻爾茲曼機的學習任務217
10.4.1 最優(yōu)參數(shù)的梯度計算217
10.4.2 吉布斯采樣219
10.4.3 對比散度算法220
10.5 深度置信網(wǎng)絡222
10.5.1 網(wǎng)絡模型222
10.5.2 網(wǎng)絡訓練算法223
10.6 深度置信網(wǎng)絡的應用225
10.6.1 音頻特征提取225
10.6.2 多模態(tài)數(shù)據(jù)建模226
10.7 本章小結228
第11章 棧式自編碼器230
11.1 自編碼器230
11.2 稀疏自編碼器233
11.3 棧式自編碼器的原理234
11.4 降噪自編碼器234
11.5 自編碼器的圖像還原236
11.6 自編碼器的機器翻譯應用238
11.7 本章小結239
第12章 生成對抗網(wǎng)絡240
12.1 深度生成模型240
12.1.1 概率密度估計241
12.1.2 生成樣本241
12.2 生成對抗網(wǎng)絡的基本結構242
12.3 原始-對偶次梯度方法訓練246
12.4 生成對抗網(wǎng)絡的應用249
12.4.1 人臉圖像的生成249
12.4.2 生成對抗網(wǎng)絡的算法實現(xiàn)251
12.5 本章小結252
第13章 圖神經(jīng)網(wǎng)絡254
13.1 圖網(wǎng)絡概述254
13.1.1 圖的定義254
13.1.2 圖數(shù)據(jù)網(wǎng)絡的性質和特點256
13.1.3 圖神經(jīng)網(wǎng)絡的發(fā)展257
13.2 圖卷積神經(jīng)網(wǎng)絡259
13.2.1 譜域圖卷積神經(jīng)網(wǎng)絡259
13.2.2 切比雪夫網(wǎng)絡262
13.2.3 圖卷積神經(jīng)網(wǎng)絡263
13.3 圖循環(huán)神經(jīng)網(wǎng)絡265
13.3.1 不動點理論266
13.3.2 歸納式圖表示學習267
13.3.3 圖注意力網(wǎng)絡269
13.4 消息傳遞神經(jīng)網(wǎng)絡271
13.5 圖神經(jīng)網(wǎng)絡模型的應用273
13.5.1 圖分類273
13.5.2 知識圖譜與注意力模型274
13.5.3 基于圖神經(jīng)網(wǎng)絡的推薦系統(tǒng)275
13.5.4 計算機視覺276
13.6 本章小結277
第14章 深度強化學習278
14.1 強化學習概述278
14.2 馬爾可夫決策過程280
14.2.1 價值函數(shù)281
14.2.2 動作價值函數(shù)281
14.2.3 最優(yōu)價值函數(shù)282
14.2.4 策略迭代282
14.2.5 價值迭代283
14.3 Q-Learning算法285
14.4 Deep Q-Network強化學習288
14.5 蒙特卡羅算法291
14.6 AlphaGo強化學習292
14.6.1 AlphaGo發(fā)展概述292
14.6.2 AlphaGo Fan算法的原理295
14.6.3 AlphaGo Zero算法的原理300
14.7 強化學習的應用304
14.7.1 游戲領域304
14.7.2 機器人控制領域305
14.7.3 自然語言處理領域305
14.7.4 其他領域306
14.8 本章小結306
第15章 深度學習的可解釋性308
15.1 可解釋性的定義309
15.2 可解釋性方法309
15.2.1 模型透明度309
15.2.2 模型功能311
15.3 可視化方法分類312
15.3.1 特征可視化312
15.3.2 關系可視化312
15.3.3 過程可視化313
15.4 神經(jīng)網(wǎng)絡特征可視化313
15.5 本章小結317
第16章 多模態(tài)預訓練模型319
16.1 預訓練320
16.2 多模態(tài)數(shù)據(jù)的特征表示321
16.2.1 文本特征321
16.2.2 圖像特征329
16.3 Transformer模型330
16.3.1 模型的基本結構330
16.3.2 編碼模型331
16.3.3