本書共分為七章。第一章主要介紹數(shù)學(xué)對應(yīng)人工智能的重要性,以及代數(shù)學(xué)和分析學(xué)中的基礎(chǔ)概念,是后面各章的基礎(chǔ)。第二章和第三章分別介紹了微積分和線性代數(shù)核心內(nèi)容,并將相關(guān)基礎(chǔ)知識映射到人工智能領(lǐng)域,從這一視角理解數(shù)學(xué)基礎(chǔ)知識的工程應(yīng)用。第四章介紹了矩陣分解這一重要數(shù)學(xué)工具及其在人工智能領(lǐng)域的典型應(yīng)用。第五章介紹了概率論基礎(chǔ)知識及在人工智能領(lǐng)域的廣泛應(yīng)用。第六章介紹了最優(yōu)化理論及算法,以及它們在機(jī)器學(xué)習(xí)和人工智能中的基礎(chǔ)性應(yīng)用。第七章主要介紹了信息論的基本概念和在人工智能中常見的應(yīng)用。
廖盛斌, 博士,副教授,博士生導(dǎo)師。1989年畢業(yè)于湖北荊州師專數(shù)學(xué)教育專業(yè),2000年獲西安交通大學(xué)應(yīng)用數(shù)學(xué)專業(yè)碩士學(xué)位,2008年獲華中科技大學(xué)信息與通信工程專業(yè)博士學(xué)位。2012年1月英國埃塞克斯大學(xué)訪問學(xué)者,2015年5月澳大利亞臥龍崗大學(xué)訪問學(xué)者,2017年9月英國東英格利亞大學(xué)訪問學(xué)者。一直從事復(fù)雜系統(tǒng)控制與優(yōu)化、大數(shù)據(jù)與機(jī)器智能等方面的研究,主持國家自然科學(xué)基金項(xiàng)目2項(xiàng),在IEEE、Elsevier、Springer、Wiley等組織和機(jī)構(gòu)出版的國際雜志,以及各種國際和國內(nèi)學(xué)術(shù)會議上發(fā)表學(xué)術(shù)研究論文40多篇,其中10多篇被SCI收錄。
第1章 代數(shù)學(xué)和分析學(xué)的基礎(chǔ)概念 1
1.1 人工智能需要數(shù)學(xué)的原因 1
1.2 向量與范數(shù) 1
1.2.1 向量和線性空間 1
1.2.2 向量的內(nèi)積 2
1.2.3 向量的外積 3
1.2.4 向量的范數(shù) 4
1.3 矩陣的定義及其基本運(yùn)算 7
1.3.1 矩陣的定義 7
1.3.2 矩陣的基本運(yùn)算 7
1.3.3 逆矩陣 9
1.3.4 深入理解矩陣因子的幾何意義 10
1.4 行列式 12
1.4.1 行列式的定義 12
1.4.2 行列式的性質(zhì) 13
1.4.3 行列式的幾何意義 15
1.5 函數(shù)的極限與連續(xù)性 16
1.5.1 函數(shù)的極限 16
1.5.2 函數(shù)的連續(xù)性 17
本章參考文獻(xiàn) 19
第2章 微積分的基礎(chǔ)概念 20
2.1 導(dǎo)數(shù) 20
2.1.1 導(dǎo)數(shù)、偏導(dǎo)數(shù)與方向?qū)?shù) 20
2.1.2 梯度、雅可比矩陣和黑塞矩陣 25
2.1.3 泰勒公式 27
2.1.4 機(jī)器學(xué)習(xí)中常見函數(shù)的導(dǎo)數(shù) 28
2.2 微分 30
2.2.1 微分的概述 30
2.2.2 微分中值定理 31
2.3 積分 35
2.3.1 不定積分 35
2.3.2 定積分 37
2.3.3 廣義積分 42
2.3.4 多重積分 47
2.4 常微分方程 53
2.4.1 常微分方程的概述 53
2.4.2 一階微分方程的概述 53
本章參考文獻(xiàn) 57
第3章 矩陣與線性變換 58
3.1 矩陣秩的概述 58
3.1.1 矩陣的初等變換 58
3.1.2 矩陣的秩 59
3.2 向量組的線性相關(guān)性 60
3.2.1 線性組合 60
3.2.2 向量組的秩 61
3.3 特征值與特征向量 62
3.3.1 特征值與特征向量的定義 62
3.3.2 特征值與特征向量的基本性質(zhì) 63
3.3.3 相似矩陣與相似對角化 64
3.3.4 正交矩陣和對稱矩陣的對角化 67
3.4 線性空間 70
3.4.1 線性空間的相關(guān)定義 70
3.4.2 線性空間的基與維數(shù) 72
3.5 線性變換 75
3.5.1 基變換的定義 75
3.5.2 坐標(biāo)變換的定義 76
3.5.3 線性變換的定義 76
3.6 內(nèi)積空間 79
3.6.1 內(nèi)積空間的定義 79
3.6.2 施密特正交化方法 80
3.6.3 標(biāo)準(zhǔn)正交基的常用性質(zhì) 81
本章參考文獻(xiàn) 82
第4章 矩陣分解 83
4.1 矩陣的LU分解 83
4.1.1 矩陣LU分解的定義及本質(zhì) 83
4.1.2 矩陣LU分解的條件 85
4.1.3 矩陣LU分解的擴(kuò)展形式 87
4.1.4 利用矩陣的LU分解求解線性方程組Ax=b 88
4.2 矩陣的QR分解 89
4.2.1 矩陣QR分解的定義 89
4.2.2 利用施密特正交化方法進(jìn)行矩陣的QR分解 90
4.3 矩陣的特征值分解 93
4.3.1 矩陣特征值分解的定義 93
4.3.2 矩陣特征值分解的本質(zhì) 94
4.3.3 矩陣特征值分解的應(yīng)用 95
4.4 矩陣的奇異值分解 97
4.4.1 矩陣奇異值分解的定義 97
4.4.2 矩陣奇異值分解的計(jì)算 98
4.4.3 矩陣奇異值分解的意義及逼近 99
4.4.4 矩陣奇異值分解的應(yīng)用 100
本章參考文獻(xiàn) 106
第5章 最優(yōu)化理論與算法 107
5.1 凸集與凸函數(shù) 107
5.1.1 凸集 107
5.1.2 凸函數(shù) 110
5.1.3 凸函數(shù)的判定 113
5.2 最優(yōu)化問題與求解算法的一般形式 116
5.2.1 最優(yōu)化問題及解的定義 116
5.2.2 優(yōu)化算法的一般思路 117
5.2.3 可行方向與下降方向 120
5.3 最優(yōu)性條件 121
5.3.1 無約束問題的最優(yōu)性條件 121
5.3.2 約束問題的最優(yōu)性條件 123
5.3.3 KKT條件 126
5.4 梯度下降法 129
5.4.1 最速下降方向 129
5.4.2 梯度下降算法 131
5.4.3 隨機(jī)梯度下降算法 132
5.5 牛頓法 133
5.5.1 牛頓法的定義 133
5.5.2 擬牛頓法的定義 135
5.6 優(yōu)化算法在機(jī)器學(xué)習(xí)中的應(yīng)用 141
5.6.1 優(yōu)化算法求解機(jī)器學(xué)習(xí)問題的一般模式 141
5.6.2 支持向量機(jī)的動機(jī)與基本概念 142
5.6.3 線性可分支持向量機(jī) 143
5.6.4 軟間隔最大化 146
本章參考文獻(xiàn) 151
第6章 概率模型 153
6.1 隨機(jī)變量及其分布 153
6.1.1 概率的基本概念 153
6.1.2 隨機(jī)變量 154
6.1.3 離散型隨機(jī)變量 156
6.1.4 連續(xù)型隨機(jī)變量 156
6.1.5 隨機(jī)變量的函數(shù)及其分布 159
6.1.6 多維隨機(jī)變量及其分布 161
6.1.7 條件概率與條件分布 164
6.2 隨機(jī)變量的數(shù)字特征 168
6.2.1 隨機(jī)變量的數(shù)學(xué)期望 169
6.2.2 方差 172
6.2.3 協(xié)方差與相關(guān)系數(shù) 174
6.2.4 方差和協(xié)方差在PCA中的應(yīng)用舉例 176
6.3 極限理論 180
6.3.1 隨機(jī)變量的矩與切比雪夫不等式 180
6.3.2 大數(shù)定律 182
6.3.3 中心極限定理 186
6.4 機(jī)器學(xué)習(xí)中的參數(shù)估計(jì) 188
6.4.1 最大似然估計(jì) 189
6.4.2 最大后驗(yàn)估計(jì) 191
6.4.3 貝葉斯最優(yōu)分類器 193
6.4.4 貝葉斯估計(jì) 193
本章參考文獻(xiàn) 196
第7章 信息論的基礎(chǔ)概念 198
7.1 熵 198
7.1.1 熵的概念 198
7.1.2 聯(lián)合熵 200
7.1.3 條件熵 202
7.1.4 互信息 203
7.1.5 熵的性質(zhì) 205
7.1.6 熵在機(jī)器學(xué)習(xí)中的應(yīng)用 210
7.2 交叉熵與損失函數(shù) 219
7.2.1 交叉熵的定義 219
7.2.2 交叉熵的性質(zhì) 220
7.2.3 概率分布推斷 221
7.2.4 交叉熵?fù)p失函數(shù) 222
7.3 KL散度 224
7.3.1 KL散度的定義 224
7.3.2 從熵編碼的角度理解KL散度 226
7.3.3 KL散度的性質(zhì) 227
7.3.4 KL散度在機(jī)器學(xué)習(xí)中的應(yīng)用 228
本章參考文獻(xiàn) 230