目錄
前言
符號說明
第1章 線性代數(shù)基礎 1
1.1 向量空間 1
1.1.1 研究對象與向量 1
1.1.2 群 2
1.1.3 向量空間的定義 3
1.1.4 生成集和基 6
1.1.5 子空間的交與和 7
1.2 線性映射 9
1.2.1 線性映射的定義 9
1.2.2 線性映射的矩陣表示 11
1.2.3 基變換 13
1.2.4 像集與核 18
1.3 內積空間 20
1.3.1 內積空間的定義 20
1.3.2 常見概念與相關結論 21
1.3.3 四個基本子空間 23
1.4 仿射子空間與仿射映射 29
1.4.1 仿射子空間 29
1.4.2 仿射映射 31
習題 1 32
第2章 范數(shù)理論與投影映射 37
2.1 向量范數(shù) 37
2.1.1 向量范數(shù)的定義 37
2.1.2 常用的向量范數(shù) 39
2.1.3 向量序列的收斂性 43
2.1.4 向量范數(shù)的對偶范數(shù) 47
2.2 矩陣范數(shù) 49
2.2.1 矩陣范數(shù)的定義和性質 49
2.2.2 幾種常用的矩陣范數(shù) 51
2.2.3 由向量范數(shù)誘導的矩陣范數(shù) 53
2.3 范數(shù)的一些應用 59
2.3.1 譜半徑與矩陣范數(shù) 59
2.3.2 線性方程組解的擾動分析 62
2.4 投影映射 66
2.4.1 投影映射 66
2.4.2 正交投影的幾個應用 70
習題 2 77
第3章 矩陣分解及應用 80
3.1 方陣的兩個重要數(shù)字特征 80
3.1.1 行列式 80
3.1.2 跡函數(shù) 82
3.2 LU 分解 82
3.2.1 LU 分解 83
3.2.2 平方根分解 88
3.3 QR 分解 91
3.3.1 Gram-Schmidt 正交化算法與 QR 分解 92
3.3.2 Householder 變換法與 QR 分解 94
3.3.3 Givens 旋轉和 QR 分解 98
3.3.4 QR 分解的應用 102
3.4 奇異值分解 103
3.4.1 特征值分解 104
3.4.2 奇異值分解的定義 104
3.4.3 奇異值分解的幾何解釋與性質 111
3.5 矩陣的低秩逼近 114
3.5.1 秩 k 逼近 115
3.5.2 低秩逼近的應用 118
習題 3 122
第4章 梯度矩陣 125
4.1 標量函數(shù)的梯度矩陣 125
4.1.1 標量函數(shù)的梯度定義 125
4.1.2 標量函數(shù)對向量的梯度 127
4.1.3 標量函數(shù)對矩陣的梯度 130
4.2 矩陣函數(shù)的梯度矩陣 132
4.2.1 向量函數(shù)的梯度矩陣 132
4.2.2 矩陣函數(shù)的梯度矩陣 134
4.3 矩陣微分 137
4.3.1 矩陣微分的定義與性質 137
4.3.2 標量函數(shù)的矩陣微分 139
4.3.3 矩陣函數(shù)的矩陣微分 141
4.4 鏈式法則 143
4.5 標量函數(shù)的可微性 147
4.5.1 Fréchet 可微與 Gateaux 可微 147
4.5.2 多元函數(shù)的 Taylor 公式 150
習題 4 152
第5章 概率統(tǒng)計與信息論基礎 154
5.1 概率分布、期望和方差 154
5.1.1 一維隨機變量的概率分布 154
5.1.2 二維隨機變量的聯(lián)合分布 157
5.1.3 期望與方差 158
5.1.4 協(xié)方差矩陣與相關系數(shù) 160
5.1.5 樣本期望與方差 162
5.1.6 蒙特卡羅模擬 163
5.2 矩和重要不等式 164
5.2.1 矩 164
5.2.2 重要不等式 167
5.3 多元高斯分布和加權最小二乘法 170
5.3.1 多元高斯分布 170
5.3.2 最小二乘估計 171
5.4 馬爾可夫鏈 174
5.4.1 離散時間的馬爾可夫鏈 174
5.4.2 連續(xù)時間的馬爾可夫鏈 177
5.5 熵 179
5.5.1 離散隨機變量的熵 180
5.5.2 連續(xù)型隨機變量的微分熵 184
5.6 KL 散度與互信息 184
5.6.1 KL 散度 184
5.6.2 互信息 187
習題 5 189
第6章 凸函數(shù) 191
6.1 凸集 191
6.1.1 集合的基本拓撲概念 191
6.1.2 仿射集合 193
6.1.3 凸集 196
6.1.4 凸集的內部與閉包 200
6.2 凸集的保凸運算 201
6.2.1 交集 201
6.2.2 仿射函數(shù) 204
6.2.3 透視函數(shù) 207
6.3 凸函數(shù) 210
6.3.1 凸函數(shù)的定義 210
6.3.2 水平集和上圖 213
6.3.3 Jensen 不等式 218
6.3.4 凸函數(shù)的極值 220
6.4 保凸運算與可微性條件 221
6.4.1 保凸運算 222
6.4.2 可微性與凸性 226
6.5 凸分離 230
6.5.1 投影定理 230
6.5.2 分離和超支撐平面的定義 232
6.5.3 凸分離定理 233
6.5.4 擇一定理與不等式 236
6.6 擬凸函數(shù)與偽凸函數(shù) 240
6.6.1 擬凸函數(shù) 240
6.6.2 偽凸函數(shù) 243
6.7 次梯度 245
6.7.1 次梯度的定義 245
6.7.2 次梯度的性質與重要結論 247
習題 6 256
第7章 優(yōu)化理論 259
7.1 最優(yōu)化問題 259
7.1.1 局部極值的最優(yōu)化條件 259
7.1.2 最優(yōu)化問題的一般形式 263
7.2 非光滑優(yōu)化與光滑優(yōu)化 264
7.2.1 非光滑優(yōu)化 265
7.2.2 光滑優(yōu)化 269
7.3 對偶理論 276
7.3.1 對偶問題 276
7.3.2 強對偶 283
習題 7 287
第8章 迭代算法 290
8.1 線搜索方法 290
8.1.1 線搜索算法 290
8.1.2 步長的選擇 292
8.2 梯度下降法 293
8.2.1 梯度下降法 294
8.2.2 梯度下降法的收斂性 296
8.2.3 隨機梯度下降法 301
8.2.4 次梯度算法 303
8.3 牛頓法 304
8.3.1 經典牛頓法 304
8.3.2 牛頓法的收斂性 306
8.3.3 修正的牛頓法 309
8.3.4 擬牛頓算法 310
8.4 共軛梯度法 311
8.4.1 共軛方向 312
8.4.2 共軛梯度法 316
習題 8 318
第9章 機器學習模型 320
9.1 線性模型 320
9.1.1 線性回歸 320
9.1.2 邏輯回歸 322
9.1.3 正則化 325
9.2 支持向量機 328
9.2.1 最大分類間隔分類器 328
9.2.2 對偶問題 330
9.2.3 軟間隔分類器 331
9.3 神經網(wǎng)絡 333
9.3.1 從線性模型到神經網(wǎng)絡 333
9.3.2 神經網(wǎng)絡與生物學的聯(lián)系 334
9.3.3 多層感知機 335
9.3.4 反向傳播 338
9.4 主成分分析 342
9.4.1 算法的推導 342
9.4.2 PAC 在應用中的問題 346
9.4.3 潛在維數(shù)的選擇 347
參考文獻 351
索引 353