Python機器學(xué)習(xí)——數(shù)據(jù)建模與分析(第2版)
定 價:99 元
- 作者:薛薇
- 出版時間:2023/7/1
- ISBN:9787121459351
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561;TP181
- 頁碼:392
- 紙張:
- 版次:01
- 開本:16開
本書將引領(lǐng)讀者進入Python機器學(xué)習(xí)領(lǐng)域。機器學(xué)習(xí)是一套先進、深刻且內(nèi)容豐富的算法集合,已成為數(shù)據(jù)科學(xué)中數(shù)據(jù)建模與分析的重要方法。Python是一款簡明、高效且功能強大的開源工具,也是數(shù)據(jù)科學(xué)實踐中最常用的計算機語言。學(xué)好機器學(xué)習(xí)的理論方法,掌握Python這個實用工具,是成長為數(shù)據(jù)科學(xué)人才所必需的。本書采用理論與實踐相結(jié)合的方式,理論上突出可讀性并兼具知識深度和廣度,實踐上強調(diào)可操作性并兼具應(yīng)用廣泛性,對機器學(xué)習(xí)的原理部分進行了深入透徹的講解,對機器學(xué)習(xí)的算法部分給出了Python代碼,并且在各章中設(shè)置了Python編程示例。全彩呈現(xiàn)機器學(xué)習(xí)的數(shù)據(jù)建?梢暬瘓D例(80多幅彩圖),掃描書中相應(yīng)二維碼即可查看。提供配套數(shù)據(jù)集、源代碼、教學(xué)PPT等學(xué)習(xí)資源,登錄華信教育資源網(wǎng)(www.hxedu.com.cn)即可免費下載。本書可作為高等院校機器學(xué)習(xí)、數(shù)據(jù)分析等專業(yè)課程的教材,也可作為數(shù)據(jù)科學(xué)應(yīng)用研究者及對Python機器學(xué)習(xí)感興趣的數(shù)據(jù)建模與分析從業(yè)者的參考書。
薛薇,工學(xué)碩士,經(jīng)濟學(xué)博士,中國人民大學(xué)應(yīng)用統(tǒng)計學(xué)科研究中心副主任,中國人民大學(xué)統(tǒng)計學(xué)院副教授。主要研究領(lǐng)域:機器學(xué)習(xí)和文本挖掘、復(fù)雜網(wǎng)絡(luò)建模等。關(guān)注統(tǒng)計和數(shù)據(jù)挖掘算法及軟件應(yīng)用。涉足企業(yè)客戶終身價值測算,基于文本挖掘的熱點事件主題提取和分類,金融、貿(mào)易等復(fù)雜網(wǎng)絡(luò)動態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計分析方法及應(yīng)用》《R語言數(shù)據(jù)挖掘方法及應(yīng)用》《R語言:大數(shù)據(jù)分析中的統(tǒng)計方法及應(yīng)用》《SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用》《數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用》《Python機器學(xué)習(xí)——數(shù)據(jù)建模與分析》等。
目 錄
第1章 機器學(xué)習(xí)概述 1
1.1 機器學(xué)習(xí)的發(fā)展:人工智能中的機器學(xué)習(xí) 1
1.1.1 符號主義人工智能 2
1.1.2 基于機器學(xué)習(xí)的人工智能 2
1.2 機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模 4
1.2.1 機器學(xué)習(xí)的對象:數(shù)據(jù)集 4
1.2.2 機器學(xué)習(xí)的任務(wù):數(shù)據(jù)建模 6
1.3 機器學(xué)習(xí)的典型應(yīng)用 11
1.3.1 機器學(xué)習(xí)的典型行業(yè)應(yīng)用 11
1.3.2 機器學(xué)習(xí)在客戶細分中的應(yīng)用 12
1.3.3 機器學(xué)習(xí)在客戶流失分析中的應(yīng)用 13
1.3.4 機器學(xué)習(xí)在營銷響應(yīng)分析中的應(yīng)用 14
1.3.5 機器學(xué)習(xí)在交叉銷售中的應(yīng)用 15
1.3.6 機器學(xué)習(xí)在欺詐甄別中的應(yīng)用 16
本章總結(jié) 16
本章習(xí)題 16
第2章 Python機器學(xué)習(xí)基礎(chǔ) 17
2.1 Python:機器學(xué)習(xí)的首選工具 17
2.2 Python的集成開發(fā)環(huán)境:Anaconda 18
2.2.1 Anaconda的簡介 19
2.2.2 Anaconda Prompt的使用 19
2.2.3 Spyder的使用 20
2.2.4 Jupyter Notebook的使用 22
2.3 Python第三方包的引用 23
2.4 NumPy使用示例 23
2.4.1 NumPy數(shù)組的創(chuàng)建和訪問 24
2.4.2 NumPy的計算功能 26
2.5 Pandas使用示例 28
2.5.1 Pandas的序列和索引 28
2.5.2 Pandas的數(shù)據(jù)框 29
2.5.3 Pandas的數(shù)據(jù)加工處理 30
2.6 NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理和基本分析 32
2.6.1 空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理 32
2.6.2 空氣質(zhì)量監(jiān)測數(shù)據(jù)的基本分析 34
2.7 Matplotlib的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的圖形化展示 37
2.7.1 AQI的時間序列變化特點 37
2.7.2 AQI的分布特征及相關(guān)性分析 38
本章總結(jié) 40
本章相關(guān)函數(shù)列表 40
本章習(xí)題 47
第3章 數(shù)據(jù)預(yù)測與預(yù)測建模 48
3.1 從線性回歸模型說起 49
3.1.1 線性回歸模型的含義 49
3.1.2 線性回歸模型的幾何理解 50
3.1.3 線性回歸模型的評價 50
3.1.4 Python應(yīng)用實踐:PM2.5濃度預(yù)測 51
3.2 認(rèn)識線性分類模型 56
3.2.1 線性分類模型的含義 56
3.2.2 線性分類模型的幾何理解 58
3.2.3 線性分類模型的評價 60
3.2.4 Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測 62
3.3 從線性預(yù)測模型到非線性預(yù)測模型 67
3.4 預(yù)測模型的參數(shù)估計 68
3.4.1 損失函數(shù)與有監(jiān)督學(xué)習(xí) 68
3.4.2 參數(shù)搜索策略 70
3.5 預(yù)測模型的選擇 72
3.5.1 泛化誤差的估計 72
3.5.2 Python模擬和啟示:理解泛化誤差 75
3.5.3 預(yù)測模型過擬合問題 78
3.5.4 模型選擇:偏差和方差 79
本章總結(jié) 82
本章相關(guān)函數(shù)列表 83
本章習(xí)題 83
第4章 數(shù)據(jù)預(yù)測建模:貝葉斯分類器 84
4.1 貝葉斯概率和貝葉斯法則 84
4.1.1 貝葉斯概率 84
4.1.2 貝葉斯法則 85
4.2 樸素貝葉斯分類器 85
4.2.1 從顧客行為分析角度看樸素貝葉斯分類器 85
4.2.2 Python模擬和啟示:認(rèn)識樸素貝葉斯分類器的分類邊界 88
4.2.3 Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測 91
4.3 樸素貝葉斯分類器在文本分類中的應(yīng)用 93
4.3.1 Python文本數(shù)據(jù)預(yù)處理:文本分詞和量化計算 94
4.3.2 Python文本描述性分析:詞云圖和文本相似性 97
4.3.3 Python文本分析綜合應(yīng)用:裁判文書的要素提取 99
4.4 貝葉斯參數(shù)估計簡介* 102
4.4.1 從科比投籃分析角度看貝葉斯參數(shù)估計的基本思想 102
4.4.2 共軛先驗分布 103
4.4.3 Python應(yīng)用實踐:科比投籃命中率的研究 106
本章總結(jié) 108
本章相關(guān)函數(shù)列表 108
本章習(xí)題 109
第5章 數(shù)據(jù)預(yù)測建模:近鄰分析 110
5.1 近鄰分析:K-近鄰法 110
5.1.1 距離:K-近鄰法的近鄰度量 111
5.1.2 參數(shù)K:1-近鄰法和K-近鄰法 112
5.2 回歸預(yù)測中的K-近鄰法 113
5.2.1 Python模擬和啟示:認(rèn)識K-近鄰回歸線 113
5.2.2 Python模擬和啟示:認(rèn)識K-近鄰回歸面 115
5.3 分類預(yù)測中的K-近鄰法 117
5.3.1 基于1-近鄰法和K-近鄰法的分類 117
5.3.2 Python模擬和啟示:參數(shù)K和分類邊界 118
5.4 基于觀測相似性的加權(quán)K-近鄰法 120
5.4.1 加權(quán)K-近鄰法的權(quán)重 121
5.4.2 Python模擬和啟示:認(rèn)識加權(quán)K-近鄰分類邊界 123
5.5 K-近鄰法的Python應(yīng)用實踐 124
5.5.1 空氣質(zhì)量等級的預(yù)測 124
5.5.2 國產(chǎn)電視劇大眾評分的預(yù)測 126
5.6 K-近鄰法的適用性探討* 127
本章總結(jié) 129
本章相關(guān)函數(shù)列表 130
本章習(xí)題 130
第6章 數(shù)據(jù)預(yù)測建模:決策樹 131
6.1 決策樹的基本概念 131
6.1.1 什么是決策樹 131
6.1.2 決策樹的深層含義 133
6.2 回歸預(yù)測中的決策樹 134
6.2.1 決策樹的回歸面 134
6.2.2 Python模擬和啟示:樹深度對回歸面的影響 135
6.3 分類預(yù)測中的決策樹 136
6.3.1 決策樹的分類邊界 137
6.3.2 Python模擬和啟示:樹深度對分類邊界的影響 137
6.4 決策樹的生長和剪枝 139
6.4.1 決策樹的生長 140
6.4.2 決策樹的剪枝 141
6.5 經(jīng)典決策樹算法:CART 142
6.5.1 CART的生長 142
6.5.2 CART的后剪枝 145
6.6 決策樹的Python應(yīng)用實踐 148
6.6.1 PM2.5濃度的預(yù)測 148
6.6.2 空氣質(zhì)量等級的預(yù)測 149
6.6.3 藥物適用性研究 151
6.7 決策樹的高方差性* 153
本章總結(jié) 154
本章相關(guān)函數(shù)列表 154
本章習(xí)題 155
第7章 數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí) 156
7.1 集成學(xué)習(xí)概述 156
7.1.1 高方差性問題的解決途徑 157
7.1.2 從弱模型到強模型的構(gòu)建 157
7.2 基于重抽樣自舉法的集成學(xué)習(xí) 158
7.2.1 重抽樣自舉法 158
7.2.2 袋裝法的基本思想 158
7.2.3 隨機森林的基本思想 160
7.2.4 Python應(yīng)用實踐:基于袋裝法和隨機森林預(yù)測PM2.5濃度 162
7.3 從弱模型到強模型的構(gòu)建:提升法 165
7.3.1 提升法的基本思路 165
7.3.2 Python模擬和啟示:弱模型聯(lián)合成為強模型 166
7.3.3 分類預(yù)測中的提升法:AdaBoost.M1算法 168
7.3.4 Python模擬和啟示:認(rèn)識AdaBoost.M1算法中高權(quán)重的樣本觀測 171
7.3.5 回歸預(yù)測中的提升法 173
7.3.6 Python應(yīng)用實踐:基于AdaBoost預(yù)測PM2.5濃度 174
7.3.7 提升法的推廣算法* 176
7.4 梯度提升決策樹 179
7.4.1 梯度提升算法 179
7.4.2 梯度提升回歸樹 183
7.4.3 Python模擬和啟示:認(rèn)識梯度提升回歸樹 184
7.4.4 梯度提升分類樹 185
7.4.5 Python模擬和啟示:認(rèn)識梯度提升分類樹 186
7.5 XGBoost算法 188
7.5.1 XGBoost算法的目標(biāo)函數(shù) 188
7.5.2 目標(biāo)函數(shù)的近似表達 189
7.5.3 決策樹的求解 190
7.5.4 Python應(yīng)用實踐:基于XGBoost算法預(yù)測空氣質(zhì)量等級 191
本章總結(jié) 194
本章相關(guān)函數(shù)列表 194
本章習(xí)題 195
第8章 數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò) 197
8.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 198
8.1.1 人工神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成 198
8.1.2 人工神經(jīng)網(wǎng)絡(luò)節(jié)點的功能 199
8.2 感知機網(wǎng)絡(luò) 200
8.2.1 感知機網(wǎng)絡(luò)中的節(jié)點 200
8.2.2 感知機網(wǎng)絡(luò)節(jié)點中的加法器 201
8.2.3 感知機網(wǎng)絡(luò)節(jié)點中的激活函數(shù) 202
8.2.4 Python模擬和啟示:認(rèn)識激活函數(shù) 203
8.2.5 感知機網(wǎng)絡(luò)的權(quán)重訓(xùn)練 206
8.3 多層感知機網(wǎng)絡(luò) 211
8.3.1 多層感知機網(wǎng)絡(luò)的結(jié)構(gòu) 211
8.3.2 多層感知機網(wǎng)絡(luò)中的隱藏節(jié)點 213
8.3.3 Python模擬和啟示:認(rèn)識隱藏節(jié)點 215
8.4 反向傳播算法 218
8.4.1 反向傳播算法的基本思想 218
8.4.2 局部梯度和連接權(quán)重更新 218
8.5 多層神經(jīng)網(wǎng)絡(luò)的其他問題* 220
8.6 人工神經(jīng)網(wǎng)絡(luò)的Python應(yīng)用實踐 221
8.6.1 手寫體郵政編碼的識別 221
8.6.2 PM2.5濃度的回歸預(yù)測 224
本章總結(jié) 225
本章相關(guān)函數(shù)列表 225
本章習(xí)題 226
第9章 數(shù)據(jù)預(yù)測建模:支持向量機 227
9.1 支持向量分類概述 228
9.1.1 支持向量分類的基本思路 228
9.1.2 支持向量分類的三種情況 230
9.2 完全線性可分下的支持向量分類 231
9.2.1 完全線性可分下的超平面 231
9.2.2 參數(shù)求解和分類預(yù)測 233
9.2.3 Python模擬和啟示:認(rèn)識支持向量 236
9.3 廣義線性可分下的支持向量分類 238
9.3.1 廣義線性可分下的超平面 238
9.3.2 廣義線性可分下的誤差懲罰和目標(biāo)函數(shù) 239
9.3.3 Python模擬和啟示:認(rèn)識懲罰參數(shù)C 240
9.3.4 參數(shù)求解和分類預(yù)測 242
9.4 線性不可分下的支持向量分類 243
9.4.1 線性不可分問題的一般解決方式 243
9.4.2 支持向量分類克服維災(zāi)難的途徑 244
9.4.3 Python模擬和啟示:認(rèn)識核函數(shù) 246
9.5 支持向量回歸概述* 249
9.5.1 支持向量回歸的基本思路 249
9.5.2 支持向量回歸的目標(biāo)函數(shù)和約束條件 251
9.5.3 Python模擬和啟示:認(rèn)識參數(shù)? 253
9.6 支持向量機的Python應(yīng)用實踐:老人風(fēng)險體位預(yù)警 254
9.6.1 示例背景和數(shù)據(jù)說明 255
9.6.2 Python實現(xiàn) 255
本章總結(jié) 260
本章相關(guān)函數(shù)列表 260
本章習(xí)題 260
第10章 特征選擇:過濾、包裹和嵌入策略 261
10.1 過濾策略下的特征選擇 262
10.1.1 低方差過濾法 263
10.1.2 高相關(guān)過濾法中的方差分析 264
10.1.3 高相關(guān)過濾法中的卡方檢驗 268
10.1.4 Python應(yīng)用實踐:過濾策略下手寫體郵政編碼數(shù)字的特征選擇 270
10.1.5 其他高相關(guān)過濾法* 272
10.2 包裹策略下的特征選擇 274
10.2.1 包裹策略的基本思路 274
10.2.2 遞歸式特征剔除算法 275
10.2.3 基于交叉驗證的遞歸式特征剔除算法 276
10.2.4 Python應(yīng)用實踐:包裹策略下手寫體郵政編碼數(shù)字的特征選擇 276
10.3 嵌入策略下的特征選擇 278
10.3.1 嶺回歸和Lasso回歸 278
10.3.2 彈性網(wǎng)回歸 282
10.3.3 Python應(yīng)用實踐:嵌入策略下手寫體郵政編碼數(shù)字的特征選擇 283
本章總結(jié) 289
本章相關(guān)函數(shù)列表 289
本章習(xí)題 289
第11章 特征提取:空間變換策略 290
11.1 主成分分析 291
11.1.1 主成分分析的基本出發(fā)點 291
11.1.2 主成分分析的基本原理 292
11.1.3 確定主成分 295
11.1.4 Python模擬與啟示:認(rèn)識主成分 296
11.2 矩陣的奇異值分解 298
11.2.1 奇異值分解的基本思路 298
11.2.2 奇異值分解的Python應(yīng)用實踐:臉部數(shù)據(jù)特征提取 299
11.3 核主成分分析* 301
11.3.1 核主成分分析的出發(fā)點 301
11.3.2 核主成分分析的基本原理 303
11.3.3 Python模擬和啟示:認(rèn)識核主成分 305
11.4 因子分析 307
11.4.1 因子分析的基本出發(fā)點 308
11.4.2 因子分析的基本原理 309
11.4.3 Python模擬和啟示:認(rèn)識因子分析的計算過程 312
11.4.4 因子分析的其他問題 316
11.4.5 因子分析的Python應(yīng)用實踐:空氣質(zhì)量綜合評測 318
本章總結(jié) 320
本章相關(guān)函數(shù)列表 321
本章習(xí)題 321
第12章 揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):聚類分析 322
12.1 聚類分析概述 322
12.1.1 聚類分析的目的 322
12.1.2 聚類算法概述 324
12.1.3 聚類解的評價 325
12.1.4 聚類解的可視化 328
12.2 基于質(zhì)心的聚類模型:K-均值聚類 329
12.2.1 K-均值聚類基本過程 329
12.2.2 基于K-均值聚類的類別預(yù)測 331
12.2.3 Python模擬和啟示:認(rèn)識K-均值聚類中的聚類數(shù)目K 331
12.3 基于連通性的聚類模型:系統(tǒng)聚類 335
12.3.1 系統(tǒng)聚類的基本過程 335
12.3.2 系統(tǒng)聚類中距離的連通性度量 335
12.3.3 Python模擬和啟示:認(rèn)識系統(tǒng)聚類中的聚類數(shù)目K 336
12.4 基于高斯分布的聚類模型:EM聚類* 340
12.4.1 出發(fā)點:有限混合分布 341
12.4.2 EM聚類算法 342
12.4.3 Python模擬和啟示:認(rèn)識EM聚類 345
12.5 聚類分析的Python應(yīng)用實踐:環(huán)境污染的區(qū)域特征分析 348
本章總結(jié) 351
本章相關(guān)函數(shù)列表 351
本章習(xí)題 352
第13章 揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu):特色聚類 353
13.1 基于密度的聚類:DBSCAN 353
13.1.1 DBSCAN中的相關(guān)概念 353
13.1.2 DBSCAN過程 355
13.1.3 Python模擬和啟示:認(rèn)識DBSCAN的異形聚類特點 355
13.2 Mean-Shift聚類* 358
13.2.1 什么是核密度估計 359
13.2.2 核密度估計在Mean-Shift聚類中的意義 361
13.2.3 Mean-Shift聚類過程 362
13.2.4 Python模擬與啟示:認(rèn)識Mean-Shift聚類中的核寬 363
13.3 BIRCH 365
13.3.1 BIRCH的特點 365
13.3.2 BIRCH算法中的聚類特征樹 365
13.3.3 BIRCH的基本思路 368
13.3.4 Python模擬和啟示:認(rèn)識BIRCH的特點 370
13.4 特色聚類的Python應(yīng)用實踐:批發(fā)商的市場細分 374
13.4.1 數(shù)據(jù)說明 374
13.4.2 Python實現(xiàn) 375
本章總結(jié) 377
本章相關(guān)函數(shù)列表 377
本章習(xí)題 378