Python數(shù)據(jù)挖掘?qū)崙?zhàn)(微課版)
定 價:69.8 元
叢書名:大數(shù)據(jù)應(yīng)用人才能力培養(yǎng)新形態(tài)系列
- 作者:王磊 邱江濤
- 出版時間:2023/8/1
- ISBN:9787115620392
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:272
- 紙張:
- 版次:01
- 開本:16開
數(shù)據(jù)挖掘旨在發(fā)現(xiàn)蘊含在數(shù)據(jù)中的有價值的數(shù)據(jù)模式、知識或規(guī)律,是目前非常熱門的研究領(lǐng)域。理解數(shù)據(jù)挖掘模型的原理、方法并熟練掌握其實現(xiàn)技術(shù)是數(shù)據(jù)挖掘從業(yè)者必備的能力。
本書從理論模型和技術(shù)實戰(zhàn)兩個角度,全面講述數(shù)據(jù)挖掘的基本流程、模型方法、實現(xiàn)技術(shù)及案例應(yīng)用,幫助讀者系統(tǒng)地掌握數(shù)據(jù)挖掘的核心技術(shù),培養(yǎng)讀者從事數(shù)據(jù)挖掘工作的基本能力。全書共12章,主要內(nèi)容包括數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、特征選擇、基礎(chǔ)分類模型及回歸模型、集成技術(shù)、聚類分析、關(guān)聯(lián)規(guī)則分析、時間序列挖掘、異常檢測、智能推薦等。除第1章、第2章外,本書以一章對應(yīng)一個主題的形式完整描述相應(yīng)主題的數(shù)據(jù)挖掘模型,簡潔、清晰地介紹其基本原理和算法步驟,并結(jié)合Python語言介紹數(shù)據(jù)挖掘模型的實現(xiàn)技術(shù),同時結(jié)合案例分析數(shù)據(jù)挖掘模型在數(shù)據(jù)挖掘中的應(yīng)用。此外,書中還通過大量的圖、表、代碼、示例幫助讀者快速掌握相關(guān)內(nèi)容。
本書適合作為相關(guān)專業(yè)本科生和研究生的數(shù)據(jù)挖掘課程的教材,也可以作為數(shù)據(jù)挖掘技術(shù)愛好者或從業(yè)者的入門參考書。
1.本書在內(nèi)容上,數(shù)據(jù)挖掘模型理論原理與數(shù)據(jù)挖掘?qū)崿F(xiàn)并重,實現(xiàn)二者有機結(jié)合。
2.本書基于Python語言介紹模型的實現(xiàn)方法,案例豐富,圖文并茂,適合本科數(shù)據(jù)挖掘課程的教學(xué)。
為高等院校計算機科學(xué)與技術(shù)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)及相關(guān)專業(yè)的數(shù)據(jù)挖掘課程教材,也可作為數(shù)據(jù)挖掘相關(guān)從業(yè)者的參考用書。
第1章 緒論 1
1.1 數(shù)據(jù)挖掘概述 1
1.1.1 基本概念 1
1.1.2 數(shù)據(jù)挖掘的典型應(yīng)用場景 3
1.1.3 數(shù)據(jù)挖掘的演化歷程 3
1.2 數(shù)據(jù)挖掘的一般流程 5
1.3 數(shù)據(jù)挖掘環(huán)境的配置 6
1.3.1 常用的數(shù)據(jù)挖掘工具 6
1.3.2 Anaconda 3下載和安裝 8
1.4 本章小結(jié) 11
習(xí)題 11
第2章 Python數(shù)據(jù)挖掘模塊 12
2.1 NumPy 12
2.1.1 Ndarray的創(chuàng)建 13
2.1.2 Ndarray的屬性 16
2.1.3 索引和切片 17
2.1.4 排序 19
2.1.5 NumPy的數(shù)組運算 19
2.1.6 NumPy的統(tǒng)計函數(shù) 20
2.2 Pandas 21
2.2.1 Pandas的數(shù)據(jù)結(jié)構(gòu) 21
2.2.2 查看和獲取數(shù)據(jù) 23
2.2.3 Pandas的算術(shù)運算 25
2.2.4 Pandas的匯總和描述性統(tǒng)計
函數(shù) 26
2.2.5 Pandas的其他常用函數(shù) 28
2.2.6 Pandas讀寫文件 31
2.3 Matplotlib 33
2.3.1 Matplotlib基本繪圖元素 33
2.3.2 常用的Matplotlib圖形繪制 37
2.4 Scikit-learn 40
2.5 本章小結(jié) 43
習(xí)題 43
第3章 數(shù)據(jù)探索 44
3.1 數(shù)據(jù)對象與特征 44
3.1.1 特征及其類型 44
3.1.2 離散和連續(xù)特征 45
3.2 數(shù)據(jù)統(tǒng)計描述 45
3.2.1 集中趨勢 46
3.2.2 離中趨勢 47
3.3 數(shù)據(jù)可視化 48
3.3.1 散點圖 48
3.3.2 箱線圖 50
3.3.3 頻率直方圖 51
3.3.4 柱狀圖 52
3.3.5 餅圖 53
3.3.6 散點圖矩陣 54
3.4 相關(guān)性和相似性度量 56
3.4.1 相關(guān)性度量 56
3.4.2 相似性度量 60
3.5 本章小結(jié) 63
習(xí)題 63
第4章 數(shù)據(jù)預(yù)處理 64
4.1 數(shù)據(jù)集成 64
4.2 數(shù)據(jù)清洗 68
4.2.1 重復(fù)值處理 68
4.2.2 缺失值處理 71
4.2.3 異常值處理 76
4.3 數(shù)據(jù)變換 77
4.3.1 數(shù)據(jù)規(guī)范化 77
4.3.2 數(shù)值特征的二值化和離散化 81
4.3.3 標(biāo)稱特征的數(shù)值化處理 83
4.4 數(shù)據(jù)規(guī)約 85
4.4.1 樣本規(guī)約 86
4.4.2 維度規(guī)約 88
4.4.3 數(shù)據(jù)壓縮 90
4.5 本章小結(jié) 90
習(xí)題 91
第5章 特征選擇 92
5.1 特征選擇方法概述 92
5.2 過濾法 93
5.2.1 單變量過濾方法 93
5.2.2 多變量過濾方法 99
5.2.3 過濾法的優(yōu)缺點 100
5.2.4 綜合實例 100
5.3 包裝法 102
5.3.1 遞歸特征消除 103
5.3.2 序列特征選擇 104
5.3.3 包裝法的優(yōu)缺點 106
5.4 嵌入法 106
5.4.1 基于正則化線性模型的方法 107
5.4.2 基于樹模型的方法 109
5.4.3 嵌入法的優(yōu)缺點 109
5.5 本章小結(jié) 110
習(xí)題 110
第6章 基礎(chǔ)分類模型及回歸模型 111
6.1 基本理論 111
6.1.1 分類模型 111
6.1.2 欠擬合和過擬合 112
6.1.3 二分類和多分類 112
6.1.4 線性及非線性分類器 113
6.2 樸素貝葉斯分類器 113
6.2.1 基本原理 113
6.2.2 基于Python的實現(xiàn) 115
6.3 k近鄰分類器 118
6.3.1 基本原理 118
6.3.2 基于Python的實現(xiàn) 119
6.4 決策樹 120
6.4.1 基本原理 120
6.4.2 屬性選擇方法 121
6.4.3 例子:計算信息增益 123
6.4.4 剪枝 124
6.4.5 基于CART決策樹的分類 125
6.4.6 進一步討論 127
6.5 人工神經(jīng)網(wǎng)絡(luò) 127
6.5.1 人工神經(jīng)網(wǎng)絡(luò)簡介 127
6.5.2 BP神經(jīng)網(wǎng)絡(luò) 128
6.5.3 基于BP神經(jīng)網(wǎng)絡(luò)的分類 131
6.6 支持向量機 132
6.6.1 支持向量機的原理 133
6.6.2 支持向量分類的Python
實現(xiàn) 137
6.7 模型的性能評價 138
6.7.1 分類模型的評價指標(biāo) 138
6.7.2 模型的評估方法 140
6.8 案例:信用評分模型 143
6.8.1 案例描述 143
6.8.2 探索性數(shù)據(jù)分析和預(yù)處理 143
6.8.3 模型訓(xùn)練與評估 146
6.9 回歸 148
6.9.1 線性回歸 148
6.9.2 CART決策樹回歸 150
6.9.3 BP神經(jīng)網(wǎng)絡(luò)回歸 150
6.9.4 支持向量回歸 151
6.10 本章小結(jié) 152
習(xí)題 152
第7章 集成技術(shù) 153
7.1 基本集成技術(shù) 153
7.1.1 裝袋 153
7.1.2 提升 155
7.1.3 堆疊 157
7.1.4 集成技術(shù)的定性分析 160
7.2 隨機森林 161
7.2.1 工作原理 161
7.2.2 隨機森林的Python實現(xiàn) 161
7.3 提升樹 162
7.3.1 原理 162
7.3.2 提升樹的Python實現(xiàn) 164
7.4 案例:電信客戶流失預(yù)測 165
7.4.1 探索數(shù)據(jù) 165
7.4.2 模型性能比較 167
7.5 類不平衡問題 168
7.5.1 類不平衡處理方法 169
7.5.2 不平衡數(shù)據(jù)處理的Python
實現(xiàn) 171
7.6 本章小結(jié) 174
習(xí)題 174
第8章 聚類分析 175
8.1 聚類的基本原理 175
8.2 k-means算法 177
8.2.1 基本原理 177
8.2.2 進一步討論 179
8.2.3 基于Python的實現(xiàn) 180
8.2.4 k-means算法的優(yōu)缺點 182
8.3 聚類算法的性能評價指標(biāo) 183
8.3.1 內(nèi)部度量指標(biāo) 184
8.3.2 外部度量指標(biāo) 184
8.3.3 基于Python的實現(xiàn) 187
8.4 DBSCAN算法 188
8.4.1 基本概念 188
8.4.2 DBSCAN聚類算法的原理 190
8.4.3 進一步討論 191
8.4.4 基于Python的實現(xiàn) 191
8.4.5 DBSCAN算法的優(yōu)缺點 193
8.5 GMM聚類算法 195
8.5.1 基本原理 195
8.5.2 進一步討論 197
8.5.3 基于Python的實現(xiàn) 198
8.5.4 討論:優(yōu)點和不足 200
8.6 本章小結(jié) 201
習(xí)題 201
第9章 關(guān)聯(lián)規(guī)則分析 202
9.1 概述 202
9.1.1 基本概念 202
9.1.2 關(guān)聯(lián)規(guī)則挖掘算法 204
9.2 Apriori算法生成頻繁項集 205
9.2.1 先驗原理 205
9.2.2 產(chǎn)生頻繁項集 205
9.2.3 生成關(guān)聯(lián)規(guī)則 207
9.2.4 基于Python的Apriori算法
實現(xiàn) 208
9.2.5 進一步討論 210
9.3 FP-growth算法 210
9.3.1 FP-tree的構(gòu)建 211
9.3.2 挖掘主FP-tree和條件
FP-tree 213
9.3.3 基于Python的FP-growth算法實現(xiàn) 213
9.3.4 進一步討論 215
9.4 Eclat算法 215
9.4.1 事務(wù)數(shù)據(jù)集的表示方式 215
9.4.2 Eclat算法生成頻繁項集 215
9.4.3 基于Python的Eclat算法
實現(xiàn) 216
9.4.4 進一步討論 219
9.5 案例:網(wǎng)上零售購物籃分析 219
9.5.1 數(shù)據(jù)集及案例背景 219
9.5.2 探索性分析和數(shù)據(jù)預(yù)處理 220
9.5.3 使用Apriori算法挖掘關(guān)聯(lián)
規(guī)則 221
9.6 本章小結(jié) 223
習(xí)題 223
第10章 時間序列挖掘 224
10.1 時間序列挖掘概述 224
10.1.1 時間序列挖掘的目的 224
10.1.2 時間序列挖掘的意義 224
10.1.3 時間序列挖掘的基本概念 225
10.2 時間序列預(yù)處理 226
10.2.1 常用序列特征統(tǒng)計量 226
10.2.2 平穩(wěn)序列 227
10.2.3 平穩(wěn)性檢驗 228
10.2.4 純隨機性檢驗 230
10.3 平穩(wěn)非白噪聲序列建模 231
10.3.1 AR模型 231
10.3.2 MA模型 232
10.3.3 ARMA模型 232
10.3.4 建模過程 233
10.3.5 模型檢驗方法 233
10.4 非平穩(wěn)序列建模 234
10.4.1 非平穩(wěn)序列概述 234
10.4.2 差分運算 234
10.4.3 ARIMA模型 234
10.5 基于Python的ARIMA模型
實現(xiàn) 235
10.6 案例:基于ARIMA模型的
銷售額預(yù)測 236
10.7 本章小結(jié) 241
習(xí)題 241
第11章 異常檢測 242
11.1 基于統(tǒng)計的異常檢測方法 243
11.1.1 基于一元正態(tài)分布的異常
檢測方法 243
11.1.2 基于多元正態(tài)分布的異常
檢測方法 245
11.1.3 基于Python的實現(xiàn) 245
11.2 基于聚類的異常檢測方法 247
11.2.1 基本原理 247
11.2.2 基于Python的實現(xiàn) 248
11.3 孤立森林方法 249
11.3.1 基本原理 249
11.3.2 基于Python的實現(xiàn) 251
11.4 本章小結(jié) 254
習(xí)題 254
第12章 智能推薦 255
12.1 智能推薦概述 255
12.1.1 智能推薦定義 255
12.1.2 智能推薦場景 255
12.1.3 常用智能推薦技術(shù) 256
12.2 基于用戶的協(xié)同過濾技術(shù) 256
12.2.1 概述 256
12.2.2 常用的評價指標(biāo) 257
12.2.3 基本過程描述 258
12.2.4 案例:使用基于用戶的協(xié)同
過濾方法進行電影推薦 261
12.3 基于物品的協(xié)同過濾技術(shù) 264
12.4 非負矩陣分解 265
12.4.1 基本原理 265
12.4.2 基于Python的實現(xiàn) 266
12.5 本章小結(jié) 269
習(xí)題 269
參考文獻 271