本書以大數(shù)據(jù)分析與挖掘的常用技術與真實案例相結合的方式,按照“概念和原理講解、案例分析、能力拓展——Python 軟件應用”的層次進行闡述,深入淺出地介紹大數(shù)據(jù)分析與挖掘的重要內容。全書共 11 章,第 1 章作為全書的緒論,介紹了大數(shù)據(jù)分析與挖掘的基本概念、行業(yè)應用等;第2 章介紹了 Python 的安裝、編程基礎以及常用的數(shù)據(jù)分析工具;第 3 章介紹了數(shù)據(jù)的類型、質量和相似度與相異度;第 4 章介紹了數(shù)據(jù)探索的常用方法,包括質量分析、描述性統(tǒng)計分析、可視化分析和多維數(shù)據(jù)分析;第 5 章介紹了數(shù)據(jù)預處理的常用方法,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換與離散化;第 6 章介紹了回歸與分類的方法,包括多元線性回歸、邏輯回歸、決策樹分類、樸素貝葉斯分類等;第 7 章介紹了聚類的方法,包括 K-Means 算法、DBSCAN 算法等;第 8 章介紹了關聯(lián)規(guī)則,包括 Apriori 算法和 FP-Growth 算法等;第 9 章介紹了時間序列,包括平穩(wěn)時間序列分析和非平穩(wěn)時間序列分析等;第 10 章介紹了離群點檢測,包括基于統(tǒng)計學、鄰近性、聚類、分類的離群點檢測方法;第 11 章介紹了大數(shù)據(jù)分析與挖掘的前沿知識。本書大部分章節(jié)包含真實案例和課后習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。本書可作為高校數(shù)據(jù)科學與大數(shù)據(jù)技術或人工智能相關專業(yè)教材,也可作為數(shù)據(jù)挖掘愛好者的自學用書。
云本勝,男,1980年生,博士,浙江科技大學副教授,碩士生導師,中國計算機學會會員、中國人工智能學會會員。2010年獲同濟大學系統(tǒng)工程工學博士,2016年美國中佛羅里達大學訪學學者。主持中國高校產學研創(chuàng)新基金、浙江省基礎公益研究計劃項目、浙江省教育廳科研項目、浙江省一流本科課程、浙江省普通本科高校“十四五”首批新工科重點建設教材、浙江省產學合作協(xié)同育人項目、教育部產學合作協(xié)同育人項目等課題多項;主持企業(yè)橫向課題2項;參與國家863、國家自然科學基金項目等4項;已發(fā)表學術論文20余篇;授權發(fā)明專利2項。指導大學生創(chuàng)新訓練項目、新苗人才計劃項目等課題多項。
目 錄
第1章 緒論 001
1.1 大數(shù)據(jù)分析與挖掘的基本概念 002
1.2 大數(shù)據(jù)分析與挖掘的行業(yè)應用 002
1.3 大數(shù)據(jù)分析與挖掘的基本任務 004
1.4 大數(shù)據(jù)分析與挖掘的建模過程 004
1.4.1 明確任務 005
1.4.2 數(shù)據(jù)采集 005
1.4.3 數(shù)據(jù)探索 006
1.4.4 數(shù)據(jù)預處理 006
1.4.5 挖掘建模 007
1.4.6 模型評價 007
1.5 大數(shù)據(jù)分析與挖掘的建模工具 007
小結 009
習題 009
第2章 Python簡介 011
2.1 Python安裝 012
2.2 Python編程基礎 015
2.2.1 基本命令 016
2.2.2 數(shù)據(jù)類型 019
2.2.3 運算符 023
2.2.4 函數(shù) 027
2.3 Python數(shù)據(jù)分析工具 029
小結 033
習題 034
第3章 數(shù)據(jù) 036
3.1 數(shù)據(jù)類型 037
3.1.1 數(shù)據(jù)集的類型 037
3.1.2 屬性的定義 039
3.1.3 屬性的分類 040
3.2 數(shù)據(jù)質量 041
3.3 數(shù)據(jù)的相似度與相異度度量 042
3.3.1 屬性之間的相似度與相異度 042
3.3.2 數(shù)據(jù)對象之間的相異度 045
3.3.3 數(shù)據(jù)對象之間的相似度 049
3.3.4 度量方法的選取 054
小結 055
習題 055
第4章 數(shù)據(jù)探索 058
4.1 數(shù)據(jù)質量分析 059
4.1.1 缺失值分析 059
4.1.2 異常值分析 060
4.1.3 一致性分析 063
4.2 數(shù)據(jù)描述性統(tǒng)計分析 064
4.2.1 集中趨勢度量 065
4.2.2 離散程度度量 066
4.2.3 多元數(shù)據(jù)統(tǒng)計分析 069
4.3 數(shù)據(jù)可視化分析 070
4.3.1 可視化技術 070
4.3.2 高維數(shù)據(jù)可視化 076
4.4 多維數(shù)據(jù)分析 082
4.4.1 多維數(shù)組 082
4.4.2 數(shù)據(jù)立方體 083
4.4.3 切片與切塊 084
4.4.4 上卷與下鉆 085
4.5 Python數(shù)據(jù)探索案例分析 086
4.5.1 公共自行車租賃系統(tǒng)數(shù)據(jù)集 086
4.5.2 數(shù)據(jù)探索分析 087
小結 092
習題 092
第5章 數(shù)據(jù)預處理 095
5.1 數(shù)據(jù)清洗 096
5.1.1 缺失值處理 096
5.1.2 異常值處理 098
5.2 數(shù)據(jù)集成 100
5.2.1 實體識別 100
5.2.2 數(shù)據(jù)合并 101
5.2.3 冗余屬性識別 104
5.3 數(shù)據(jù)歸約 106
5.3.1 抽樣 106
5.3.2 采樣 106
5.3.3 屬性子集選擇 108
5.4 數(shù)據(jù)變換與離散化 110
5.4.1 數(shù)據(jù)規(guī)范化 110
5.4.2 簡單函數(shù)變換 112
5.4.3 屬性構造 113
5.4.4 連續(xù)屬性離散化 114
5.5 Python數(shù)據(jù)預處理案例分析 116
5.5.1 案例背景 116
5.5.2 城市春運出行數(shù)據(jù)說明 116
5.5.3 數(shù)據(jù)預處理 117
小結 125
習題 126
第6章 回歸與分類 128
6.1 基本概念 130
6.1.1 回歸概述 131
6.1.2 分類概述 131
6.2 回歸分析 131
6.2.1 一元線性回歸 132
6.2.2 多元線性回歸 134
6.2.3 多項式回歸 142
6.2.4 邏輯回歸 145
6.3 決策樹分類 148
6.3.1 決策樹基本原理 148
6.3.2 建立決策樹 149
6.3.3 決策樹算法 151
6.3.4 隨機森林算法 155
6.4 樸素貝葉斯分類 157
6.4.1 樸素貝葉斯模型基本原理 157
6.4.2 樸素貝葉斯模型代碼實現(xiàn) 160
6.5 K最近鄰分類 161
6.5.1 K最近鄰分類基本原理 162
6.5.2 K最近鄰分類代碼實現(xiàn) 163
6.6 支持向量機 164
6.6.1 支持向量機基本原理 164
6.6.2 數(shù)據(jù)線性可分的情況 165
6.6.3 數(shù)據(jù)線性不可分的情況 166
6.7 神經(jīng)網(wǎng)絡 169
6.7.1 神經(jīng)網(wǎng)絡基本概念 169
6.7.2 BP神經(jīng)網(wǎng)絡算法 170
6.8 回歸與分類的評估方法 174
6.8.1 回歸的評估方法 174
6.8.2 分類的評估方法 175
6.8.3 提高類不平衡數(shù)據(jù)的分類準確率 178
6.9 集成學習技術 178
6.9.1 集成學習方法概述 178
6.9.2 Bagging 179
6.9.3 Stacking 179
6.9.4 Boosting 180
6.10 Python回歸與分類案例分析 182
6.10.1 回歸案例分析 182
6.10.2 分類案例分析 185
小結 188
習題 189
第7章 聚類 193
7.1 基本概念 194
7.2 劃分聚類 194
7.2.1 K-Means算法 195
7.2.2 K-中心點算法 200
7.3 層次聚類 206
7.3.1 凝聚的層次聚類 207
7.3.2 分裂的層次聚類 207
7.3.3 簇間距離度量方法 208
7.3.4 不同距離度量的層次聚類 210
7.4 基于密度的聚類方法 214
7.4.1 基于中心方法的密度定義 215
7.4.2 DBSCAN算法 216
7.5 概率模型聚類 222
7.5.1 模糊簇 222
7.5.2 概率模型聚類步驟 223
7.5.3 期望最大化算法 223
7.6 聚類評估 226
7.6.1 估計聚類趨勢 226
7.6.2 確定正確的簇的個數(shù) 228
7.6.3 聚類質量評估 229
7.7 Python聚類案例分析 232
7.7.1 數(shù)據(jù)說明 232
7.7.2 數(shù)據(jù)預處理 233
7.7.3 構建聚類模型 236
小結 239
習題 239
第8章 關聯(lián)規(guī)則 243
8.1 基本概念 244
8.1.1 基本元素的概念 244
8.1.2 閉頻繁項集和極大頻繁項集 249
8.2 Apriori算法 252
8.2.1 Apriori算法簡介 252
8.2.2 改進的Apriori算法 256
8.3 FP-Growth算法 257
8.3.1 FP-Growth算法的實現(xiàn)過程 257
8.3.2 使用FP-Growth算法實現(xiàn)新聞網(wǎng)站點擊數(shù)據(jù)頻繁項集挖掘 261
8.4 關聯(lián)規(guī)則評估方法 262
8.4.1 關聯(lián)規(guī)則興趣度評估 262
8.4.2 關聯(lián)規(guī)則相關度評估 264
8.4.3 其他評估度量方法 264
8.5 多維關聯(lián)規(guī)則挖掘 265
8.6 多層關聯(lián)規(guī)則挖掘 266
8.7 Python關聯(lián)規(guī)則案例分析 268
8.7.1 基于Apriori算法實現(xiàn)電影觀看規(guī)則挖掘 268
8.7.2 基于FP-Growth算法實現(xiàn)商品購買規(guī)則挖掘 274
小結 278
習題 278
第9章 時間序列 282
9.1 時間序列基本概念 283
9.1.1 特征統(tǒng)計量 283
9.1.2 時間序列的特點 284
9.2 時間序列預處理 285
9.2.1 平穩(wěn)性 285
9.2.2 白噪聲 287
9.3 平穩(wěn)時間序列分析 288
9.3.1 AR模型 288
9.3.2 MA模型 289
9.3.3 ARMA模型 289
9.3.4 平穩(wěn)時間序列建模 290
9.4 非平穩(wěn)時間序列分析 291
9.4.1 差分運算 291
9.4.2 ARIMA模型 292
9.5 Python時間序列案例分析 300
9.5.1 背景與目標 300
9.5.2 數(shù)據(jù)預處理 301
9.5.3 分析建模 303
小結 305
習題 306
第10章 離群點檢測 309
10.1 離群點概述 310
10.2 離群點檢測方法 311
10.2.1 基于統(tǒng)計學的方法 311
10.2.2 基于鄰近性的方法 317
10.2.3 基于聚類的方法 321
10.2.4 基于分類的方法 324
10.3 高維數(shù)據(jù)中的離群點檢測 327
10.3.1 擴充的傳統(tǒng)離群點檢測 327
10.3.2 發(fā)現(xiàn)子空間中的離群點 328
10.3.3 高維離群點建模 329
10.4 Python離群點檢測案例分析 330
10.4.1 背景與目標 330
10.4.2 使用LOF算法進行離群點檢測 330
10.4.3 繪制離群點檢測圖 331
小結 333
習題 334
第11章 大數(shù)據(jù)分析與挖掘的發(fā)展前沿 336
11.1 復雜的大數(shù)據(jù)挖掘 337
11.1.1 復雜的數(shù)據(jù) 337
11.1.2 復雜的挖掘方式 338
11.2 大數(shù)據(jù)挖掘與人工智能 340
11.2.1 深度學習 340
11.2.2 知識圖譜 341
11.2.3 遷移學習 344
11.2.4 強化學習 345
11.2.5 聯(lián)邦學習 347
小結 348
習題 348
參考文獻 350