數(shù)據(jù)科學(xué)概念與實(shí)踐(原書第2版)
定 價:119 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[美]維賈伊?庫圖(Vijay Kotu) 巴拉?德斯潘德(Bala Deshpand
- 出版時間:2020/9/1
- ISBN:9787111663041
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
數(shù)據(jù)科學(xué)已經(jīng)成為從數(shù)據(jù)中提取價值的基本工具,任何企業(yè)都可以將數(shù)據(jù)收集、存儲和處理作為其業(yè)務(wù)的一部分。本書搭建了一個易于理解的概念框架,幫助讀者掌握數(shù)據(jù)科學(xué)的基礎(chǔ)知識,并在學(xué)習(xí)理論的過程中同步使用RapidMiner平臺進(jìn)行實(shí)踐。書中將分享實(shí)用的數(shù)據(jù)分析方法,討論如何揭示隱藏的模式和關(guān)系,無論你是新手還是專家,都能借助這些方法做出更好的決策和預(yù)測。本書非常適合商務(wù)用戶、數(shù)據(jù)分析師、商務(wù)分析師、工程師和分析專家以及任何與數(shù)據(jù)打交道的人。
贊譽(yù)
譯者序
序言
前言
致謝
作者簡介
第1章 簡介 1
1.1 AI、機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué) 2
1.2 什么是數(shù)據(jù)科學(xué) 3
1.2.1 提取有意義的模式 3
1.2.2 構(gòu)建表示模型 3
1.2.3 統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和計(jì)算的結(jié)合 4
1.2.4 學(xué)習(xí)算法 4
1.2.5 相關(guān)領(lǐng)域 4
1.3 數(shù)據(jù)科學(xué)的案例 5
1.3.1 體量 5
1.3.2 維度 5
1.3.3 復(fù)雜問題 6
1.4 數(shù)據(jù)科學(xué)的分類 6
1.5 數(shù)據(jù)科學(xué)的算法 7
1.6 本書路線圖 8
1.6.1 數(shù)據(jù)科學(xué)入門 8
1.6.2 練習(xí)使用RapidMiner 8
1.6.3 核心算法 9
參考文獻(xiàn) 11
第2章 數(shù)據(jù)科學(xué)過程 12
2.1 先驗(yàn)知識 13
2.1.1 目標(biāo) 13
2.1.2 主題范圍 14
2.1.3 數(shù)據(jù) 14
2.1.4 因果關(guān)系與相關(guān)性 15
2.2 數(shù)據(jù)準(zhǔn)備 15
2.2.1 數(shù)據(jù)探索 15
2.2.2 數(shù)據(jù)質(zhì)量 16
2.2.3 缺失值 16
2.2.4 數(shù)據(jù)類型和轉(zhuǎn)換 16
2.2.5 轉(zhuǎn)換 17
2.2.6 異常值 17
2.2.7 特征選擇 17
2.2.8 數(shù)據(jù)采樣 17
2.3 建模 18
2.3.1 訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集 18
2.3.2 學(xué)習(xí)算法 19
2.3.3 模型評估 20
2.3.4 集成模型 20
2.4 應(yīng)用 21
2.4.1 生產(chǎn)準(zhǔn)備 21
2.4.2 技術(shù)整合 21
2.4.3 響應(yīng)時間 21
2.4.4 模型刷新 22
2.4.5 同化 22
2.5 知識 22
參考文獻(xiàn) 23
第3章 數(shù)據(jù)探索 24
3.1 數(shù)據(jù)探索的目標(biāo) 24
3.2 數(shù)據(jù)集 25
3.3 描述性統(tǒng)計(jì) 26
3.3.1 單變量探索 27
3.3.2 多變量探索 28
3.4 數(shù)據(jù)可視化 30
3.4.1 單變量的可視化 31
3.4.2 多變量的可視化 34
3.4.3 可視化高維數(shù)據(jù) 38
3.5 數(shù)據(jù)探索的路線圖 40
參考文獻(xiàn) 41
第4章 分類 42
4.1 決策樹 42
4.1.1 工作原理 42
4.1.2 實(shí)現(xiàn)過程 47
4.1.3 小結(jié) 55
4.2 規(guī)則歸納 56
4.2.1 工作原理 58
4.2.2 實(shí)現(xiàn)過程 60
4.2.3 小結(jié) 63
4.3 k-NN(k-近鄰) 63
4.3.1 工作原理 64
4.3.2 實(shí)現(xiàn)過程 69
4.3.3 小結(jié) 71
4.4 樸素貝葉斯 71
4.4.1 工作原理 72
4.4.2 實(shí)現(xiàn)過程 77
4.4.3 小結(jié) 79
4.5 人工神經(jīng)網(wǎng)絡(luò) 80
4.5.1 工作原理 82
4.5.2 實(shí)現(xiàn)過程 84
4.5.3 小結(jié) 86
4.6 支持向量機(jī) 87
4.6.1 工作原理 89
4.6.2 實(shí)現(xiàn)過程 91
4.6.3 小結(jié) 95
4.7 集成學(xué)習(xí) 95
4.7.1 工作原理 97
4.7.2 實(shí)現(xiàn)過程 98
4.7.3 小結(jié) 105
參考文獻(xiàn) 105
第5章 回歸方法 107
5.1 線性回歸 107
5.1.1 工作原理 108
5.1.2 實(shí)現(xiàn)過程 112
5.1.3 檢查點(diǎn) 117
5.2 邏輯回歸 120
5.2.1 工作原理 122
5.2.2 實(shí)現(xiàn)過程 124
5.2.3 總結(jié)要點(diǎn) 127
5.3 總結(jié) 127
參考文獻(xiàn) 127
第6章 關(guān)聯(lián)分析 128
6.1 挖掘關(guān)聯(lián)規(guī)則 129
6.1.1 項(xiàng)集 130
6.1.2 規(guī)則生成 132
6.2 Apriori算法 133
6.3 頻繁模式增長算法 136
6.3.1 工作原理 136
6.3.2 實(shí)現(xiàn)過程 138
6.4 總結(jié) 141
參考文獻(xiàn) 141
第7章 聚類 142
7.1 k-means聚類 145
7.1.1 工作原理 147
7.1.2 實(shí)現(xiàn)過程 149
7.2 DBSCAN聚類 153
7.2.1 工作原理 153
7.2.2 實(shí)現(xiàn)過程 155
7.3 自組織映射 158
7.3.1 工作原理 159
7.3.2 實(shí)現(xiàn)過程 161
參考文獻(xiàn) 166
第8章 模型評估 168
8.1 混淆矩陣 169
8.2 ROC和AUC 170
8.3 提升曲線 172
8.4 實(shí)現(xiàn)過程 174
8.5 總結(jié) 177
參考文獻(xiàn) 178
第9章 文本挖掘 179
9.1 工作原理 180
9.1.1 詞頻–逆文檔頻率 180
9.1.2 詞語 181
9.2 實(shí)現(xiàn)過程 184
9.2.1 實(shí)現(xiàn)1:關(guān)鍵詞聚類 184
9.2.2 實(shí)現(xiàn)2:預(yù)測博客作者的性別 187
9.3 總結(jié) 193
參考文獻(xiàn) 194
第10章 深度學(xué)習(xí) 195
10.1 AI冬天 197
10.1.1 AI冬天:20世紀(jì)70年代 197
10.1.2 冬季解凍:20世紀(jì)80年代 198
10.1.3 人工智能的春夏:2006年至今 200
10.2 工作原理 201
10.2.1 神經(jīng)網(wǎng)絡(luò)的回歸模型 201
10.2.2 梯度下降法 202
10.2.3 需要反向傳播 204
10.2.4 分類超過2個:softmax 205
10.2.5 卷積神經(jīng)網(wǎng)絡(luò) 207
10.2.6 密集層 211
10.2.7 隨機(jī)失活層 211
10.2.8 循環(huán)神經(jīng)網(wǎng)絡(luò) 212
10.2.9 自動編碼器 213
10.2.10 相關(guān)AI模型 213
10.3 實(shí)現(xiàn)過程 214
10.4 總結(jié) 217
參考文獻(xiàn) 218
第11章 推薦引擎 219
11.1 推薦引擎的概念 221
11.2 協(xié)同過濾 225
11.2.1 基于鄰域的方法 226
11.2.2 矩陣分解 233
11.3 基于內(nèi)容的過濾 238
11.3.1 用戶畫像的計(jì)算 239
11.3.2 有監(jiān)督學(xué)習(xí)方法 245
11.4 混合推薦器 249
11.5 總結(jié) 250
參考文獻(xiàn) 251
第12章 時間序列預(yù)測 253
12.1 時間序列分解 256
12.1.1 經(jīng)典分解 258
12.1.2 實(shí)現(xiàn)過程 258
12.2 基于平滑的方法 260
12.2.1 簡單預(yù)測方法 260
12.2.2 指數(shù)平滑 261
12.2.3 實(shí)現(xiàn)過程 263
12.3 基于回歸的方法 264
12.3.1 回歸 265
12.3.2 周期性回歸 266
12.3.3 集成移動平均自回歸模型 268
12.3.4 周期性ARIMA 272
12.4 機(jī)器學(xué)習(xí)方法 274
12.4.1 窗口化 275
12.4.2 神經(jīng)網(wǎng)絡(luò)自回歸 280
12.5 性能評估 282
12.5.1 驗(yàn)證數(shù)據(jù)集 282
12.5.2 滑動窗口驗(yàn)證 283
12.6 總結(jié) 284
參考文獻(xiàn) 285
第13章 異常檢測 286
13.1 概念 286
13.1.1 異常點(diǎn)的原因 286
13.1.2 異常檢測技術(shù) 288
13.2 基于距離的異常點(diǎn)檢測 289
13.2.1 工作原理 290
13.2.2 實(shí)現(xiàn)過程 291
13.3 基于密度的異常點(diǎn)檢測 293
13.3.1 工作原理 293
13.3.2 實(shí)現(xiàn)過程 294
13.4 局部異常因子 295
13.4.1 工作原理 295
13.4.2 實(shí)現(xiàn)過程 296
13.5 總結(jié) 297
參考文獻(xiàn) 298
第14章 特征選擇 299
14.1 分類特征選擇方法 299
14.2 主成分分析 301
14.2.1 工作原理 301
14.2.2 實(shí)現(xiàn)過程 302
14.3 基于信息理論的過濾 306
14.4 基于卡方的過濾 307
14.5 包裹式特征選擇 309
14.6 總結(jié) 313
參考文獻(xiàn) 313
第15章 RapidMiner入門 314
15.1 用戶界面和術(shù)語 314
15.2 數(shù)據(jù)導(dǎo)入和導(dǎo)出工具 317
15.3 數(shù)據(jù)可視化工具 320
15.4 數(shù)據(jù)轉(zhuǎn)換工具 321
15.5 采樣和缺失值工具 324
15.6 優(yōu)化工具 327
15.7 與R的集成 332
15.8 總結(jié) 332
參考文獻(xiàn) 333
附錄 數(shù)據(jù)科學(xué)算法的比較 334