數(shù)據(jù)挖掘原理、方法及python應(yīng)用實(shí)踐教程
定 價(jià):68 元
當(dāng)前圖書已被 24 所學(xué)校薦購過!
查看明細(xì)
- 作者:蔣國銀等
- 出版時(shí)間:2020/11/1
- ISBN:9787030653543
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP311.561
- 頁碼:252
- 紙張:
- 版次:01
- 開本:16
本書系統(tǒng)講授數(shù)據(jù)挖掘的原理、主要方法及其Python實(shí)現(xiàn),共分三部分:第一部分包含第1~2章,介紹數(shù)據(jù)挖掘的基本概念、流程和數(shù)據(jù)預(yù)處理;第二部分包含第3~11章,介紹經(jīng)典的分類算法(包括樸素貝葉斯分類器、決策樹、k-近鄰、支持向量機(jī)等)、經(jīng)典的聚類分析、關(guān)聯(lián)分析、人工神經(jīng)網(wǎng)絡(luò)和Web挖掘等方法;第三部包含第12~14章,共有3個(gè)綜合案例,包括泰坦尼克號(hào)生存數(shù)據(jù)分析、心臟病預(yù)測(cè)分析和旅游評(píng)論傾向性分析。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第1章 緒論 1
1.1 數(shù)據(jù)挖掘的含義 1
1.2 數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)與人工智能 2
1.3 數(shù)據(jù)挖掘基本任務(wù) 4
1.3.1 分類與預(yù)測(cè) 4
1.3.2 聚類分析 6
1.3.3 關(guān)聯(lián)分析 7
1.3.4 異常檢測(cè) 7
1.3.5 其他任務(wù) 8
1.4 數(shù)據(jù)挖掘流程 9
1.4.1 明確目標(biāo) 9
1.4.2 數(shù)據(jù)收集 9
1.4.3 數(shù)據(jù)探索 10
1.4.4 數(shù)據(jù)預(yù)處理 10
1.4.5 挖掘建模 10
1.4.6 模型評(píng)價(jià) 11
1.5 數(shù)據(jù)挖掘常用工具及其比較 11
1.5.1 Python 11
1.5.2 R 11
1.5.3 Weka 12
1.5.4 SPSS Modeler 12
1.5.5 RapidMiner 12
1.6 Python的安裝及使用 13
1.6.1 WinPython 13
1.6.2 Anaconda 14
1.6.3 集成開發(fā)環(huán)境 15
1.7 本章小結(jié) 16
思考題 17
習(xí)題 17
本章參考文獻(xiàn) 17
第2章 數(shù)據(jù)預(yù)處理 18
2.1 概述 18
2.2 缺失值的處理 18
2.2.1 缺失值的查找 19
2.2.2 缺失值的刪除 20
2.2.3 缺失值的填充 22
2.3 異常值的處理 23
2.4 數(shù)據(jù)的標(biāo)準(zhǔn)化 25
2.4.1 Z-score標(biāo)準(zhǔn)化 25
2.4.2 將特征變量縮放到指定范圍 27
2.4.3 考慮異常值的標(biāo)準(zhǔn)化 28
2.5 數(shù)據(jù)的正則化 28
2.6 自定義轉(zhuǎn)換器 30
2.7 生成多項(xiàng)式和交互特征 30
2.8 本章小結(jié) 31
思考題 32
習(xí)題 32
第3章 樸素貝葉斯分類器 33
3.1 樸素貝葉斯分類算法相關(guān)的統(tǒng)計(jì)學(xué)知識(shí) 33
3.2 極大似然估計(jì) 34
3.3 貝葉斯估計(jì) 36
3.4 樸素貝葉斯分類算法的Python實(shí)現(xiàn) 37
3.5 本章小結(jié) 40
思考題 41
習(xí)題 41
本章參考文獻(xiàn) 41
第4章 決策樹 42
4.1 決策樹分類算法概述 42
4.2 熵與信息增益 43
4.3 ID3算法 46
4.4 C4.5算法 47
4.5 CART算法 49
4.6 過擬合與決策樹剪枝 52
4.6.1 過擬合 52
4.6.2 決策樹剪枝 52
4.7 分類模型的評(píng)估 54
4.7.1 混淆矩陣 54
4.7.2 ROC曲線 57
4.8 實(shí)例:決策樹的Python實(shí)現(xiàn) 59
4.9 本章小結(jié) 62
4.9.1 決策樹ID3、C4.5和CART算法比較 62
4.9.2 決策樹算法優(yōu)缺點(diǎn) 63
思考題 63
習(xí)題 63
本章參考文獻(xiàn) 64
第5章 集成學(xué)習(xí) 65
5.1 集成學(xué)習(xí)的思想 65
5.2 集成學(xué)習(xí)模型:結(jié)合策略 67
5.2.1 集成回歸模型的結(jié)合策略 67
5.2.2 集成分類模型的結(jié)合策略 68
5.3 Bagging方法與隨機(jī)森林 68
5.3.1 Bagging方法 68
5.3.2 隨機(jī)森林 69
5.4 Boosting方法與Adaboost 70
5.4.1 Boosting方法 70
5.4.2 Adaboost 71
5.5 集成學(xué)習(xí)模型的Python實(shí)現(xiàn) 72
5.6 實(shí)例:信用卡還貸情況預(yù)測(cè) 72
5.7 本章小結(jié) 74
思考題 74
習(xí)題 75
本章參考文獻(xiàn) 75
第6章 k-近鄰 76
6.1 數(shù)據(jù)在不同維度上分布的分類表現(xiàn) 76
6.2 算法原理 78
6.3 相似度與距離 79
6.3.1 二維向量空間的KNN分類 79
6.3.2 多維向量空間的KNN分類 80
6.4 k值的選擇 83
6.5 分類決策規(guī)則 84
6.6 KNN算法 84
6.7 kd樹 85
6.8 實(shí)例:鳶尾花分類 88
思考題 89
習(xí)題 89
本章參考文獻(xiàn) 89
第7章 支持向量機(jī) 90
7.1 SVM算法介紹 90
7.2 線性可分支持向量機(jī) 91
7.2.1 原始問題 91
7.2.2 對(duì)偶問題 95
7.2.3 算法過程 97
7.3 線性不可分支持向量機(jī) 97
7.3.1 原始問題 98
7.3.2 對(duì)偶問題 98
7.3.3 算法過程 99
7.4 非線性支持向量機(jī) 100
7.4.1 對(duì)偶問題 100
7.4.2 算法過程 101
7.5 實(shí)例:鳶尾花分類 102
思考題 103
習(xí)題 103
本章參考文獻(xiàn) 103
第8章 人工神經(jīng)網(wǎng)絡(luò) 105
8.1 神經(jīng)網(wǎng)絡(luò)的基本概念 105
8.2 神經(jīng)網(wǎng)絡(luò)的發(fā)展過程 107
8.2.1 神經(jīng)元 107
8.2.2 單層神經(jīng)網(wǎng)絡(luò)(感知器) 109
8.2.3 兩層神經(jīng)網(wǎng)絡(luò)(多層感知器) 110
8.2.4 神經(jīng)網(wǎng)絡(luò)訓(xùn)練(反向傳播) 113
8.3 實(shí)例:mnist手寫數(shù)字識(shí)別 118
思考題 119
習(xí)題 119
本章參考文獻(xiàn) 120
第9章 聚類分析 121
9.1 聚類問題 121
9.1.1 聚類問題的定義 121
9.1.2 聚類的依據(jù):距離的定義 122
9.2 基于原型的聚類方法:k-均值聚類 123
9.2.1 k-均值聚類的原理和過程 123
9.2.2 k-均值聚類的特點(diǎn) 124
9.3 基于密度的聚類方法:DBSCAN 125
9.3.1 DBSCAN聚類方法的原理 126
9.3.2 DBSCAN 聚類方法的特點(diǎn) 127
9.4 基于層次的聚類方法:AGNES 127
9.4.1 AGNES 聚類方法的原理 128
9.4.2 AGNES聚類方法的特點(diǎn) 130
9.5 聚類結(jié)果的評(píng)價(jià) 130
9.6 使用Python進(jìn)行聚類分析 132
9.7 實(shí)例:城市發(fā)展?jié)摿υu(píng)估 133
9.8 本章小結(jié) 134
思考題 135
習(xí)題 135
本章參考文獻(xiàn) 135
第10章 關(guān)聯(lián)分析 137
10.1 關(guān)聯(lián)分析的基本概念 137
10.1.1 問題定義 137
10.1.2 關(guān)聯(lián)分析的基本步驟 139
10.2 Apriori 關(guān)聯(lián)分析算法 140
10.2.1 尋找頻繁項(xiàng)集 140
10.2.2 生成關(guān)聯(lián)規(guī)則 141
10.3 FP增長(zhǎng)算法 142
10.3.1 生成FP增長(zhǎng)樹 142
10.3.2 尋找頻繁項(xiàng)集 144
10.4 使用Python進(jìn)行關(guān)聯(lián)分析 145
10.5 實(shí)例:電影觀看記錄信息挖掘 145
10.6 本章小結(jié) 146
思考題 147
習(xí)題 147
本章參考文獻(xiàn) 147
第11章 Web挖掘 148
11.1 Web挖掘概述 148
11.1.1 Web挖掘的概念 148
11.1.2 Web挖掘的特點(diǎn) 148
11.1.3 Web挖掘的分類 149
11.2 Web挖掘技術(shù)實(shí)現(xiàn) 150
11.2.1 關(guān)聯(lián)規(guī)則挖掘技術(shù) 150
11.2.2 序列模式挖掘技術(shù) 152
11.2.3 分類挖掘技術(shù) 154
11.2.4 聚類挖掘技術(shù) 155
11.3 Web數(shù)據(jù)爬取 156
11.3.1 Web數(shù)據(jù)爬蟲簡(jiǎn)介 157
11.3.2 Web數(shù)據(jù)處理過程 159
11.3.3 Web爬蟲性能及策略 160
11.4 Web挖掘評(píng)價(jià)標(biāo)準(zhǔn) 161
11.4.1 查準(zhǔn)率與查全率 161
11.4.2 F1值 162
11.4.3 其他評(píng)價(jià)標(biāo)準(zhǔn) 162
11.5 實(shí)例:Web日志挖掘 164
11.6 本 章 小 結(jié) 172
思考題 172
習(xí)題 172
本章參考文獻(xiàn) 172
第12章 應(yīng)用案例一:泰坦尼克號(hào)生存數(shù)據(jù)分析 174
12.1 案例背景及分析思路 174
12.2 數(shù) 據(jù) 解 讀 174
12.3 數(shù)據(jù)預(yù)處理 175
12.3.1 查看數(shù)據(jù)集 175
12.3.2 缺失值的填充 177
12.4 描述性統(tǒng)計(jì)分析 178
12.4.1 性別與生存率之間的關(guān)系 178
12.4.2 船艙等級(jí)、生存率與性別三者之間的關(guān)系 179
12.4.3 年齡與生存率之間的關(guān)系 180
12.4.4 登船港口與生存率之間的關(guān)系 181
12.4.5 家庭大小與生存率之間的關(guān)系 183
12.5 特征工程 186
12.6 模型構(gòu)建與評(píng)估 190
12.6.1 隨機(jī)森林 191
12.6.2 支持向量機(jī) 191
12.6.3 樸素貝葉斯模型 192
12.7 本章小結(jié) 193
思考題 193
習(xí)題 193
第13章 應(yīng)用案例二:心臟病預(yù)測(cè)分析 194
13.1 案例背景及分析思路 194
13.2 數(shù)據(jù)預(yù)處理 194
13.2.1 數(shù)據(jù)集的含義 195
13.2.2 重復(fù)值的刪除 196
13.2.3 缺失值處理 197
13.3 數(shù)據(jù)集的特征分析 198
13.4 構(gòu)建模型 199
13.4.1 數(shù)據(jù)整理 199
13.4.2 KNN 202
13.4.3 隨機(jī)森林 204
13.4.4 logistic回歸 205
13.5 模型評(píng)估 206
13.5.1 KNN 207
13.5.2 隨機(jī)森林 209
13.5.3 logistic回歸 211
13.6 本章小結(jié) 212
思考題 212
習(xí)題 213
第14章 應(yīng)用案例三:旅游評(píng)論傾向性分析 214
14.1 案例背景及分析思路 214
14.1.1 案例背景 214
14.1.2 數(shù)據(jù)分析思路與方法 214
14.2 數(shù)據(jù)分析準(zhǔn)備工作 216
14.2.1 數(shù)據(jù)爬取 216
14.2.2 數(shù)據(jù)的預(yù)處理 218
14.2.3 描述性分析 222
14.3 特征工程 224
14.3.1 人工特征 224
14.3.2 TF-IDF編碼 225
14.3.3 Word2vec編碼 227
14.4 基于傳統(tǒng)分類器的景區(qū)評(píng)論傾向性分析 230
14.4.1 基于傳統(tǒng)弱分類器的傾向性分析 230
14.4.2 基于隨機(jī)森林的傾向性分析 231
14.4.3 基于提升樹的傾向性分析 232
14.5 基于LSTM和FastText的景區(qū)評(píng)論傾向性分析 233
14.5.1 基于自建詞典的LSTM情感分析模型 233
14.5.2 基于FastText的文本標(biāo)簽分類模型 235
14.5.3 綜合FastText和LSTM的情感分析模型 237
14.6 模型評(píng)估 238
14.7 本章小結(jié) 239
思考題 240
習(xí)題 240
本章參考文獻(xiàn) 240