全書理論聯(lián)系實際,全面講述數(shù)據(jù)挖據(jù)理論、技術及應用的教材。研討了數(shù)據(jù)挖掘的方方面面,從基礎理論到復雜數(shù)據(jù)類型及其應用。不僅討論傳統(tǒng)的數(shù)據(jù)挖掘問題,而且介紹了高級數(shù)據(jù)類型,例如文本、時間序列、離散序列、空間數(shù)據(jù)、圖數(shù)據(jù)和社會網(wǎng)絡。本書由基礎篇和進階篇組成;A篇對應原書的第1~11章,進階篇對應原書的第12~20章。
出版者的話
譯者序
前言
第1章 數(shù)據(jù)挖掘導論1
1.1 引言1
1.2 數(shù)據(jù)挖掘過程2
1.2.1 數(shù)據(jù)預處理階段4
1.2.2 分析階段5
1.3 基本數(shù)據(jù)類型5
1.3.1 非依賴型數(shù)據(jù)5
1.3.2 依賴型數(shù)據(jù)7
1.4 主要數(shù)據(jù)挖掘模塊總覽11
1.4.1 關聯(lián)模式挖掘12
1.4.2 數(shù)據(jù)聚類13
1.4.3 異常檢測13
1.4.4 數(shù)據(jù)分類14
1.4.5 復雜數(shù)據(jù)類型對問題定義的影響15
1.5 可擴展性問題和數(shù)據(jù)流場景17
1.6 應用案例淺述17
1.6.1 商店商品布局17
1.6.2 客戶推薦18
1.6.3 醫(yī)療診斷18
1.6.4 Web日志異常檢測19
1.7 小結19
1.8 文獻注釋19
1.9 練習題20
第2章 數(shù)據(jù)準備21
2.1 引言21
2.2 特征提取和類型轉換22
2.2.1 特征提取22
2.2.2 數(shù)據(jù)類型轉換23
2.3 數(shù)據(jù)清洗26
2.3.1 缺失項的處理27
2.3.2 錯誤項和不一致項的處理28
2.3.3 縮放與標準化29
2.4 數(shù)據(jù)約簡和轉換29
2.4.1 采樣30
2.4.2 特征子集選取32
2.4.3 基于坐標軸旋轉的維度約簡32
2.4.4 基于類型轉換的降維39
2.5 小結47
2.6 文獻注釋48
2.7 練習題48
第3章 相似度和距離50
3.1 引言50
3.2 多維數(shù)據(jù)50
3.2.1 定量型數(shù)據(jù)51
3.2.2 類別型數(shù)據(jù)58
3.2.3 定量型和類別型的混合數(shù)據(jù)59
3.3 文本相似性度量60
3.4 時態(tài)的相似性度量61
3.4.1 時間序列相似性度量61
3.4.2 離散序列相似性度量65
3.5 圖的相似性度量67
3.5.1 單個圖中兩個節(jié)點之間的相似度67
3.5.2 兩個圖之間的相似度68
3.6 有監(jiān)督的相似度函數(shù)69
3.7 小結70
3.8 文獻注釋70
3.9 練習題71
第4章 關聯(lián)模式挖掘73
4.1 引言73
4.2 頻繁模式挖掘模型74
4.3 關聯(lián)規(guī)則的生成框架76
4.4 頻繁項集挖掘算法77
4.4.1 暴力算法78
4.4.2 Apriori算法78
4.4.3 枚舉樹算法81
4.4.4 遞歸的基于后綴的模式生長方法89
4.5 替代模型:有趣模式96
4.5.1 統(tǒng)計相關系數(shù)97
4.5.2 χ2度量97
4.5.3 興趣比率98
4.5.4 對稱置信度98
4.5.5 列的余弦系數(shù)98
4.5.6 Jaccard系數(shù)和min-hash技巧98
4.5.7 集體強度100
4.5.8 與負模式挖掘的關系100
4.6 有用的元算法100
4.6.1 采樣方法101
4.6.2 數(shù)據(jù)劃分集成法101
4.6.3 推廣到其他數(shù)據(jù)類型101
4.7 小結102
4.8 文獻注釋102
4.9 練習題104
第5章 關聯(lián)模式挖掘:高級概念106
5.1 引言106
5.2 模式匯總106
5.2.1 最大模式107
5.2.2 閉包模式108
5.2.3 近似頻繁模式109
5.3 模式查詢110
5.3.1 一次預處理多次查詢111
5.3.2 把限制條件放入模式挖掘115
5.4 關聯(lián)模式挖掘的應用115
5.4.1 與其他數(shù)據(jù)挖掘問題的關系115
5.4.2 購物籃分析116
5.4.3 用戶信息分析116
5.4.4 推薦和協(xié)同過濾116
5.4.5 Web日志分析117
5.4.6 生物信息學117
5.4.7 應用于其他復雜數(shù)據(jù)類型117
5.5 小結118
5.6 文獻注釋118
5.7 練習題119
第6章 聚類分析120
6.1 引言120
6.2 聚類的特征選取121
6.2.1 過濾模型121
6.2.2 包裝模型124
6.3 基于代表點的算法124
6.3.1 k-means算法127
6.3.2 k-means內(nèi)核算法128
6.3.3 k-medians算法128
6.3.4 k-medoids算法129
6.4 層次聚類算法130
6.4.1 自底向上凝聚的方法131
6.4.2 自頂向下分裂的方法135
6.5 基于概率模型的算法135
6.6 基于網(wǎng)格和基于密度的算法139
6.6.1 基于網(wǎng)格的算法139
6.6.2 DBSCAN141
6.6.3 DENCLUE143
6.7 基于圖的算法147
6.8 非負矩陣分解149
6.9 聚類驗證153
6.9.1 內(nèi)部驗證度量153
6.9.2 外部驗證度量155
6.9.3 評價158
6.10 小結158
6.11 文獻注釋158
6.12 練習題159
第7章 聚類分析:高級概念161
7.1 引言161
7.2 類別型數(shù)據(jù)的聚類162
7.2.1 基于代表點的算法162
7.2.2 層次算法164
7.2.3 概率算法165
7.2.4 基于圖的算法166
7.3 可擴展的數(shù)據(jù)聚類167
7.3.1 CLARANS167
7.3.2 BIRCH168
7.3.3 CURE169
7.4 高維數(shù)據(jù)聚類170
7.4.1 CLIQUE172
7.4.2 PROCLUS172
7.4.3 ORCLUS174
7.5 半監(jiān)督聚類176
7.5.1 單點監(jiān)督177
7.5.2 成對監(jiān)督177
7.6 用戶監(jiān)督聚類與可視化監(jiān)督聚類178
7.6.1 現(xiàn)有聚類算法的變體178
7.6.2 可視化聚類179
7.7 集成聚類181
7.7.1 選擇不同的集成組件181
7.7.2 組合不同的集成組件182
7.8 聚類應用183
7.8.1 應用到其他數(shù)據(jù)挖掘問題183
7.8.2 客戶分類與協(xié)同過濾183
7.8.3 文本應用184
7.8.4 多媒體應用184
7.8.5 時態(tài)與序列應用184
7.8.6 社交網(wǎng)絡分析184
7.9 小結184
7.10 文獻注釋184
7.11 練習題185
第8章 異常分析186
8.1 引言186
8.2 極值分析187
8.2.1 單變量極值分析188
8.2.2 多變量極值190
8.2.3 基于深度的方法191
8.3 概率模型192
8.4 異常檢測的聚類方法193
8.5 基于距離的異常檢測195
8.5.1 剪枝方法195
8.5.2 局部距離修正方法197
8.6 基于密度的方法200
8.6.1 基于統(tǒng)計直方圖和網(wǎng)格的技術200
8.6.2 核密度估計201
8.7 信息論模型201
8.8 異常點正確性203
8.8.1 方法論上的挑戰(zhàn)203
8.8.2 接收者工作特征(ROC)曲線203
8.8.3 常見錯誤205
8.9 小結205
8.10 文獻注釋205
8.11 練習題206
第9章 異常分析:高級概念208
9.1 引言208
9.2 類別型數(shù)據(jù)上的異常檢測208
9.2.1 概率模型209
9.2.2 聚類和基于距離的方法210
9.2.3 二元和集合取值的數(shù)據(jù)210
9.3 高維異常檢測210
9.3.1 基于網(wǎng)格的罕見子空間探索212
9.3.2 隨機子空間采樣214
9.4 異常點集成分析215
9.4.1 根據(jù)成員獨立性的分類216
9.4.2 根據(jù)構成成員的分類217
9.4.3 歸一化與合并218
9.5 異常分析的應用219
9.5.1 質(zhì)量控制和故障檢測219
9.5.2 金融詐騙和異常事件219
9.5.3 網(wǎng)站日志分析219
9.5.4 入侵檢測應用219
9.5.5 生物學和醫(yī)學應用220
9.5.6 地球科學應用220
9.6 小結220
9.7 文獻注釋220
9.8 練習題221
第10章 數(shù)據(jù)分類222
10.1 引言222
10.2 分類的特征選擇224
10.2.1 過濾模型224
10.2.2 包裝模型227
10.2.3 嵌入式模型228
10.3 決策樹228
10.3.1 劃分準則231
10.3.2 停止準則與剪枝232
10.4 基于規(guī)則的分類器233
10.4.1 決策樹規(guī)則生成234
10.4.2 順序覆蓋算法235
10.4.3 規(guī)則剪枝238
10.4.4 關聯(lián)分類器238
10.5 概率分類器239
10.5.1 樸素貝葉斯分類器239
10.5.2 邏輯回歸242
10.6 SVM245
10.6.1 線性可分數(shù)據(jù)的SVM245
10.6.2 不可分數(shù)據(jù)的SVM軟間隔實現(xiàn)250
10.6.3 非線性SVM252
10.6.4 內(nèi)核技巧253
10.7 神經(jīng)網(wǎng)絡256
10.7.1 單層神經(jīng)網(wǎng)絡:感知器257
10.7.2 多層神經(jīng)網(wǎng)絡258
10.7.3 不同線性模型的比較260
10.8 基于實例的學習261
10.8.1 最近鄰分類器的設計差異261
10.9 分類器評估263
10.9.1 方法論問題263
10.9.2 量化問題265
10.10 小結269
10.11 文獻注釋269
10.12 練習題270
第11章 數(shù)據(jù)分類:高級概念272
11.1 引言272
11.2 多類別學習273
11.3 稀有類別學習274
11.3.1 樣例重加權275
11.3.2 樣例重采樣275
11.4 可擴展分類276
11.4.1 可擴展的決策樹276
11.4.2 可擴展的SVM277
11.5 數(shù)值型類別的回歸模型278
11.5.1 線性回歸278
11.5.2 主成分回歸281
11.5.3 廣義線性模型282
11.5.4 非線性和多項式回歸283
11.5.5 由決策樹至回歸樹284
11.5.6 模型有效性評估285
11.6 半監(jiān)督學習285
11.6.1 通用元算法287
11.6.2 分類算法的具體變種288
11.6.3 基于圖的半監(jiān)督學習290
11.6.4 對半監(jiān)督學習的討論291
11.7 主動學習291
11.7.1 基于異構性的模型293
11.7.2 基于性能的模型294
11.7.3 基于代表性的模型295
11.8 集成方法296
11.8.1 為什么集成分析有效297
11.8.2 偏差-方差折中的正式表述299
11.8.3 集成學習的具體實例化301
11.9 小結305
11.10 文獻注釋305
11.11 練習題306
第12章 數(shù)據(jù)流挖掘308
12.1 引言308
12.2 流中的概要數(shù)據(jù)結構309
12.2.1 蓄水池采樣309
12.2.2 海量域場景的概述結構315
12.3 數(shù)據(jù)流中的頻繁模式挖掘325
12.3.1 利用概要結構325
12.3.2 有損計數(shù)算法325
12.4 數(shù)據(jù)流聚類326
12.4.1 STREAM算法326
12.4.2 CluStream算法328
12.4.3 海量域場景的流聚類331
12.5 流的異常檢測332
12.5.1 單個數(shù)據(jù)點作為異常點332
12.5.2 聚集變化點作為異常點333
12.6 流分類335
12.6.1 VFDT家族335
12.6.2 有監(jiān)督的微簇方法337
12.6.3 集成方法337
12.6.4 海量域流的分類337
12.7 小結338
12.8 文獻注釋338
12.9 練習題338
第13章 文本數(shù)據(jù)挖掘340
13.1 引言340
13.2 文檔準備和相似度計算341
13.2.1 文檔歸一化和相似度計算342
13.2.2 專用于Web文檔的預處理343
13.3 專用于文本的聚類方法344
13.3.1 基于代表點的算法344
13.3.2 概率算法346
13.3.3 同步發(fā)現(xiàn)文檔簇和詞簇347
13.4 主題建模349
13.4.1 維度約簡中的使用以及與潛在語義分析的對比351
13.4.2 聚類中的使用以及與概率聚類的對比353
13.4.3 PLSA的局限性354
13.5 專用于文本的分類方法354
13.5.1 基于實例的分類器354
13.5.2 貝葉斯分類器356
13.5.3 高維稀疏數(shù)據(jù)的SVM分類器358
13.6 新事物和首發(fā)故事檢測360
13.7 小結360
13.8 文獻注釋361
13.9 練習題361
參考文獻362