全書理論聯(lián)系實際,全面講述數(shù)據(jù)挖據(jù)理論、技術(shù)及應(yīng)用的教材。研討了數(shù)據(jù)挖掘的方方面面,從基礎(chǔ)理論到復(fù)雜數(shù)據(jù)類型及其應(yīng)用。不僅討論傳統(tǒng)的數(shù)據(jù)挖掘問題,而且介紹了高級數(shù)據(jù)類型,例如文本、時間序列、離散序列、空間數(shù)據(jù)、圖數(shù)據(jù)和社會網(wǎng)絡(luò)。本書由基礎(chǔ)篇和進階篇組成;A(chǔ)篇對應(yīng)原書的第1~11章,進階篇對應(yīng)原書的第12~20章。
出版者的話
譯者序
前言
第14章 時間序列數(shù)據(jù)挖掘1
14.1 引言1
14.2 時間序列的前期準(zhǔn)備和相似性度量2
14.2.1 缺失值處理2
14.2.2 噪聲去除3
14.2.3 歸一化4
14.2.4 數(shù)據(jù)轉(zhuǎn)換和約簡5
14.2.5 時間序列相似性度量6
14.3 時間序列預(yù)測7
14.3.1 自回歸模型9
14.3.2 自回歸移動平均模型10
14.3.3 帶有隱含變量的多元預(yù)測11
14.4 時間序列模體13
14.4.1 基于距離的模體14
14.4.2 轉(zhuǎn)換為序列模式挖掘15
14.4.3 周期模式16
14.5 時間序列聚類16
14.5.1 共同演化序列的在線聚類17
14.5.2 基于形狀的聚類19
14.6 時間序列異常檢測20
14.6.1 點異常21
14.6.2 形狀異常22
14.7 時間序列分類23
14.7.1 有監(jiān)督事件檢測23
14.7.2 全時序分類26
14.8 小結(jié)27
14.9 文獻注釋27
14.10 練習(xí)題28
第15章 離散序列挖掘29
15.1 引言29
15.2 序列模式挖掘30
15.2.1 頻繁模式到頻繁序列32
15.2.2 約束的序列模式挖掘34
15.3 序列聚類35
15.3.1 基于距離的方法36
15.3.2 基于圖的方法36
15.3.3 基于序列的聚類37
15.3.4 概率聚類37
15.4 序列中的異常檢測40
15.4.1 位置異常40
15.4.2 組合異常44
15.5 隱馬爾可夫模型45
15.5.1 HMM的正式定義47
15.5.2 評估:計算觀察序列的擬合概率48
15.5.3 說明:確定觀察序列的最優(yōu)狀態(tài)序列49
15.5.4 訓(xùn)練:鮑姆韋爾奇算法49
15.5.5 應(yīng)用50
15.6 序列分類51
15.6.1 最近鄰分類器51
15.6.2 基于圖的方法51
15.6.3 基于規(guī)則的方法52
15.6.4 內(nèi)核SVM52
15.6.5 概率方法:隱馬爾可夫模型54
15.7 小結(jié)54
15.8 文獻注釋55
15.9 練習(xí)題55
第16章 空間數(shù)據(jù)挖掘57
16.1 引言57
16.2 上下文空間屬性的挖掘58
16.2.1 形狀到時間序列的轉(zhuǎn)換58
16.2.2 使用小波分析的空間數(shù)據(jù)到多維數(shù)據(jù)的轉(zhuǎn)換61
16.2.3 共址空間模式62
16.2.4 形狀聚類63
16.2.5 異常檢測64
16.2.6 形狀分類66
16.3 軌跡挖掘67
16.3.1 軌跡數(shù)據(jù)和多變量時間序列的等價性67
16.3.2 將軌跡轉(zhuǎn)換為多維數(shù)據(jù)68
16.3.3 軌跡模式挖掘68
16.3.4 軌跡聚類70
16.3.5 軌跡異常檢測72
16.3.6 軌跡分類73
16.4 小結(jié)74
16.5 文獻注釋74
16.6 練習(xí)題75
第17章 圖數(shù)據(jù)挖掘76
17.1 引言76
17.2 圖匹配和距離計算77
17.2.1 同構(gòu)子圖問題的Ullman算法79
17.2.2 最大公共子圖問題82
17.2.3 用于距離計算的圖匹配方法82
17.3 基于轉(zhuǎn)換的距離計算86
17.3.1 基于頻繁子結(jié)構(gòu)的轉(zhuǎn)換和距離計算86
17.3.2 拓撲描述量87
17.3.3 基于內(nèi)核的轉(zhuǎn)換和計算89
17.4 圖數(shù)據(jù)的頻繁子結(jié)構(gòu)挖掘90
17.4.1 基于節(jié)點的連接92
17.4.2 基于邊的連接92
17.4.3 頻繁模式挖掘到圖模式挖掘93
17.5 圖聚類93
17.5.1 基于距離的方法94
17.5.2 基于頻繁子結(jié)構(gòu)的方法94
17.6 圖分類 96
17.6.1 基于距離的方法96
17.6.2 基于頻繁子結(jié)構(gòu)的方法97
17.6.3 內(nèi)核SVM98
17.7 小結(jié)98
17.8 文獻注釋99
17.9 練習(xí)題99
第18章 挖掘Web數(shù)據(jù)101
18.1 引言101
18.2 Web爬取和資源發(fā)現(xiàn)102
18.2.1 基本爬蟲算法102
18.2.2 偏好爬蟲103
18.2.3 多線程104
18.2.4 爬蟲陷阱應(yīng)對方法104
18.2.5 檢測近似重復(fù)的覆蓋104
18.3 搜索引擎索引和查詢處理105
18.4 排名算法107
18.4.1 PageRank107
18.4.2 HITS111
18.5 推薦系統(tǒng)112
18.5.1 基于內(nèi)容的推薦114
18.5.2 協(xié)同過濾基于鄰域的方法115
18.5.3 基于圖的方法116
18.5.4 聚類方法117
18.5.5 潛在因素模型118
18.6 Web使用記錄的挖掘119
18.6.1 數(shù)據(jù)預(yù)處理120
18.6.2 應(yīng)用120
18.7 小結(jié)121
18.8 文獻注釋121
18.9 練習(xí)題122
第19章 社交網(wǎng)絡(luò)分析123
19.1 引言123
19.2 社交網(wǎng)絡(luò):預(yù)備知識與特性124
19.2.1 同質(zhì)性124
19.2.2 三元閉合和聚類系數(shù)124
19.2.3 網(wǎng)絡(luò)構(gòu)成的動態(tài)性125
19.2.4 符合冪定律的度分布126
19.2.5 中心度和聲望的度量126
19.3 社區(qū)發(fā)現(xiàn)129
19.3.1 Kernighan-Lin算法131
19.3.2 Girvan-Newman算法132
19.3.3 多層次的圖劃分:METIS135
19.3.4 譜聚類137
19.4 協(xié)同分類140
19.4.1 迭代分類算法141
19.4.2 隨機游走方式的標(biāo)簽傳播142
19.4.3 有監(jiān)督的譜方法145
19.5 鏈接預(yù)測147
19.5.1 基于鄰域的度量148
19.5.2 Katz度量149
19.5.3 基于隨機游走的度量150
19.5.4 鏈接預(yù)測作為分類問題150
19.5.5 鏈接預(yù)測作為缺失值估計問題150
19.5.6 討論151
19.6 社交影響分析151
19.6.1 線性閾值模型152
19.6.2 獨立級聯(lián)模型153
19.6.3 影響函數(shù)求值153
19.7 小結(jié)153
19.8 文獻注釋154
19.9 練習(xí)題155
第20章 隱私保護數(shù)據(jù)挖掘157
20.1 引言157
20.2 數(shù)據(jù)采集期間的隱私保護158
20.2.1 重建聚合分布158
20.2.2 利用聚合分布來進行數(shù)據(jù)挖掘160
20.3 數(shù)據(jù)發(fā)布期間的隱私保護160
20.3.1 k匿名模型162
20.3.2 ?多樣性模型172
20.3.3 t相近性模型173
20.3.4 維度災(zāi)難175
20.4 輸出隱私保護176
20.5 分布式隱私保護177
20.6 小結(jié)178
20.7 文獻注釋178
20.8 練習(xí)題179
參考文獻181