全書理論聯(lián)系實際,全面講述數(shù)據(jù)挖據(jù)理論、技術及應用的教材。研討了數(shù)據(jù)挖掘的方方面面,從基礎理論到復雜數(shù)據(jù)類型及其應用。不僅討論傳統(tǒng)的數(shù)據(jù)挖掘問題,而且介紹了高級數(shù)據(jù)類型,例如文本、時間序列、離散序列、空間數(shù)據(jù)、圖數(shù)據(jù)和社會網(wǎng)絡。本書由基礎篇和進階篇組成。基礎篇對應原書的第1~11章,進階篇對應原書的第12~20章。
出版者的話
譯者序
前言
第14章 時間序列數(shù)據(jù)挖掘1
14.1 引言1
14.2 時間序列的前期準備和相似性度量2
14.2.1 缺失值處理2
14.2.2 噪聲去除3
14.2.3 歸一化4
14.2.4 數(shù)據(jù)轉換和約簡5
14.2.5 時間序列相似性度量6
14.3 時間序列預測7
14.3.1 自回歸模型9
14.3.2 自回歸移動平均模型10
14.3.3 帶有隱含變量的多元預測11
14.4 時間序列模體13
14.4.1 基于距離的模體14
14.4.2 轉換為序列模式挖掘15
14.4.3 周期模式16
14.5 時間序列聚類16
14.5.1 共同演化序列的在線聚類17
14.5.2 基于形狀的聚類19
14.6 時間序列異常檢測20
14.6.1 點異常21
14.6.2 形狀異常22
14.7 時間序列分類23
14.7.1 有監(jiān)督事件檢測23
14.7.2 全時序分類26
14.8 小結27
14.9 文獻注釋27
14.10 練習題28
第15章 離散序列挖掘29
15.1 引言29
15.2 序列模式挖掘30
15.2.1 頻繁模式到頻繁序列32
15.2.2 約束的序列模式挖掘34
15.3 序列聚類35
15.3.1 基于距離的方法36
15.3.2 基于圖的方法36
15.3.3 基于序列的聚類37
15.3.4 概率聚類37
15.4 序列中的異常檢測40
15.4.1 位置異常40
15.4.2 組合異常44
15.5 隱馬爾可夫模型45
15.5.1 HMM的正式定義47
15.5.2 評估:計算觀察序列的擬合概率48
15.5.3 說明:確定觀察序列的最優(yōu)狀態(tài)序列49
15.5.4 訓練:鮑姆韋爾奇算法49
15.5.5 應用50
15.6 序列分類51
15.6.1 最近鄰分類器51
15.6.2 基于圖的方法51
15.6.3 基于規(guī)則的方法52
15.6.4 內核SVM52
15.6.5 概率方法:隱馬爾可夫模型54
15.7 小結54
15.8 文獻注釋55
15.9 練習題55
第16章 空間數(shù)據(jù)挖掘57
16.1 引言57
16.2 上下文空間屬性的挖掘58
16.2.1 形狀到時間序列的轉換58
16.2.2 使用小波分析的空間數(shù)據(jù)到多維數(shù)據(jù)的轉換61
16.2.3 共址空間模式62
16.2.4 形狀聚類63
16.2.5 異常檢測64
16.2.6 形狀分類66
16.3 軌跡挖掘67
16.3.1 軌跡數(shù)據(jù)和多變量時間序列的等價性67
16.3.2 將軌跡轉換為多維數(shù)據(jù)68
16.3.3 軌跡模式挖掘68
16.3.4 軌跡聚類70
16.3.5 軌跡異常檢測72
16.3.6 軌跡分類73
16.4 小結74
16.5 文獻注釋74
16.6 練習題75
第17章 圖數(shù)據(jù)挖掘76
17.1 引言76
17.2 圖匹配和距離計算77
17.2.1 同構子圖問題的Ullman算法79
17.2.2 最大公共子圖問題82
17.2.3 用于距離計算的圖匹配方法82
17.3 基于轉換的距離計算86
17.3.1 基于頻繁子結構的轉換和距離計算86
17.3.2 拓撲描述量87
17.3.3 基于內核的轉換和計算89
17.4 圖數(shù)據(jù)的頻繁子結構挖掘90
17.4.1 基于節(jié)點的連接92
17.4.2 基于邊的連接92
17.4.3 頻繁模式挖掘到圖模式挖掘93
17.5 圖聚類93
17.5.1 基于距離的方法94
17.5.2 基于頻繁子結構的方法94
17.6 圖分類 96
17.6.1 基于距離的方法96
17.6.2 基于頻繁子結構的方法97
17.6.3 內核SVM98
17.7 小結98
17.8 文獻注釋99
17.9 練習題99
第18章 挖掘Web數(shù)據(jù)101
18.1 引言101
18.2 Web爬取和資源發(fā)現(xiàn)102
18.2.1 基本爬蟲算法102
18.2.2 偏好爬蟲103
18.2.3 多線程104
18.2.4 爬蟲陷阱應對方法104
18.2.5 檢測近似重復的覆蓋104
18.3 搜索引擎索引和查詢處理105
18.4 排名算法107
18.4.1 PageRank107
18.4.2 HITS111
18.5 推薦系統(tǒng)112
18.5.1 基于內容的推薦114
18.5.2 協(xié)同過濾基于鄰域的方法115
18.5.3 基于圖的方法116
18.5.4 聚類方法117
18.5.5 潛在因素模型118
18.6 Web使用記錄的挖掘119
18.6.1 數(shù)據(jù)預處理120
18.6.2 應用120
18.7 小結121
18.8 文獻注釋121
18.9 練習題122
第19章 社交網(wǎng)絡分析123
19.1 引言123
19.2 社交網(wǎng)絡:預備知識與特性124
19.2.1 同質性124
19.2.2 三元閉合和聚類系數(shù)124
19.2.3 網(wǎng)絡構成的動態(tài)性125
19.2.4 符合冪定律的度分布126
19.2.5 中心度和聲望的度量126
19.3 社區(qū)發(fā)現(xiàn)129
19.3.1 Kernighan-Lin算法131
19.3.2 Girvan-Newman算法132
19.3.3 多層次的圖劃分:METIS135
19.3.4 譜聚類137
19.4 協(xié)同分類140
19.4.1 迭代分類算法141
19.4.2 隨機游走方式的標簽傳播142
19.4.3 有監(jiān)督的譜方法145
19.5 鏈接預測147
19.5.1 基于鄰域的度量148
19.5.2 Katz度量149
19.5.3 基于隨機游走的度量150
19.5.4 鏈接預測作為分類問題150
19.5.5 鏈接預測作為缺失值估計問題150
19.5.6 討論151
19.6 社交影響分析151
19.6.1 線性閾值模型152
19.6.2 獨立級聯(lián)模型153
19.6.3 影響函數(shù)求值153
19.7 小結153
19.8 文獻注釋154
19.9 練習題155
第20章 隱私保護數(shù)據(jù)挖掘157
20.1 引言157
20.2 數(shù)據(jù)采集期間的隱私保護158
20.2.1 重建聚合分布158
20.2.2 利用聚合分布來進行數(shù)據(jù)挖掘160
20.3 數(shù)據(jù)發(fā)布期間的隱私保護160
20.3.1 k匿名模型162
20.3.2 ?多樣性模型172
20.3.3 t相近性模型173
20.3.4 維度災難175
20.4 輸出隱私保護176
20.5 分布式隱私保護177
20.6 小結178
20.7 文獻注釋178
20.8 練習題179
參考文獻181