本書結合實際案例介紹了PMML語言的各個組成元素,包括數(shù)據(jù)字典、挖掘模式/架構、數(shù)據(jù)轉換、模型定義、輸出、目標、模型解釋、模型驗證等元素,并介紹了表述數(shù)據(jù)挖掘模型的PMML實例文檔創(chuàng)建流程;同時也對各種PMML元素中涉及的一些統(tǒng)計知識做了必要介紹。通過學習,讀者可以完整地了解和掌握PMML語言,將其應用于數(shù)據(jù)挖掘建模。
本書可供從事數(shù)據(jù)挖掘(機器學習)、人工智能系統(tǒng)開發(fā)的軟件開發(fā)者和愛好者學習使用,也可以作為高等院校大數(shù)據(jù)等相關專業(yè)的教材。
1 XML基礎 1
1.1 XML的發(fā)展、技術體系及應用 2
1.1.1 標記語言和SGML 2
1.1.2 XML的特點和應用 4
1.1.3 XML技術體系 5
1.1.4 基于XML的應用標準簡介 15
1.2 XML文檔結構 24
1.2.1 XML文檔頭部 25
1.2.2 XML文檔正文 30
1.3 XML Schema 35
1.3.1 XML Schema文檔結構 36
1.3.2 XML Schema數(shù)據(jù)類型 40
1.3.3 元素內(nèi)容 57
1.3.4 屬性組 61
1.3.5 定義和使用實體 64
1.3.6 注釋 65
1.3.7 構建內(nèi)容模型 66
1.4 命名空間 69
1.4.1 目標命名空間和非限定本地聲明 70
1.4.2 限定本地聲明 73
1.4.3 全局和局部聲明 76
1.4.4 未聲明的目標命名空間 77
1.5 XML文檔驗證 78
1.6 XML Schema使用案例 79
1.6.1 XML處理庫lxml的安裝 80
1.6.2 使用lxml創(chuàng)建XML文檔 80
1.6.3 使用lxml解析XML文檔 85
1.6.4 使用lxml驗證XML文檔 88
本章小結 91
2 數(shù)據(jù)挖掘與PMML 93
2.1 數(shù)據(jù)挖掘簡介 94
2.2 數(shù)據(jù)挖掘流程標準 95
2.3 數(shù)據(jù)挖掘系統(tǒng) 99
2.4 PMML的出現(xiàn) 101
本章小結 103
3 PMML基礎知識 104
3.1 PMML概述 105
3.2 PMML文檔結構 107
3.2.1 頭部Header 110
3.2.2 挖掘任務MiningBuildTask 112
3.2.3 數(shù)據(jù)字典DataDictionary 113
3.2.4 轉換字典TransformationDictionary 127
3.2.5 MODEL-ELEMENT序列 176
3.2.6 擴展Extension 178
3.3 PMML規(guī)范中的命名規(guī)則 180
3.4 PMML規(guī)范中的數(shù)據(jù)類型 180
3.4.1 基本數(shù)據(jù)類型 180
3.4.2 簡單數(shù)組類型 182
3.4.3 稀疏數(shù)組類型 184
3.4.4 矩陣類型 186
3.5 變量的作用范圍 189
3.6 非評分模型 193
本章小結 194
4 模型的輸入和輸出 195
4.1 元素MiningSchema 196
4.2 模型目標變量集合 201
4.2.1 目標變量集元素Targets 202
4.2.2 目標變量元素Target 203
4.2.3 目標變量值元素Targetvalue 204
4.2.4 實例介紹 205
4.3 模型輸出變量集合 206
4.3.1 結果輸出元素Output 207
4.3.2 輸出字段元素OutputField 211
4.3.3 決策集元素Decisions 214
4.3.4 模型輸出結果表 214
4.3.5 實例介紹 216
本章小結 219
5 模型的統(tǒng)計信息 220
5.1 單元統(tǒng)計元素UnivariateStats 221
5.1.1 計數(shù)元素Counts 222
5.1.2 數(shù)值信息元素NumericInfo 223
5.1.3 離散變量統(tǒng)計元素DiscrStats 225
5.1.4 連續(xù)變量統(tǒng)計元素ContStats 226
5.1.5 實例介紹 227
5.2 單因素方差分析元素Anova 228
5.2.1 單因素方差分析元素Anova的定義 229
5.2.2 方差分析 230
5.2.3 實例介紹 232
5.3 多元統(tǒng)計元素MultivariateStats 234
5.4 分區(qū)元素Partition 237
本章小結 241
6 模型驗證 242
6.1 模型驗證元素ModelVerification 243
6.2 模型驗證規(guī)則 245
6.3 實例介紹 249
本章小結 255
7 模型解釋 256
7.1 單變量統(tǒng)計元素UnivariateStats 258
7.2 分區(qū)元素Partition 258
7.3 預測模型質量指標元素PredictiveModelQuality 258
7.4 聚類模型質量指標元素ClusteringModelQuality 262
7.5 混淆矩陣 263
7.5.1 混淆矩陣基本知識 263
7.5.2 混淆矩陣元素ConfusionMatrix 265
7.6 接收者操作特征曲線ROC 267
7.6.1 ROC基本知識 267
7.6.2 ROC曲線元素ROC 269
7.7 增益/提升圖 271
7.7.1 增益 272
7.7.2 提升度 272
7.7.3 提升圖元素ModelLiftGraph 274
7.8 字段(變量)相關性指標 282
本章小結 285
8 PMML實際案例 287
8.1 構建PMML實例文檔 289
8.2 使用PMML實例文檔 294