機器學(xué)習(xí)基礎(chǔ)——面向預(yù)測數(shù)據(jù)分析的算法、實用范例與案例研究
定 價:99 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[愛爾蘭] 約翰?D.凱萊赫(John D. Kelleher) 布萊恩?馬克?納
- 出版時間:2020/4/1
- ISBN:9787111652335
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:368
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書重點講述用于預(yù)測性數(shù)據(jù)分析的*重要的機器學(xué)習(xí)方法,包括理論概念和實際應(yīng)用。
本書的目的是呈現(xiàn)一個通俗易懂的、引導(dǎo)性的機器學(xué)習(xí)基礎(chǔ)資料,并說明在實踐中是如何利用機器學(xué)習(xí)解決商業(yè)、科學(xué)以及其他組織環(huán)境的預(yù)測數(shù)據(jù)分析問題的。因此,本書不僅討論一般機器學(xué)習(xí)書籍所涵蓋的內(nèi)容,也討論預(yù)測分析項目的生命周期、數(shù)據(jù)準(zhǔn)備、特征設(shè)計和模型部署。
本書可作為計算機科學(xué)、自然與社會科學(xué)、工程以及商學(xué)專業(yè)本科生和研究生的機器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析或人工智能課程的教材。書中的案例研究展示了機器學(xué)習(xí)在工業(yè)領(lǐng)域的數(shù)據(jù)分析方面的應(yīng)用,因此本書也可以作為從業(yè)者的參考材料,還可用作工業(yè)界的培訓(xùn)教材。
本書基于我們多年教授機器學(xué)習(xí)的經(jīng)驗編寫而成,書中的方法和素材源于課堂,并經(jīng)過了實踐檢驗。在撰寫本書的過程中,為使這些素材更易于理解,我們采用了如下指導(dǎo)原則:
將最重要且最常用的算法解釋清楚,而不是籠統(tǒng)地囊括機器學(xué)習(xí)的所有方面。作為教師,我們認(rèn)為讓學(xué)生深入理解一個領(lǐng)域的核心和基礎(chǔ)概念能夠為他們打下堅實的基礎(chǔ),如此學(xué)生才能夠獨立地探索這個領(lǐng)域。這種見微知著的方法使我們能夠用更多的篇幅去介紹、解釋、闡明和情境化那些較為基礎(chǔ)和實用的算法。
在從技術(shù)上正式地描述算法的原理之前,先通俗地解釋算法的意圖。對每個主題進行通俗的介紹,可以使學(xué)生在學(xué)習(xí)更為技術(shù)性的內(nèi)容之前打下堅實的基礎(chǔ)。我們針對本科生、研究生和專業(yè)人士等的教學(xué)經(jīng)驗表明,這些通俗的介紹能使學(xué)生輕松地理解主題。
提供完整的實用范例。在本書中,我們展示了所有范例的完整運作方式,這樣能使讀者檢查自己的理解程度。
本書結(jié)構(gòu)
在教授一個技術(shù)主題時,展示其實際應(yīng)用是非常重要的。為此,我們在預(yù)測數(shù)據(jù)分析這一重要且處于成長期的工業(yè)界機器學(xué)習(xí)應(yīng)用情境下展現(xiàn)機器學(xué)習(xí)。機器學(xué)習(xí)與數(shù)據(jù)分析的聯(lián)系貫穿本書的每一章。在第1章中,介紹機器學(xué)習(xí),并解釋機器學(xué)習(xí)在標(biāo)準(zhǔn)的數(shù)據(jù)分析項目的生命周期中所扮演的角色。在第2章,呈現(xiàn)一個設(shè)計和構(gòu)建預(yù)測分析解決方案的框架,該框架基于機器學(xué)習(xí)且能夠滿足商業(yè)需要。所有機器學(xué)習(xí)算法都假設(shè)存在一個可供訓(xùn)練的數(shù)據(jù)集。因此,第3章闡釋在預(yù)先建好的預(yù)測模型上使用數(shù)據(jù)集前如何對數(shù)據(jù)集進行設(shè)計、構(gòu)建和質(zhì)量檢查。
第4~7章是本書的主要機器學(xué)習(xí)章節(jié),每一章都展示了不同的機器學(xué)習(xí)方法:第4章為通過搜集信息來學(xué)習(xí);第5章為通過類比來學(xué)習(xí);第6章為通過預(yù)測可能的結(jié)果來學(xué)習(xí);第7章為通過搜索誤差最小的解來學(xué)習(xí)。這些章節(jié)都分為如下兩部分:
第一部分首先對該章內(nèi)容進行通俗的介紹,緊接著詳細(xì)地闡釋理解這些內(nèi)容所需的技術(shù)概念,然后展示使用該學(xué)習(xí)方法的一個標(biāo)準(zhǔn)機器學(xué)習(xí)算法以及詳細(xì)的實用范例。
第二部分闡釋該標(biāo)準(zhǔn)機器學(xué)習(xí)算法的各種拓展方法,以及所延伸出的著名的變種算法。
將這些章節(jié)分為兩部分的目的在于自然地將該章內(nèi)容分節(jié)。由此,一節(jié)課就可以涵蓋每章的第一部分(大思路、基礎(chǔ)知識、標(biāo)準(zhǔn)方法),即一個主題。接著——如果時間允許的話——課程的主題可以延伸至第二部分的全部或部分內(nèi)容。第8章闡述如何評估預(yù)測模型的性能,并展示了一系列不同的評估指標(biāo)。該章也由標(biāo)準(zhǔn)方法以及延伸與拓展這兩部分組成。在所有技術(shù)章節(jié)中,更為廣泛的預(yù)測分析場景持續(xù)地穿插于翔實、完整的實際范例中,并且給出了范例所基于的數(shù)據(jù)集和論文的引用來源。
第9和10章的案例研究(客戶流失、星系分類)清晰地展現(xiàn)了廣泛的商業(yè)情境與機器學(xué)習(xí)之間的聯(lián)系,尤其強調(diào)許多超越建模的問題和任務(wù)(比如商業(yè)理解、問題定義、數(shù)據(jù)收集和準(zhǔn)備,以及對見解進行交流)對預(yù)測分析項目的重要性。最后,第11章討論機器學(xué)習(xí)中一系列基礎(chǔ)性的話題,并強調(diào)了針對給定問題選擇合適的機器學(xué)習(xí)方法不僅涉及關(guān)于模型精確度的因素,而且必須將模型的特性與商業(yè)需求進行匹配。
如何使用本書
多年的教學(xué)工作,使我們對適用于一學(xué)期的導(dǎo)論課程和適用于兩學(xué)期的高階課程所需的教學(xué)內(nèi)容有了清晰的認(rèn)識。為使本書適用于上述兩種不同的教學(xué)情境,本書的內(nèi)容是模塊化的,各章之間沒有太多依賴關(guān)系。因此,教師在使用本書時只需選擇自己想要講授的部分,而不需要擔(dān)心這些部分之間的依賴關(guān)系。講課時,第1、2、9~11章的內(nèi)容通常需要2~3課時,而第3~8章的內(nèi)容則通常需要4~6課時。
我們在表1中列出了針對不同情況的建議授課計劃。所有課程都包含第1章(面向預(yù)測數(shù)據(jù)分析的機器學(xué)習(xí))和第11章(面向預(yù)測數(shù)據(jù)分析的機器學(xué)習(xí)藝術(shù))。列出的第一門課程M.L.(短,深入)設(shè)計為一學(xué)期機器學(xué)習(xí)課程,這門課程側(cè)重于讓學(xué)生深入理解兩個機器學(xué)習(xí)方法,以及了解在評估一個機器學(xué)習(xí)模型時所應(yīng)使用的正確方法。在建議的課程中,我們決定納入全部第4章(基于信息的學(xué)習(xí))的內(nèi)容,以及第7章(基于誤差的學(xué)習(xí))的內(nèi)容。但這些內(nèi)容也可被第5章(基于相似性的學(xué)習(xí))和/或第6章(基于概率的學(xué)習(xí))取代。M.L. (短,深入)也是短期(一周)專業(yè)人員培訓(xùn)的理想課程。第二門課程M.L.(短,廣泛)則是另一種一學(xué)期機器學(xué)習(xí)課程,這門課程側(cè)重于涵蓋一系列機器學(xué)習(xí)方法,并且包括了詳細(xì)的評估方法。對于長達兩學(xué)期的機器學(xué)習(xí)課程M.L.(長)來說,我們建議講授數(shù)據(jù)準(zhǔn)備(3.6節(jié))、所有的
譯者序
前言
符號記法
第1章 面向預(yù)測數(shù)據(jù)分析的機器學(xué)習(xí) 1
1.1 什么是預(yù)測數(shù)據(jù)分析 1
1.2 什么是機器學(xué)習(xí) 2
1.3 機器學(xué)習(xí)的工作原理 4
1.4 機器學(xué)習(xí)會產(chǎn)生什么問題 7
1.5 預(yù)測數(shù)據(jù)分析項目的生命周期:CRISP-DM 9
1.6 預(yù)測數(shù)據(jù)分析工具 10
1.7 本書概覽 11
1.8 習(xí)題 12
第2章 數(shù)據(jù)到見解再到?jīng)Q策 13
2.1 將商業(yè)問題轉(zhuǎn)化為分析解決方案 13
2.2 可行性評估 14
2.3 設(shè)計分析基礎(chǔ)表 16
2.4 特征的設(shè)計與實現(xiàn) 19
2.4.1 不同的數(shù)據(jù)類型 20
2.4.2 不同的特征類型 20
2.4.3 處理時間 21
2.4.4 法律問題 23
2.4.5 特征的實現(xiàn) 25
2.4.6 案例研究:汽車保險詐騙 25
2.5 總結(jié) 28
2.6 延伸閱讀 28
2.7 習(xí)題 29
第3章 數(shù)據(jù)探索 31
3.1 數(shù)據(jù)質(zhì)量報告 31
3.2 了解數(shù)據(jù) 35
3.2.1 正態(tài)分布 37
3.2.2 案例研究:汽車保險詐騙 38
3.3 找出數(shù)據(jù)質(zhì)量問題 39
3.3.1 缺失值 39
3.3.2 異常基數(shù) 40
3.3.3 離群點 40
3.3.4 案例研究:汽車保險詐騙 41
3.4 處理數(shù)據(jù)質(zhì)量問題 42
3.4.1 處理缺失值 43
3.4.2 處理離群點 43
3.4.3 案例研究:汽車保險詐騙 44
3.5 高階數(shù)據(jù)探索 45
3.5.1 可視化特征之間的關(guān)系 45
3.5.2 度量協(xié)方差和相關(guān)性 52
3.6 數(shù)據(jù)準(zhǔn)備 56
3.6.1 歸一化 56
3.6.2 分箱 57
3.6.3 采樣 60
3.7 總結(jié) 61
3.8 延伸閱讀 62
3.9 習(xí)題 62
第4章 基于信息的學(xué)習(xí) 73
4.1 大思路 73
4.2 基礎(chǔ)知識 75
4.2.1 決策樹 75
4.2.2 香農(nóng)熵模型 77
4.2.3 信息增益 80
4.3 標(biāo)準(zhǔn)方法:ID3算法 83
4.4 延伸與拓展 89
4.4.1 其他特征選取與純度度量方法 89
4.4.2 處理連續(xù)描述性特征 92
4.4.3 預(yù)測連續(xù)目標(biāo) 95
4.4.4 剪枝 98
4.4.5 模型組合 100
4.5 總結(jié) 103
4.6 延伸閱讀 104
4.7 習(xí)題 104
第5章 基于相似性的學(xué)習(xí) 109
5.1 大思路 109
5.2 基本概念 110
5.2.1 特征空間 110
5.2.2 用距離度量測量相似性 111
5.3 標(biāo)準(zhǔn)方法:最近鄰算法 113
5.4 延伸與拓展 116
5.4.1 處理嘈雜數(shù)據(jù) 116
5.4.2 高效內(nèi)存搜索 118
5.4.3 數(shù)據(jù)歸一化 124
5.4.4 預(yù)測連續(xù)目標(biāo) 127
5.4.5 其他相似性測量 129
5.4.6 特征選取 136
5.5 總結(jié) 141
5.6 延伸閱讀 143
5.7 后記 144
5.8 習(xí)題 144
第6章 基于概率的學(xué)習(xí) 149
6.1 大思路 149
6.2 基礎(chǔ)知識 151
6.2.1 貝葉斯定理 152
6.2.2 貝葉斯預(yù)測 154
6.2.3 條件獨立與因子化 157
6.3 標(biāo)準(zhǔn)方法:樸素貝葉斯模型 160
6.4 延伸與拓展 163
6.4.1 平滑 163
6.4.2 連續(xù)特征:概率密度函數(shù) 166
6.4.3 連續(xù)特征:分箱 174
6.4.4 貝葉斯網(wǎng)絡(luò) 177
6.5 總結(jié) 187
6.6 延伸閱讀 188
6.7 習(xí)題 188
第7章 基于誤差的學(xué)習(xí) 192
7.1 大思路 192
7.2 基礎(chǔ)知識 192
7.2.1 簡單線性回歸 193
7.2.2 測量誤差 194
7.2.3 誤差曲面 196
7.3 標(biāo)準(zhǔn)方法:使用梯度下降法的多變量線性回歸 197
7.3.1 多變量線性回歸 198
7.3.2 梯度下降法 198
7.3.3 選擇學(xué)習(xí)率和初始權(quán)值 203
7.3.4 實用范例 204
7.4 延伸與拓展 206
7.4.1 解釋多變量線性回歸模型 206
7.4.2 用權(quán)值衰減設(shè)定學(xué)習(xí)率 208
7.4.3 處理類別描述性特征 209
7.4.4 處理類別目標(biāo)特征:對數(shù)幾率回歸 210
7.4.5 建模非線性關(guān)系 219
7.4.6 多項對數(shù)幾率回歸 223
7.4.7 支持向量機 226
7.5 總結(jié) 229
7.6 延伸閱讀 231
7.7 習(xí)題 231
第8章 評估 237
8.1 大思路 237
8.2 基礎(chǔ)知識 238
8.3 標(biāo)準(zhǔn)方法:留出測試集上的誤分類率 238
8.4 延伸與拓展 241
8.4.1 設(shè)計評估實驗 241
8.4.2 性能度量:類別目標(biāo) 246
8.4.3 性能度量:預(yù)測得分 252
8.4.4 性能度量:多項目標(biāo) 264
8.4.5 性能度量:連續(xù)目標(biāo) 265
8.4.6 評估部署后的模型 268
8.5 總結(jié) 273
8.6 延伸閱讀 273
8.7 習(xí)題 274
第9章 案例研究:客戶流失 278
9.1 商業(yè)理解 278
9.2 數(shù)據(jù)理解 280
9.3 數(shù)據(jù)準(zhǔn)備 283
9.4 建模 286
9.5 評估 289
9.6 部署 290
第10章 案例研究:星系分類 292
10.1 商業(yè)理解 292
10.2 數(shù)據(jù)理解 294
10.3 數(shù)據(jù)準(zhǔn)備 299
10.4 建模 303
10.4.1 基準(zhǔn)模型 303
10.4.2 特征選取 305
10.4.3 5級別模型 306
10.5 評估 307
10.6 部署 308
第11章 面向預(yù)測數(shù)據(jù)分析的機器學(xué)習(xí)藝術(shù) 309
11.1 預(yù)測模型的不同視角 310
11.2 選擇機器學(xué)習(xí)方法 313
11.2.1 將機器學(xué)習(xí)方法和項目匹配 315
11.2.2 將機器學(xué)習(xí)方法和數(shù)據(jù)匹配 315
11.3 總結(jié) 316
附錄A 機器學(xué)習(xí)的描述性統(tǒng)計量與數(shù)據(jù)可視化 317
附錄B 機器學(xué)習(xí)的概率論導(dǎo)論 326
附錄C 機器學(xué)習(xí)中的求導(dǎo)方法 332
參考文獻 336
索引 343