本書共分9章,主要內容有:第1章總結機器學習項目的推進流程。第2章介紹機器學習的主要功能和各種算法。第3章以垃圾郵件判別為例,介紹對學習完成后的預測模型進行離線評價的方法。第4章梳理在計算機系統(tǒng)里集成機器學習功能的模式,同時介紹機器學習基礎的日志設計。第5章介紹機器學習分類任務里的正確答案數(shù)據(jù)的獲取方法。第6章介紹用于驗證實施方案是否真正有效的統(tǒng)計鑒定、因果推理,以及A/B試驗等方法。第3章是預測模型的離線驗證,本章則介紹實施過程中的實時驗證。第7章以電影推薦為例,學習推薦預測系統(tǒng)的開發(fā)實現(xiàn)案例。第8章闡述搜索式分析過程及分析報告,結合在第1章的機器學習流程中出現(xiàn)的不執(zhí)行機器學習的例子,介紹如何整理實際分析結果的相關心得。第9章采用所謂Uplift Modeling方法學習更有效的營銷方法。
Michiaki Ariga,東京工業(yè)大學計算機工程學博士畢業(yè),現(xiàn)為東京大學教授、日本國立信息學研究所客座教授。主要從事機器學習的理論研究和算法開發(fā),以及在信號和圖像處理等方面的應用。2011年獲日本信息處理學會長尾真紀念特別獎。著有《統(tǒng)計機器學習》等。
前言 .. 1
第一部分
第1章
機器學習項目流程
.11
1.1 如何利用機器學習 11
1.2 機器學習項目的流程 13
1.3 實際系統(tǒng)中的機器學習問題的處理方法 27
1.4 機器學習系統(tǒng)的成功要素 32
1.5 小結 34
第2章
機器學習的用途 35
2.1 算法選擇 35
2.2 分類 37
2.3 回歸 69
2.4 聚類與降維 72
2.5 其他 74
2.6 小結 76
第3章
學習結果的評價 77
3.1 分類的評價矩陣 77
3.2 回歸的評價 86
3.3 機器學習系統(tǒng)的A/B測試 88
3.4 小結 89
第4章
機器學習系統(tǒng)的開發(fā)
91
4.1 機器學習系統(tǒng)的開發(fā)流程 91
4.2 系統(tǒng)設計 92
4.3 日志設計 105
4.4 小結 110
第5章
機器學習資源的收集
111
5.1 機器學習資源的獲取 111
5.2 利用公開的數(shù)據(jù)集或模型 113
5.3 開發(fā)者自己創(chuàng)建訓練數(shù)據(jù) 114
5.4 他人幫忙輸入數(shù)據(jù) 116
5.5 數(shù)據(jù)創(chuàng)建眾包 117
5.6 基于服務的用戶輸入 119
5.7 小結 120
第6章
效果驗證 121
6.1 效果驗證概述 121
6.2 假設檢驗的框架 125
6.3 假設檢驗的注意事項 131
6.4 因果效應的推斷 137
6.5 A/B測試 141
6.6 小結 144
第二部分
第7章
電影推薦系統(tǒng) 147
7.1 概述 147
7.2 推薦系統(tǒng)功能 149
7.3 MovieLens的數(shù)據(jù)趨勢 159
7.4 推薦系統(tǒng)的開發(fā) 165
7.5 小結 . 176
第8章 Kickstarter的數(shù)據(jù)分析
177
8.1 Kickstarter的API 177
8.2 Kickstarter的網(wǎng)絡爬蟲 178
8.3 數(shù)據(jù)變換 . 180
8.4 瀏覽Excel數(shù)據(jù) . 181
8.5 數(shù)據(jù)透視表 185
8.6 達成目標卻被取消的項目 190
8.7 國別的項目分析 192
8.8 形成分析報告 194
8.9 進一步的工作 204
8.10 小結 204
第9章
基于Uplift Modeling的營銷資源效率分析207
9.1 Uplift Modeling的四象限分區(qū) 208
9.2 擴展A/B測試的Uplift
Modeling的概要
210
9.3 Uplift Modeling的數(shù)據(jù)集生成 211
9.4 利用兩個預測模型的Uplift
Modeling . 214
9.5 Uplift Modeling的評價方法 . 218
9.6 實際應用 . 224
9.7 實際應用Uplift Modeling的相關事項 . 231
9.8 小結 . 233
參考文獻
235
后記
.239
致謝
.241