本書是機器學習領域內一部具有里程碑意義的著作。包括哥倫比亞大學、北京大學在內的多個國內外名校均有以該書為基礎開設的研究生課程。全書內容豐富,視野寬闊,深入淺出地介紹了目前機器學習重要的理論和關鍵的算法。
本書是關于機器學習的概述,適合作為該領域學生和研究人員的教科書。本書涵蓋機器學習領域的基本內容,并且提供討論及檢驗算法合理性所必需的理論基礎和概念工具。不僅如此,本書還描述了應用相關算法時需要考慮的若干關鍵問題。
本書旨在介紹最新的理論和概念,并且對于相對先進的結果給出簡要的證明?傮w而言,我們盡可能使全書敘述簡潔。盡管如此,我們也會討論機器學習中出現的一些重要且復雜的主題,指出若干開放的研究問題。對于那些常常與其他主題合并或者未引起足夠關注的主題,本書將單獨著重討論,例如,將多分類、排序和回歸分別用一章來講解。
盡管本書覆蓋機器學習中很多重要的主題,但是出于簡略且因目前缺乏針對一些方法的堅實的理論保證,未能覆蓋圖模型和神經網絡這兩個重要主題。
本書主要面向機器學習、統(tǒng)計和其他相關領域的學生與研究人員,適合作為研究生和高年級本科生課程的教科書,或者學術研討會的參考資料。本書前三四章為后續(xù)材料奠定理論基礎,第6章引入一些被后面章節(jié)廣泛使用的概念來完善理論,第13章與第12章密切相關,而其余各章大多自成體系。我們在每章最后給出一套習題,并單獨給出完整的解答。
我們假定本書的讀者熟悉線性代數、概率和算法分析的基本概念。但是,為了進一步輔助學習,我們在附錄中會簡要回顧線性代數和概率的相關知識,給出凸優(yōu)化和信息論的簡介,并且匯總本書分析和討論中常用的集中不等式。
不少著作在介紹機器學習時從貝葉斯角度或者核方法等特定主題具體展開,而本書的不同之處在于提供了適用于多個機器學習主題和領域的統(tǒng)一介紹。此外,本書的特色還在于對機器學習理論基礎的深入剖析,并給出詳細的證明。
這是本書的第2版,我們對全書內容進行了更新。主要修改之處包括:書寫風格調整、示意圖新增、表述簡化、內容補充(特別是第6章和第17章)、章節(jié)新增等。具體而言,我們增加了一整章來介紹模型選擇(第4章)這一重要主題,對上一版中的相關內容進行了拓展。我們也增加了兩個全新的章節(jié)分別介紹機器學習中的兩個重要主題:最大熵模型(第12章)和條件最大熵模型(第13章)。我們還對附錄進行了大幅調整。在附錄B中,詳述了凸優(yōu)化中的Fenchel對偶性。在附錄D中,補充介紹了大量相關的集中不等式。在附錄E中,新增了關于信息論的內容。此外,這一版對每章的習題和解答也進行了大量的更新。
這里所介紹的大部分材料來自機器學習研究生課程(機器學習基礎),在過去14年中,該課程由本書第一作者在紐約大學庫朗數學科學研究所講授。本書極大地受益于該課程的學生、朋友、同事和研究人員所提出的寶貴意見與建議,在此對他們深表感激。
我們特別感謝Corinna Cortes和Yishay Mansour對于本書第1版內容的設計與組織提出的許多重要建議,包括大量詳細的注釋。我們充分考慮了他們的建議,這對于改進全書幫助很大。此外,還要感謝Yishay Mansour用本書的最初版本進行教學,并向我們積極反饋。
我們還要感謝來自學術界和企業(yè)界研究實驗室的同事與朋友所給予的討論、建議和貢獻,他們是:Jacob Abernethy、Cyril Allauzen、Kareem Amin、Stephen Boyd、Aldo Corbisiero、Giulia DeSalvo、Claudio Gentile、Spencer Greenberg、Lisa Hellerstein、Sanjiv Kumar、Vitaly Kuznetsov、Ryan McDonald、Andrès Muoz Medina、Tyler Neylon、Peter Norvig、Fernando Pereira、Maria Pershina、Borja de Balle Pigem、Ashish Rastogi、Michael Riley、Dmitry Storcheus、Ananda Theertha Suresh、Umar Syed、Csaba Szepesvri、Toshiyuki Tanaka、Eugene Weinstein、Jason Weston、Scott Yang和Ningshan Zhang。
最后,我們還要感謝MIT出版社對本書所給予的幫助和支持。
譯者序
前言
第1章 引言1
1.1 什么是機器學習1
1.2 機器學習可以解決什么樣的問題2
1.3 一些典型的學習任務2
1.4 學習階段3
1.5 學習情境4
1.6 泛化5
第2章 PAC學習框架7
2.1 PAC學習模型7
2.2 對有限假設集的學習保證——一致的情況11
2.3 對有限假設集的學習保證——不一致的情況14
2.4 泛化性16
2.4.1 確定性與隨機性情境16
2.4.2 貝葉斯誤差與噪聲17
2.5 文獻評注18
2.6 習題18
第3章 Rademacher復雜度和VC-維23
3.1 Rademacher復雜度23
3.2 生長函數27
3.3 VC-維28
3.4 下界34
3.5 文獻評注38
3.6 習題39
第4章 模型選擇46
4.1 估計誤差和近似誤差46
4.2 經驗風險最小化47
4.3 結構風險最小化47
4.4 交叉驗證50
4.5 n-折交叉驗證52
4.6 基于正則化的算法53
4.7 凸替換項損失54
4.8 文獻評注57
4.9 習題58
第5章 支持向量機59
5.1 線性分類59
5.2 可分情況60
5.2.1 原始優(yōu)化問題60
5.2.2 支持向量61
5.2.3 對偶優(yōu)化問題62
5.2.4 留一法63
5.3 不可分情況64
5.3.1 原始優(yōu)化問題65
5.3.2 支持向量66
5.3.3 對偶優(yōu)化問題67
5.4 間隔理論67
5.5 文獻評注74
5.6 習題74
第6章 核方法77
6.1 引言77
6.2 正定對稱核79
6.2.1 定義79
6.2.2 再生核希爾伯特空間81
6.2.3 性質82
6.3 基于核的算法85
6.3.1 具有PDS核的SVM85
6.3.2 表示定理86
6.3.3 學習保證87
6.4 負定對稱核88
6.5 序列核90
6.5.1 加權轉換器90
6.5.2 有理核93
6.6 近似核特征映射96
6.7 文獻評注100
6.8 習題100
第7章 boosting106
7.1 引言106
7.2 AdaBoost算法107
7.2.1 經驗誤差的界109
7.2.2 與坐標下降的關系110
7.2.3 實踐中的使用方式112
7.3 理論結果113
7.3.1 基于VC-維的分析113
7.3.2 L1-幾何間隔113
7.3.3 基于間隔的分析115
7.3.4 間隔最大化118
7.3.5 博弈論解釋119
7.4 L1-正則化120
7.5 討論122
7.6 文獻評注122
7.7 習題124
第8章 在線學習129
8.1 引言129
8.2 有專家建議的預測130
8.2.1 錯誤界和折半算法130
8.2.2 加權多數算法131
8.2.3 隨機加權多數算法132
8.2.4 指數加權平均算法135
8.3 線性分類137
8.3.1 感知機算法137
8.3.2 Winnow算法143
8.4 在線到批處理的轉換145
8.5 與博弈論的聯系147
8.6 文獻評注148
8.7 習題149
第9章 多分類153
9.1 多分類問題153
9.2 泛化界154
9.3 直接型多分類算法159
9.3.1 多分類SVM159
9.3.2 多分類boosting算法160
9.3.3 決策樹161
9.4 類別分解型多分類算法164
9.4.1 一對多164
9.4.2 一對一165
9.4.3 糾錯輸出編碼166
9.5 結構化預測算法168
9.6 文獻評注169
9.7 習題170
第10章 排序172
10.1 排序問題172
10.2 泛化界173
10.3 使用SVM進行排序175
10.4 RankBoost176
10.4.1 經驗誤差界178
10.4.2 與坐標下降的關系179
10.4.3 排序問題集成算法的間隔界180
10.5 二部排序181
10.5.1 二部排序中的boosting算法182
10.5.2 ROC曲線下面積184
10.6 基于偏好的情境184
10.6.1 兩階段排序問題185
10.6.2 確定性算法186
10.6.3 隨機性算法187
10.6.4 關于其他損失函數的擴展188
10.7 其他的排序準則189
10.8 文獻評注189
10.9 習題190
第11章 回歸191
11.1 回歸問題191
11.2 泛化界192
11.2.1 有限假設集192
11.2.2 Rademacher復雜度界193
11.2.3 偽維度界194
11.3 回歸算法196
11.3.1 線性回歸196
11.3.2 核嶺回歸198
11.3.3 支持向量回歸201
11.3.4 Lasso204
11.3.5 組范數回歸算法206
11.3.6 在線回歸算法207
11.4 文獻評注207
11.5 習題208
第12章 最大熵模型210
12.1 密度估計問題210
12.1.1 最大似然解210
12.1.2 最大后驗解211
12.2 添加特征的密度估計問題212
12.3 最大熵準則212
12.4 最大熵模型簡介213
12.5 對偶問題213
12.6 泛化界216
12.7 坐標下降算法217
12.8 拓展218
12.9 L2-正則化220
12.10 文獻評注222
12.11 習題223
第13章 條件最大熵模型224
13.1 學習問題224
13.2 條件最大熵準則224
13.3 條件最大熵模型簡介225
13.4 對偶問題226
13.5 性質227
13.5.1 優(yōu)化問題227
13.5.2 特征向量228
13.5.3 預測228
13.6 泛化界228
13.7 邏輯回歸231
13.7.1 優(yōu)化問題231
13.7.2 邏輯模型231
13.8 L2-正則232
13.9 對偶定理的證明23