在21世紀,統(tǒng)計方法在范圍和影響方面都有驚人的擴展。大數(shù)據(jù)、數(shù)據(jù)科學和機器學習已經(jīng)成為新聞中常見的術語,因為統(tǒng)計方法被用于處理現(xiàn)代科學和商業(yè)的龐大數(shù)據(jù)集。我們是怎么走到這一步的?我們又將走到哪里?
本書將帶你踏上數(shù)據(jù)分析變革的振奮之旅。從經(jīng)典推斷理論(貝葉斯理論、頻率理論和Fisher理論)開始,各章節(jié)分別介紹一系列有影響力的主題,包括生存分析、廣義線性模型、經(jīng)驗貝葉斯、刀切法與自助法、錯誤發(fā)現(xiàn)率、隨機森林、神經(jīng)網(wǎng)絡、馬爾可夫鏈蒙特卡羅方法、模型選擇后的推斷等。同時以獨特的現(xiàn)代方法將方法和算法與統(tǒng)計推斷相結合,對每個主題關鍵的方法論發(fā)展及其推斷依據(jù)進行描述。此外,本書的后面章節(jié)對提升算法和深度學習等大規(guī)模預測算法進行研究,并闡述數(shù)據(jù)科學的未來方向。
本書兩位作者均為斯坦福大學知名教授,不僅對統(tǒng)計推斷理論和算法有著深刻的理解,并且有著豐富的統(tǒng)計算法教學經(jīng)驗。本書涵蓋內(nèi)容豐富,深入淺出,可作為低年級研究生的統(tǒng)計學教材。
本書以豐富的案例介紹了計算機時代下的統(tǒng)計推斷的發(fā)展脈絡,從理論的角度剖析統(tǒng)計推斷的各類算法、證據(jù)等,揭示統(tǒng)計推斷如何推動當今大數(shù)據(jù)、數(shù)據(jù)科學、機器學習等領域的快速發(fā)展并引領數(shù)據(jù)分析的變革,*后展望了統(tǒng)計學和數(shù)據(jù)科學的未來方向。
統(tǒng)計推斷是一門內(nèi)容極其廣泛的學科,實際上,它位于數(shù)學、經(jīng)驗科學和哲學三門學科的交叉點上。從貝葉斯準則的發(fā)表算起,這門學科可以追溯到1763年(貝葉斯準則代表了這一學科的哲學層面,該準則的早期倡導者認為它是上帝存在的論據(jù))。從20世紀50年代到現(xiàn)在,我們書名所指的計算機時代是指這250年歷史中的最近四分之一。在這個時代,統(tǒng)計應用的傳統(tǒng)瓶頸計算,發(fā)展得愈發(fā)迅速。
本書是對過去60年統(tǒng)計如何演變的一個綜述,但是對于這樣一門內(nèi)容廣泛的學科,我們只不過是從一架小型飛機的高度進行俯瞰,而不是從噴氣式飛機或衛(wèi)星的高度來觀察。各個章節(jié)分別介紹了一系列有影響力的論題,包括廣義線性模型、生存分析、刀切法與自助法、錯誤發(fā)現(xiàn)率、經(jīng)驗貝葉斯、馬爾可夫鏈蒙特卡羅方法、神經(jīng)網(wǎng)絡等。與此同時,我們將對每個論題關鍵的方法論發(fā)展及其推斷依據(jù)進行描述。
不用多說,計算將是我們故事的核心話題,但是這并不意味著每一項進展都與計算機有關。正如一座橋已連通到一個新的大陸,但并不是所有人都渴望通過這座橋。諸如經(jīng)驗貝葉斯和James-Stein估計的話題已經(jīng)在力學計算的約束下出現(xiàn)。其他話題,例如自助法和比例風險,才是計算機時代下新生的事物。在21世紀的統(tǒng)計學中,幾乎所有的論題都依賴于計算機,但是要進入新千年的話題,我們這架小型飛機仍需飛一段時間。
統(tǒng)計推斷在字典里的定義傾向于將其與整個學科等同起來。但在龐大的基于計算機處理算法所引導的大數(shù)據(jù)時代,這一定義已經(jīng)變得不那么令人滿意了。在此,我們將嘗試把統(tǒng)計學的兩個方面分開,即使這種劃分方式并非總是一致的:針對特定問題領域的算法發(fā)展,例如使用隨機森林進行預測,與其支持的推理論據(jù),這兩者截然不同。
從廣義上講,算法是統(tǒng)計學家所做的,而推斷則說明他們?yōu)槭裁匆@樣做。數(shù)據(jù)科學作為統(tǒng)計事業(yè)的一個特別有活力的品牌,在新世紀中蓬勃發(fā)展,它強調(diào)算法思維而不是推斷理由。本書后面的章節(jié)將對提升算法和深度學習等大規(guī)模預測算法進行研究,并闡述數(shù)據(jù)科學的觀點(有關統(tǒng)計學和數(shù)據(jù)科學的聯(lián)系,請參閱本書后記)。
生物推斷、天文推斷或地質(zhì)推斷這樣的論題是不存在的。那為什么我們需要統(tǒng)計推斷呢?答案很簡單:自然科學有著判斷想法準確性的天性。統(tǒng)計學比自然科學晚一步,它大多數(shù)時候是在解釋自然科學家的觀察結果。如果沒有大自然作為無私的裁判,我們就需要一個用于指導和糾正的數(shù)學邏輯體系。統(tǒng)計推斷就是這樣一個從兩個半世紀的數(shù)據(jù)分析經(jīng)驗中提煉出來的系統(tǒng)。
本書按照歷史進程分為三個部分:第一部分回顧了經(jīng)典推斷、貝葉斯理論、頻率理論和Fisher理論,它們都是在電子計算時代之前產(chǎn)生的,現(xiàn)代實踐在不改變基本理論框架的情況下大大擴展了它們的應用范圍(可以與古典和現(xiàn)代文學類比);第二部分關注從20世紀50年代到90年代早期的計算機時代的發(fā)展,作為一個過渡時期,這是在理論和實踐中最容易看到快速計算對統(tǒng)計方法學進展有無影響的時期;第三部分,也就是21世紀的話題,把這個故事帶到當下,我們所處的是一個算法蓬勃發(fā)展的時代(機器學習是令人不安的流行用語),解釋算法的原理是現(xiàn)代統(tǒng)計推斷的持續(xù)任務。
本書既不是目錄,也不是百科全書,書中各個話題的選取是為計算方法和推斷理論之間的相互作用提供恰當?shù)睦C。一些不包含在本書中的話題,譬如時間序列、一般估計方程、因果推斷、圖模型和實驗設計,自然也有著自己的意義。無論如何,并不是本書中提出的主題才是唯一值得討論的。
同樣沒有充分解釋的還有漸近和決策理論,它們是這個領域的數(shù)學統(tǒng)計方面。我們的目的是將本書保持在一個適合碩士級別統(tǒng)計學者或一年級博士生的技術水平。不可避免地,部分內(nèi)容將涉及更困難的領域,這些困難更多的來自統(tǒng)計思想的本質(zhì),而不是數(shù)學。讀者如果發(fā)現(xiàn)我們的小飛機在某個話題上盤旋太久,應該毫不猶豫地繼續(xù)向后閱讀。在大多數(shù)情況下,章節(jié)彼此獨立(盡管有一個連貫的整體主題)。這特別適用于那些因為對某個特定主題感興趣而選擇了本書的非統(tǒng)計學家,如僅對生存分析或提升算法感興趣的讀者。
如果要求一個有用的學科滿足各種用戶的需求,則會有失去核心的風險。盡管外部需求不斷上升,統(tǒng)計學在大部分的內(nèi)容上仍然保持著其哲學凝聚力。實際上,這個領域的核心在過去60年中已從基于數(shù)學和邏輯的傳統(tǒng)焦點轉向了一個更為計算化的焦點。本書將在各個話題上研究這一轉變,除了在本書后記中討論數(shù)據(jù)科學時略微給出一些討論之外,這里不會嘗試給出在未來會發(fā)生什么?這個有趣問題的答案。
致 謝
我們感謝Cindy Kirby在籌備本書時所做的嫻熟工作,以及GalitShmueli對早期草案的有益評論。非常感謝劍橋大學出版社出色的文案編輯Steven Holt,感謝Clare Dennison在制作階段始終指導我們,以及本書的編輯Diana Gillooly不懈地支持我們。
Bradley Efron
Trevor Hastie
2016年5月于斯坦福大學統(tǒng)計系
Bradley Efron是斯坦福大學 Max H. Stein 教授,統(tǒng)計學教授和生物醫(yī)學數(shù)據(jù)科學教授。他曾在哈佛大學,加州大學伯克利分校和倫敦帝國理工學院擔任過訪問教師。Efron在統(tǒng)計推斷理論方面進行了廣泛的研究,并且是自舉采樣技術的發(fā)明者。他于 2005 年獲得了國家科學獎章,并于
2014 年獲得了皇家統(tǒng)計學會的金獎。
Trevor Hastie 是斯坦福大學的 John A. Overdeck教授,統(tǒng)計學教授和生物醫(yī)學數(shù)據(jù)科學教授。他是統(tǒng)計學習要素的合著者,這是現(xiàn)代數(shù)據(jù)分析領域的重要著作。他還因其在廣義加性模型和主曲線方面的工作以及他對 R 計算環(huán)境的貢獻而聞名。Hastie
在 2014 年獲得了 Emmanuel 和 Carol Parzen的統(tǒng)計創(chuàng)新獎。
贊譽
譯者序
前言
致謝
第一部分 經(jīng)典統(tǒng)計推斷
第1章 算法與推斷2
1.1 一個回歸的例子3
1.2 假設檢驗5
1.3 注釋7
注釋7
第2章 頻率學派推斷8
2.1 實踐中的頻率學派9
2.2 頻率學意義下的最優(yōu)化12
2.3 注釋與細節(jié)13
注釋13
第3章 貝葉斯推斷14
3.1 兩個例子15
3.2 無信息先驗分布18
3.3 頻率學派推斷的缺陷19
3.4 貝葉斯學派/頻率學派的對比列表21
3.5 注釋與細節(jié)23
注釋23
第4章 Fisher推斷和最大似然估計24
4.1 似然和最大似然24
4.2 Fisher信息和MLE26
4.3 條件推斷28
4.4 排列和隨機化31
4.5 注釋與細節(jié)32
注釋32
第5章 參數(shù)模型和指數(shù)族34
5.1 單變量族34
5.2 多元正態(tài)分布36
5.3 多參數(shù)分布族的Fisher信息量邊界38
5.4 多項分布39
5.5 指數(shù)型分布族41
5.6 注釋與細節(jié)44
注釋44
第二部分 計算機時代早期方法
第6章 經(jīng)驗貝葉斯48
6.1 Robbins公式48
6.2 物種遺漏問題50
6.3 一個醫(yī)學上的例子54
6.4 間接證據(jù)156
6.5 注釋與細節(jié)57
注釋57
第7章 James-Stein估計和嶺回歸59
7.1 James-Stein估計59
7.2 棒球運動員61
7.3 嶺回歸63
7.4 間接證據(jù)266
7.5 注釋和細節(jié)68
注釋68
第8章 廣義線性模型與回歸樹70
8.1 邏輯回歸70
8.2 廣義線性模型75
8.3 泊松回歸78
8.4 回歸樹80
8.5 注釋與細節(jié)82
注釋83
第9章 生存分析和EM算法85
9.1 生命表和風險率85
9.2 刪失數(shù)據(jù)和Kaplan-Meier估計87
9.3 對數(shù)秩檢驗91
9.4 比例風險模型93
9.5 缺失數(shù)據(jù)和EM算法95
9.6 注釋與細節(jié)98
注釋98
第10章 刀切法與自助法101
10.1 標準差的刀切法估計101
10.2 非參數(shù)的自助法103
10.3 重抽樣方案106
10.4 參數(shù)自助法110
10.5 影響函數(shù)與魯棒估計112
10.6 注釋與細節(jié)115
注釋115
第11章 自助法置信區(qū)間117
11.1 Neyman的單參數(shù)問題的構建117
11.2 百分位方法120
11.3 偏差校正置信區(qū)間122
11.4 二階精度124
11.5 自助t區(qū)間126
11.6 目標貝葉斯區(qū)間和置信分布127
11.7 注釋與細節(jié)131
注釋131
第12章 交叉驗證與預測誤差的Cp估計134
12.1 預測規(guī)則134
12.2 交叉驗證137
12.3 協(xié)方差懲罰140
12.4 訓練、驗證與短期預測因子146
12.5 注釋與細節(jié)148
注釋148
第13章 客觀貝葉斯推斷和馬爾可夫鏈蒙特卡羅方法150
13.1 客觀先驗分布150
13.2 共軛先驗分布152
13.3 模型選擇與貝葉斯信息準則156
13.4 Gibbs抽樣和MCMC161
13.5 示例:模擬人口混合165
13.6 注釋與細節(jié)167
注釋167
第14章 戰(zhàn)后時代的統(tǒng)計推斷與方法論169
注釋171
第三部分 21世紀的話題
第15章 大規(guī)模假設檢驗和錯誤發(fā)現(xiàn)率174
15.1 大規(guī)模假設檢驗174
15.2 錯誤發(fā)現(xiàn)率176
15.3 經(jīng)驗貝葉斯大規(guī)模假設檢驗178
15.4 局部錯誤發(fā)現(xiàn)率181
15.5 原假設分布的選擇183
15.6 關聯(lián)性186
15.7 注釋與細節(jié)188
注釋188
第16章 稀疏建模和套索191
16.1 前向逐步回歸191
16.2 套索194
16.3 擬合套索模型197
16.4 最小角回歸198
16.5 擬合廣義的套索模型200
16.6 套索的選擇后推斷202
16.7 聯(lián)系和擴展203
16.8 注釋與細節(jié)205
注釋205
第17章 隨機森林和提升207
17.1 隨機森林207
17.2 平方誤差損失的提升212
17.3 梯度提升216
17.4 Adaboost:原始的提升算法218
17.5 聯(lián)系和擴展220
17.6 注釋與細節(jié)221
注釋222
第18章 神經(jīng)網(wǎng)絡與深度學習224
18.1 神經(jīng)網(wǎng)絡與手寫數(shù)字問題225
18.2 擬合一個網(wǎng)絡226
18.3 自動編碼器230
18.4 深度學習231
18.5 學習一個深層網(wǎng)絡234
18.6 注釋與細節(jié)235
注釋236
第19章 支持向量機和核方法238
19.1 最優(yōu)超平面238
19.2 軟間隔分類器240
19.3 作為損失加懲罰的支持向量機準則241
19.4 計算以及核技巧242
19.5 利用核的函數(shù)擬合244
19.6 實例:用于蛋白質(zhì)分類的字符串核函數(shù)244
19.7 支持向量機:結束語245
19.8 核平滑和局部回歸246
19.9 注釋與細節(jié)247
注釋248
第20章 模型選擇后的推斷250
20.1 同時置信區(qū)間251
20.2 模型選擇后的準確率255
20.3 選擇的偏差258
20.4 貝葉斯頻率學組合估計260
20.5 注釋與細節(jié)263
注釋264
第21章 經(jīng)驗貝葉斯估計策略266
21.1 貝葉斯反卷積266
21.2 g-建模和估計267
21.3 似然、正則化和準確性269
21.4 兩個例子272
21.5 廣義線性混合模型276
21.6 反卷積和f-建模278
21.7 注釋與細節(jié)280
注釋280
后記282
參考文獻286