本書是一本概率編程的入門書。本書使用概率編程庫(kù) PyMC3以及可視化庫(kù) ArviZ對(duì)貝葉斯統(tǒng)計(jì)分析的相關(guān)知識(shí)進(jìn)行講解,包括概率思維、概率編程、線性回歸建模、廣義線性模型、模型比較、混合模型、高斯過(guò)程以及推斷引擎等知識(shí)。全書圖文并茂,通俗易懂,適合具備一定 Python基礎(chǔ)的讀者學(xué)習(xí)使用。學(xué)完本書,讀者可以利用概率思維建立貝葉斯模型并解決自己的數(shù)據(jù)分析問(wèn)題。
1.概率編程庫(kù)PyMC3和可視化庫(kù)ArviZ的核心開發(fā)者Osvaldo Martin多年的經(jīng)驗(yàn)總結(jié),內(nèi)容可靠實(shí)用
2.應(yīng)用廣泛的統(tǒng)計(jì)學(xué)模型與計(jì)算機(jī)方法的巧妙結(jié)合,知識(shí)點(diǎn)豐富,易學(xué)易懂
3.幫助讀者建立靈活的貝葉斯思維,有效提高數(shù)據(jù)可靠性,提升數(shù)據(jù)分析效率
奧斯瓦爾多·馬。 Osvaldo Martin)是阿根廷國(guó)家科學(xué)與技術(shù)研究理事會(huì)(CONICET)的一名研究員。他曾從事蛋白質(zhì)、多糖及 RNA分子等結(jié)構(gòu)生物信息學(xué)方面的研究,此外,在應(yīng)用馬爾可夫鏈蒙特卡洛方法模擬分子動(dòng)力學(xué)方向上有著豐富的經(jīng)驗(yàn),他喜歡用 Python解決數(shù)據(jù)分析中的問(wèn)題。
他曾講授結(jié)構(gòu)生物信息學(xué)、數(shù)據(jù)科學(xué)以及貝葉斯數(shù)據(jù)分析相關(guān)的課程,在 2017年帶頭組建了阿根廷圣路易斯 PyData委員會(huì)。同時(shí),他也是 PyMC3以及 ArviZ兩個(gè)項(xiàng)目的核心開發(fā)者之一。
第 1 章 概率思維 1
1.1 統(tǒng)計(jì)學(xué)、模型以及本書采用的方法 1
1.1.1 與數(shù)據(jù)打交道 2
1.1.2 貝葉斯建模 3
1.2 概率論 4
1.2.1 解釋概率 4
1.2.2 定義概率 6
1.3 單參數(shù)推斷 14
1.4 報(bào)告貝葉斯分析結(jié)果 23
1.4.1 模型表示和可視化 23
1.4.2 總結(jié)后驗(yàn) 24
1.5 后驗(yàn)預(yù)測(cè)檢查 26
1.6 總結(jié) 27
1.7 練習(xí) 28
第 2 章 概率編程 30
2.1 簡(jiǎn)介 31
2.2 PyMC3 指南 32
2.3 總結(jié)后驗(yàn) 34
2.4 隨處可見的高斯分布 41
2.4.1 高斯推斷 41
2.4.2 魯棒推斷 46
2.5 組間比較 50
2.5.1 Cohen’s d 52
2.5.2 概率優(yōu)勢(shì) 53
2.5.3 “小費(fèi)”數(shù)據(jù)集 53
2.6 分層模型 57
2.6.1 收縮 60
2.6.2 額外的例子 63
2.7 總結(jié) 66
2.8 練習(xí) 67
第3 章 線性回歸建模 69
3.1 一元線性回歸 69
3.1.1 與機(jī)器學(xué)習(xí)的聯(lián)系 70
3.1.2 線性回歸模型的核心 71
3.1.3 線性模型與高自相關(guān)性 75
3.1.4 對(duì)后驗(yàn)進(jìn)行解釋和可視化 77
3.1.5 皮爾遜相關(guān)系數(shù) 80
3.2 魯棒線性回歸 84
3.3 分層線性回歸 87
3.4 多項(xiàng)式回歸 94
3.4.1 解釋多項(xiàng)式回歸的系數(shù) 96
3.4.2 多項(xiàng)式回歸——終極模型 97
3.5 多元線性回歸 97
3.5.1 混淆變量和多余變量 101
3.5.2 多重共線性或相關(guān)性太高 104
3.5.3 隱藏效果變量 107
3.5.4 增加相互作用 109
3.5.5 變量的方差 110
3.6 總結(jié) 113
3.7 練習(xí) 114
第4 章 廣義線性模型 117
4.1 簡(jiǎn)介 117
4.2 邏輯回歸 118
4.2.1 邏輯回歸模型 119
4.2.2 鳶尾花數(shù)據(jù)集 120
4.3 多元邏輯回歸 125
4.3.1 決策邊界 125
4.3.2 模型實(shí)現(xiàn) 126
4.3.3 解釋邏輯回歸的系數(shù) 127
4.3.4 處理相關(guān)變量 130
4.3.5 處理不平衡分類 131
4.3.6 softmax 回歸 133
4.3.7 判別式模型和生成式模式 135
4.4 泊松回歸 137
4.4.1 泊松分布 137
4.4.2 零膨脹泊松模型 139
4.4.3 泊松回歸和ZIP 回歸 141
4.5 魯棒邏輯回歸 143
4.6 GLM 模型 144
4.7 總結(jié) 145
4.8 練習(xí) 146
第5 章 模型比較 148
5.1 后驗(yàn)預(yù)測(cè)檢查 148
5.2 奧卡姆剃刀原理——簡(jiǎn)單性和準(zhǔn)確性 153
5.2.1 參數(shù)過(guò)多會(huì)導(dǎo)致過(guò)擬合 155
5.2.2 參數(shù)太少會(huì)導(dǎo)致欠擬合 156
5.2.3 簡(jiǎn)單性與準(zhǔn)確性之間的平衡 157
5.2.4 預(yù)測(cè)精度度量 157
5.3 信息準(zhǔn)則 159
5.3.1 對(duì)數(shù)似然和偏差 159
5.3.2 赤池信息量準(zhǔn)則 160
5.3.3 廣泛適用的信息準(zhǔn)則 161
5.3.4 帕累托平滑重要性采樣留一法交叉驗(yàn)證 161
5.3.5 其他信息準(zhǔn)則 161
5.3.6 使用PyMC3 比較模型 162
5.3.7 模型平均 165
5.4 貝葉斯因子 168
5.4.1 一些討論 169
5.4.2 貝葉斯因子與信息準(zhǔn)則 173
5.5 正則化先驗(yàn) 176
5.6 深入WAIC 177
5.6.1 熵 178
5.6.2 KL 散度 180
5.7 總結(jié) 182
5.8 練習(xí) 183
第6 章 混合模型 185
6.1 簡(jiǎn)介 185
6.2 有限混合模型 187
6.2.1 分類分布 188
6.2.2 狄利克雷分布 189
6.2.3 混合模型的不可辨識(shí)性 192
6.2.4 怎樣選擇K 194
6.2.5 混合模型與聚類 198
6.3 非有限混合模型 199
6.4 連續(xù)混合模型 206
6.4.1 貝塔-二項(xiàng)分布和負(fù)二項(xiàng)分布 207
6.4.2 t 分布 207
6.5 總結(jié) 208
6.6 練習(xí) 209
第7 章 高斯過(guò)程 210
7.1 線性模型和非線性數(shù)據(jù) 210
7.2 建模函數(shù) 211
7.2.1 多元高斯函數(shù) 213
7.2.2 協(xié)方差函數(shù)與核函數(shù) 213
7.3 高斯過(guò)程回歸 217
7.4 空間自相關(guān)回歸 222
7.5 高斯過(guò)程分類 229
7.6 Cox 過(guò)程 235
7.6.1 煤礦災(zāi)害 236
7.6.2 紅杉數(shù)據(jù)集 238
7.7 總結(jié) 241
7.8 練習(xí) 241
第8 章 推斷引擎 243
8.1 簡(jiǎn)介 243
8.2 非馬爾可夫方法 245
8.2.1 網(wǎng)格計(jì)算 245
8.2.2 二次近似法 247
8.2.3 變分法 249
8.3 馬爾可夫方法 252
8.3.1 蒙特卡洛 253
8.3.2 馬爾可夫鏈 255
8.3.3 梅特羅波利斯- 黑斯廷斯算法 255
8.3.4 哈密頓蒙特卡洛 259
8.3.5 序貫蒙特卡洛 261
8.4 樣本診斷 263
8.4.1 收斂 264
8.4.2 蒙特卡洛誤差 268
8.4.3 自相關(guān) 268
8.4.4 有效樣本量 269
8.4.5 分歧 270
8.5 總結(jié) 273
8.6 練習(xí) 273
第9 章 拓展學(xué)習(xí) 274