概率與統(tǒng)計(jì):數(shù)據(jù)科學(xué)視角
定 價(jià):89 元
叢書(shū)名:統(tǒng)計(jì)學(xué)精品譯叢
- 作者:王彩霞
- 出版時(shí)間:2022/3/1
- ISBN:9787111628941
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):O21
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)從數(shù)據(jù)科學(xué)視角,詳細(xì)講解概率分布、期望值、估計(jì)等概率統(tǒng)計(jì)知識(shí),廣泛使用真實(shí)的數(shù)據(jù)集,同時(shí)所有數(shù)據(jù)分析均由R編碼支持。此外,本書(shū)包含許多數(shù)據(jù)科學(xué)應(yīng)用,如主成分分析、混合分布、隨機(jī)圖模型、隱馬爾科夫模型、線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)等。
本書(shū)是一本面向數(shù)據(jù)科學(xué)、計(jì)算機(jī)科學(xué)專(zhuān)業(yè)學(xué)生的概率統(tǒng)計(jì)教材。全書(shū)共分為四部分:第壹部分(第1~6章)主要介紹概率論、蒙特卡羅模擬、離散型隨機(jī)變量、期望值和方差、離散參數(shù)分布族、連續(xù)型概率模型;第二部分(第7~10章)主要介紹統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),包括抽樣分布、極大似然估計(jì)、中心極限定理、置信區(qū)間和顯著性檢驗(yàn)等;第三部分(第11~17章)主要介紹多元分析相關(guān)內(nèi)容,包括多元分布、混合分布、主成分分析、對(duì)數(shù)線性模型、降維、過(guò)擬合和預(yù)測(cè)分析等;第四部分(附錄)介紹R語(yǔ)言編程基礎(chǔ)知識(shí)。
致教師
對(duì)于物理、化學(xué)或生物學(xué)這樣的學(xué)科而言,我們學(xué)習(xí)一門(mén)學(xué)科是為了解決這門(mén)學(xué)科的問(wèn)題,而統(tǒng)計(jì)學(xué)與這些學(xué)科不同,研究統(tǒng)計(jì)學(xué)的主要目的是解決其他學(xué)科的問(wèn)題.
——C.R.Rao,現(xiàn)代統(tǒng)計(jì)學(xué)的先驅(qū)之一
教育的作用是教人認(rèn)真思考和批判性思考.智慧與品格——這才是教育的真正目標(biāo).
——馬丁·路德·金博士,美國(guó)民權(quán)領(lǐng)袖
其萬(wàn)折也必東,似志.
——孔子,中國(guó)古代哲學(xué)家
本書(shū)主要是為數(shù)據(jù)科學(xué)(包括計(jì)算機(jī)科學(xué))專(zhuān)業(yè)學(xué)生設(shè)計(jì)的概率與統(tǒng)計(jì)教材,涵蓋初級(jí)/高級(jí)/研究生水平的概率論和統(tǒng)計(jì)學(xué)知識(shí).除微積分外,本書(shū)還要求學(xué)生掌握一些矩陣代數(shù)知識(shí)并具備基本的計(jì)算機(jī)編程能力.
但是,這本書(shū)為什么不同于其他概率論和數(shù)理統(tǒng)計(jì)教材呢?
事實(shí)上,這本書(shū)確實(shí)與其他概率論與數(shù)理統(tǒng)計(jì)方面的書(shū)完全不同.簡(jiǎn)要概括如下:
●本書(shū)英文版的副書(shū)名是Math+R+Data,這里直接體現(xiàn)了本書(shū)與其他數(shù)理統(tǒng)計(jì)類(lèi)書(shū)籍的不同.
●強(qiáng)調(diào)數(shù)據(jù)科學(xué)應(yīng)用,例如,隨機(jī)圖模型、冪律分布、隱馬爾可夫模型、主成分分析、谷歌PageRank、遙感、混合分布、神經(jīng)網(wǎng)絡(luò)、維數(shù)災(zāi)難等.
●廣泛使用R語(yǔ)言.
與其他數(shù)理統(tǒng)計(jì)類(lèi)書(shū)籍相比,本書(shū)特別強(qiáng)調(diào)應(yīng)用,使用了大量的真實(shí)數(shù)據(jù).
本書(shū)從應(yīng)用的角度出發(fā)組織內(nèi)容,注重培養(yǎng)學(xué)生批判性思考使用統(tǒng)計(jì)學(xué)的方式和原因,并使學(xué)生具有“全局觀”.
●使用真實(shí)數(shù)據(jù),并及早地引入統(tǒng)計(jì)問(wèn)題.
前面的Rao語(yǔ)錄引起了我的強(qiáng)烈共鳴.雖然這是一本“數(shù)理統(tǒng)計(jì)”教材,涵蓋了隨機(jī)變量、密度函數(shù)、期望值、分布、統(tǒng)計(jì)估計(jì)和推斷等,但是正如本書(shū)書(shū)名所體現(xiàn)的,本書(shū)特別強(qiáng)調(diào)這些知識(shí)在數(shù)據(jù)科學(xué)中的應(yīng)用.作為一本關(guān)于數(shù)據(jù)科學(xué)的書(shū),即使只是一本數(shù)理統(tǒng)計(jì)書(shū),也應(yīng)該充分利用數(shù)據(jù)!
這對(duì)本書(shū)章節(jié)的順序有影響.我們很早地引入了統(tǒng)計(jì)學(xué),并在正文中穿插著統(tǒng)計(jì)問(wèn)題.甚至是在介紹數(shù)學(xué)期望的第3章,也包括一些簡(jiǎn)單的預(yù)測(cè)模型,為學(xué)習(xí)第15章的內(nèi)容作鋪墊.第5章介紹著名的離散參數(shù)模型,并包含用冪律分布擬合真實(shí)數(shù)據(jù)的例子.這是第7章的前奏,之后在第7章將討論抽樣分布、均值和方差估計(jì)、偏差等知識(shí).第8章介紹點(diǎn)估計(jì),并利用極大似然估計(jì)和矩方法對(duì)真實(shí)數(shù)據(jù)進(jìn)行模型擬合.從該章起,后面每一章都廣泛使用了真實(shí)數(shù)據(jù).
因?yàn)檫@些數(shù)據(jù)集都是公開(kāi)的,所以授課教師可以深入研究這些數(shù)據(jù)示例.
●數(shù)學(xué)上正確——還要有很好的直覺(jué).
前面給出的孔子的這句話雖然早在統(tǒng)計(jì)方法正式發(fā)展之前就有了,但是這表明他已經(jīng)具有敏銳的直覺(jué),預(yù)見(jiàn)了當(dāng)今數(shù)據(jù)科學(xué)領(lǐng)域的一個(gè)基本概念——數(shù)據(jù)平滑.培養(yǎng)學(xué)生的這種強(qiáng)烈的直覺(jué)是本書(shū)的重中之重.
這當(dāng)然是一本數(shù)學(xué)書(shū).所有模型、概念等都是用隨機(jī)變量和分布來(lái)精確描述的.除了微積分之外,矩陣代數(shù)也扮演著重要的角色.在許多章節(jié)的后都增加了選學(xué)的數(shù)學(xué)補(bǔ)充內(nèi)容,以便為好奇的讀者提供更多材料,探索更復(fù)雜的內(nèi)容.每章后的練習(xí)都包括一些常規(guī)練習(xí)題和一些更具挑戰(zhàn)性的問(wèn)題.
另外,這本書(shū)不是為了數(shù)學(xué)而“數(shù)學(xué)”的書(shū),盡管用數(shù)學(xué)語(yǔ)言對(duì)相關(guān)內(nèi)容描述得很精確,但它絕不是一本理論書(shū).
例如,本書(shū)并沒(méi)有從樣本空間和集合論的角度來(lái)定義概率.以我的經(jīng)驗(yàn),用經(jīng)典的方式定義概率是學(xué)習(xí)這些概念背后的直覺(jué)的一個(gè)主要障礙,也阻礙了后面做好應(yīng)用工作.相反,我使用直覺(jué)的、非形式化的方法,從長(zhǎng)期頻率的角度來(lái)定義概率,本質(zhì)上是把強(qiáng)大數(shù)定律作為一個(gè)公理.
我相信這種方法在解釋條件概率和期望值時(shí)特別有用,這些概念是學(xué)生們常遇到的難題.在經(jīng)典的方法下,如果題目敘述沒(méi)有給定明確的短語(yǔ)(如給定條件下),學(xué)生們很難識(shí)別出這個(gè)練習(xí)(甚至是實(shí)際應(yīng)用)需要條件概率或期望.相反,我是讓學(xué)生從反復(fù)試驗(yàn)的角度來(lái)思考,在B發(fā)生的時(shí)間里,A發(fā)生了多少次?這更容易與實(shí)際相聯(lián)系.
●提高學(xué)生的實(shí)際應(yīng)用能力.
“應(yīng)用”這個(gè)詞對(duì)于不同的人意味著不同的事.例如,Mitzenmacher和Upfal\[33\]為計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的學(xué)生編寫(xiě)了一本有趣而優(yōu)雅的書(shū),他所關(guān)注的概率實(shí)際上是離散型概率,他的預(yù)期應(yīng)用實(shí)際上是針對(duì)計(jì)算機(jī)科學(xué)的理論.
相反,我關(guān)注的是在現(xiàn)實(shí)世界中使用這些知識(shí),這往往涉及更多的是連續(xù)型而不是離散型概率,并且更多的是在統(tǒng)計(jì)學(xué)而不是概率論領(lǐng)域.這尤其有價(jià)值,因?yàn)楝F(xiàn)在大數(shù)據(jù)和機(jī)器學(xué)習(xí)在計(jì)算機(jī)和數(shù)據(jù)科學(xué)中發(fā)揮著重要的作用.
你馬上可以在書(shū)中看到這種哲學(xué).這本書(shū)的個(gè)例子不是關(guān)于骰子或硬幣的,而是涉及公交系統(tǒng)模型和計(jì)算機(jī)網(wǎng)絡(luò)模型.當(dāng)然,書(shū)中也有使用骰子、硬幣和游戲的例子,但是,就像已故的Leo Breiman的書(shū)\[5\]的副書(shū)名一樣,“著眼于應(yīng)用”(With a View toward Applications)永遠(yuǎn)不會(huì)遙遠(yuǎn).
如果我可以冒昧地引述馬丁·路德·金的話,我要指出的是,今天的統(tǒng)計(jì)學(xué)是一個(gè)核心的知識(shí)領(lǐng)域,它幾乎影響著每個(gè)人的日常生活.具有使用統(tǒng)計(jì)數(shù)據(jù)或者至少可以理解統(tǒng)計(jì)數(shù)據(jù)的能力,對(duì)于我們來(lái)說(shuō)至關(guān)重要.作為本書(shū)的作者,我將此視為一項(xiàng)使命.
●R編程語(yǔ)言的使用.
出于模擬和數(shù)據(jù)分析的目的,本書(shū)利用了R語(yǔ)言中一些輕量級(jí)的程序.學(xué)生應(yīng)該具有一些基本的編程背景,比如說(shuō)Python、C、Java或R中的一個(gè),但是無(wú)須
諾曼·馬特羅夫(Norman Matloff)是加州大學(xué)戴維斯分校計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授,并曾擔(dān)任該校統(tǒng)計(jì)學(xué)專(zhuān)業(yè)教授。他是 Journal of Statistical Software和The R Journal的編委會(huì)成員。他的著作Statistical Regression and Classification: From Linear Models to Machine Learning曾入選2017年國(guó)際Ziegel獎(jiǎng)。他還是該校杰出教學(xué)獎(jiǎng)的獲得者。
前言
作者簡(jiǎn)介
部分 概率論基礎(chǔ)
第1章 基本的概率模型2
1.1 示例:公共汽車(chē)客流量2
1.2 “筆記本”視圖:重復(fù)實(shí)驗(yàn)的概念3
1.2.1 理論方法3
1.2.2 更直觀的方法3
1.3 我們的定義4
1.4 “郵寄筒”7
1.5 示例:公共汽車(chē)客流量(續(xù))7
1.6 示例:ALOHA網(wǎng)絡(luò)9
1.6.1 ALOHA網(wǎng)絡(luò)模型總結(jié)10
1.6.2 ALOHA網(wǎng)絡(luò)計(jì)算10
1.7 筆記本環(huán)境中的ALOHA12
1.8 示例:一個(gè)簡(jiǎn)單的棋盤(pán)游戲13
1.9 貝葉斯法則14
1.9.1 總則14
1.9.2 示例:文檔分類(lèi)15
1.10 隨機(jī)圖模型15
1.10.1 示例:擇優(yōu)連接模型16
1.11 基于組合數(shù)學(xué)的計(jì)算16
1.11.1 5張牌中哪一種情況更有可能:一張國(guó)王還是兩張紅心16
1.11.2 示例:學(xué)生的隨機(jī)分組17
1.11.3 示例:彩票17
1.11.4 示例:數(shù)字之差18
1.11.5 多項(xiàng)式系數(shù)19
1.11.6 示例:打橋牌時(shí)得到4張A的概率19
1.12 練習(xí)20
第2章 蒙特卡羅模擬22
2.1 示例:擲骰子22
2.1.1 次改進(jìn)22
2.1.2 第二次改進(jìn)23
2.1.3 第三次改進(jìn)24
2.2 示例:骰子問(wèn)題24
2.3 使用runif()模擬事件25
2.4 示例:公共汽車(chē)客流量(續(xù))25
2.5 示例:棋盤(pán)游戲(續(xù))25
2.6 示例:斷桿26
2.7 我們應(yīng)該運(yùn)行模擬多長(zhǎng)時(shí)間26
2.8 計(jì)算補(bǔ)充26
2.8.1 replicate()函數(shù)的更多信息26
2.9 練習(xí)27
第3章 離散型隨機(jī)變量:期望值28
3.1 隨機(jī)變量28
3.2 離散型隨機(jī)變量28
3.3 獨(dú)立的隨機(jī)變量29
3.4 示例:蒙提霍爾問(wèn)題29
3.5 期望值31
3.5.1 一般性——不只是離散型隨機(jī)變量31
3.5.2 用詞不當(dāng)31
3.5.3 定義和筆記本視圖31
3.6 期望值的性質(zhì)32
3.6.1 計(jì)算公式32
3.6.2 期望值的一些性質(zhì)33
3.7 示例:公共汽車(chē)客流量35
3.8 示例:預(yù)測(cè)產(chǎn)品需求36
3.9 通過(guò)模擬求期望值36
3.10 賭場(chǎng)、保險(xiǎn)公司和“總和使用者”與其他情況相比37
3.11 數(shù)學(xué)補(bǔ)充38
3.11.1 性質(zhì)E的證明38
3.12 練習(xí)38
第4章 離散型隨機(jī)變量:方差39
4.1 方差39
4.1.1 定義39
4.1.2 方差概念的核心重要性41
4.1.3 關(guān)于Var(X)大小的直覺(jué)41
4.2 有用的事實(shí)42
4.3 協(xié)方差43
4.4 指示隨機(jī)變量及其均值和方差44
4.4.1 示例:圖書(shū)館圖書(shū)歸還時(shí)間(版)44
4.4.2 示例:圖書(shū)館圖書(shū)歸還時(shí)間(第二版)45
4.4.3 示例:委員會(huì)問(wèn)題中的指示變量45
4.5 偏度47
4.6 數(shù)學(xué)補(bǔ)充47
4.6.1 切比雪夫不等式的證明47
4.7 練習(xí)48
第5章 離散參數(shù)分布族49
5.1 分布49
5.1.1 示例:擲硬幣直到次出現(xiàn)正面為止49
5.1.2 示例:兩個(gè)骰子的和49
5.1.3 示例:Watts-Strogatz隨機(jī)圖模型50
5.2 參數(shù)分布族51
5.3 對(duì)我們很重要的案例:pmf的參數(shù)族51
5.4 基于伯努利實(shí)驗(yàn)的分布51
5.4.1 幾何分布族52
5.4.2 二項(xiàng)分布族55
5.4.3 負(fù)二項(xiàng)分布族56
5.5 兩種主要的非伯努利模型58
5.5.1 泊松分布族58
5.5.2 冪律分布族59
5.5.3 根據(jù)數(shù)據(jù)擬合泊松和冪律模型60
5.6 其他示例62
5.6.1 示例:公共汽車(chē)客流量問(wèn)題…62
5.6.2 示例:社交網(wǎng)絡(luò)分析63
5.7 計(jì)算補(bǔ)充63
5.7.1 R中的圖形和可視化63
5.8 練習(xí)64
第6章 連續(xù)型概率模型66
6.1 隨機(jī)擲鏢游戲66
6.2 單值點(diǎn)的概率為零66
6.3 現(xiàn)在我們有個(gè)問(wèn)題67
6.4 解決該問(wèn)題的方法:累積分布函數(shù)67
6.4.1 累積分布函數(shù)67
6.4.2 既非離散也非連續(xù)的分布68
6.5 密度函數(shù)69
6.5.1 密度函數(shù)的性質(zhì)69
6.5.2 密度的直觀含義70
6.5.3 期望值71
6.6 個(gè)示例71
6.7 著名的連續(xù)分布參數(shù)族72
6.7.1 均勻分布72
6.7.2 正態(tài)(高斯)分布族73
6.7.3 指數(shù)分布族74
6.7.4 伽馬分布族76
6.7.5 貝塔分布族77
6.8 數(shù)學(xué)補(bǔ)充79
6.8.1 危險(xiǎn)函數(shù)79
6.8.2 指數(shù)分布族與泊松分布族的對(duì)偶性79
6.9 計(jì)算補(bǔ)充80
6.9.1 R的integrate()函數(shù)80
6.9.2 從密度函數(shù)中抽樣的逆方法…80
6.9.3 從泊松分布中抽樣81
6.10 練習(xí)81
第二部分 統(tǒng)計(jì)基礎(chǔ)
第7章 統(tǒng)計(jì)學(xué):序言84
7.1 本章的重要性84
7.2 抽樣分布84
7.2.1 隨機(jī)抽樣84
7.3 樣本均值85
7.3.1 示例:玩具總體85
7.3.2 X的期望值和方差86
7.3.3 同樣的示例:玩具總體87
7.3.4 解釋87
7.3.5 筆記本視圖88
7.4 簡(jiǎn)單隨機(jī)抽樣情況88
7.5 樣本方差89
7.5.1 σ2的直觀估計(jì)89
7.5.2 更易于計(jì)算的方法89
7.5.3 特殊情況:X為指示變量90
7.6 除以n還是n-190
7.6.1 統(tǒng)計(jì)偏差90
7.7 “標(biāo)準(zhǔn)誤差”的概念91
7.8 示例:Pima糖尿病研究91
7.9 別忘了:樣本≠總體93
7.10 模擬問(wèn)題93
7.10.1 樣本估計(jì)93
7.10.2 無(wú)限總體93
7.11 觀測(cè)研究9