概率與統(tǒng)計(jì):計(jì)算機(jī)科學(xué)視角
定 價(jià):139 元
叢書名:統(tǒng)計(jì)學(xué)精品譯叢
- 作者:[美]大衛(wèi)·福賽斯(David Forsyth)
- 出版時(shí)間:2021/12/1
- ISBN:9787111695844
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:O21
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書針對(duì)計(jì)算機(jī)科學(xué)專業(yè)的本科生,旨在揭示概率和統(tǒng)計(jì)的思想。全書共分為五部分,第I部分?jǐn)?shù)據(jù)集的描述,涵蓋各種描述性統(tǒng)計(jì)量(均值、標(biāo)準(zhǔn)差、方差)、一維數(shù)據(jù)集的可視化方法,以及散點(diǎn)圖、相關(guān)性和二維數(shù)據(jù)集的描述;第II部分概率,內(nèi)容涵蓋離散型概率、條件概率、連續(xù)型概率、Markov不等式、Chebyshev不等式及弱大數(shù)定律等;第III部分推斷,涵蓋樣本、總體、置信區(qū)間、統(tǒng)計(jì)顯著性、試驗(yàn)設(shè)計(jì)、方差分析和簡(jiǎn)單貝葉斯推斷等;第IV部分工具,涵蓋主成分分析、zui近鄰分類、樸素貝葉斯分類、K均值聚類、線性回歸、隱Markov模型等;第V部分零散的數(shù)學(xué)知識(shí),匯總了一些有用的數(shù)學(xué)事實(shí)。
本書是一本面向計(jì)算機(jī)科學(xué)專業(yè)學(xué)生的概率統(tǒng)計(jì)教材。書中全面介紹了定性和定量數(shù)據(jù)分析、概率論、隨機(jī)變量以及包括機(jī)器學(xué)習(xí)在內(nèi)的統(tǒng)計(jì)方法。 全書包含豐富的圖示,重點(diǎn)章節(jié)都包含大量的實(shí)例,以及許多其他教學(xué)元素,如流程、定義、有用的事實(shí)及注記(小技巧)。部分章節(jié)末尾附有“問題”和“編程練習(xí)”,幫助讀者鞏固應(yīng)該掌握的要點(diǎn)。本書特色 ·側(cè)重介紹離散情形的隨機(jī)變量和期望。 ·以實(shí)用的方式介紹仿真,表明有多少感興趣的概率和期望可以被提取,并著重介紹馬爾可夫鏈。 ·簡(jiǎn)明而清晰地闡釋簡(jiǎn)單情形的點(diǎn)推斷策略(極大似然、貝葉斯推斷),并將其擴(kuò)展到有放回隨機(jī)抽樣的置信區(qū)間、樣本和總體,以及簡(jiǎn)單的假設(shè)檢驗(yàn)。 ·深入淺出地講解分類,解釋分類為什么有用,如何用隨機(jī)梯度下降法訓(xùn)練SVM分類器,如何用隨機(jī)森林和近鄰等更高級(jí)的方法實(shí)現(xiàn)分類。 ·詳細(xì)介紹回歸,說明如何建立并使用線性回歸和近鄰回歸解決實(shí)際問題。 ·通過大量實(shí)例詳細(xì)講解主成分分析,并通過主坐標(biāo)分析簡(jiǎn)要概述多維放縮。 ·詳細(xì)介紹如何通過聚合方法和k均值進(jìn)行聚類,以及如何構(gòu)建復(fù)雜信號(hào)的向量量化特征。
對(duì)現(xiàn)代計(jì)算機(jī)科學(xué)家來說,理解概率和統(tǒng)計(jì)是非常重要的. 如果你愛好理論,則需要知道很多概率知識(shí)(例如,了解隨機(jī)算法,理解圖論中的概率方法,理解有關(guān)近似的大量知識(shí),等等),并至少要有足夠的統(tǒng)計(jì)知識(shí). 如果你愛好實(shí)踐,則會(huì)發(fā)現(xiàn)自己在不斷地探尋統(tǒng)計(jì)技術(shù)(特別是分類、聚類和回歸).例如,很多現(xiàn)代人工智能技術(shù)都是建立在統(tǒng)計(jì)的基礎(chǔ)之上. 再例如,有關(guān)海量數(shù)據(jù)集的統(tǒng)計(jì)推斷的思考對(duì)人們?cè)O(shè)計(jì)現(xiàn)代計(jì)算機(jī)系統(tǒng)產(chǎn)生了巨大的影響.
傳統(tǒng)上,計(jì)算機(jī)科學(xué)專業(yè)的本科生需要學(xué)習(xí)概率論課程(這一課程通常由數(shù)學(xué)系教師講授),或者需要學(xué)習(xí)統(tǒng)計(jì)學(xué)課程(這一課程通常由統(tǒng)計(jì)系教師講授). 計(jì)算機(jī)科學(xué)專業(yè)的課程委員會(huì)決定對(duì)這些課程進(jìn)行修改,因此,我講授了該課程的實(shí)驗(yàn)版本. 為此,我撰寫了一些筆記,基于這些筆記編寫了這本書. 本書中沒有關(guān)于概率或統(tǒng)計(jì)的新知識(shí),但其主題是我選擇的,我認(rèn)為這與大家在很多其他書中見到的內(nèi)容有很大的不同.
選擇主題的關(guān)鍵原則是揭示概率和統(tǒng)計(jì)的思想,我認(rèn)為這些思想是每一名計(jì)算機(jī)科學(xué)專業(yè)的本科生都應(yīng)當(dāng)了解的,而不管他們以后選擇什么專業(yè)或從事什么職業(yè). 這意味著本書內(nèi)容的范圍非常廣,但對(duì)很多領(lǐng)域的介紹并不深入. 我認(rèn)為這樣很好,因?yàn)槲业哪康木褪潜WC所有人都有足夠的見識(shí),都能夠知道找到一個(gè)分類包就可以解決很多問題. 因此,本書覆蓋了足夠多帶你入門的基礎(chǔ)知識(shí),并會(huì)讓你認(rèn)識(shí)到需要了解更多知識(shí).
我寫的這些筆記對(duì)研究生也是有益的. 根據(jù)我的經(jīng)驗(yàn),很多人在并未意識(shí)到它們多么有用的情況下學(xué)習(xí)了本書中的部分或全部?jī)?nèi)容,然后就忘記了. 如果這樣的事情發(fā)生在你的身上,希望本書能喚起你的記憶. 你應(yīng)該掌握本書中的所有內(nèi)容,又或許應(yīng)該知道得更多,但絕不應(yīng)該知道得更少.
閱讀和講授本書
本書適合從頭至尾進(jìn)行講授或者閱讀,但不同的教師或者讀者可能有不同的需求,因此下面將對(duì)本書內(nèi)容進(jìn)行簡(jiǎn)要概述并指出哪些內(nèi)容可以略過.
部分 數(shù)據(jù)集的描述
這一部分涵蓋:
. 各種描述性統(tǒng)計(jì)量(均值、標(biāo)準(zhǔn)差、方差)及一維數(shù)據(jù)集的可視化方法
. 散點(diǎn)圖、相關(guān)性及二維數(shù)據(jù)集的描述
多數(shù)讀者可能看到過這些內(nèi)容的一部分,以我的經(jīng)驗(yàn),使人們真正意識(shí)到使用圖片的方法表示數(shù)據(jù)集多么有用是需要花費(fèi)一些時(shí)間的. 我嘗試通過范例研究不同的數(shù)據(jù)集來特別強(qiáng)調(diào)這一點(diǎn). 在講授這些內(nèi)容時(shí),我緩慢且仔細(xì)地推進(jìn)這些章節(jié).
第二部分 概率
這一部分涵蓋:
. 離散型概率
. 條件概率,需要特別強(qiáng)調(diào)其中的例子,因?yàn)槿藗儼l(fā)現(xiàn)這些主題是與直覺相悖的
. 隨機(jī)變量與期望
. 部分連續(xù)型概率內(nèi)容(概率密度函數(shù)及如何解釋)
. 馬爾可夫不等式、切比雪夫不等式及弱大數(shù)定律
. 各種有用概率分布的部分性質(zhì)
. 對(duì)較大的 N,二項(xiàng)分布的正態(tài)逼近
我非常認(rèn)真地以形式化方式介紹了離散型概率. 很多人發(fā)現(xiàn)條件概率是與直覺相悖的(或至少在他們看來是如此的 —— 你仍然可以對(duì) Monty Hall 問題繼續(xù)發(fā)起討論),因此,我使用了一些(有時(shí)令人吃驚的)例子來強(qiáng)調(diào)在此處認(rèn)真思考是多么重要. 根據(jù)我的經(jīng)驗(yàn),范例是能夠幫助學(xué)習(xí)的,但在一節(jié)中給出過多的范例會(huì)讓讀者分散注意力,因此,我會(huì)用一整節(jié)來介紹額外范例. 除了這些額外范例,你不能忽略此處的任何內(nèi)容.
有關(guān)隨機(jī)變量的一章主要包含一些常規(guī)內(nèi)容,但此處也涵蓋了馬爾可夫不等式、切比雪夫不等式及弱大數(shù)定律. 根據(jù)我的經(jīng)驗(yàn),計(jì)算機(jī)科學(xué)專業(yè)的本科生喜歡仿真(當(dāng)可以編寫程序時(shí),為什么要去做加法?),并且非常喜歡使用弱大數(shù)定律. 你可以略過這些不等式,只介紹弱大數(shù)定律. 很多學(xué)生在后續(xù)的理論課程中將會(huì)學(xué)習(xí)這些不等式,經(jīng)驗(yàn)表明,如果學(xué)生之前曾經(jīng)見過這些不等式,他們通常更容易掌握它們.
有關(guān)有用的概率分布的一章也主要包含一些常規(guī)內(nèi)容. 在我講授這門課程時(shí),這一章會(huì)講得很快,主要讓學(xué)生自己閱讀. 但是,對(duì)具有較大 N 的二項(xiàng)分布的正態(tài)逼近會(huì)進(jìn)行詳細(xì)的討論. 根據(jù)我的經(jīng)驗(yàn),沒有人喜歡推導(dǎo),但你應(yīng)當(dāng)知道這個(gè)逼近是成立的,并知道它的原理. 我主要通過一些例子來詳細(xì)講授這一主題.
第三部分 推斷
這一部分涵蓋:
. 樣本和總體
. 總體均值抽樣估計(jì)的置信區(qū)間
. 統(tǒng)計(jì)顯著性,包括 t 檢驗(yàn),F(xiàn) 檢驗(yàn)及 χ2 檢驗(yàn)
. 簡(jiǎn)單的實(shí)驗(yàn)設(shè)計(jì),包括單向和雙向?qū)嶒?yàn)
. 實(shí)驗(yàn)的 ANOVA(方差分析)
. 極大似然推斷
. 簡(jiǎn)單貝葉斯推斷
. 過濾簡(jiǎn)介
有關(guān)樣本的內(nèi)容僅包含有放回抽樣,這是學(xué)習(xí)更復(fù)雜的內(nèi)容的基礎(chǔ). 學(xué)生不太喜歡置信區(qū)間,也許是因?yàn)樗恼嬲x過于微妙,但是理解它的一般思想是至關(guān)重要的. 這些主題確實(shí)不應(yīng)當(dāng)被略過.
你也不應(yīng)當(dāng)略過統(tǒng)計(jì)顯著性的部分,盡管你很想略過. 我從來沒有與次接觸統(tǒng)計(jì)顯著性就感到愉悅的人(這樣的人可能在一個(gè)非常大的總體內(nèi)是存在的)打過交道. 但這一思想非常有用且非常有價(jià)值,以至于你不得不學(xué)習(xí).
我通常不講簡(jiǎn)單的實(shí)驗(yàn)設(shè)計(jì)和方差分析,但回想起來,這是一個(gè)錯(cuò)誤. 方差分析的思想是非常直接且實(shí)用的. 我們通常使用別人的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)設(shè)計(jì)教學(xué),然而正確的選擇應(yīng)該是要求學(xué)生去設(shè)計(jì)并進(jìn)行實(shí)驗(yàn),但在正常的課程中通常沒有足夠時(shí)間來安排這個(gè).
后,你不應(yīng)當(dāng)略過極大似然推斷或貝葉斯推斷,即便很多人并不需要知道過濾.
第四部分 工具
這一部分涵蓋:
. 主成分分析
. 使用主坐標(biāo)分析的簡(jiǎn)單多維放縮
. 分類的基本思想
. 近鄰分類
. 樸素貝葉斯分類
. 使用經(jīng)隨機(jī)梯度下降法訓(xùn)練過的線性 SVM 進(jìn)行分類
. 使用隨機(jī)森林進(jìn)行分類
. 維度災(zāi)難
. 聚合和分裂聚類
. k 均值聚類
. 向量量化
. 多元正態(tài)分布
. 線性回歸
. 分析與改進(jìn)回歸方法的一些技巧
. 近鄰回歸
. 簡(jiǎn)單馬爾可夫鏈
. 隱馬爾可夫模型
我所在學(xué)院的學(xué)生在學(xué)習(xí)本課程的同時(shí)也在學(xué)習(xí)線性代數(shù)課程. 當(dāng)我講授該課程的時(shí)候,將時(shí)間進(jìn)行了調(diào)整,以便學(xué)生可以在他們剛剛學(xué)完特征值和特征向量之后學(xué)習(xí)主成分分析. 你不應(yīng)當(dāng)略過主成分分析. 我講授的主坐標(biāo)分析是非常淺顯的,僅僅描述了它是做什么的以及為什么它是有用的.
我經(jīng)常被比較強(qiáng)硬地告知不能向本科生講授分類問題. 在我看來,這必須學(xué),學(xué)生對(duì)此也非常喜愛. 給學(xué)生講授非常有用和非常容易做到的內(nèi)容時(shí),他們真的會(huì)進(jìn)行反饋. 請(qǐng)一定不要略過這一部分的任何內(nèi)容.
聚類的相關(guān)內(nèi)容非常簡(jiǎn)單且容易講授. 根據(jù)我的經(jīng)驗(yàn),如果沒有應(yīng)用,這個(gè)主題就有點(diǎn)讓人費(fèi)解. 我通常會(huì)設(shè)置一個(gè)編程練習(xí),讓學(xué)生編寫一個(gè)使用了向量量化方法導(dǎo)出特征的分類器. 這是一個(gè)確定人們理解了某件事情的非常好的方法,但并不真實(shí). 很多學(xué)生發(fā)現(xiàn)該練習(xí)很有挑戰(zhàn)性,因?yàn)樗麄儽仨毻瑫r(shí)使用很多概念. 但很多學(xué)生克服了困難并非常開心地看到這些部分良好地結(jié)合起來. 多元正態(tài)分布在此處不過是說說而已,我認(rèn)為你不能略過本章中的任何知識(shí).
與回歸有關(guān)的內(nèi)容也非常簡(jiǎn)單且容易講授. 此處的主要障礙是學(xué)生覺得越復(fù)雜的事情越需要不斷學(xué)習(xí). 不是只有他們是這么想的,我也認(rèn)為你不能略過本章中的任何知識(shí).
根據(jù)我的經(jīng)驗(yàn),計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生發(fā)現(xiàn)簡(jiǎn)單的馬爾可夫鏈?zhǔn)褂闷饋砗茏匀唬ūM管他們可能發(fā)現(xiàn)這個(gè)記號(hào)很煩人),并且會(huì)建議在教學(xué)開始之前就模擬一個(gè)鏈. 使用馬爾可夫鏈生成自然語言的例子(特別是 Garkov 和葡萄酒評(píng)價(jià))是非常有趣的,并且你真的可以在課程中向他們演示. 你可以略去網(wǎng)頁排名的討論. 我接手的班級(jí)中,大約有一半的學(xué)生認(rèn)為隱馬爾可夫模型是簡(jiǎn)單且自然的,另一半則期望期末好快點(diǎn)到來. 如果你不太喜歡這一部分,可以略過它們,并讓那些可能對(duì)此感興趣的人自學(xué).
第五部分 其他數(shù)學(xué)知識(shí)
這一部分匯總了一些讀者可能會(huì)發(fā)現(xiàn)有用的數(shù)學(xué)事實(shí),也包括一些關(guān)于決策樹構(gòu)造的更深入的知識(shí). 不需要講授這部分內(nèi)容.
David Forsyth
美國(guó)伊利諾伊州厄巴納
大衛(wèi)·福賽斯(David Forsyth) 曾在艾奧瓦大學(xué)任教3年,在加州大學(xué)伯克利分校任教10年,之后到伊利諾伊大學(xué)任教。他是2000、2011、2018年IEEE計(jì)算機(jī)視覺和模式識(shí)別會(huì)議(CVPR)的程序委員會(huì)共同主席,2006年CVPR和2019年IEEE國(guó)際計(jì)算機(jī)視覺會(huì)議(ICCV)的大會(huì)共同主席,2008年歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)的程序委員會(huì)共同主席,而且是所有主要的計(jì)算機(jī)視覺國(guó)際會(huì)議的程序委員會(huì)成員。此外,他還在SIGGRAPH程序委員會(huì)任職了6屆。他于2006年獲得IEEE技術(shù)成就獎(jiǎng),并分別于2009年和2014年成為IEEE會(huì)士和ACM會(huì)士。
前言
致謝
作者簡(jiǎn)介
符號(hào)和約定
部分 數(shù)據(jù)集的描述
第1章 查看數(shù)據(jù)的個(gè)工具 2
1.1 數(shù)據(jù)集 2
1.2 正在發(fā)生什么?繪制數(shù)據(jù)的圖形 3
1.2.1 條形圖 5
1.2.2 直方圖 5
1.2.3 如何制作直方圖 6
1.2.4 條件直方圖 7
1.3 匯總一維數(shù)據(jù) 8
1.3.1 均值 8
1.3.2 標(biāo)準(zhǔn)差 9
1.3.3 在線計(jì)算均值和標(biāo)準(zhǔn)差 12
1.3.4 方差 13
1.3.5 中位數(shù) 13
1.3.6 四分位距 15
1.3.7 合理使用匯總數(shù)據(jù) 16
1.4 圖形和總結(jié) 16
1.4.1 直方圖的一些性質(zhì) 17
1.4.2 標(biāo)準(zhǔn)坐標(biāo)和正態(tài)數(shù)據(jù) 19
1.4.3 箱形圖 21
1.5 誰的更大?澳大利亞比薩調(diào)查 22
問題 26
編程練習(xí) 26
第2章 關(guān)注關(guān)系 28
2.1 二維數(shù)據(jù)繪圖 28
2.1.1 分類數(shù)據(jù)、計(jì)數(shù)和圖表 28
2.1.2 序列 32
2.1.3 空間數(shù)據(jù)散點(diǎn)圖 33
2.1.4 用散點(diǎn)圖揭示關(guān)系 33
2.2 相關(guān) 37
2.2.1 相關(guān)系數(shù) 40
2.2.2 用相關(guān)性預(yù)測(cè) 43
2.2.3 相關(guān)性帶來的困惑 46
2.3 野生馬群中的不育公馬 47
問題 49
編程練習(xí) 51
第二部分 概率
第3章 概率論基礎(chǔ) 56
3.1 實(shí)驗(yàn)、結(jié)果和概率 56
3.2 事件 57
3.2.1 通過計(jì)數(shù)結(jié)果來計(jì)算事件概率 58
3.2.2 事件概率 60
3.2.3 通過對(duì)集合的推理來計(jì)算概率 62
3.3 獨(dú)立性 64
3.4 條件概率 68
3.4.1 計(jì)算條件概率 69
3.4.2 檢測(cè)罕見事件是困難的 71
3.4.3 條件概率和各種獨(dú)立形式 73
3.4.4 警示例子:檢察官的謬論 74
3.4.5 警示例子:Monty Hall 問題 75
3.5 更多實(shí)例 77
3.5.1 結(jié)果和概率 77
3.5.2 事件 78
3.5.3 獨(dú)立性 78
3.5.4 條件概率 79
問題 81
第4章 隨機(jī)變量與期望 86
4.1 隨機(jī)變量 86
4.1.1 隨機(jī)變量的聯(lián)合概率與條件概率87
4.1.2 只是一個(gè)小的連續(xù)概率 90
4.2 期望和期望值 92
4.2.1 期望值 92
4.2.2 均值、方差和協(xié)方差 94
4.2.3 期望和統(tǒng)計(jì) 96
4.3 弱大數(shù)定律 97
4.3.1 獨(dú)立同分布樣本 97
4.3.2 兩個(gè)不等式 98
4.3.3 不等式的證明 98
4.3.4 弱大數(shù)定律的定義 100
4.4 弱大數(shù)定律應(yīng)用 101
4.4.1 你應(yīng)該接受下注嗎 101
4.4.2 賠率、期望與博彩:文化轉(zhuǎn)向 102
4.4.3 提前結(jié)束比賽 103
4.4.4 用決策樹和期望做決策 104
4.4.5 效用 105
問題 107
編程練習(xí) 110
第5章 有用的概率分布 112
5.1 離散分布 112
5.1.1 均勻分布 112
5.1.2 伯努利隨機(jī)變量 112
5.1.3 幾何分布 113
5.1.4 二項(xiàng)分布 113
5.1.5 多項(xiàng)分布 115
5.1.6 泊松分布 115
5.2 連續(xù)分布 117
5.2.1 均勻分布 117
5.2.2 貝塔分布 117
5.2.3 伽馬分布 118
5.2.4 指數(shù)分布 119
5.3 正態(tài)分布 119
5.3.1 標(biāo)準(zhǔn)正態(tài)分布 120
5.3.2 正態(tài)分布 120
5.3.3 正態(tài)分布的特征 121
5.4 逼近參數(shù)為$N$的二項(xiàng)式 122
5.4.1 當(dāng)$N$取值很大時(shí) 124
5.4.2 正態(tài)化 125
5.4.3 二項(xiàng)分布的正態(tài)逼近 127
問題 127
編程