數(shù)據(jù)科學(xué)(Data Science)是從數(shù)據(jù)中提取知識(shí)的技術(shù),是一門有關(guān)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的交叉學(xué)科。數(shù)據(jù)科學(xué)包含了多種領(lǐng)域的不同元素,包括信號(hào)處理、數(shù)學(xué)、概率模型技術(shù)和理論、計(jì)算機(jī)編程、統(tǒng)計(jì)學(xué)等。
本書講解了7種重要的數(shù)據(jù)分析方法,它們分別是k最近鄰算法、樸素貝葉斯算法、決策樹、隨機(jī)森林、k-means聚類、回歸分析以及時(shí)間序列分析。全書共7章,每一章都以一個(gè)簡(jiǎn)單的例子開始,先講解算法的基本概念與知識(shí),然后通過對(duì)案例進(jìn)行擴(kuò)展以講解一些特殊的分析算法。這種方式有益于讀者深刻理解算法。
本書適合數(shù)據(jù)分析人員、機(jī)器學(xué)習(xí)領(lǐng)域的從業(yè)人員以及對(duì)算法感興趣的讀者閱讀。
機(jī)器學(xué)習(xí)的應(yīng)用是高度自度化且自動(dòng)修正的。學(xué)習(xí)到的數(shù)據(jù)越多,機(jī)器學(xué)習(xí)應(yīng)用需要的人工干預(yù)越少。為了解決現(xiàn)實(shí)世界中復(fù)雜的數(shù)據(jù)問題,科學(xué)家們開發(fā)出專門的機(jī)器學(xué)習(xí)算法來解決這些問題。數(shù)據(jù)科學(xué)正是通過算法和統(tǒng)計(jì)分析來幫助讀者從現(xiàn)有數(shù)據(jù)中獲取新知識(shí)的。
本書將解決如何高效地進(jìn)行數(shù)據(jù)分類及預(yù)測(cè)的問題。本書主要講解7種數(shù)據(jù)科學(xué)算法,有k最近鄰算法、樸素貝葉斯算法、決策樹、隨機(jī)森林,k-means聚類、回歸分析和時(shí)間序列分析。 此外,你還會(huì)掌握如何對(duì)數(shù)據(jù)進(jìn)行預(yù)聚類,以便針對(duì)大型數(shù)據(jù)集進(jìn)行優(yōu)化和分類。最后,你將了解如何根據(jù)數(shù)據(jù)集中的現(xiàn)有趨勢(shì)來預(yù)測(cè)數(shù)據(jù)。本書的各章還有配套的練習(xí)題,以幫助你夯實(shí)內(nèi)容,擴(kuò)展相關(guān)知識(shí)。
讀完本書后,你將了解如何選擇機(jī)器學(xué)習(xí)算法進(jìn)行聚類、分類或回歸,并知道選擇哪種算法來解決實(shí)際問題。
本書主要包括以下內(nèi)容:
如何使用樸素貝葉斯、決策樹和隨機(jī)森林進(jìn)行分類并準(zhǔn)確地解決復(fù)雜問題;
正確識(shí)別數(shù)據(jù)科學(xué)問題并使用回歸分析和時(shí)間序列分析設(shè)計(jì)合適的預(yù)測(cè)解決方案;
如何使用 k-means算法對(duì)數(shù)據(jù)進(jìn)行聚類;
如何使用Python和R語(yǔ)言有效地實(shí)現(xiàn)算法。
Dávid Natingga于2014年畢業(yè)于倫敦帝國(guó)理工學(xué)院的計(jì)算與人工智能專業(yè),并獲工程碩士學(xué)位。2011年,他在印度班加羅爾的Infosys實(shí)驗(yàn)室工作,研究機(jī)器學(xué)習(xí)算法的優(yōu)化。2012~2013年,他在美國(guó)帕羅奧圖的Palantir技術(shù)公司從事大數(shù)據(jù)算法的開發(fā)工作。2014年,作為英國(guó)倫敦Pact Coffee公司的數(shù)據(jù)科學(xué)家,他設(shè)計(jì)了一種基于顧客口味偏好和咖啡結(jié)構(gòu)的推薦算法。2017年,他在荷蘭阿姆斯特丹的TomTom工作,處理導(dǎo)航平臺(tái)的地圖數(shù)據(jù)。
他是英國(guó)利茲大學(xué)計(jì)算理論專業(yè)的博士研究生,研究純數(shù)學(xué)如何推進(jìn)人工智能。2016年,他在日本高等科學(xué)技術(shù)學(xué)院當(dāng)了8個(gè)月的訪問學(xué)者。
第 1 章 用k最近鄰算法解決分類問題
1.1 Mary對(duì)溫度的感覺
1.2 實(shí)現(xiàn)k最近鄰算法
1.3 意大利地區(qū)的示例——選擇k值
1.4 房屋所有權(quán)——數(shù)據(jù)轉(zhuǎn)換
1.5 文本分類——使用非歐幾里德距離
1.6 文本分類——更高維度的k-NN
1.7 小結(jié)
1.8 習(xí)題
第 2 章 樸素貝葉斯
2.1 醫(yī)療檢查——貝葉斯定理的基本應(yīng)用
2.2 貝葉斯定理的證明及其擴(kuò)展
2.3 西洋棋游戲——獨(dú)立事件
2.4 樸素貝葉斯分類器的實(shí)現(xiàn)
2.5 西洋棋游戲——相關(guān)事件
2.6 性別分類——基于連續(xù)隨機(jī)變量的貝葉斯定理
2.7 小結(jié)
2.8 習(xí)題
第 3 章 決策樹
3.1 游泳偏好——用決策樹表示數(shù)據(jù)
3.2 信息論 044
3.3 ID3算法——構(gòu)造決策樹 047
3.4 用決策樹進(jìn)行分類 054
3.5 小結(jié) 060
3.6 習(xí)題 060
第 4 章 隨機(jī)森林 064
4.1 隨機(jī)森林算法概述 064
4.2 游泳偏好——隨機(jī)森林分析法 065
4.3 隨機(jī)森林算法的實(shí)現(xiàn) 071
4.4 下棋實(shí)例 075
4.5 購(gòu)物分析——克服隨機(jī)數(shù)據(jù)的不一致性以及
度量置信水平 082
4.6 小結(jié) 084
4.7 習(xí)題 084
第 5 章 k-means聚類 089
5.1 家庭收入——聚類為k個(gè)簇 089
5.2 性別分類——聚類分類 092
5.3 k-means聚類算法的實(shí)現(xiàn) 095
5.4 房產(chǎn)所有權(quán)示例——選擇簇的數(shù)量 099
5.5 小結(jié) 105
5.6 習(xí)題 105
第 6 章 回歸分析 114
6.1 華氏溫度和攝氏溫度的轉(zhuǎn)換——基于完整數(shù)據(jù)的線性回歸 114
6.2 根據(jù)身高預(yù)測(cè)體重——基于實(shí)際數(shù)據(jù)的線性回歸 117
6.3 梯度下降算法及實(shí)現(xiàn) 118
6.4 根據(jù)距離預(yù)測(cè)飛行時(shí)長(zhǎng) 122
6.5 彈道飛行分析——非線性模型 123
6.6 小 結(jié) 125
6.7 習(xí) 題 125
第 7 章 時(shí)間序列分析 130
7.1 商業(yè)利潤(rùn)——趨勢(shì)分析 130
7.2 電子商店的銷售額——季節(jié)性分析 132
7.3 小 結(jié) 140
7.4 習(xí) 題 140
附錄 A 統(tǒng)計(jì) 145
A.1 基本概念 145
A.2 貝葉斯推理 146
A.3 分 布 146
A.4 交叉驗(yàn)證 147
A.5 A/B 測(cè) 試 148
附錄 B R參考 149
B.1 介 紹 149
B.2 數(shù)據(jù)類型 150
B.3 線性回歸 152
附錄 C Python參考 154
C.1 介 紹 154
C.2 數(shù)據(jù)類型 155
C.3 控 制 流 159
附錄 D 數(shù)據(jù)科學(xué)中的算法和方法術(shù)語(yǔ) 163