R語言機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
定 價(jià):119.8 元
- 作者:[美] 弗雷德·恩旺加(Fred Nwanganga)
- 出版時(shí)間:2022/12/1
- ISBN:9787115583932
- 出 版 社:人民郵電出版社
- 中圖法分類:TP312
- 頁碼:286
- 紙張:
- 版次:01
- 開本:16開
本書探討了如何使用 R 語言進(jìn)行機(jī)器學(xué)習(xí),涵蓋基本的原理和方法,并通過大量的示例和練習(xí),讓讀者掌握 R 語言的數(shù)據(jù)處理技巧。本書包括入門、回歸、分類、模型的評(píng)估和改進(jìn)、無監(jiān)督學(xué)習(xí)五大部分,涉及線性回歸、logistic 回歸、k 近鄰、樸素貝葉斯、決策樹、聚類和關(guān)聯(lián)規(guī)則等機(jī)器學(xué)習(xí)模型。本書配套提供相關(guān)的代碼和數(shù)據(jù),方便讀者學(xué)習(xí)和使用。本書適合 R 語言和機(jī)器學(xué)習(xí)的愛好者、從業(yè)者以及相關(guān)院校的師生選用。
一、用R語言直觀揭示機(jī)器學(xué)習(xí)技術(shù)
1)機(jī)器學(xué)習(xí)和數(shù)據(jù)分析已經(jīng)成為創(chuàng)造價(jià)值的重要途徑。
通過機(jī)器學(xué)習(xí),你可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,從而產(chǎn)生新的想法和見解,如果沒有這種強(qiáng)大的技術(shù),這些都無從談起。
2)R語言易于理解,專門為統(tǒng)計(jì)分析而構(gòu)建。
本書介紹了使用R語言處理大型數(shù)據(jù)集的具體操作,展示了數(shù)據(jù)科學(xué)家如何將機(jī)器學(xué)習(xí)付諸實(shí)踐,幫助你洞察業(yè)務(wù)本質(zhì),做出可靠的預(yù)測(cè)和更好的決策。
3)提供機(jī)器學(xué)習(xí)的概念和技術(shù)介紹,示例練習(xí)鞏固基礎(chǔ),輕松理解。
書中的示例和練習(xí)使用R語言和新型數(shù)據(jù)分析工具,即使你沒有編程經(jīng)驗(yàn)也可以輕松學(xué)會(huì),不會(huì)被復(fù)雜的數(shù)學(xué)知識(shí)困擾。有了這本書,機(jī)器學(xué)習(xí)的熱門技術(shù)——從logistic回歸到關(guān)聯(lián)規(guī)則和聚類——你均能觸手可及。
二、本書將機(jī)器學(xué)習(xí)的直觀介紹與逐步的技術(shù)講解相結(jié)合,其主要內(nèi)容如下:
理解不同類型的機(jī)器學(xué)習(xí)算法;
發(fā)現(xiàn)大型數(shù)據(jù)集中存在的模式;
用RStudio編寫和執(zhí)行R腳本;
將R與tidyverse一起使用來管理和可視化數(shù)據(jù);
應(yīng)用核心的統(tǒng)計(jì)技術(shù),如logistic回歸和樸素貝葉斯等;
評(píng)估和改進(jìn)機(jī)器學(xué)習(xí)模型;
弗雷德·恩旺加(Fred Nwanganga)博士,美國(guó)圣母大學(xué)門多薩商學(xué)院商業(yè)分析專業(yè)助理教授,擁有超過15年的技術(shù)領(lǐng)導(dǎo)經(jīng)驗(yàn)。
邁克·查普爾(Mike Chapple)博士,美國(guó)圣母大學(xué)門多薩商學(xué)院信息技術(shù)、分析和運(yùn)營(yíng)系副教授,目前擔(dān)任該大學(xué)商業(yè)分析碩士項(xiàng)目的學(xué)術(shù)主任,出版了20多種書籍。
目錄
第 一部分 入門
第 1 章 什么是機(jī)器學(xué)習(xí) 2
1.1 從數(shù)據(jù)中發(fā)現(xiàn)知識(shí) 2
1.1.1 算法介紹 3
1.1.2 人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí) 3
1.2 機(jī)器學(xué)習(xí)技術(shù) 4
1.2.1 監(jiān)督學(xué)習(xí) 4
1.2.2 無監(jiān)督學(xué)習(xí) 7
1.3 模型選擇 9
1.3.1 分類技術(shù) 9
1.3.2 回歸技術(shù) 9
1.3.3 相似性學(xué)習(xí)技術(shù) 10
1.4 評(píng)估模型 10
1.4.1 分類錯(cuò)誤 11
1.4.2 回歸錯(cuò)誤 12
1.4.3 錯(cuò)誤類型 13
1.4.4 分割數(shù)據(jù)集 14
1.5 練習(xí) 15
第 2 章 R 和 RStudio 簡(jiǎn)介 17
2.1 歡迎來到 R 17
2.2 R 和 RStudio 組件 18
2.2.1 R 語言 18
2.2.2 RStudio 19
2.2.3 R 包 26
2.3 編寫和運(yùn)行 R 腳本 29
2.4 R 中的數(shù)據(jù)類型 31
2.4.1 向量 32
2.4.2 測(cè)試數(shù)據(jù)類型 33
2.4.3 轉(zhuǎn)換數(shù)據(jù)類型 36
2.4.4 缺失值 36
2.5 練習(xí) 37
第 3 章 數(shù)據(jù)管理 38
3.1 tidyverse 38
3.2 數(shù)據(jù)收集 39
3.2.1 主要考慮因素 39
3.2.2 導(dǎo)入數(shù)據(jù) 40
3.3 數(shù)據(jù)探索 43
3.3.1 數(shù)據(jù)描述 43
3.3.2 數(shù)據(jù)可視化 48
3.4 數(shù)據(jù)準(zhǔn)備 52
3.4.1 數(shù)據(jù)清洗 53
3.4.2 數(shù)據(jù)轉(zhuǎn)換 59
3.4.3 減少數(shù)據(jù) 64
3.5 練習(xí) 69
第二部分 回歸
第 4 章 線性回歸 72
4.1 自行車租賃與回歸 72
4.2 變量之間的關(guān)系 73
4.2.1 相關(guān)性 74
4.2.2 回歸 79
4.3 簡(jiǎn)單線性回歸 80
4.3.1 普通最小二乘法 81
4.3.2 簡(jiǎn)單線性回歸模型 82
4.3.3 評(píng)估模型 82
4.4 多元線性回歸 85
4.4.1 多元線性回歸模型 86
4.4.2 評(píng)估模型 86
4.4.3 改進(jìn)模型 93
4.4.4 優(yōu)缺點(diǎn) 100
4.5 案例研究:預(yù)測(cè)血壓 101
4.5.1 導(dǎo)入數(shù)據(jù) 102
4.5.2 探索數(shù)據(jù) 102
4.5.3 簡(jiǎn)單線性回歸模型的擬合 104
4.5.4 多元線性回歸模型的擬合 105
4.6 練習(xí) 111
第 5 章 logistic 回歸 113
5.1 尋找潛在捐贈(zèng)者 113
5.2 分類 115
5.3 logistic 回歸 116
5.3.1 優(yōu)勢(shì)比 117
5.3.2 二分類 logistic 回歸模型 120
5.3.3 評(píng)估模型 129
5.3.4 改進(jìn)模型 135
5.3.5 優(yōu)缺點(diǎn) 140
5.4 案例研究:收入預(yù)測(cè) 140
5.4.1 導(dǎo)入數(shù)據(jù) 141
5.4.2 探索和準(zhǔn)備數(shù)據(jù) 141
5.4.3 訓(xùn)練模型 144
5.4.4 評(píng)估模型 146
5.5 練習(xí) 147
第三部分 分類
第 6 章 k 近鄰 152
6.1 檢測(cè)心臟病 152
6.2 k 近鄰 154
6.2.1 發(fā)現(xiàn)最近鄰居 155
6.2.2 標(biāo)記未標(biāo)記數(shù)據(jù) 157
6.2.3 選擇合適的 k 157
6.2.4 k 近鄰模型 158
6.2.5 評(píng)估模型 162
6.2.6 改進(jìn)模型 163
6.2.7 優(yōu)缺點(diǎn) 164
6.3 案例研究:重新分析捐贈(zèng)者數(shù)據(jù)集 165
6.3.1 導(dǎo)入數(shù)據(jù) 165
6.3.2 探索和準(zhǔn)備數(shù)據(jù) 165
6.3.3 建立模型 169
6.3.4 評(píng)估模型 170
6.4 練習(xí) 170
第 7 章 樸素貝葉斯 171
7.1 垃圾郵件分類 171
7.2 樸素貝葉斯 172
7.2.1 概率 173
7.2.2 聯(lián)合概率 173
7.2.3 條件概率 174
7.2.4 樸素貝葉斯分類 175
7.2.5 可加性平滑 177
7.2.6 樸素貝葉斯模型 178
7.2.7 評(píng)估模型 182
7.2.8 樸素貝葉斯分類器的優(yōu)缺點(diǎn) 183
7.3 案例研究:重新審視心臟病檢測(cè)問題 183
7.3.1 導(dǎo)入數(shù)據(jù) 183
7.3.2 探索和準(zhǔn)備數(shù)據(jù) 184
7.3.3 建立模型 185
7.3.4 評(píng)估模型 186
7.4 練習(xí) 186
第 8 章 決策樹 188
8.1 預(yù)測(cè)許可證決策 188
8.2 決策樹 189
8.2.1 遞歸分區(qū) 190
8.2.2 熵 193
8.2.3 信息增益 194
8.2.4 基尼不純度 196
8.2.5 剪枝 196
8.2.6 建立分類樹模型 197
8.2.7 評(píng)估模型 200
8.2.8 決策樹的優(yōu)缺點(diǎn) 202
8.3 案例研究:重新審視收入預(yù)測(cè)問題 203
8.3.1 導(dǎo)入數(shù)據(jù) 203
8.3.2 探索和準(zhǔn)備數(shù)據(jù) 204
8.3.3 建立模型 205
8.3.4 評(píng)估模型 205
8.4 練習(xí) 206
第四部分 模型的評(píng)估和改進(jìn)
第 9 章 評(píng)估模型 208
9.1 評(píng)估未來表現(xiàn) 208
9.1.1 交叉驗(yàn)證 210
9.1.2 自助抽樣 215
9.2 超越預(yù)測(cè)準(zhǔn)確性 217
9.2.1 Kappa 218
9.2.2 查準(zhǔn)率和查全率 220
9.2.3 靈敏度和特異性 222
9.3 可視化模型性能 225
9.3.1 接收者操作特性曲線 225
9.3.2 曲線下面積 228
9.4 練習(xí) 230
第 10 章 改進(jìn)模型 232
10.1 調(diào)整參數(shù) 232
10.1.1 自動(dòng)參數(shù)調(diào)整 232
10.1.2 自定義參數(shù)調(diào)整 236
10.2 集成方法 240
10.2.1 裝袋 241
10.2.2 提升 243
10.2.3 堆疊 245
10.3 練習(xí) 249
第五部分 無監(jiān)督學(xué)習(xí)
第 11 章 用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)模式 252
11.1 超市購物籃分析 252
11.2 關(guān)聯(lián)規(guī)則 253
11.2.1 識(shí)別強(qiáng)規(guī)則 254
11.2.2 Apriori 算法 255
11.3 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則 256
11.3.1 生成規(guī)則 257
11.3.2 評(píng)估規(guī)則 260
11.3.3 優(yōu)缺點(diǎn) 263
11.4 案例研究:識(shí)別雜貨店購買模式 263
11.4.1 導(dǎo)入數(shù)據(jù) 264
11.4.2 探索和預(yù)處理數(shù)據(jù) 264
11.4.3 生成規(guī)則 265
11.4.4 評(píng)估規(guī)則 266
11.5 練習(xí) 268
11.6 參考文獻(xiàn) 268
第 12 章 用聚類對(duì)數(shù)據(jù)分組 269
12.1 聚類 269
12.2 k 均值聚類 271
12.3 基于 k 均值聚類的大學(xué)細(xì)分 274
12.3.1 創(chuàng)建簇 275
12.3.2 分析簇 277
12.3.3 選擇最佳簇?cái)?shù) 278
12.3.4 k 均值聚類的優(yōu)缺點(diǎn) 282
12.4 案例研究:對(duì)購物中心客戶進(jìn)行細(xì)分 282
12.4.1 探索和準(zhǔn)備數(shù)據(jù) 283
12.4.2 聚類數(shù)據(jù) 283
12.4.3 評(píng)估簇 284
12.5 練習(xí) 285
12.6 參考文獻(xiàn) 286