定 價(jià):69 元
叢書(shū)名:高等學(xué)校計(jì)算機(jī)基礎(chǔ)教育教材精選
- 作者:方匡南
- 出版時(shí)間:2018/7/1
- ISBN:9787121342448
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:3312
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)是一本數(shù)據(jù)科學(xué)的入門(mén)書(shū)籍。每個(gè)知識(shí)點(diǎn)盡量從實(shí)際的應(yīng)用案例出發(fā),從數(shù)據(jù)出發(fā),以問(wèn)題為導(dǎo)向,在解決問(wèn)題中學(xué)習(xí)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等數(shù)據(jù)科學(xué)相關(guān)方法。本書(shū)將數(shù)據(jù)讀寫(xiě)、數(shù)據(jù)清洗和預(yù)處理作為開(kāi)端,逐漸深入到和數(shù)據(jù)科學(xué)相關(guān)的決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、無(wú)監(jiān)督學(xué)習(xí)等知識(shí)。此外,結(jié)合數(shù)據(jù)科學(xué)的實(shí)際應(yīng)用,書(shū)中還講解了推薦算法、文本挖掘和社交網(wǎng)絡(luò)分析等熱門(mén)實(shí)用技術(shù)。本書(shū)在寫(xiě)作過(guò)程中盡量刪去太過(guò)抽樣的理論,讓具有一定高等數(shù)學(xué)和概率論基礎(chǔ)的讀者就能看得懂。當(dāng)然,如果讀者對(duì)方法原理確實(shí)不感興趣,只是為了用R程序?qū)崿F(xiàn)某種方法,可以跳過(guò)方法只看案例和程序。本書(shū)適合作為高校數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、大數(shù)據(jù)分析等相關(guān)專(zhuān)業(yè)的研究生和高年級(jí)本科的教科書(shū),也適合作為相關(guān)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)挖掘工程師、數(shù)據(jù)分析師及數(shù)據(jù)科學(xué)的愛(ài)好者等的工具書(shū)。
方匡南,廈門(mén)大學(xué)信息科學(xué)學(xué)院教授,多年從事大數(shù)據(jù)及相關(guān)領(lǐng)域研究與教學(xué),著有《R數(shù)據(jù)分析》等多部相關(guān)作品。
第1章 導(dǎo)論 1
1.1 數(shù)據(jù)科學(xué)的發(fā)展歷史 1
1.2 數(shù)據(jù)科學(xué)研究的主要問(wèn)題 3
1.3 數(shù)據(jù)科學(xué)的主要方法 5
1.4 R語(yǔ)言的優(yōu)勢(shì) 7
第2章 數(shù)據(jù)讀/寫(xiě) 9
2.1 數(shù)據(jù)的讀入 9
2.1.1 直接輸入數(shù)據(jù) 9
2.1.2 讀入R包中的數(shù)據(jù) 10
2.1.3 從外部文件讀入數(shù)據(jù) 10
2.1.4 批量讀入數(shù)據(jù) 15
2.1.5 R語(yǔ)言讀取文件的幾個(gè)常錯(cuò)的問(wèn)題 15
2.2 寫(xiě)出數(shù)據(jù) 17
2.3 習(xí)題 18
第3章 數(shù)據(jù)清洗與預(yù)處理 19
3.1 數(shù)據(jù)分類(lèi) 19
3.2 數(shù)據(jù)清洗 20
3.2.1 處理缺失數(shù)據(jù) 20
3.2.2 處理噪聲數(shù)據(jù) 23
3.3 數(shù)據(jù)變換 23
3.4 R語(yǔ)言實(shí)現(xiàn) 25
3.4.1 數(shù)據(jù)集的基本操作 25
3.4.2 數(shù)據(jù)集間的操作 28
3.4.3 連接數(shù)據(jù)庫(kù)數(shù)據(jù) 29
3.5 習(xí)題 30
第4章 數(shù)據(jù)可視化 31
4.1 高階繪圖工具——ggplot2 31
4.1.1 快速繪圖 32
4.1.2 使用圖層構(gòu)建圖像 34
4.1.3 分面 37
4.2 ECharts2 39
4.2.1 安裝 39
4.2.2 使用 40
4.3 習(xí)題 48
第5章 線性回歸 49
5.1 問(wèn)題的提出 49
5.2 一元線性回歸 50
5.2.1 一元線性回歸概述 50
5.2.2 一元線性回歸的參數(shù)估計(jì) 52
5.2.3 一元線性回歸模型的檢驗(yàn) 55
5.2.4 一元線性回歸的預(yù)測(cè) 56
5.3 多元線性回歸分析 57
5.3.1 多元線性回歸模型及假定 58
5.3.2 參數(shù)估計(jì) 59
5.3.3 模型檢驗(yàn) 60
5.3.4 預(yù)測(cè) 61
5.4 R語(yǔ)言實(shí)現(xiàn) 63
5.4.1 一元線性回歸 63
5.4.2 多元線性回歸 66
5.5 習(xí)題 67
第6章 線性分類(lèi) 69
6.1 問(wèn)題的提出 69
6.2 Logistic模型 70
6.2.1 線性概率模型 70
6.2.2 Probit模型 71
6.2.3 Logit模型原理 72
6.2.4 邊際效應(yīng)分析 73
6.2.5 最大似然估計(jì)(MLE) 73
6.2.6 似然比檢驗(yàn) 74
6.3 判別分析 74
6.3.1 Na?ve Bayes判別分析 75
6.3.2 線性判別分析 76
6.3.3 二次判別分析 78
6.4 分類(lèi)問(wèn)題評(píng)價(jià)準(zhǔn)則 78
6.5 R語(yǔ)言實(shí)現(xiàn) 80
6.5.1 描述統(tǒng)計(jì) 80
6.5.2 Logistic模型 81
6.5.3 判別分析 87
6.5.4 模型比較 90
6.6 習(xí)題 92
第7章 重抽樣 94
7.1 問(wèn)題的提出 94
7.2 基本概念 94
7.2.1 訓(xùn)練誤差和測(cè)試誤差 95
7.2.2 偏差和方差 95
7.3 交叉驗(yàn)證法 96
7.3.1 驗(yàn)證集方法 97
7.3.2 留一交叉驗(yàn)證法 97
7.3.3 K折交叉驗(yàn)證法 98
7.4 自助法 99
7.5 R語(yǔ)言實(shí)現(xiàn) 100
7.5.1 驗(yàn)證集方法 100
7.5.2 留一交叉驗(yàn)證法 102
7.5.3 K折交叉驗(yàn)證法 102
7.5.4 自助法 103
7.6 習(xí)題 104
第8章 模型選擇與正則化 105
8.1 問(wèn)題的提出 105
8.2 子集選擇法 106
8.2.1 最優(yōu)子集法 106
8.2.2 逐步選擇法 106
8.2.3 模型選擇 108
8.3 基于壓縮估計(jì)的逐個(gè)變量選擇 109
8.3.1 LASSO懲罰 110
8.3.2 SCAD懲罰 111
8.3.3 MCP懲罰 112
8.3.4 調(diào)整參數(shù)選擇 113
8.4 基于壓縮估計(jì)的組變量選擇 113
8.4.1 自然分組結(jié)構(gòu) 113
8.4.2 人為分組結(jié)構(gòu) 114
8.5 基于壓縮估計(jì)的雙層變量選擇 115
8.5.1 復(fù)合函數(shù)型雙層選擇 115
8.5.2 稀疏組懲罰型雙層選擇 116
8.6 R語(yǔ)言實(shí)現(xiàn) 117
8.6.1 子集選擇法 117
8.6.2 模型選擇 120
8.6.3 組模型選擇 122
8.6.4 雙層模型選擇 126
8.7 習(xí)題 128
第9章 決策樹(shù)與組合學(xué)習(xí) 129
9.1 問(wèn)題的提出 129
9.2 決策樹(shù) 130
9.2.1 基本概念 130
9.2.2 分類(lèi)樹(shù) 133
9.2.3 回歸樹(shù) 135
9.2.4 樹(shù)的優(yōu)缺點(diǎn) 137
9.3 Bagging 137
9.3.1 基本算法 137
9.3.2 袋外誤差估計(jì) 138
9.3.3 變量重要性的度量 139
9.4 隨機(jī)森林 140
9.5 提升法 142
9.5.1 Adaboost算法 142
9.5.2 GBDT算法 143
9.5.3 XGBoost算法 143
9.6 R語(yǔ)言實(shí)現(xiàn) 144
9.6.1 數(shù)據(jù)介紹 144
9.6.2 描述性統(tǒng)計(jì) 145
9.6.3 分類(lèi)樹(shù) 145
9.6.4 Bagging 148
9.6.5 隨機(jī)森林 149
9.6.6 Boosting 150
9.7 習(xí)題 155
第10章 支持向量機(jī) 156
10.1 問(wèn)題的提出 156
10.2 最大間隔分類(lèi)器 157
10.2.1 使用分割超平面分類(lèi) 157
10.2.2 構(gòu)建最大間隔分類(lèi)器 159
10.2.3 線性不可分的情況 160
10.3 支持向量分類(lèi)器 161
10.3.1 使用軟間隔分類(lèi) 161
10.3.2 構(gòu)建支持向量分類(lèi)器 161
10.4 支持向量機(jī) 163
10.4.1 使用非線性決策邊界分類(lèi) 163
10.4.2 構(gòu)建支持向量機(jī) 165
10.5 與Logistic回歸的關(guān)系 166
10.6 支持向量回歸 167
10.7 R語(yǔ)言實(shí)現(xiàn) 168
10.7.1 支持向量分類(lèi)器 168
10.7.2 支持向量機(jī) 173
10.7.3 Auto數(shù)據(jù)集 175
10.8 習(xí)題 178
第11章 神經(jīng)網(wǎng)絡(luò) 180
11.1 問(wèn)題的提出 181
11.2 神經(jīng)網(wǎng)絡(luò)的基本概念 181
11.2.1 神經(jīng)網(wǎng)絡(luò)的基本單元——神經(jīng)元 181
11.2.2 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 185
11.2.3 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí) 186
11.3 神經(jīng)網(wǎng)絡(luò)模型 188
11.3.1 單神經(jīng)元感知器 188
11.3.2 單層感知器 189
11.3.3 BP神經(jīng)網(wǎng)絡(luò) 190
11.3.4 Rprop神經(jīng)網(wǎng)絡(luò) 193
11.4 R語(yǔ)言實(shí)現(xiàn) 195
11.4.1 nnet程序包 195
11.4.2 neuralnet程序包 197
11.4.3 應(yīng)用案例1:利用nnet程序包分析紙幣鑒別數(shù)據(jù) 198
11.4.4 應(yīng)用案例2:利用neuralnet程序包分析白葡萄酒的品質(zhì) 200
11.5 習(xí)題 203
第12章 無(wú)監(jiān)督學(xué)習(xí) 205
12.1 問(wèn)題的提出 205
12.2 聚類(lèi)分析 207
12.2.1 相異度 207
12.2.2 K-means聚類(lèi) 209
12.2.3 系統(tǒng)聚類(lèi)法 211
12.3 主成分分析 214
12.3.1 主成分分析的幾何意義 214
12.3.2 主成分的數(shù)學(xué)推導(dǎo) 215
12.3.3 主成分回歸 217
12.3.4 主成分分析的其他方面 217
12.4 因子分析 219
12.4.1 因子分析的數(shù)學(xué)模型 219
12.4.2 因子載荷陣的統(tǒng)計(jì)意義 220
12.4.3 因子分析的其他方面 221
12.5 典型相關(guān)分析 223
12.5.1 典型相關(guān)分析原理 223
12.5.2 典型相關(guān)系數(shù)的顯著性檢驗(yàn) 226
12.5.3 典型相關(guān)分析的步驟 227
12.6 R語(yǔ)言實(shí)現(xiàn) 228
12.6.1 聚類(lèi)分析:移動(dòng)通信用戶細(xì)分 228
12.6.2 主成分分析:農(nóng)村居民消費(fèi)水平評(píng)價(jià) 233
12.6.3 因子分析:市場(chǎng)調(diào)查 236
12.6.4 典型相關(guān)分析:職業(yè)滿意度與職業(yè)特性的關(guān)系 239
12.7 習(xí)題 242
第13章 推薦算法 243
13.1 關(guān)聯(lián)規(guī)則 243
13.1.1 基本概念 244
13.1.2 基本分類(lèi) 246
13.1.3 基本方法 247
13.2 協(xié)同過(guò)濾算法 249
13.2.1 基于鄰居的協(xié)同過(guò)濾算法 249
13.2.2 基于模型的協(xié)同過(guò)濾算法 253
13.3 R語(yǔ)言實(shí)現(xiàn) 254
13.3.1 關(guān)聯(lián)規(guī)則 254
13.3.2 協(xié)同過(guò)濾算法 259
13.4 習(xí)題 262
第14章 文本挖掘 264
14.1 問(wèn)題的提出 264
14.2 文本挖掘基本流程 265
14.2.1 文本數(shù)據(jù)獲取 265
14.2.2 文本特征表示 265
14.2.3 文本的特征選擇 268
14.2.4 信息挖掘與主題模型 269
14.3 R語(yǔ)言實(shí)現(xiàn) 270
14.3.1 JSS_papers數(shù)據(jù)集 270
14.3.2 拓展案例:房地產(chǎn)網(wǎng)絡(luò)輿情分析 275
14.4 習(xí)題 278
第15章 社交網(wǎng)絡(luò)分析 279
15.1 問(wèn)題的提出 279
15.2 網(wǎng)絡(luò)的基本概念 280
15.3 網(wǎng)絡(luò)特征的描述性分析 281
15.3.1 節(jié)點(diǎn)度 281
15.3.2 節(jié)點(diǎn)中心性 282
15.3.3 網(wǎng)絡(luò)的凝聚性特征 283
15.3.4 分割 284
15.4 網(wǎng)絡(luò)圖的統(tǒng)計(jì)模型 285
15.4.1 經(jīng)典隨機(jī)圖模型 285
15.4.2 廣義隨機(jī)圖模型 286
15.4.3 指數(shù)隨機(jī)圖模型 287
15.4.4 網(wǎng)絡(luò)塊模型 287
15.5 關(guān)聯(lián)網(wǎng)絡(luò)推斷 288
15.5.1 相關(guān)網(wǎng)絡(luò) 288
15.5.2 偏相關(guān)網(wǎng)絡(luò) 289
15.5.3 高斯圖模型網(wǎng)絡(luò) 290
15.5.4 Graphic Lasso模型 291
15.6 二值型網(wǎng)絡(luò)模型 294
15.7 R語(yǔ)言實(shí)現(xiàn) 295
15.7.1 網(wǎng)絡(luò)的基本操作 295
15.7.2 “豆瓣關(guān)注網(wǎng)絡(luò)”和“豆瓣朋友網(wǎng)絡(luò)”特征分析 298
15.7.3 關(guān)聯(lián)網(wǎng)絡(luò)推斷 303
15.8 習(xí)題 308
第16章 并行計(jì)算 309
16.1 提高R語(yǔ)言的計(jì)算速度 309
16.2 R語(yǔ)言的并行計(jì)算 310
16.3 HPC多線程并行計(jì)算 316
參考文獻(xiàn) 321