大話數(shù)據(jù)科學(xué)——大數(shù)據(jù)與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(基于R語言)
定 價(jià):128 元
- 作者:陳文賢
- 出版時(shí)間:2020/7/1
- ISBN:9787302551300
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:396
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書以獨(dú)特的方式講解數(shù)據(jù)科學(xué),不僅讓讀者可以輕松學(xué)習(xí)數(shù)據(jù)科學(xué)理論,又可以動(dòng)手(手算和機(jī)算)進(jìn)行數(shù)據(jù)科學(xué)實(shí)戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導(dǎo)圖豐富;避免深?yuàn)W的數(shù)學(xué)證明,采用簡(jiǎn)單的數(shù)學(xué)說明;用各種學(xué)習(xí)圖將本書內(nèi)容貫穿起來;實(shí)戰(zhàn)計(jì)算,包含小型數(shù)據(jù)的演算和大型數(shù)據(jù)的實(shí)戰(zhàn)程序。
本書共13章,內(nèi)容涵蓋豐富的數(shù)據(jù)科學(xué)模型,包含關(guān)聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數(shù)據(jù)例題介紹計(jì)算步驟,同時(shí)用R語言驗(yàn)證計(jì)算結(jié)果。另外,也有大數(shù)據(jù)的案例數(shù)據(jù),例如:推薦系統(tǒng)、支持向量機(jī)、集成學(xué)習(xí)等。另外,本書只有大數(shù)據(jù)的案例數(shù)據(jù)用R語言計(jì)算。
本書適合各個(gè)專業(yè)領(lǐng)域(包含金融、電商、保險(xiǎn)、互聯(lián)網(wǎng)等行業(yè))想掌握數(shù)據(jù)科學(xué)的讀者,也可以作為高校、社會(huì)培訓(xùn)機(jī)構(gòu)教材。由于內(nèi)容比較多,教師可自行選擇教學(xué)內(nèi)容。
"數(shù)據(jù)科學(xué)作為一門新興的學(xué)科,正在高速發(fā)展并落地應(yīng)用。當(dāng)前的各行各業(yè)都充滿了數(shù)據(jù),這些數(shù)據(jù)的類型多種多樣,不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也包括網(wǎng)頁、文本、圖像、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)。 數(shù)據(jù)科學(xué)涵蓋的體系甚廣,對(duì)某一領(lǐng)域進(jìn)行數(shù)據(jù)科學(xué)研究,首先要研究該領(lǐng)域(比如生物信息學(xué)、天體信息學(xué)、數(shù)字地球等)的特性,然后通過包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)庫等技術(shù)從中分析出需要的結(jié)果。這些學(xué)科都是數(shù)據(jù)科學(xué)的重要組成部分,只有把它們有機(jī)地整合在一起,才能形成整個(gè)數(shù)據(jù)科學(xué)的全貌。 陳文賢老師作為數(shù)據(jù)科學(xué)的早等
篇基礎(chǔ)篇
章大數(shù)據(jù)概述3
1.1大數(shù)據(jù)與相關(guān)學(xué)科的定義4
1.1.1大數(shù)據(jù)的定義4
1.1.2數(shù)據(jù)挖掘6
1.1.3數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程7
1.1.4機(jī)器學(xué)習(xí)9
1.1.5知識(shí)管理12
1.1.6數(shù)據(jù)科學(xué)14
1.1.7商業(yè)智能15
1.1.8人工智能17
1.1.9統(tǒng)計(jì)學(xué)與大數(shù)據(jù)比較19
1.1.10數(shù)據(jù)名詞的定義21
1.2系統(tǒng)與模型概念22
1.2.1系統(tǒng)定義與成分22
1.2.2輸入,處理,輸出與黑箱23
1.2.3環(huán)境24
1.2.4反饋25
1.2.5效率與效果25
1.2.6模型與建模26
1.2.7模型的假定與參數(shù)27
1.2.8敏感,穩(wěn)健或魯棒28
1.2.9模型的過擬合28
1.3大數(shù)據(jù)分析模型的分類30
1.3.1后設(shè)模型30
1.3.2關(guān)系與因果31
1.3.3基于因果關(guān)系的統(tǒng)計(jì)學(xué)分類32
1.3.4基于因果關(guān)系的大數(shù)據(jù)分類32
1.3.5基于數(shù)據(jù)類型的分類34
1.3.6基于測(cè)量的分類35
1.3.7數(shù)據(jù)科學(xué)模型的其他分類36
1.4大數(shù)據(jù)的江湖傳奇36
1.5R語言“詞云圖”代碼40
1.6本章思維導(dǎo)圖42
第2章大數(shù)據(jù)與R語言43
2.1大數(shù)據(jù)進(jìn)位44
2.2R語言介紹45
2.2.1安裝R語言軟件45
2.2.2下載R語言程序包45
2.3R數(shù)據(jù)對(duì)象的屬性與結(jié)構(gòu)46
2.3.1數(shù)值47
2.3.2整數(shù)47
2.3.3字符串47
2.3.4邏輯47
2.3.5向量48
2.3.6因子49
2.3.7矩陣50
2.3.8數(shù)據(jù)框52
2.3.9數(shù)組52
2.3.10列表53
2.3.11時(shí)間序列54
2.3.12訪問數(shù)據(jù)類型和結(jié)構(gòu)54
2.3.13遺失值55
2.3.14讀入ExcelCSV數(shù)據(jù)55
2.3.15編輯數(shù)據(jù)55
2.3.16保存ExcelCSV數(shù)據(jù)55
2.3.17數(shù)據(jù)輸入窗口56
2.3.18R的數(shù)據(jù)結(jié)構(gòu)和函數(shù)表56
2.4R的函數(shù)包56
2.5R的數(shù)據(jù)繪圖59
2.6本章思維導(dǎo)圖
第二篇非監(jiān)督式學(xué)習(xí)
第3章關(guān)聯(lián)分析67
3.1關(guān)聯(lián)分析介紹68
3.1.1事務(wù)與項(xiàng)目的定義68
3.1.2項(xiàng)集的關(guān)聯(lián)規(guī)則69
3.2關(guān)聯(lián)規(guī)則數(shù)據(jù)格式71
3.3關(guān)聯(lián)規(guī)則的算法72
3.3.1Apriori算法73
3.3.2關(guān)聯(lián)規(guī)則其他測(cè)度值74
3.3.3負(fù)關(guān)聯(lián)規(guī)則75
3.4關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)和缺點(diǎn)76
3.4.1Apriori算法的優(yōu)點(diǎn)76
3.4.2Apriori算法的缺點(diǎn)76
3.4.3關(guān)聯(lián)規(guī)則的評(píng)估76
3.5關(guān)聯(lián)規(guī)則的實(shí)例計(jì)算77
3.5.1尿布與啤酒77
3.5.2豆?jié){、燒餅與飯團(tuán)79
3.5.3評(píng)估與應(yīng)用82
3.6R語言實(shí)戰(zhàn)82
3.6.1泰坦尼克號(hào)82
3.6.2商店數(shù)據(jù)86
3.6.3食品雜貨數(shù)據(jù)90
3.6.4人口收入數(shù)據(jù)92
3.6.5鳶尾花數(shù)據(jù)93
3.7本章思維導(dǎo)圖96
第4章聚類分析97
4.1聚類分析介紹98
4.2距離與相似度衡量99
4.2.1數(shù)值數(shù)據(jù)距離99
4.2.2標(biāo)準(zhǔn)化與歸一化100
4.2.30-1數(shù)據(jù)距離和相似度100
4.2.4混合數(shù)據(jù)的距離102
4.2.5顧客數(shù)據(jù)的距離102
4.2.6距離和相似度的轉(zhuǎn)換104
4.2.7計(jì)算距離的R函數(shù)104
4.3層次聚類分析106
4.3.1兩類連接106
4.3.2顧客數(shù)據(jù)的聚類107
4.3.3層次聚類的優(yōu)點(diǎn)和缺點(diǎn)110
4.4非層次聚類分析110
4.4.1K-mean聚類110
4.4.2PAM聚類112
4.4.3K-mean聚類的優(yōu)點(diǎn)和缺點(diǎn)113
4.5聚類分析的評(píng)價(jià)113
4.6R語言實(shí)戰(zhàn)115
4.6.1歐洲語言的聚類115
4.6.2美國電力公司數(shù)據(jù)118
4.6.3歐州人蛋白質(zhì)數(shù)據(jù)120
4.6.4紅酒數(shù)據(jù)124
4.6.5汽車數(shù)據(jù)126
4.7本章思維導(dǎo)圖128
第5章降維分析129
5.1降維分析介紹130
5.2主成分分析131
5.2.1主成分分析的計(jì)算理論132
5.2.2主成分分析的計(jì)算步驟134
5.2.3主成分分析的優(yōu)點(diǎn)和缺點(diǎn)134
5.3R語言程序135
5.4R語言實(shí)戰(zhàn)138
5.4.1鳶尾花數(shù)據(jù)138
5.4.2美國罪犯數(shù)據(jù)138
5.4.3美國法官數(shù)據(jù)145
5.4.4國家冰球聯(lián)盟資料146
5.4.5美國職業(yè)棒球數(shù)據(jù)149
5.4.6早餐麥片數(shù)據(jù)151
5.4.7紅酒數(shù)據(jù)151
5.4.8心理學(xué)數(shù)據(jù)152
5.5本章思維導(dǎo)圖154
第三篇監(jiān)督式學(xué)習(xí)
第6章模型選擇與評(píng)價(jià)157
6.1模型選擇與評(píng)價(jià)步驟158
6.2大數(shù)據(jù)的抽樣方法159
6.2.1保留方法抽樣160
6.2.2自助抽樣法162
6.2.3632自助法163
6.2.4過采樣1
6.3交驗(yàn)證165
6.3.1k-折交驗(yàn)證165
6.3.2留一交驗(yàn)證166
6.4模型選擇167
6.4.1參數(shù)和非參數(shù)學(xué)習(xí)168
6.4.2偏差和方差169
6.4.3模型的復(fù)雜度170
6.4.4正則化171
6.4.5認(rèn)真學(xué)習(xí)和懶惰學(xué)習(xí)171
6.5模型評(píng)價(jià)172
6.5.1二元0-1分類器的評(píng)價(jià)——混淆矩陣172
6.5.2混淆矩陣的舉例說明174
6.5.3二元分類器的成本計(jì)算176
6.5.4二元分類器例題數(shù)據(jù)R語言176
6.5.5多標(biāo)簽分類器的評(píng)價(jià)179
6.5.6多標(biāo)簽分類器評(píng)價(jià)R語言181
6.5.7交驗(yàn)證分類的評(píng)價(jià)183
6.5.8分類學(xué)習(xí)的ROC曲線183
6.5.9連續(xù)型目標(biāo)變量回歸模型的評(píng)價(jià)187
6.6R語言實(shí)戰(zhàn)189
6.6.1R語言自動(dòng)調(diào)模與調(diào)參189
6.6.2汽車數(shù)據(jù)190
6.6.3乳腺癌診斷數(shù)據(jù)190
6.7本章思維導(dǎo)圖192
第7章回歸分析193
7.1多元線性回歸194
7.1.1多元線性回歸模型194
7.1.2參數(shù)估計(jì)195
7.1.3適合性檢驗(yàn)196
7.1.4實(shí)例計(jì)算197
7.1.5R語言的實(shí)例計(jì)算199
7.2變量(特征)選擇200
7.2.1偏相關(guān)系數(shù)200
7.2.2逐步回歸203
7.2.3部分子集回歸204
7.2.4壓縮方法205
7.3Logistic邏輯回歸207
7.4R語言實(shí)戰(zhàn)209
7.4.1股票數(shù)據(jù)209
7.4.2乳腺癌病理數(shù)據(jù)210
7.4.3醫(yī)療保險(xiǎn)數(shù)據(jù)213
7.4.4棒球數(shù)據(jù)215
7.4.5波士頓房?jī)r(jià)數(shù)據(jù)218
7.4.6皮瑪數(shù)據(jù)221
7.5本章思維導(dǎo)圖224
第8章近鄰法225
8.1學(xué)習(xí)器226
8.1.1認(rèn)真學(xué)習(xí)器和懶惰學(xué)習(xí)器226
8.1.2基于實(shí)例學(xué)習(xí)器227
8.1.3參數(shù)學(xué)習(xí)器和非參數(shù)學(xué)習(xí)器228
8.2近鄰法介紹229
8.2.1k-近鄰法算法步驟229
8.2.2k-近鄰法分類器230
8.2.3k-近鄰法回歸231
8.2.4自變量是分類變量232
8.3近鄰法的優(yōu)點(diǎn)和缺點(diǎn)232
8.4R語言實(shí)戰(zhàn)233
8.4.1食材數(shù)據(jù)233
8.4.2鳶尾花數(shù)據(jù)234
8.4.3乳癌檢查數(shù)據(jù)236
8.4.4美國總統(tǒng)候選人數(shù)據(jù)238
8.4.5玻璃數(shù)據(jù)240
8.4.6波士頓房?jī)r(jià)數(shù)據(jù)241
8.4.7皮瑪數(shù)據(jù)242
8.5本章思維導(dǎo)圖244
第9章貝葉斯分類245
9.1貝葉斯公式246
9.2貝葉斯分類247
9.2.1樸素貝葉斯分類247
9.2.2特征值是連續(xù)變量248
9.2.3樸素貝葉斯分類的優(yōu)點(diǎn)和缺點(diǎn)249
9.3貝葉斯分類的實(shí)例計(jì)算249
9.3.1天氣和打網(wǎng)球249
9.3.2驗(yàn)前概率與似然概率251
9.3.3拉普拉斯校準(zhǔn)251
9.3.4R語言實(shí)例計(jì)算252
9.4R語言實(shí)戰(zhàn)255
9.4.1泰坦尼克號(hào)數(shù)據(jù)255
9.4.2鳶尾花數(shù)據(jù)256
9.4.3垃圾郵件數(shù)據(jù)258
9.4.4皮瑪數(shù)據(jù)261
9.5本章思維導(dǎo)圖262
0章決策樹263
10.1決策樹概述2
10.1.1圖形表示2
10.1.2邏輯表示265
10.1.3規(guī)則表示265
10.1.4數(shù)學(xué)公式表示265
10.2決策樹的信息計(jì)算266
10.2.1信息計(jì)算266
10.2.2熵與信息267
10.2.3信息增益267
10.2.4信息增益比268
10.2.5基尼系數(shù)與基尼增益268
10.2.6卡方統(tǒng)計(jì)量269
10.2.7分枝法則的選擇269
10.2.8回歸樹269
10.3決策樹的實(shí)例計(jì)算270
10.4決策樹的剪枝277
10.4.1貪婪算法277
10.4.2決策樹剪枝278
10.5決策樹的優(yōu)點(diǎn)和缺點(diǎn)279
10.6R語言實(shí)戰(zhàn)280
10.6.1決策樹R語言包280
10.6.2打網(wǎng)球數(shù)據(jù)280
10.6.3泰坦尼克號(hào)數(shù)據(jù)283
10.6.4鳶尾花數(shù)據(jù)284
10.6.5皮瑪數(shù)據(jù)289
10.6.6汽車座椅銷售數(shù)據(jù)292
10.6.7波士頓房?jī)r(jià)數(shù)據(jù)295
10.6.8貓數(shù)據(jù)297
10.6.9駝背數(shù)據(jù)300
10.6.10美國總統(tǒng)選舉投票數(shù)據(jù)301
10.6.11員工離職數(shù)據(jù)302
10.7本章思維導(dǎo)圖306
1章支持向量機(jī)307
11.1支持向量機(jī)概述308
11.2大間隔分類(硬間隔)310
11.3支持向量分類(軟間隔)311
11.4支持向量機(jī)(核函數(shù))313
11.4.1支持向量機(jī)的核函數(shù)313
11.4.2多元分類支持向量機(jī)315
11.5支持向量機(jī)的優(yōu)點(diǎn)和缺點(diǎn)315
11.6支持向量機(jī)R語言應(yīng)用316
11.6.1隨機(jī)正態(tài)分布數(shù)據(jù)線性核函數(shù)317
11.6.2隨機(jī)正態(tài)分布數(shù)據(jù)徑向基核函數(shù)318
11.6.3三分類數(shù)據(jù)徑向基核函數(shù)321
11.7R語言實(shí)戰(zhàn)322
11.7.1基因表達(dá)數(shù)據(jù)322
11.7.2鳶尾花數(shù)據(jù)322
11.7.3貓數(shù)據(jù)323
11.7.4皮瑪數(shù)據(jù)325
11.7.5字符數(shù)據(jù)328
11.7.6玻璃數(shù)據(jù)329
11.8本章思維導(dǎo)圖332
2章集成學(xué)習(xí)333
12.1集成學(xué)習(xí)介紹334
12.2個(gè)別分類方法評(píng)價(jià)335
12.3Bagging學(xué)習(xí)337
12.4隨機(jī)森林338
12.4.1隨機(jī)森林介紹338
12.4.2隨機(jī)森林算法步驟339
12.4.3R語言339
12.4.4隨機(jī)森林的優(yōu)點(diǎn)和缺點(diǎn)340
12.4.5非監(jiān)督式學(xué)習(xí)-鳶尾花數(shù)據(jù)340
12.4.6美國大學(xué)數(shù)據(jù)341
12.5Boosting學(xué)習(xí)342
12.6Stacking學(xué)習(xí)343
12.6.1皮瑪數(shù)據(jù)343
12.6.2員工離職數(shù)據(jù)344
12.7R語言實(shí)戰(zhàn)345
12.7.1紅酒數(shù)據(jù)345
12.7.2信用數(shù)據(jù)347
12.7.3皮瑪數(shù)據(jù)348
12.7.4波士頓房?jī)r(jià)數(shù)據(jù)349
12.7.5汽車座椅數(shù)據(jù)352
12.7.6顧客流失數(shù)據(jù)353
12.8本章思維導(dǎo)圖356
3章推薦系統(tǒng)357
13.1推薦系統(tǒng)概述358
13.2過濾推薦359
13.2.1相似度360
13.2.2基于用戶的協(xié)同過濾360
13.2.3基于項(xiàng)目的協(xié)同過濾361
13.2.4協(xié)同過濾的評(píng)價(jià)362
13.2.5協(xié)同過濾的優(yōu)點(diǎn)和缺點(diǎn)363
13.2.6混合的推薦機(jī)制3
13.3R語言應(yīng)用365
13.3.1推薦系統(tǒng)R語言包365
13.3.2recommenderlab函數(shù)程序366
13.3.3模擬數(shù)據(jù)367
13.4R語言實(shí)戰(zhàn)369
13.4.1電影數(shù)據(jù)369
13.4.2笑話數(shù)據(jù)373
13.5本章思維導(dǎo)圖378
結(jié)語379
參考文獻(xiàn)381