R語(yǔ)言高效能實(shí)戰(zhàn) 更多數(shù)據(jù)和更快速度
定 價(jià):79.9 元
- 作者:劉藝非
- 出版時(shí)間:2022/3/1
- ISBN:9787115584403
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP312
- 頁(yè)碼:258
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)將目標(biāo)設(shè)定為“在一臺(tái)筆記本電腦上使用R語(yǔ)言處理較大的數(shù)據(jù)集”,從單機(jī)大型數(shù)據(jù)集處理策略、提升計(jì)算性能、其他工具和技巧3個(gè)方面介紹了使用R語(yǔ)言處理數(shù)據(jù)時(shí)的實(shí)用方法。包括數(shù)據(jù)集占用空間、善用data.table處理數(shù)據(jù)、數(shù)據(jù)分塊處理、提升硬盤(pán)資源使用效率、并行編程技術(shù)、提升機(jī)器學(xué)習(xí)性能,以及其他資源管理和提高性能的實(shí)用策略。幫助讀者處理較大的數(shù)據(jù)集、挖掘R的開(kāi)發(fā)潛能。
本書(shū)適合有一定R語(yǔ)言基礎(chǔ)的讀者閱讀,也適合作為R語(yǔ)言實(shí)踐工具書(shū)。
1.用更行之有效的data.table替代繁瑣的iris處理繁瑣數(shù)據(jù),提高數(shù)據(jù)處理速度;
2.幫助讀者用內(nèi)存不大的個(gè)人筆記本處理大型數(shù)據(jù)集;
3.提供配套代碼文件,方便讀者學(xué)習(xí)練習(xí);
劉藝非,中山大學(xué)社會(huì)學(xué)碩士,8年數(shù)據(jù)科學(xué)相關(guān)工作經(jīng)歷,曾在公益慈善、房地產(chǎn)、電信運(yùn)營(yíng)商等行業(yè)擔(dān)任過(guò)數(shù)據(jù)分析師及數(shù)據(jù)挖掘工程師。在工作過(guò)程中對(duì)R語(yǔ)言、Python、SAS、STATA、SPSS等主流數(shù)據(jù)科學(xué)工具均有使用經(jīng)驗(yàn)和心得。
第 1章 簡(jiǎn)單直接的策略—
減少數(shù)據(jù)占用空間 1
1.1 保留必要的數(shù)據(jù) 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 設(shè)置合適的數(shù)據(jù)類(lèi)型 13
1.3 本章小結(jié) 15
第 2章 簡(jiǎn)單直接的策略—
減少數(shù)據(jù)占用空間 1
1.1 保留必要的數(shù)據(jù) 1
1.1.1 保留必要的列 2
1.1.2 保留必要的行 4
1.2 設(shè)置合適的數(shù)據(jù)類(lèi)型 13
1.3 本章小結(jié) 15
第3章 基于內(nèi)存的“快工具”—
data.table 16
2.1 數(shù)據(jù)讀入操作 17
2.1.1 讀入單個(gè)數(shù)據(jù) 17
2.1.2 讀入多個(gè)數(shù)據(jù) 20
2.2 數(shù)據(jù)基本行列操作 23
2.3 數(shù)據(jù)合并、分組匯總操作 32
2.4 dtplyr:data.table和dplyr的結(jié)合 39
2.5 本章小結(jié) 46
第4章 逐塊擊破—數(shù)據(jù)分塊處理 47
3.1 使用iotools庫(kù)實(shí)現(xiàn)分塊處理 47
3.2 使用readr庫(kù)實(shí)現(xiàn)分塊處理 57
3.3 本章小結(jié) 60
第4章 突破內(nèi)存限制—
利用硬盤(pán)資源 61
4.1 實(shí)現(xiàn)R與關(guān)系型數(shù)據(jù)庫(kù)管理
系統(tǒng)協(xié)作 61
4.2 使用bigmemory體系處理大型矩陣 66
4.3 使用ff體系處理大型數(shù)據(jù)框 73
4.3.1 ff體系基本數(shù)據(jù)操作 73
4.3.2 ff體系與關(guān)系型數(shù)據(jù)庫(kù)
系統(tǒng)協(xié)作 81
4.4 新一代工具disk.frame 83
4.5 本章小結(jié) 93
第5章 友好的可視化工具—
trelliscope 94
5.1 實(shí)現(xiàn)交互式大型分面可視化 94
5.2 本章小結(jié) 100
第6章 讓R更快—并行編程 101
6.1 R并行編程技術(shù)概覽 101
6.2 并行計(jì)算第三方庫(kù) 103
6.2.1 snow庫(kù) 104
6.2.2 multicore庫(kù) 104
6.2.3 parallel庫(kù) 105
6.2.4 future庫(kù) 106
6.2.5 foreach庫(kù) 107
6.3 網(wǎng)絡(luò)數(shù)據(jù)爬取案例 108
6.3.1 利用foreach并行循環(huán)
進(jìn)行爬取 109
6.3.2 利用tidyverse和future相結(jié)合
進(jìn)行爬取 119
6.3.3 文本分詞及整潔化處理 125
6.4 本章小結(jié) 132
第7章 提升機(jī)器學(xué)習(xí)效能—
R的基礎(chǔ)策略 134
7.1 使用foreach實(shí)現(xiàn)并行循環(huán) 136
7.2 使用更優(yōu)化的第三方庫(kù) 140
7.3 使用caret框架結(jié)合并行計(jì)算 145
7.4 本章小結(jié) 157
第8章 整潔流暢的框架—
tidymodels 158
8.1 建立簡(jiǎn)單工作流 159
8.2 工作流比較 166
8.3 工作流超參數(shù)調(diào)優(yōu) 169
8.4 多工作流同時(shí)調(diào)優(yōu) 176
8.5 本章小結(jié) 180
第9章 靈活強(qiáng)大的框架—mlr3 181
9.1 數(shù)據(jù)及模型的創(chuàng)建 182
9.2 利用future支持mlr3計(jì)算任務(wù) 190
9.3 嵌套重抽樣過(guò)程 201
9.4 以圖管理機(jī)器學(xué)習(xí)工作流 204
9.5 本章小結(jié) 213
第 10章 強(qiáng)強(qiáng)聯(lián)合—利用
reticulate庫(kù)借力Python 214
10.1 配置Python環(huán)境 215
10.2 在R中用Python代碼編程 217
10.3 以R編程方式使用Python 223
10.4 本章小結(jié) 227
第 11章 簡(jiǎn)單高效的自動(dòng)機(jī)器學(xué)習(xí)
工具—H2O 228
11.1 H2O基本使用方法 229
11.2 H2O自動(dòng)機(jī)器學(xué)習(xí) 242
11.3 本章小結(jié) 247
第 12章 善其事,利其器—
其他策略和工具 248
12.1 內(nèi)存及硬盤(pán)資源管理類(lèi)策略 248
12.1.1 讀取壓縮文件 248
12.1.2 以rds格式保存中間結(jié)果 250
12.1.3 垃圾回收機(jī)制 251
12.1.4 R的內(nèi)存管理工具 251
12.1.5 使用pryr庫(kù) 252
12.2 計(jì)算效能提升類(lèi)策略 254
12.2.1 函數(shù)編譯 255
12.2.2 使用benchmarkme庫(kù) 256
12.3 使用R的增強(qiáng)發(fā)行版本 258
12.3.1 Microsoft R Open 258
12.3.2 Microsoft R Client 260
12.4 其他數(shù)據(jù)科學(xué)工具 261
12.4.1 SAS(Statistical Analysis
System) 261
12.4.2 Python 262
12.5 本章小結(jié) 264