大數(shù)據(jù)平臺技術(shù)實例教程
定 價:59 元
- 作者:鄭嘯
- 出版時間:2022/12/1
- ISBN:9787121453816
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:268
- 紙張:
- 版次:01
- 開本:16開
本書通過大量實例介紹大數(shù)據(jù)平臺技術(shù),分4篇。大數(shù)據(jù)存儲篇包括第1~3章,內(nèi)容包括大數(shù)據(jù)技術(shù)概述、數(shù)據(jù)采集和大數(shù)據(jù)、大數(shù)據(jù)框架的安裝和配置;大數(shù)據(jù)管理篇包括第4~7章,內(nèi)容包括HDFS、Hadoop分布式計算模型、分布式協(xié)調(diào)服務(wù)ZooKeeper、Hadoop的集群資源管理系統(tǒng)YARN;大數(shù)據(jù)分析篇包括第8~10章,內(nèi)容包括數(shù)據(jù)庫MySQL和數(shù)據(jù)倉庫Hive、NoSQL數(shù)據(jù)庫HBase、基于內(nèi)存的分布式計算框架Spark;大數(shù)據(jù)應(yīng)用篇包括第11、12章,內(nèi)容包括數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用綜合案例。 本書可作為高等學(xué)校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、計算機科學(xué)與技術(shù)、人工智能等理工類專業(yè)大數(shù)據(jù)平臺技術(shù)課程的教材,也可供廣大計算機愛好者及軟件開發(fā)人員參考。
鄭嘯,安徽工業(yè)大學(xué)教授,博士畢業(yè)于東南大學(xué)計算機應(yīng)用技術(shù)專業(yè),碩士生導(dǎo)師,安徽省高等學(xué)校優(yōu)秀中青年骨干教師。主攻方向為計算機網(wǎng)絡(luò)、工業(yè)互聯(lián)網(wǎng)、云計算與服務(wù)計算、數(shù)據(jù)隱私保護(hù)。
目錄
第1篇 大數(shù)據(jù)存儲篇
第1章 大數(shù)據(jù)技術(shù)概述 1
1.1 大數(shù)據(jù)源起和應(yīng)用 1
1.2 大數(shù)據(jù)技術(shù)框架 2
1.3 大數(shù)據(jù)就業(yè)崗位 5
1.4 大數(shù)據(jù)的特點 8
1.5 大數(shù)據(jù)的深遠(yuǎn)影響 9
1.6 大數(shù)據(jù)的意義和發(fā)展目標(biāo) 9
1.7 大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)、
人工智能的關(guān)系 10
1.8 教材在線資源及使用說明 12
1.9 本章思維導(dǎo)圖 14
1.10 習(xí)題 14
第2章 數(shù)據(jù)采集和大數(shù)據(jù) 15
2.1 數(shù)據(jù)采集和ETL 15
2.2 網(wǎng)絡(luò)爬蟲 15
2.2.1 通用網(wǎng)絡(luò)爬蟲與聚焦網(wǎng)絡(luò)
爬蟲 16
2.2.2 網(wǎng)絡(luò)爬蟲的工作過程 16
2.3 Python常用開發(fā)工具簡介 16
2.3.1 Python開發(fā)環(huán)境搭建 17
2.3.2 開發(fā)工具PyCharm 17
2.3.3 開發(fā)工具Jupyter Notebook 17
2.4 Python語言簡介 18
2.4.1 Python常見的數(shù)據(jù)類型 18
2.4.2 NumPy庫 22
2.5 基于Python的網(wǎng)絡(luò)爬蟲應(yīng)用
實例 25
2.5.1 Urllib庫介紹 25
2.5.2 數(shù)據(jù)采集和ETL實例 28
2.6 本章思維導(dǎo)圖 32
2.7 習(xí)題 32
第3章 大數(shù)據(jù)框架的安裝和配置 33
3.1 大數(shù)據(jù)框架配置環(huán)境 33
3.2 Linux操作系統(tǒng)介紹 34
3.2.1 Linux的發(fā)展歷史 34
3.2.2 Linux版本特點 35
3.2.3 Linux版本選擇 36
3.3 Linux終端常見命令 37
3.3.1 基本命令 37
3.3.2 目錄操作命令 38
3.3.3 文件操作命令 41
3.3.4 系統(tǒng)工作命令 51
3.3.5 其他常見命令 54
3.4 虛擬機的使用 57
3.5 遠(yuǎn)程登錄工具配置 57
3.6 Hadoop偽分布式安裝和使用 58
3.6.1 環(huán)境配置 58
3.6.2 配置SSH免密登錄 58
3.6.3 配置JDK 58
3.6.4 Hadoop偽分布式配置 59
3.6.5 運行WordCount實例 60
3.7 本章思維導(dǎo)圖 61
3.8 習(xí)題 62
第2篇 大數(shù)據(jù)管理篇
第4章 HDFS 63
4.1 引言 63
4.2 HDFS基礎(chǔ)知識 64
4.2.1 HDFS的特點 65
4.2.2 HDFS的優(yōu)缺點 65
4.2.3 HDFS的核心概念 66
4.2.4 HDFS執(zhí)行流程 66
4.3 HDFS的常用Shell命令 68
4.4 Hadoop中HDFS的Web管理
界面 72
4.5 基于Java API的HDFS操作 73
4.5.1 實驗環(huán)境配置 74
4.5.2 案例實現(xiàn) 76
4.6 本章思維導(dǎo)圖 78
4.7 習(xí)題 78
第5章 Hadoop分布式計算模型 79
5.1 完全分布式環(huán)境配置 79
5.2 完全分布式配置步驟 80
5.3 MapReduce計算模型 83
5.4 Mapper-Reducer實例 84
5.4.1 實驗準(zhǔn)備 84
5.4.2 案例實現(xiàn) 84
5.5 本章思維導(dǎo)圖 89
5.6 習(xí)題 89
第6章 分布式協(xié)調(diào)服務(wù)ZooKeeper 90
6.1 高可靠性大數(shù)據(jù)框架配置 90
6.2 ZooKeeper簡介 91
6.3 ZooKeeper的常用命令 92
6.4 ZooKeeper的安裝與運行 93
6.5 本章思維導(dǎo)圖 95
6.6 習(xí)題 95
第7章 Hadoop的集群資源管理系統(tǒng)
YARN 96
7.1 Hadoop資源管理配置 96
7.2 YARN簡介 97
7.3 YARN的工作流程 98
7.4 YARN的安裝與運行 99
7.5 本章思維導(dǎo)圖 100
7.6 習(xí)題 101
第3篇 大數(shù)據(jù)分析篇
第8章 數(shù)據(jù)庫MySQL和數(shù)據(jù)倉庫
Hive 102
8.1 基于Hive的大數(shù)據(jù)分析
配置 102
8.2 Hive的意義和應(yīng)用 103
8.3 Hive和數(shù)據(jù)庫的異同 104
8.4 Hive的架構(gòu)模式及其執(zhí)行 106
8.5 MySQL的安裝和使用 108
8.5.1 MySQL數(shù)據(jù)庫簡介 108
8.5.2 安裝MySQL 109
8.5.3 MySQL的基本操作 109
8.6 Hive的安裝 114
8.7 Hive表的操作 114
8.7.1 內(nèi)部表和外部表 114
8.7.2 Hive表的操作 115
8.8 典型內(nèi)置函數(shù)與自定義函數(shù) 118
8.8.1 空值轉(zhuǎn)換函數(shù)nvl 118
8.8.2 case when和sum函數(shù)的綜合
應(yīng)用 119
8.8.3 UDAF聚合函數(shù)concat 121
8.8.4 UDTF炸裂函數(shù)explode 123
8.8.5 窗口函數(shù) 124
8.8.6 自定義函數(shù)實例 127
8.9 本章思維導(dǎo)圖 131
8.10 習(xí)題 131
第9章 NoSQL數(shù)據(jù)庫HBase 132
9.1 大數(shù)據(jù)框架的數(shù)據(jù)庫存儲
配置 132
9.2 NoSQL概念和分類 133
9.3 HBase數(shù)據(jù)庫 134
9.3.1 HBase數(shù)據(jù)模型 135
9.3.2 HBase體系架構(gòu)及組件 136
9.4 HBase的安裝 137
9.4.1 偽分布式 137
9.4.2 完全分布式 137
9.4.3 HBase的啟動和關(guān)閉 138
9.4.4 HBase的網(wǎng)頁端 139
9.5 HBase的Shell操作 141
9.6 基于Java API訪問HBase
實例 146
9.6.1 準(zhǔn)備工作 146
9.6.2 Eclipse環(huán)境下編程 146
9.7 HBase綜合實例 150
9.8 本章思維導(dǎo)圖 157
9.9 習(xí)題 157
第10章 基于內(nèi)存的分布式計算
框架Spark 158
10.1 基于Spark的大數(shù)據(jù)分析框架
配置 158
10.2 Spark基礎(chǔ)知識 159
10.2.1 Spark的特點 159
10.2.2 Spark和Hadoop的比較 160
10.2.3 RDD的概念 161
10.2.4 Spark的運行機制 161
10.2.5 Spark的運行模式 163
10.3 Spark的安裝和使用 164
10.3.1 Spark安裝 164
10.3.2 Python 3和Jupyter安裝 165
10.3.3 啟動PySpark 166
10.4 Spark的常用操作 168
10.5 Spark SQL的應(yīng)用 174
10.6 Spark綜合應(yīng)用實例 178
10.7 Spark的機器學(xué)習(xí) 179
10.7.1 MLlib 179
10.7.2 Scala語言 180
10.7.3 MLlib的機器學(xué)習(xí)算法 181
10.7.4 Spark的機器學(xué)習(xí)流程 183
10.8 本章思維導(dǎo)圖 194
10.9 習(xí)題 194
第4篇 大數(shù)據(jù)應(yīng)用篇
第11章 數(shù)據(jù)可視化 195
11.1 可視化分析展示配置 195
11.2 數(shù)據(jù)可視化概述 195
11.3 數(shù)據(jù)可視化繪圖 197
11.3.1 繪制折線圖 197
11.3.2 繪制柱狀圖 198
11.3.3 繪制直方圖 199
11.3.4 繪制散點圖 200
11.3.5 繪制餅圖 201
11.3.6 繪制極坐標(biāo)圖 202
11.3.7 繪制雷達(dá)圖 203
11.3.8 繪制熱力圖 205
11.3.9 繪制3D圖 206
11.4 綜合實例—鳶尾花數(shù)據(jù)集的
可視化分析 207
11.4.1 實驗環(huán)境搭建 207
11.4.2 數(shù)據(jù)集介紹 208
11.4.3 數(shù)據(jù)可視化 208
11.5 本章思維導(dǎo)圖 217
11.6 習(xí)題 217
第12章 大數(shù)據(jù)應(yīng)用綜合案例 218
12.1 醫(yī)療大數(shù)據(jù)應(yīng)用框架配置 218
12.2 案例概述 218
12.2.1 背景和意義 218
12.2.2 預(yù)備知識 220
12.2.3 技術(shù)方案 223
12.3 準(zhǔn)備數(shù)據(jù)和開發(fā)環(huán)境配置 224
12.3.1 實驗環(huán)境安裝簡述 224
12.3.2 Sqoop的安裝和使用 225
12.3.3 數(shù)據(jù)集介紹 225
12.4 數(shù)據(jù)探索性分析 226
12.5 數(shù)據(jù)遷移 235
12.6 數(shù)據(jù)預(yù)處理 239
12.7 數(shù)據(jù)建模與訓(xùn)練 241
12.8 模型評估 244
12.8.1 特征重要性 244
12.8.2 混淆矩陣 245
12.8.3 評估指標(biāo) 245
12.8.4 ROC曲線 247
12.9 本章思維導(dǎo)圖 248
12.10 習(xí)題 248
附錄A 教材實驗 249
實驗1:基于Python的數(shù)據(jù)抓取和
清洗 249
實驗2:基于Linux的Hadoop偽
分布式安裝和操作 250
實驗3:分布式Hadoop的配置和
使用 252
實驗4:基于數(shù)據(jù)倉庫Hive的數(shù)據(jù)
分析 253
實驗5:NoSQL數(shù)據(jù)庫HBase
使用 255
實驗6:基于分布式Spark框架的
編程 256
實驗7:綜合案例設(shè)計與實現(xiàn) 258
參考文獻(xiàn) 260