Hadoop大數(shù)據(jù)平臺(tái)構(gòu)建與應(yīng)用(第2版)(微課版)
定 價(jià):55 元
- 作者:馬榮飛
- 出版時(shí)間:2024/7/1
- ISBN:9787121481604
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:260
- 紙張:
- 版次:01
- 開本:16開
本書基于Hadoop大數(shù)據(jù)平臺(tái),講解大數(shù)據(jù)平臺(tái)的搭建與運(yùn)維、數(shù)據(jù)的采集與存儲(chǔ)、數(shù)據(jù)的處理、數(shù)據(jù)的分析、數(shù)據(jù)的可視化等完整的大數(shù)據(jù)應(yīng)用案例,不僅全面、詳細(xì)地講述Hadoop、MapReduce、HDFS、Hive、Spark和ZooKeeper等技術(shù)的相關(guān)知識(shí),還詳細(xì)介紹Hadoop集群和Hadoop HA集群的部署等內(nèi)容。本書具有較強(qiáng)的實(shí)用性和可操作性,語言精練,通俗易懂,操作步驟描述詳盡,并配有大量操作圖例。
馬榮飛,生于1968年,男,漢族,碩士,畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。全國技術(shù)能手、浙江工匠、臺(tái)州市高端人才、國家級(jí)職業(yè)教育物聯(lián)網(wǎng)應(yīng)用技術(shù)專業(yè)教師教學(xué)團(tuán)隊(duì)負(fù)責(zé)人,浙江省計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)優(yōu)勢(shì)專業(yè)負(fù)責(zé)人。
項(xiàng)目1 Ubuntu系統(tǒng)的安裝與使用 1
1.1 大數(shù)據(jù)技術(shù)與Hadoop平臺(tái)生態(tài) 1
1.1.1 大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)關(guān)鍵技術(shù) 2
1.1.3 大數(shù)據(jù)涉及的主要軟件 4
1.1.4 Hadoop平臺(tái)技術(shù)的生態(tài) 4
1.2 Ubuntu系統(tǒng)安裝 7
1.2.1 安裝VMware Workstation 7
1.2.2 在虛擬機(jī)中安裝Ubuntu系統(tǒng) 12
1.2.3 VMware快照 28
1.2.4 中英文輸入法切換 30
1.2.5 安裝VMware Tools 30
1.2.6 案例1-1:安裝vim編輯器并使用 34
1.2.7 案例1 2:apt更新與更新源項(xiàng)目實(shí)踐 36
1.2.8 案例1 3:安裝SSH實(shí)踐 39
1.3 Linux系統(tǒng)簡(jiǎn)介與應(yīng)用 40
1.3.1 Linux系統(tǒng)的目錄結(jié)構(gòu) 40
1.3.2 超級(jí)用戶——root用戶 42
1.3.3 目錄標(biāo)記規(guī)則 43
1.3.4 案例1 4:普通用戶與超級(jí)用戶互轉(zhuǎn)實(shí)例 43
1.3.5 案例1 5:創(chuàng)建與刪除普通用戶 44
1.3.6 案例1-6:為用戶授予目錄權(quán)限實(shí)例 45
1.3.7 案例1 7:修改主機(jī)名操作實(shí)踐 46
1.3.8 案例1 8:目錄和文件操作實(shí)踐 47
1.3.9 案例1-9:文件解壓縮操作實(shí)踐 48
1.3.10 案例1-10:進(jìn)程與端口查看命令操作實(shí)踐 49
1.3.11 案例1 11:數(shù)據(jù)流重定向和管道使用操作實(shí)踐 50
1.4 在Ubuntu系統(tǒng)中安裝Eclipse項(xiàng)目實(shí)踐 51
1.4.1 通過軟件中心下載并安裝Eclipse 51
1.4.2 在桌面中創(chuàng)建Eclipse快捷方式 53
1.5 思考與操作 53
項(xiàng)目2 Hadoop偽分布式模式部署 56
2.1 深入了解Hadoop 56
2.1.1 Hadoop發(fā)行版本介紹 56
2.1.2 Hadoop核心架構(gòu) 57
2.1.3 Hadoop的主要應(yīng)用場(chǎng)景 58
2.2 安裝Java環(huán)境(JDK) 59
2.3 安裝Hadoop實(shí)踐 61
2.3.1 下載Hadoop安裝文件并解壓縮 61
2.3.2 配置Hadoop環(huán)境變量 62
2.3.3 配置偽分布式模式 63
2.3.4 Hadoop無法正常啟動(dòng)和使用的解決方法 66
2.4 思考與操作 67
項(xiàng)目3 分布式文件系統(tǒng)HDFS 69
3.1 HDFS基本知識(shí) 69
3.1.1 分布式文件系統(tǒng)(DFS)簡(jiǎn)介 69
3.1.2 Hadoop分布式文件系統(tǒng)(HDFS) 70
3.1.3 HDFS存儲(chǔ)數(shù)據(jù) 70
3.2 使用Shell命令與HDFS進(jìn)行交互操作實(shí)踐 72
3.2.1 Hadoop Shell命令方式 72
3.2.2 案例3-1:目錄操作實(shí)踐 73
3.2.3 案例3-2:文件操作實(shí)踐 74
3.2.4 案例3-3:利用Web管理界面管理HDFS 75
3.3 利用Java API編程與HDFS實(shí)現(xiàn)交互實(shí)踐 76
3.3.1 在Eclipse中創(chuàng)建HDFS交互Java項(xiàng)目的基本步驟 76
3.3.2 在Java項(xiàng)目中編寫Java應(yīng)用程序代碼 81
3.3.3 編譯并運(yùn)行程序與打包 83
3.3.4 練習(xí)用的代碼文件 88
3.4 思考與操作 91
項(xiàng)目4 HBase偽分布式模式部署與使用 94
4.1 HBase介紹 94
4.2 安裝HBase 95
4.3 HBase偽分布式模式部署實(shí)踐 97
4.4 HBase Shell常用操作命令實(shí)踐 100
4.4.1 HBase表結(jié)構(gòu)形式和常用的表操作命令 100
4.4.2 案例4-1:在HBase數(shù)據(jù)庫中創(chuàng)建表和刪除表 101
4.4.3 案例4-2:HBase數(shù)據(jù)庫基本操作 102
4.5 思考與操作 104
項(xiàng)目5 MapReduce基礎(chǔ)編程實(shí)踐 107
5.1 MapReduce介紹與基本原理 107
5.1.1 MapReduce在現(xiàn)實(shí)生活中的例子描述 107
5.1.2 通過案例拆解MapReduce的工作過程 108
5.1.3 MapReduce的工作過程概括 112
5.2 MapReduce編程思路 112
5.3 MapReduce編程實(shí)踐:?jiǎn)卧~統(tǒng)計(jì)(WordCount)案例 113
5.3.1 在Java項(xiàng)目中添加MapReduce編程支持功能 113
5.3.2 編寫程序 116
5.3.3 編譯與打包及運(yùn)行程序 121
5.4 MapReduce編程項(xiàng)目:計(jì)算學(xué)生的平均成績 125
5.5 思考與操作 128
項(xiàng)目6 Hive偽分布式模式部署與使用 131
6.1 Hive的特點(diǎn) 131
6.2 Hive偽分布式模式部署實(shí)踐 132
6.2.1 安裝與配置Hive 132
6.2.2 安裝與配置MySQL讀寫Hive元數(shù)據(jù)庫 133
6.3 MySQL數(shù)據(jù)庫操作 137
6.3.1 常用命令介紹 137
6.3.2 無法登錄MySQL的解決方法 139
6.4 思考與操作 140
項(xiàng)目7 數(shù)據(jù)分析與Hive數(shù)據(jù)庫操作 142
7.1 Hive操作命令介紹及實(shí)踐 142
7.2 HQL中的“CASE WHEN THEN ELSE END”命令的用法 144
7.3 單詞統(tǒng)計(jì) 147
7.4 人口收入數(shù)據(jù)綜合分析 148
7.4.1 項(xiàng)目實(shí)現(xiàn)目標(biāo) 149
7.4.2 數(shù)據(jù)結(jié)構(gòu)分析與安全配置條件 149
7.4.3 目標(biāo)實(shí)現(xiàn)操作 150
7.5 思考與操作 153
項(xiàng)目8 Spark安裝與基礎(chǔ)編程 155
8.1 Spark的安裝(Python版)實(shí)踐 155
8.1.1 下載Spark安裝文件 156
8.1.2 安裝與配置Spark 156
8.1.3 在pyspark中運(yùn)行代碼 157
8.1.4 Spark獨(dú)立應(yīng)用程序編程案例實(shí)踐 158
8.2 Spark的一些基本概念 159
8.3 RDD編程操作 160
8.3.1 RDD操作的兩種類型 160
8.3.2 創(chuàng)建RDD操作實(shí)踐案例 161
8.3.3 鍵值對(duì)RDD的創(chuàng)建案例 165
8.4 從RDD到DataFrame實(shí)踐 168
8.4.1 Spark SQL和DataFrame 168
8.4.2 創(chuàng)建樣例數(shù)據(jù)文件 170
8.4.3 從JSON文件和CSV文件中讀取數(shù)據(jù)生成DataFrame 171
8.4.4 從普通文本文件中讀取數(shù)據(jù)生成DataFrame 172
8.5 Spark項(xiàng)目編程與Python可視化 175
8.5.1 Spark項(xiàng)目編程實(shí)踐 176
8.5.2 Python可視化呈現(xiàn) 179
8.6 思考與操作 185
項(xiàng)目9 Hadoop從完全分布式到HA安裝與使用 190
9.1 Hadoop HA模式介紹 190
9.1.1 Hadoop HA模式的背景 190
9.1.2 Hadoop HA模式的架構(gòu) 191
9.2 安裝虛擬機(jī)系統(tǒng)項(xiàng)目實(shí)踐 192
9.2.1 在VMware Workstation中創(chuàng)建虛擬機(jī) 193
9.2.2 安裝CentOS 7系統(tǒng) 199
9.2.3 設(shè)置網(wǎng)絡(luò)靜態(tài)IP地址 201
9.2.4 使用XShell 6登錄CentOS虛擬機(jī) 204
9.2.5 預(yù)先統(tǒng)一安裝軟件命令或預(yù)先配置設(shè)置 207
9.2.6 克隆3個(gè)虛擬機(jī) 208
9.3 命名節(jié)點(diǎn)主機(jī)名稱并設(shè)置SSH免密登錄 209
9.3.1 修改各節(jié)點(diǎn)虛擬機(jī)主機(jī)名 209
9.3.2 實(shí)現(xiàn)主機(jī)名與IP地址映射 210
9.3.3 設(shè)置SSH免密登錄 210
9.4 安裝JDK實(shí)踐 215
9.5 安裝與配置ZooKeeper實(shí)踐 218
9.5.1 安裝ZooKeeper 218
9.5.2 啟動(dòng)和關(guān)閉ZooKeeper 221
9.6 配置Hadoop完全分布式集群 224
9.6.1 上傳、解壓縮Hadoop安裝文件與配置環(huán)境變量 224
9.6.2 將Hadoop配置為完全分布式模式 225
9.7 部署Hadoop HA集群實(shí)踐 229
9.7.1 編輯Hadoop HA集群配置文件 229
9.7.2 將修改后的Hadoop HA集群配置文件分發(fā)到各個(gè)節(jié)點(diǎn) 233
9.7.3 第一次啟動(dòng)Hadoop HA集群 234
9.7.4 常規(guī)啟動(dòng)Hadoop HA集群 239
9.7.5 Hadoop HA集群部署完成后的常規(guī)啟動(dòng)和關(guān)閉順序 240
9.7.6 在Hadoop HA集群上測(cè)試WordCount程序 243
9.8 思考與操作 244