本書主要內容包括大數據概論、初識Hadoop、Linux基礎、Hadoop集群搭建、HDFS分布式文件系統(tǒng)、MapReduce分布式計算框架、以及項目實戰(zhàn)--美國新冠疫情covid-19分析。
本書將理論與實踐結合,補充相關Linux基礎,注重大數據技術的系統(tǒng)性、實用性和先進性,配有大量的應用案例,不僅能夠幫助提高大數據技術的應用與研究水平,而且能提高讀者的綜合應用創(chuàng)新能力。
本書可作為高職院校大數據技術、計算機科學與計算、物聯(lián)網工程等專業(yè)教材,以及大數據相關技術人員參考使用。
第1章 大數據概論
1.1 大數據概述
1.2 大數據的行業(yè)應用
1.3 大數據的基本概念
1.4 本章小結
1.5 課后習題
第2章 初識Hadoop
2.1 Hadoop簡介
2.2 Hadoop生態(tài)圈介紹
2.3 本章小結
2.4 課后習題
第3章 Linux基礎
3.1 Linux簡介
3.2 Linux文件管理常用命令、Shell編程
3.2.1 Linux文件基礎知識
3.2.2 Shell編程基礎
3.2.3 Shell流程控制
3.3 本章小結
3.4 課后習題
第4章 Hadoop集群的搭建
4.1 Hadoop集群搭建前的準備
4.1.1 安裝虛擬機軟件
4.1.2 Hadoop集群規(guī)劃
4.1.3 在虛擬機軟件中安裝Linux操作系統(tǒng)
4.1.4 配置Linux系統(tǒng)網絡
4.1.5 SSH服務設置
4.2 Hadoop集群搭建
4.2.1 JDK安裝
4.2.2 Hadoop安裝
4.2.3 Hadoop集群配置
4.3 Hadoop集群啟動
4.3.1 文件系統(tǒng)格式化
4.3.2 啟動和關閉Hadoop集群
4.3.3 查看Hadoop集群運行狀態(tài)
4.4 Hadoop集群使用
4.5 本章小結
4.6 課后練習
第5章 HDFS分布式文件系統(tǒng)
5.1 HDFS簡介
5.1.1 HDFS演變
5.1.2 HDFS的基本概念
5.1.3 HDFS的特點
5.2 HDFS的讀寫
5.2.1 HDFS存儲架構
5.2.2 HDFS文件讀寫原理
5.3 HDFS Shell操作
5.3.1 HDFS的Shell操作
5.3.2 案例——Shell定時采集數據到HDFS
5.4 HDFS Java API操作
5.4.1 HDFS Java API介紹