本書較為系統(tǒng)地講解了大數(shù)據(jù)處理平臺Hadoop和Spark生態(tài)系統(tǒng)的相關(guān)技術(shù)原理、使用方法和開發(fā)技術(shù),全書共11章,主要包括大數(shù)據(jù)技術(shù)概述、大數(shù)據(jù)處理平臺Hadoop、分布式文件系統(tǒng)HDFS、分布式計算框架MapReduce、Hadoop的發(fā)展和演化、數(shù)據(jù)倉庫Hive、分布式數(shù)據(jù)庫HBase、Spark的基本概念和整體架構(gòu)及集群安裝、Spark核心編程、Spark生態(tài)系統(tǒng)、Flinkk基本概念和體系結(jié)構(gòu)及編程實踐。
隨著計算機及互聯(lián)網(wǎng)的飛速發(fā)展,當今社會已進入大數(shù)據(jù)時代,大數(shù)據(jù)帶來了信息技術(shù)的巨大變革,并深刻影響著人類社會生產(chǎn)和生活的方方面面。2020 年,國家推出了新基建戰(zhàn)略,將5G、大數(shù)據(jù)中心、人工智能和工業(yè)互聯(lián)網(wǎng)等列為新型基礎設施建設的重點。在國家政策的引領下,各行各業(yè)都將大數(shù)據(jù)產(chǎn)業(yè)列為優(yōu)先發(fā)展目標,而任何行業(yè)的興起最需要的就是相關(guān)人才,特別是會分析數(shù)據(jù)、懂領域業(yè)務的復合型人才,目前大數(shù)據(jù)相關(guān)人才供不應求。在新的需求背景下,我國的高等教育也進入一個新的發(fā)展時期,尤其是相關(guān)大數(shù)據(jù)與人工智能方面的教育。
本書以大數(shù)據(jù)技術(shù)為中心,系統(tǒng)論述了大數(shù)據(jù)處理生態(tài)系統(tǒng)的核心開發(fā)技術(shù)。本書共分十一章。第1 章緒論,介紹了大數(shù)據(jù)的發(fā)展背景、大數(shù)據(jù)處理的關(guān)鍵技術(shù)和系統(tǒng)框架以及大數(shù)據(jù)的應用。第2 章大數(shù)據(jù)處理框架Hadoop,論述了Hadoop 的發(fā)展歷程、生態(tài)系統(tǒng)、特點和應用場景,并論述了Hadoop 集群搭建和安裝配置。第3 章分布式文件系統(tǒng)HDFS,論述了HDFS 的體系結(jié)構(gòu)、工作機制和訪問方式,并用Java 復制文件到HDFS。第4 章分布式計算框架MapReduce,論述了MapReduce 的設計構(gòu)思、運行理論、編程模型和機制,并開發(fā)詞頻統(tǒng)計MapReduce 程序。第5 章Hadoop 的發(fā)展與優(yōu)化,論述了HDFS 的高可用和聯(lián)邦、資源管理調(diào)度框架YARN 和分布式協(xié)調(diào)服務組件Zookeeper,并開發(fā)一個YARN 客戶端應用。第6 章分布式數(shù)據(jù)HBase,論述了HBase 的使用場景、架構(gòu)和存儲原理以及安裝,并實踐HBase Shell 操作。第7 章數(shù)據(jù)倉庫Hive,論述了Hive 的運行原理、數(shù)據(jù)類型與HiveQL 語句使用、分區(qū)和分桶使用、自定義函數(shù)開發(fā)等,并使用HiveQL 語句導入數(shù)據(jù)到HDFS。第8 章基于內(nèi)存的分布式計算框架Spark,論述了Spark 的相關(guān)背景知識、生態(tài)系統(tǒng)、架構(gòu)及運行原理和應用場景,以及Spark 的安裝啟動和Spark shell 的基本操作。第9 章Spark 核心編程,對RDD 各種操作進行了較為全面的解釋,還對Spark DAG 機制和Spark Stage 進行了詳細的論述,可以讓讀者更好地理解RDD 的執(zhí)行過程。第10 章Spark 生態(tài)系統(tǒng),論述了Spark SQL、Spark Streaming 及 Structured Streaming、Spark MLlib、Spark GraphX 及其應用場景等。第11 章流式數(shù)據(jù)處理引擎Flink,論述了Flink 的基本組件和架構(gòu)、Flink編程模型、Flink 的部署及應用等。
本書具有以下特點:
1. 強調(diào)目標性,融入思政元素。每章設置學習目標,引導學生學習,啟發(fā)學生思考。本書結(jié)合課程教學內(nèi)容融入思政元素,在章末尾設置思政小講堂,以學生為中心,將課程思政真正融入課堂教學中。
2. 強化實踐性。本書基于新工科課程體系建設過程中大數(shù)據(jù)運維、大數(shù)據(jù)分析處理等技術(shù)基礎的理論與實踐,在介紹實用知識體系的同時注重對相關(guān)基礎理論的講解,以便學生融會貫通,達到理論與實踐的有機結(jié)合,并強調(diào)實踐性,在每章都提供了比較充足的實踐內(nèi)容。感謝合作企業(yè)的工程師和課程教學團隊的每位成員,是他們的幫助,使本書得以順利完成編寫并不斷完善。書中的實戰(zhàn)內(nèi)容由編者聯(lián)合江蘇知途教育科技有限公司的工程師共同完成。
在本書的編寫過程中,編者參考了國內(nèi)外出版的一些教材、報刊、文獻和網(wǎng)絡資源,吸收了學者們最新的研究成果,在此謹對所參考的資料的版權(quán)所有者表示衷心感謝!在編寫過程中,得到了江蘇知途教育科技有限公司李瑞芝經(jīng)理的幫助,他為完善本書付出了很多努力,同時還得到了華納信息科技有限公司的大力支持,在此一并表示感謝!
由于時間倉促、編者水平有限,書中的不足之處在所難免,尚望同行專家及讀者不吝賜教,以便今后進一步完善修改。
羅金炎,工學碩士,閩江學院副教授,主要研究方向為智能優(yōu)化算法、機器學習、人工智能等。主要講授程序設計基礎C語言、Hadoop原理及應用、大數(shù)據(jù)技術(shù)與應用、人工神經(jīng)網(wǎng)絡與深度學習等課程,參編教材2部。曾主持多項省自然科學基金項目、;痦椖俊M向項目等,發(fā)表學術(shù)論文30多篇。 董正山,應用數(shù)學博士,現(xiàn)任閩江學院數(shù)學與數(shù)據(jù)科學學院講師。主要從事優(yōu)化理論與算法、機器學習、數(shù)據(jù)分析等相關(guān)領域的理論與應用研究,已經(jīng)在國內(nèi)外重要學術(shù)期刊上發(fā)表論文5篇。個人曾在企業(yè)從事過視頻數(shù)據(jù)智能分析等相關(guān)工作3年,擁有數(shù)據(jù)分析、人工智能等工程實踐經(jīng)驗。 雷進宇,博士,現(xiàn)任閩江學院數(shù)學與數(shù)據(jù)科學學院講師。主要從事船舶軌跡數(shù)據(jù)挖掘、時空數(shù)據(jù)可視分析及智能交通信息系統(tǒng)的研究。主要主持或參與國家級、省級科學基金多項。在國內(nèi)外學術(shù)刊物發(fā)表了10余篇學術(shù)論文,獲得國家專利4項,軟件著作權(quán)2項。