最新国产乱视频伦在线,亚洲AV无码乱码国产精品果冻,91九色最新地址

本書針對大數(shù)據(jù)處理的兩種典型方式,即批處理和流處理，介紹了當(dāng)前Apache軟件基金會三大軟件開源項目Hadoop、Spark和Storm中主要的存儲及計算框架。本書從初學(xué)者的角度出發(fā)，聚焦于大數(shù)據(jù)處理框架的基本原理以及安裝和部署等實踐過程。通過本書的學(xué)習(xí)，讀者在了解處理框架的結(jié)構(gòu)、設(shè)計原理以及執(zhí)行流程等原理性知識的同時，還可以結(jié)合本書給出的完整部署過程以及WordCount等示例的完整源代碼，熟悉如何使用這些處理框架來編寫大數(shù)據(jù)處理程序以及大數(shù)據(jù)處理程序的基本結(jié)構(gòu)。
本書配套PPT、源代碼等資源，歡迎選用本書作為教材的老師登錄機(jī)工教育服務(wù)網(wǎng)www.cmpedu.com注冊下載。
本書可作為高等院校計算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)及人工智能或相關(guān)專業(yè)的本科生或研究生教材，也可供相關(guān)工程技術(shù)人員閱讀參考。

隨著手機(jī)和攝像頭等大量移動設(shè)備的使用、Web 2.0和社交網(wǎng)絡(luò)帶來的數(shù)據(jù)產(chǎn)生方式的轉(zhuǎn)變，以及云計算、Hadoop、Spark等的出現(xiàn)，大數(shù)據(jù)越來越多地對人們的生活、企業(yè)的運營以及國家的治理和安全產(chǎn)生深遠(yuǎn)的影響。在這種情況下，研究大數(shù)據(jù)處理技術(shù)，培養(yǎng)大數(shù)據(jù)專業(yè)人才得到了國家和社會各界的廣泛重視。當(dāng)前，已經(jīng)有越來越多的高校開設(shè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)，也有越來越多的人學(xué)習(xí)大數(shù)據(jù)處理技術(shù)。
1本書的定位
對于初次接觸大數(shù)據(jù)處理技術(shù)的讀者來說，了解大數(shù)據(jù)處理框架的基本原理并能夠搭建運行和開發(fā)環(huán)境，編寫簡單的應(yīng)用代碼，進(jìn)而掌握大數(shù)據(jù)處理程序的基本結(jié)構(gòu)與編寫流程，往往是有難度的。
本書面向大數(shù)據(jù)處理技術(shù)的初學(xué)者，在介紹大數(shù)據(jù)處理框架的結(jié)構(gòu)、設(shè)計原理以及執(zhí)行流程等原理性知識的同時，還給出了大數(shù)據(jù)處理框架的完整安裝過程以及WordCount等示例的完整程序代碼，并對代碼進(jìn)行詳細(xì)的注釋說明。本書強(qiáng)調(diào)完整的安裝過程和示例代碼，可以省去讀者查找安裝過程、代碼以及調(diào)試代碼Bug所帶來的麻煩。在介紹安裝過程和示例代碼的過程中盡可能地對大數(shù)據(jù)處理框架涉及的諸如Linux命令、文件系統(tǒng)、分布式日志收集工具Flume等相關(guān)知識點進(jìn)行了簡單的介紹，可節(jié)省讀者了解相關(guān)背景知識所需要的時間。
2本書的主要內(nèi)容
本書主要聚焦于大數(shù)據(jù)處理的兩種主要方式，即批處理和流處理，介紹當(dāng)前Apache軟件基金會的三大軟件開源項目Hadoop、Spark和Storm中的主要存儲和計算組件。由于Hadoop與Spark的組件眾多，從實際應(yīng)用開發(fā)者的角度出發(fā)，針對Hadoop主要介紹HDFS、MapReduce和HBase三個組件，針對Spark主要介紹Spark的核心框架以及Spark應(yīng)用于流處理的Spark Streaming組件。
HDFS、MapReduce和HBase是Hadoop的核心組件。HDFS是Hadoop的分布式文件系統(tǒng)，HBase是Hadoop的分布式數(shù)據(jù)庫，兩者主要解決的是大數(shù)據(jù)的可靠存儲。MapReduce和Spark的核心框架主要應(yīng)用于大數(shù)據(jù)的批處理。Spark作為MapReduce之后發(fā)布的批處理框架，彌補了MapReduce的一些局限性，具有了更強(qiáng)的計算表達(dá)能力以及更快的處理速度。但是，本書仍然對MapReduce進(jìn)行介紹，這是因為Spark的設(shè)計借鑒了MapReduce，理解MapReduce有助于更好地理解Spark。
對于流處理框架，將介紹Spark Streaming和Storm。兩者代表了實際中兩種不同的流處理方式。Spark Streaming基于Spark核心框架的批處理功能將數(shù)據(jù)流分成不同的時間片段，然后針對每個時間片段的數(shù)據(jù)進(jìn)行批處理。因此，Spark Streaming對數(shù)據(jù)流的處理過程并不是完全的實時處理，而Storm采取的是實時處理。
本書的所有安裝和運行過程都是在單機(jī)的一個虛擬機(jī)中完成的，方便讀者進(jìn)行實踐。所有的安裝過程和程序代碼都經(jīng)過作者的親自實踐，但是編寫這些安裝過程和代碼時可能出現(xiàn)錯誤，如果在學(xué)習(xí)過程中發(fā)現(xiàn)問題，請聯(lián)系作者，郵箱為liuchun@henu.edu.cn。

劉春
河南省時空大數(shù)據(jù)產(chǎn)業(yè)技術(shù)研究院
大數(shù)據(jù)基本處理框架原理與實踐

你還可能感興趣

我要評論