无码国产一区二区三区,日日摸夜夜添夜夜添视频,91精品青草福利久久

本書(shū)針對(duì)Hadoop體系的基本技術(shù)方法進(jìn)行分析，并將理論與實(shí)際項(xiàng)目進(jìn)行結(jié)合。本書(shū)層次清晰，結(jié)構(gòu)合理，全書(shū)共分為11個(gè)章節(jié)，主要內(nèi)容包括Hadoop簡(jiǎn)介、Hadoop環(huán)境搭建、HDFS文件系統(tǒng)操作、MapReduce程序編寫、Hive安裝與配置、Hive操作、HBase安裝與配置、HBase操作與客戶端使用、Pig安裝與使用、Pig Latin的使用、Sqoop安裝與數(shù)據(jù)操作、大數(shù)據(jù)項(xiàng)目案例分析等。本書(shū)適合Hadoop的初學(xué)者進(jìn)行閱讀，也可作為高等院校相關(guān)課程的教學(xué)參考書(shū)。

2010年以后，信息產(chǎn)業(yè)進(jìn)入了大數(shù)據(jù)時(shí)代，Hadoop成為大數(shù)據(jù)分析的首選平臺(tái)和開(kāi)發(fā)標(biāo)準(zhǔn)，數(shù)據(jù)分析軟件紛紛向 Hadoop靠攏。在Hadoop原有技術(shù)基礎(chǔ)之上，涌現(xiàn)了Hadoop家族產(chǎn)品，它們正在配合大數(shù)據(jù)概念不斷創(chuàng)新，推動(dòng)科技進(jìn)步。因此，新一代IT精英都必須順應(yīng)潮流，抓住機(jī)遇，隨著 Hadoop一起發(fā)展和成長(zhǎng)!
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的，因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗，因此它維護(hù)多個(gè)工作數(shù)據(jù)副本，確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的，因?yàn)樗圆⑿械姆绞焦ぷ�，通過(guò)并行處理加快處理速度。
Hadoop體系下包含了一系列進(jìn)行數(shù)據(jù)處理、分析的組件，其中常見(jiàn)的組件包括Hive、HBase、Pig、Sqoop等。
Hive是一種底層封裝了Hadoop的數(shù)據(jù)倉(cāng)庫(kù)處理工具，使用類SQL的HiveQL 語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢，所有Hive的數(shù)據(jù)都存儲(chǔ)在Hadoop兼容的文件系統(tǒng)(例如，Amazon S3、HDFS)中。Hive在加載數(shù)據(jù)過(guò)程中不會(huì)對(duì)數(shù)據(jù)進(jìn)行任何修改，只是將數(shù)據(jù)移動(dòng)到HDFS中Hive設(shè)定的目錄下。Hive構(gòu)建在基于靜態(tài)批處理的Hadoop之上，Hadoop通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時(shí)候需要大量開(kāi)銷。因此，Hive并不能夠在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢。
作為NoSQL家庭的一員，HBase的出現(xiàn)彌補(bǔ)了Hadoop只能離線批處理的不足，同時(shí)能夠存儲(chǔ)小文件，提供海量數(shù)據(jù)的隨機(jī)檢索，并保證一定的性能。而這些特性也完善了整個(gè)Hadoop生態(tài)系統(tǒng)，泛化了其大數(shù)據(jù)的處理能力，結(jié)合其高性能、穩(wěn)定、擴(kuò)展性好的特性，給使用大數(shù)據(jù)的企業(yè)帶來(lái)了方便。
Pig是基于Hadoop的并行數(shù)據(jù)流處理開(kāi)源引擎。通過(guò)Pig無(wú)須開(kāi)發(fā)一個(gè)全功能的應(yīng)用程序就可以在集群中進(jìn)行數(shù)據(jù)批處理，這使得在新數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)變得更加容易。
Sqoop是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行相互轉(zhuǎn)移的工具，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如，MySQL、Oracle、PostgreSQL等)中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù)中。對(duì)于某些NoSQL數(shù)據(jù)庫(kù)，它也提供了連接器。Sqoop使用元數(shù)據(jù)模型來(lái)判斷數(shù)據(jù)類型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到Hadoop時(shí)確保類型安全的數(shù)據(jù)處理。Sqoop專為大數(shù)據(jù)批量傳輸設(shè)計(jì)，能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務(wù)來(lái)處理每個(gè)區(qū)塊。
本書(shū)針對(duì)Hadoop體系的基本技術(shù)方法進(jìn)行了分析，并提供了相應(yīng)的實(shí)例以幫助讀者進(jìn)一步加深了解。通過(guò)本書(shū)的學(xué)習(xí)，相信大家會(huì)在很短暫的時(shí)間內(nèi)掌握Hadoop體系的相關(guān)技術(shù)，為以后的工作、學(xué)習(xí)提供指導(dǎo)與幫助。
本書(shū)特色
本書(shū)作者從實(shí)踐出發(fā)，結(jié)合大量的教學(xué)經(jīng)驗(yàn)以及工程案例，深入淺出地介紹大數(shù)據(jù)技術(shù)架構(gòu)及相關(guān)組件。在章節(jié)的編排上，注重理論與實(shí)踐相結(jié)合。首先提出相關(guān)的理論背景，并進(jìn)行深入分析、講解，然后著重介紹相關(guān)技術(shù)的環(huán)境搭建，最后通過(guò)實(shí)際操作，加深讀者對(duì)技術(shù)的掌握及應(yīng)用。
通過(guò)項(xiàng)目實(shí)戰(zhàn)案例介紹相關(guān)組件在實(shí)際大數(shù)據(jù)處理中的關(guān)鍵應(yīng)用，本書(shū)介紹的Hadoop組件包括HDFS、MapReduce、Hive、HBase、Pig、Sqoop。
為了方便讀者對(duì)內(nèi)容的理解以及滿足相關(guān)教學(xué)、工作的需要，本書(shū)配套提供了真實(shí)的樣本數(shù)據(jù)文件、PPT課件以及實(shí)驗(yàn)視頻，讀者可以根據(jù)勘誤與支持中提供的聯(lián)系方式進(jìn)行咨詢或者獲取。
本書(shū)適用對(duì)象
本書(shū)內(nèi)容由淺入深，既適合初學(xué)者入門，也適合有一定基礎(chǔ)的技術(shù)人員進(jìn)一步提高技術(shù)水平。本書(shū)的讀者對(duì)象包括：
Hadoop初學(xué)者
Hadoop開(kāi)發(fā)人員
Hadoop管理人員
高等院校計(jì)算機(jī)相關(guān)專業(yè)的老師、學(xué)生
具有Hadoop相關(guān)經(jīng)驗(yàn)，并希望進(jìn)一步提高技術(shù)水平的讀者
如何閱讀本書(shū)
本書(shū)在章節(jié)的安排上，著眼于引導(dǎo)讀者以最快的速度上手Hadoop，本書(shū)一共包括11章，分為3個(gè)部分：基礎(chǔ)篇、高級(jí)篇、實(shí)戰(zhàn)篇。
基礎(chǔ)篇(第1~3章)：第1章的主要內(nèi)容包括Hadoop簡(jiǎn)介、Hadoop項(xiàng)目及架構(gòu)分析、Hadoop計(jì)算模型、Hadoop數(shù)據(jù)管理、Hadoop環(huán)境搭建；第2章針對(duì)Hadoop分布式文件系統(tǒng)HDFS進(jìn)行講解，包括HDFS基本操作、WebHDFS操作以及通過(guò)Java API進(jìn)行HDFS文件操作；第3章針對(duì)Hadoop分布式計(jì)算MapReduce進(jìn)行講解，并通過(guò)實(shí)戰(zhàn)案例幫助讀者加深對(duì)相關(guān)知識(shí)的理解。
高級(jí)篇(第4~10章)：第4章針對(duì)Hadoop中的數(shù)據(jù)倉(cāng)庫(kù)Hive進(jìn)行分析，包括Hive環(huán)境搭建、Hive數(shù)據(jù)定義；第5章介紹了Hive的使用，包括數(shù)據(jù)操作、數(shù)據(jù)查詢，并通過(guò)實(shí)戰(zhàn)案例幫助讀者進(jìn)行深入的了解；第6章針對(duì)HBase進(jìn)行詳細(xì)的介紹，包括HBase的發(fā)展歷史、HBase的特性、HBase與Hadoop的關(guān)系等，并講解如何進(jìn)行HBase環(huán)境的搭建；第7章針對(duì)HBase數(shù)據(jù)操作進(jìn)行講解，包括Shell工具的使用、基于HBase的Java客戶端的使用；第8章介紹了Pig數(shù)據(jù)流引擎的使用，包括Pig概述、Pig的安裝與配置、Pig命令行交互工具的使用；第9章針對(duì)Pig Latin進(jìn)行講解，主要內(nèi)容包括Pig Latin介紹、關(guān)系操作和用戶自定義函數(shù)的使用；第10章詳細(xì)講解Sqoop工具的使用，包括Sqoop概述、Sqoop安裝部署、Sqoop常用命令介紹和Sqoop數(shù)據(jù)操作。
實(shí)戰(zhàn)篇(第11章)：通過(guò)實(shí)際的大數(shù)據(jù)案例進(jìn)行分析講解，幫助讀者進(jìn)一步了解實(shí)際工程環(huán)境中Hadoop的應(yīng)用，本章主要內(nèi)容包括實(shí)戰(zhàn)項(xiàng)目背景與數(shù)據(jù)源分析、環(huán)境搭建、數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計(jì)分析以及定時(shí)任務(wù)處理。

致謝
在本書(shū)的編寫過(guò)程中，得到了許多企事業(yè)單位人員的大力支持；在此謹(jǐn)向北京科技大學(xué)陳紅松教授致以深深的謝意。在本書(shū)的編輯和出版過(guò)程中還得到了清華大學(xué)出版社相關(guān)人員的無(wú)私幫助與支持，在此一并表示感謝。
編者
2021年12月

你還可能感興趣

我要評(píng)論