前言
移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)及社交媒體的快速發(fā)展使得人類需要面臨的數(shù)據(jù)量呈指數(shù)增長(zhǎng)。根據(jù)IDC《數(shù)字宇宙》(Digital Universe)研究報(bào)告顯示,2020年全球新建和復(fù)制的信息量將超過(guò)40ZB,是當(dāng)前的10倍;而中國(guó)的數(shù)據(jù)量則會(huì)在2020年超過(guò)8ZB,比當(dāng)前增長(zhǎng)20倍。數(shù)據(jù)量的飛速增長(zhǎng)帶來(lái)了大數(shù)據(jù)技術(shù)的發(fā)展和服務(wù)市場(chǎng)的繁榮,同時(shí)在學(xué)術(shù)界,關(guān)于大數(shù)據(jù)的科研工作如火如荼,越來(lái)越多的學(xué)者投入到大數(shù)據(jù)云計(jì)算研究之中,相關(guān)文獻(xiàn)呈指數(shù)增長(zhǎng)。不斷積累的大數(shù)據(jù)包含著很多在小數(shù)據(jù)量時(shí)不具備的深度知識(shí)和價(jià)值,帶來(lái)巨大的技術(shù)創(chuàng)新與商業(yè)機(jī)遇。大數(shù)據(jù)分析挖掘?qū)樾袠I(yè)/企業(yè)帶來(lái)巨大的商業(yè)價(jià)值,實(shí)現(xiàn)各種高附加值的增值服務(wù),進(jìn)一步提升行業(yè)/企業(yè)的經(jīng)濟(jì)效益和社會(huì)效益。談到大數(shù)據(jù),不可避免地要提及云計(jì)算,云計(jì)算結(jié)合大數(shù)據(jù),這是時(shí)代發(fā)展的必然趨勢(shì)。有人把云計(jì)算和大數(shù)據(jù)比作是一個(gè)硬幣的兩面。云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ)和平臺(tái),而大數(shù)據(jù)是云計(jì)算范疇內(nèi)最重要、最關(guān)鍵的應(yīng)用。大數(shù)據(jù)必然架構(gòu)在云上才能高效運(yùn)作并對(duì)外服務(wù),兩者之間缺一不可,相輔相成,相互促進(jìn)。大數(shù)據(jù)云計(jì)算正在快速發(fā)展,相關(guān)技術(shù)熱點(diǎn)也呈現(xiàn)百花齊放的局面,業(yè)界各大廠商紛紛制定相應(yīng)的戰(zhàn)略,新的概念、觀點(diǎn)和產(chǎn)品不斷涌現(xiàn)。大數(shù)據(jù)和云計(jì)算作為新一代IT技術(shù)變革的核心,必將成為廣大學(xué)生、科技工作者構(gòu)建自身IT核心競(jìng)爭(zhēng)能力的戰(zhàn)略機(jī)遇。因而作為高層次IT人才,學(xué)習(xí)大數(shù)據(jù)和云計(jì)算知識(shí),掌握相關(guān)技術(shù)迫在眉睫。然而,大數(shù)據(jù)和云計(jì)算密切相關(guān),當(dāng)前國(guó)內(nèi)外相關(guān)的資料還相當(dāng)少,缺乏比較系統(tǒng)完整的論述。目前在我國(guó)急需要一本教材能夠全面而又系統(tǒng)地講解大數(shù)據(jù)和云計(jì)算,普及大數(shù)據(jù)和云計(jì)算知識(shí),推廣云計(jì)算中大數(shù)據(jù)的應(yīng)用,解決大數(shù)據(jù)架構(gòu)的實(shí)際問(wèn)題,進(jìn)而培養(yǎng)高層次大數(shù)據(jù)人才。在這樣的背景下,作者著眼于大數(shù)據(jù)和云計(jì)算有機(jī)結(jié)合的視角,從理論探索和應(yīng)用實(shí)踐兩個(gè)方面來(lái)撰寫(xiě)本書(shū),適合對(duì)大數(shù)據(jù)和云計(jì)算具有初步認(rèn)識(shí)并希望對(duì)大數(shù)據(jù)云架構(gòu)進(jìn)行深入、全面了解,并進(jìn)行實(shí)踐的計(jì)算機(jī)信息相關(guān)專業(yè)高年級(jí)本科生使用,同時(shí)本書(shū)也將成為廣大專業(yè)工程技術(shù)人員不可缺少的參考資料。本書(shū)分為5篇19章,第1~第3章為大數(shù)據(jù)云計(jì)算概論篇,第4~第10章為大數(shù)據(jù)云計(jì)算關(guān)鍵技術(shù)篇,第11~第14章為云計(jì)算架構(gòu)篇,第15和第16章為大數(shù)據(jù)云架構(gòu)實(shí)踐與編程篇,第17~第19章為大數(shù)據(jù)安全篇。各章內(nèi)容如下:第1章大數(shù)據(jù)概述,介紹大數(shù)據(jù)產(chǎn)生背景,大數(shù)據(jù)發(fā)展歷程,大數(shù)據(jù)概念和特點(diǎn),大數(shù)據(jù)應(yīng)用場(chǎng)景,大數(shù)據(jù)研究展望等內(nèi)容。第2章大數(shù)據(jù)和云計(jì)算,介紹大數(shù)據(jù)和云計(jì)算的關(guān)系,云計(jì)算的概念,云計(jì)算的由來(lái),云計(jì)算類型,云計(jì)算的商業(yè)模式。第3章大數(shù)據(jù)應(yīng)用價(jià)值,介紹大數(shù)據(jù)的應(yīng)用價(jià)值,數(shù)據(jù)的生成、分析、存儲(chǔ)、分享、檢索、消費(fèi)都在大數(shù)據(jù)的生態(tài)系統(tǒng)中進(jìn)行,應(yīng)用大數(shù)據(jù)技術(shù),讓數(shù)據(jù)參與決策,發(fā)掘找到大數(shù)據(jù)真正有效的價(jià)值,進(jìn)而改變?nèi)藗兊奈磥?lái),革新生活模式,產(chǎn)生社會(huì)變革。第4章分布式計(jì)算框架,介紹構(gòu)成大數(shù)據(jù)云計(jì)算的主要關(guān)鍵技術(shù)分布式計(jì)算技術(shù),以及Hadoop、Spark、Flink等分布式大數(shù)據(jù)計(jì)算框架。第5章NoSQL數(shù)據(jù)庫(kù),介紹NoSQL(NoSQL = Not Only SQL),這是一項(xiàng)全新的數(shù)據(jù)庫(kù)技術(shù),然后引出分布式數(shù)據(jù)庫(kù)的重要理論CAP,最后介紹HBase。第6章機(jī)器學(xué)習(xí),介紹機(jī)器學(xué)習(xí)的概念、分類和發(fā)展歷程,簡(jiǎn)要介紹多種機(jī)器學(xué)習(xí)算法。第7章虛擬化,介紹構(gòu)成云計(jì)算的主要關(guān)鍵技術(shù)虛擬技術(shù),它整合多種計(jì)算資源,實(shí)現(xiàn)架構(gòu)動(dòng)態(tài)化,并達(dá)到集中管理和動(dòng)態(tài)使用物理資源及虛擬資源,以提高系統(tǒng)結(jié)構(gòu)的彈性和靈活性,降低成本、改進(jìn)服務(wù)、減少管理風(fēng)險(xiǎn)等目標(biāo)。第8章Docker容器,介紹Docker容器相關(guān)的概念、優(yōu)勢(shì)、由來(lái)和實(shí)現(xiàn)原理。第9章Web 2.0,介紹構(gòu)成云計(jì)算主要的關(guān)鍵技術(shù)Web 2.0,是因特網(wǎng)的一次理念和思想體系的升級(jí)換代,由原來(lái)自上而下的由少數(shù)資源控制者集中控制主導(dǎo)的因特網(wǎng)體系轉(zhuǎn)變?yōu)樽韵露系挠蓮V大用戶集體智慧和力量主導(dǎo)的因特網(wǎng)體系。第10章綠色數(shù)據(jù)中心,介紹構(gòu)成云計(jì)算的主要關(guān)鍵技術(shù)綠色數(shù)據(jù)中心,是指數(shù)據(jù)機(jī)房中的IT系統(tǒng)、機(jī)械、照明和電氣等能取得最大化的能源效率和最小化的環(huán)境影響。第11章基礎(chǔ)設(shè)施即服務(wù),介紹云計(jì)算環(huán)境中的IaaS(Infrastructure as a Service),分析Amazon公司的IaaS案例。第12章平臺(tái)即服務(wù),介紹云計(jì)算環(huán)境中的PaaS(Platform as a Service),分析Google App Engine和Windows Azure Platform的PaaS案例。第13章軟件即服務(wù),介紹云計(jì)算環(huán)境中的SaaS(Software as a Service),分析Salesforce的SaaS案例。第14章容器即服務(wù),介紹云計(jì)算環(huán)境中的CaaS(Container as a Service),闡述Kubernetes和Mesos容器調(diào)度框架,分析互聯(lián)網(wǎng)公司SAE容器云和互聯(lián)網(wǎng)公司去哪網(wǎng)容器云。第15章大數(shù)據(jù)云架構(gòu)搭建,介紹分布式的Hadoop與Spark集群搭建和基于Docker容器的Spark大數(shù)據(jù)云架構(gòu)。第16章Spark大數(shù)據(jù)編程,介紹使用Intellij IDEA構(gòu)建Spark開(kāi)發(fā)環(huán)境,并列舉應(yīng)用Spark計(jì)算框架的WordCount和基于Spark Streaming股票趨勢(shì)預(yù)測(cè)案例。第17章大數(shù)據(jù)云計(jì)算面臨的安全威脅,介紹大數(shù)據(jù)云計(jì)算面臨的各種安全威脅,闡述不同行業(yè)大數(shù)據(jù)安全的需求,指出大數(shù)據(jù)安全應(yīng)該包括保障大數(shù)據(jù)安全和大數(shù)據(jù)用于安全兩個(gè)層面的含義。第18章保障大數(shù)據(jù)安全,介紹保障大數(shù)據(jù)安全的相關(guān)技術(shù)和相關(guān)實(shí)踐。第19章應(yīng)用大數(shù)據(jù)保障安全,介紹應(yīng)用大數(shù)據(jù)保障安全,包括大數(shù)據(jù)安全檢測(cè)及應(yīng)用,安全大數(shù)據(jù),基于大數(shù)據(jù)的網(wǎng)絡(luò)態(tài)勢(shì)感知和視頻監(jiān)控?cái)?shù)據(jù)的安全應(yīng)用等方面內(nèi)容。在本書(shū)最后給出了相關(guān)的參考文獻(xiàn),有興趣的讀者可以進(jìn)一步閱讀。此外,關(guān)于虛擬化技術(shù),作者認(rèn)為普通虛擬化和容器虛擬化是完全不同的兩種技術(shù),大數(shù)據(jù)云平臺(tái)多采用容器架構(gòu),所以Docker容器技術(shù)作為本書(shū)獨(dú)立一章,并且在第4篇詳細(xì)介紹基于Docker容器的大數(shù)據(jù)云架構(gòu)實(shí)踐。在方興未艾的大數(shù)據(jù)云計(jì)算時(shí)代,統(tǒng)一的標(biāo)準(zhǔn)和解決方案還未成形,不同人在不同背景下的需求和觀點(diǎn)是不一樣的,我們花費(fèi)一年多的時(shí)間努力編著本書(shū),希望能提供比較深入的見(jiàn)解,每一個(gè)對(duì)大數(shù)據(jù)和云計(jì)算感興趣的讀者都能學(xué)有所得。更進(jìn)一步,大數(shù)據(jù)和云計(jì)算是新一代IT技術(shù)變革的核心,是中國(guó)建立自己IT體系的戰(zhàn)略機(jī)遇,閱讀本書(shū),期待讀者既能從宏觀角度更全面地認(rèn)識(shí)大數(shù)據(jù)云架構(gòu),同時(shí)也能從微觀技術(shù)實(shí)踐角度接觸大數(shù)據(jù)和云計(jì)算,更深入地學(xué)習(xí)和掌握大數(shù)據(jù)和云計(jì)算知識(shí)。本書(shū)適合于從頭至尾閱讀,也可以按照喜好和關(guān)注點(diǎn)挑選獨(dú)立的章節(jié)閱讀。希望本書(shū)的介紹能加深讀者對(duì)云計(jì)算的理解。由于編者水平有限,書(shū)中不妥之處在所難免,懇請(qǐng)讀者批評(píng)指正。編者2016年5月