本書是《網(wǎng)絡(luò)工程師教育叢書》的第7冊(cè),介紹和討論大數(shù)據(jù)的基礎(chǔ)知識(shí)、技術(shù)原理和應(yīng)用。全書內(nèi)容分為6章,包括緒論、大數(shù)據(jù)采集和預(yù)處理、大數(shù)據(jù)存儲(chǔ)與管理、大數(shù)據(jù)分析與計(jì)算、大數(shù)據(jù)可視化和大數(shù)據(jù)應(yīng)用。本書既介紹大數(shù)據(jù)技術(shù)基礎(chǔ)知識(shí),又將這些知識(shí)與具體應(yīng)用有機(jī)結(jié)合起來(lái),并借助可視化圖表深入剖析大數(shù)據(jù)技術(shù)原理和洞見(jiàn)數(shù)據(jù)價(jià)值的方法。各章均配有練習(xí)、本章小結(jié)及小測(cè)驗(yàn),以便理解掌握重要知識(shí)點(diǎn)。另外,考慮到大數(shù)據(jù)技術(shù)涉及許多新名詞和專業(yè)性極強(qiáng)的詞匯,書末以附錄形式給出了相關(guān)術(shù)語(yǔ)的注釋,以方便讀者查閱。
劉化君:南京工程學(xué)院通信學(xué)院教授、院長(zhǎng),電子工業(yè)出版社優(yōu)秀作者。長(zhǎng)期從事計(jì)算機(jī)網(wǎng)絡(luò)與通信的教學(xué)與科研工作。主持完成江蘇省高校自然科學(xué)基金等項(xiàng)目3項(xiàng),以及多項(xiàng)省市重點(diǎn)計(jì)算機(jī)網(wǎng)絡(luò)項(xiàng)目;發(fā)表學(xué)術(shù)論文60余篇,出版專著和教材30多部;獲國(guó)家級(jí)教學(xué)成果二等獎(jiǎng)1項(xiàng),山東省教育廳科技進(jìn)步獎(jiǎng)著作二等獎(jiǎng)1項(xiàng)。
目 錄
第一章 緒論 (1)
概述 (1)
第一節(jié) 大數(shù)據(jù)的概念 (1)
何謂大數(shù)據(jù) (2)
大數(shù)據(jù)結(jié)構(gòu)類型 (6)
大數(shù)據(jù)的作用和影響 (8)
練習(xí) (9)
第二節(jié) 大數(shù)據(jù)分析和計(jì)算 (9)
大數(shù)據(jù)分析計(jì)算的意義 (10)
大數(shù)據(jù)計(jì)算的特點(diǎn) (11)
大數(shù)據(jù)計(jì)算系統(tǒng)架構(gòu) (12)
練習(xí) (16)
第三節(jié) 大數(shù)據(jù)技術(shù)體系 (17)
大數(shù)據(jù)技術(shù)棧 (17)
大數(shù)據(jù)計(jì)算支撐技術(shù) (20)
Hadoop生態(tài)系統(tǒng) (28)
練習(xí) (30)
第四節(jié) Hadoop平臺(tái)構(gòu)建 (30)
Hadoop 集群配置 (30)
Hadoop的安裝與運(yùn)行 (32)
練習(xí) (39)
本章小結(jié) (39)
第二章 大數(shù)據(jù)采集和預(yù)處理 (41)
概述 (41)
第一節(jié) 大數(shù)據(jù)采集 (41)
大數(shù)據(jù)采集的基本概念 (42)
大數(shù)據(jù)采集的技術(shù)和方法 (45)
大數(shù)據(jù)采集工具的設(shè)計(jì) (48)
練習(xí) (50)
第二節(jié) 互聯(lián)網(wǎng)數(shù)據(jù)采集 (51)
基于網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集 (51)
系統(tǒng)日志采集 (59)
日志數(shù)據(jù)采集示例 (63)
練習(xí) (67)
第三節(jié) 大數(shù)據(jù)清洗 (68)
數(shù)據(jù)質(zhì)量問(wèn)題 (68)
大數(shù)據(jù)清洗的對(duì)象 (70)
大數(shù)據(jù)清洗的基本方法 (71)
日志文件數(shù)據(jù)清洗示例 (73)
練習(xí) (75)
第四節(jié) 大數(shù)據(jù)采集和預(yù)處理工具 (76)
Apache Flume (76)
Splunk Forwarder (83)
國(guó)內(nèi)常見(jiàn)的大數(shù)據(jù)處理軟件 (84)
練習(xí) (86)
本章小結(jié) (86)
第三章 大數(shù)據(jù)存儲(chǔ)與管理 (88)
概述 (88)
第一節(jié) 分布式存儲(chǔ)系統(tǒng) (89)
集中式存儲(chǔ) (89)
分布式存儲(chǔ) (90)
練習(xí) (95)
第二節(jié) Hadoop分布式文件系統(tǒng)(HDFS) (96)
HDFS的相關(guān)概念 (96)
HDFS的系統(tǒng)架構(gòu) (100)
HDFS的存儲(chǔ)機(jī)制 (102)
HDFS的數(shù)據(jù)讀寫過(guò)程 (104)
HDFS應(yīng)用編程 (106)
練習(xí) (114)
第三節(jié) 非關(guān)系數(shù)據(jù)庫(kù)(NoSQL) (115)
NoSQL概述 (115)
NoSQL的技術(shù)基礎(chǔ) (118)
NoSQL的數(shù)據(jù)存儲(chǔ)類型 (120)
典型的NoSQL工具 (125)
練習(xí) (132)
第四節(jié) 分布式數(shù)據(jù)庫(kù)HBase (132)
HBase系統(tǒng)結(jié)構(gòu) (133)
HBase數(shù)據(jù)模型與存儲(chǔ) (138)
HBase數(shù)據(jù)讀寫 (144)
HBase應(yīng)用編程 (145)
練習(xí) (152)
本章小結(jié) (153)
第四章 大數(shù)據(jù)分析與計(jì)算 (156)
概述 (156)
第一節(jié) 大數(shù)據(jù)分析 (156)
何謂大數(shù)據(jù)分析 (157)
大數(shù)據(jù)分析的類別 (158)
大數(shù)據(jù)分析的基本方法 (160)
練習(xí) (166)
第二節(jié) 大數(shù)據(jù)挖掘 (167)
數(shù)據(jù)關(guān)聯(lián)分析 (168)
數(shù)據(jù)聚類分析 (169)
數(shù)據(jù)分類與預(yù)測(cè) (177)
練習(xí) (181)
第三節(jié) 大數(shù)據(jù)處理系統(tǒng)(MapReduce/Spark) (182)
MapReduce (182)
Spark (191)
練習(xí) (202)
第四節(jié) Spark應(yīng)用示例 (203)
Spark配置及運(yùn)行 (203)
Spark的Scala編程 (208)
Spark的主要應(yīng)用場(chǎng)景 (210)
練習(xí) (211)
本章小結(jié) (211)
第五章 大數(shù)據(jù)可視化 (214)
第一節(jié) 可視化基礎(chǔ)知識(shí) (214)
數(shù)據(jù)可視化 (215)
大數(shù)據(jù)可視化 (217)
大數(shù)據(jù)可視化設(shè)計(jì) (220)
練習(xí) (222)
第二節(jié) 可視化分析研發(fā)資源與工具 (222)
信息圖表工具 (223)
時(shí)間線工具 (225)
地圖工具 (226)
可視化分析研發(fā)資源與編程語(yǔ)言 (227)
練習(xí) (229)
第三節(jié) 大數(shù)據(jù)可視化應(yīng)用 (229)
基于Web的數(shù)據(jù)可視化 (229)
文本數(shù)據(jù)可視化 (234)
社交網(wǎng)絡(luò)可視化 (235)
練習(xí) (236)
本章小結(jié) (237)
第六章 大數(shù)據(jù)應(yīng)用 (239)
第一節(jié) 大數(shù)據(jù)查詢 (239)
大數(shù)據(jù)查詢分析引擎 (239)
基于Spark的大數(shù)據(jù)實(shí)時(shí)查詢 (245)
大數(shù)據(jù)查詢實(shí)例及其技術(shù)發(fā)展 (248)
練習(xí) (249)
第二節(jié) 大數(shù)據(jù)應(yīng)用與發(fā)展 (249)
大數(shù)據(jù)的社會(huì)價(jià)值 (249)
大數(shù)據(jù)應(yīng)用場(chǎng)景 (252)
大數(shù)據(jù)應(yīng)用發(fā)展趨勢(shì) (257)
練習(xí) (259)
第三節(jié) 大數(shù)據(jù)隱私與安全 (259)
大數(shù)據(jù)應(yīng)用中的安全 (260)
大數(shù)據(jù)安全技術(shù) (261)
大數(shù)據(jù)安全與隱私保護(hù)措施 (264)
練習(xí) (265)
本章小結(jié) (265)
附錄A 課程測(cè)驗(yàn) (267)
附錄B 術(shù)語(yǔ)表 (270)
參考文獻(xiàn) (278)