本書(shū)通過(guò)大量的繪圖和詳細(xì)的說(shuō)明,從技術(shù)層面以簡(jiǎn)單易懂的形式講述大數(shù)據(jù)分析。這是一本從系統(tǒng)結(jié)構(gòu)搭建到實(shí)際開(kāi)發(fā)逐步推進(jìn)的教科書(shū)。
書(shū)中的知識(shí)點(diǎn)包括大數(shù)據(jù)分析時(shí)所需的分布式處理、機(jī)器學(xué)習(xí),以及分布式存儲(chǔ)、分布式計(jì)算、開(kāi)發(fā)時(shí)可能遇到的瓶頸,還包括大數(shù)據(jù)的收集、積累、活用以及元數(shù)據(jù)的使用與管理等。
本書(shū)適合大數(shù)據(jù)領(lǐng)域的廣大愛(ài)好者、商務(wù)人士和工程技術(shù)人員用于了解、學(xué)習(xí)、掌握、運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行大數(shù)據(jù)分析,也適合作為該領(lǐng)域的職業(yè)院校和高校本科相關(guān)專業(yè)的教材及研究生輔助教材。
第1章 大數(shù)據(jù)分析概述
1.1 大數(shù)據(jù)和分布式處理
網(wǎng)絡(luò)的普及導(dǎo)致了大量數(shù)據(jù)的增加 002
1.2 非結(jié)構(gòu)化數(shù)據(jù)的增加和機(jī)器學(xué)習(xí)
分析文本、聲音、圖像等數(shù)據(jù) 006
1.3 大數(shù)據(jù)分析系統(tǒng)
在分布式處理與機(jī)器學(xué)習(xí)驅(qū)動(dòng)下將數(shù)據(jù)利潤(rùn)化 010
1.4 企業(yè)中大數(shù)據(jù)活用的各個(gè)階段
大數(shù)據(jù)分析要從一小步開(kāi)始 014
1.5 活用大數(shù)據(jù)分析時(shí)所需的三個(gè)角色
數(shù)據(jù)業(yè)務(wù)員、科學(xué)分析員、工程技術(shù)員 020
1.6 工程技術(shù)員的價(jià)值在哪里
為什么完成了驗(yàn)證實(shí)驗(yàn)后仍然無(wú)法實(shí)現(xiàn)真正的系統(tǒng)化 026
第2章 大數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)
2.1 整體結(jié)構(gòu)概述
數(shù)據(jù)的收集、積累、活用 032
2.2 數(shù)據(jù)的生成和收集
利用業(yè)務(wù)系統(tǒng)生成數(shù)據(jù),利用分析系統(tǒng)收集數(shù)據(jù) 036
2.3 數(shù)據(jù)的積累
數(shù)據(jù)池與數(shù)據(jù)倉(cāng)庫(kù) 040
2.4 數(shù)據(jù)的活用
應(yīng)用于企業(yè)決策和增加利潤(rùn) 044
第3章 分布式處理的基礎(chǔ)知識(shí)
3.1 對(duì)瓶頸問(wèn)題的分析
系統(tǒng)性能上的一些問(wèn)題 048
3.2 上述三種瓶頸以外的與性能相關(guān)的問(wèn)題
內(nèi)存枯竭,以及沒(méi)有瓶頸但性能仍然很差的原因 052
3.3 分布式存儲(chǔ)
消除磁盤(pán)瓶頸的技術(shù) 056
3.4 分布式計(jì)算
消除處理器瓶頸的技術(shù) 060
3.5 分布式系統(tǒng)的網(wǎng)絡(luò)
消除網(wǎng)絡(luò)的瓶頸 064
3.6 資源管理器
支撐分布式處理的資源管理 068
3.7 分布式處理的開(kāi)發(fā)方式
Hadoop、自行開(kāi)發(fā)、云服務(wù) 070
第4章 機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)
4.1 機(jī)器學(xué)習(xí)
對(duì)變換成向量的數(shù)據(jù)進(jìn)行處理的函數(shù) 076
4.2 數(shù)據(jù)的準(zhǔn)備和預(yù)處理
機(jī)器學(xué)習(xí)的開(kāi)發(fā)過(guò)程(前篇) 082
4.3 模型預(yù)估與系統(tǒng)化
機(jī)器學(xué)習(xí)的開(kāi)發(fā)過(guò)程(中篇) 086
4.4 正式發(fā)布與性能提升
機(jī)器學(xué)習(xí)的開(kāi)發(fā)過(guò)程(后篇) 090
4.5 深度學(xué)習(xí)
引發(fā)機(jī)器學(xué)習(xí)熱潮的火種 094
4.6 機(jī)器學(xué)習(xí)工具
工程師必備的幾個(gè)重要工具 098
4.7 科學(xué)分析員與工程技術(shù)員的不同角色
系統(tǒng)化與數(shù)據(jù)準(zhǔn)備等大量的工作 104
第5章 大數(shù)據(jù)的收集
5.1 批數(shù)據(jù)收集和流數(shù)據(jù)收集
數(shù)據(jù)收集的種類(lèi) 108
5.2 文件數(shù)據(jù)的收集與文件格式
文件形式數(shù)據(jù)的收集 112
5.3 基于SQL的數(shù)據(jù)收集
從數(shù)據(jù)庫(kù)中收集數(shù)據(jù)(前篇) 116
5.4 基于數(shù)據(jù)輸出和同步更新日志的數(shù)據(jù)收集
從數(shù)據(jù)庫(kù)中收集數(shù)據(jù)(后篇) 120
5.5 API數(shù)據(jù)收集與刮擦收集
其他的批數(shù)據(jù)收集方式 124
5.6 批數(shù)據(jù)收集的開(kāi)發(fā)方法
可以利用ETL軟件制品也可以自行開(kāi)發(fā) 128
5.7 分布式隊(duì)列與流處理
流數(shù)據(jù)收集概述 132
5.8 流數(shù)據(jù)收集中的分布式隊(duì)列
了解分布式隊(duì)列的特性 136
5.9 生產(chǎn)者、分布式隊(duì)列和消費(fèi)者
流數(shù)據(jù)收集的開(kāi)發(fā)方法 140
5.10 應(yīng)對(duì)數(shù)據(jù)結(jié)構(gòu)的變化
數(shù)據(jù)結(jié)構(gòu)會(huì)隨著業(yè)務(wù)的發(fā)展而變化 143
第6章 大數(shù)據(jù)的積累
6.1 數(shù)據(jù)池與數(shù)據(jù)倉(cāng)庫(kù)
要分別準(zhǔn)備好原始數(shù)據(jù)和用于分析的數(shù)據(jù) 148
6.2 分析型數(shù)據(jù)庫(kù)
操作型數(shù)據(jù)庫(kù)與分析型數(shù)據(jù)庫(kù)的不同之處 152
6.3 面向列的數(shù)據(jù)格式化
在列方向上壓縮數(shù)據(jù)后實(shí)現(xiàn)分析處理的高速化 156
6.4 SQL on Hadoop
分析型DB的選擇方法(前篇) 160
6.5 DWH制品
分析型DB的選擇方法(后篇) 166
第7章 大數(shù)據(jù)的活用
7.1 數(shù)據(jù)市場(chǎng)
根據(jù)不同目的來(lái)加工數(shù)據(jù) 172
7.2 即席分析
可以自主地分析數(shù)據(jù)并進(jìn)行決策 178
7.3 構(gòu)筑即席分析環(huán)境
支持?jǐn)?shù)據(jù)利用者和進(jìn)行資源管理的必要性 182
7.4 數(shù)據(jù)可視化
任何人都可以基于數(shù)據(jù)做出決策 186
7.5 數(shù)據(jù)應(yīng)用程序
互聯(lián)網(wǎng)企業(yè)的活用案例 190
第8章 元數(shù)據(jù)的管理
8.1 整體概念和靜態(tài)元數(shù)據(jù)
元數(shù)據(jù)管理(前篇) 194
8.2 動(dòng)態(tài)元數(shù)據(jù)和元數(shù)據(jù)管理的實(shí)現(xiàn)方法
元數(shù)據(jù)管理(后篇) 198
8.3 數(shù)據(jù)結(jié)構(gòu)管理
如何定義數(shù)據(jù) 202
8.4 數(shù)據(jù)沿襲管理
數(shù)據(jù)從何而來(lái),又去往何處 208
8.5 數(shù)據(jù)新鮮度的管理
表明這是什么時(shí)候的數(shù)據(jù) 212
后記 216