定 價(jià):49 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:(美)托馬斯·埃爾
- 出版時(shí)間:2017/5/25
- ISBN:9787111565772
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:177
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書是面向商業(yè)和技術(shù)專業(yè)人員的大數(shù)據(jù)權(quán)威指南,清楚地介紹了大數(shù)據(jù)相關(guān)的概念、理論、術(shù)語與基礎(chǔ)技術(shù),并使用真實(shí)連貫的商業(yè)案例以及簡(jiǎn)單的圖表,幫助讀者更清晰地理解大數(shù)據(jù)技術(shù)。本書可作為高等院校相關(guān)專業(yè)“大數(shù)據(jù)基礎(chǔ)”、“大數(shù)據(jù)道路”等課程的教材,也可供有一定實(shí)踐經(jīng)驗(yàn)的軟件開發(fā)人員、管理人員和所有對(duì)大數(shù)據(jù)感興趣的人士閱讀。
譯者序現(xiàn)今,“大數(shù)據(jù)”已經(jīng)成為全球科技界和企業(yè)界關(guān)注的熱點(diǎn)。數(shù)據(jù)為王的時(shí)代已經(jīng)到來,各行各業(yè)高度關(guān)注大數(shù)據(jù)的研究和應(yīng)用。企業(yè)關(guān)注的重點(diǎn)從追求計(jì)算機(jī)的計(jì)算速度轉(zhuǎn)變?yōu)樽非蟠髷?shù)據(jù)處理能力,從以軟件編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。在云計(jì)算技術(shù)和海量數(shù)據(jù)存儲(chǔ)技術(shù)的助力下,大數(shù)據(jù)已經(jīng)成為當(dāng)前學(xué)術(shù)界、工業(yè)界的熱點(diǎn)和焦點(diǎn)。大數(shù)據(jù)的出現(xiàn)將會(huì)對(duì)社會(huì)各個(gè)領(lǐng)域產(chǎn)生深刻影響。從公司戰(zhàn)略到產(chǎn)業(yè)生態(tài),從學(xué)術(shù)研究到生產(chǎn)實(shí)踐,從城鎮(zhèn)管理到國家治理,都將發(fā)生本質(zhì)的變化,大數(shù)據(jù)將成為時(shí)代變革的力量。“用數(shù)據(jù)來說話、用數(shù)據(jù)來管理、用數(shù)據(jù)來決策、用數(shù)據(jù)來創(chuàng)新”的文化氛圍與時(shí)代特征愈發(fā)鮮明。大數(shù)據(jù)時(shí)代需要一大批具備大數(shù)據(jù)知識(shí)的專業(yè)人才,他們應(yīng)能有效地將數(shù)據(jù)科學(xué)和各行各業(yè)的應(yīng)用相結(jié)合,推動(dòng)新技術(shù)和新應(yīng)用的發(fā)展。因此,掌握大數(shù)據(jù)核心技術(shù)且擁有專業(yè)領(lǐng)域知識(shí)的人才儲(chǔ)備成為國家大數(shù)據(jù)戰(zhàn)略布局的重中之重。
在本書中,IT暢銷書作者ThomasErl和他的團(tuán)隊(duì)清楚地解釋了關(guān)鍵的大數(shù)據(jù)概念、理論和術(shù)語,以及基本的大數(shù)據(jù)技術(shù)和方法。本書分兩部分:第一部分主要從商業(yè)相關(guān)問題的討論引出大數(shù)據(jù)的驅(qū)動(dòng)力,解釋了如何通過大數(shù)據(jù)推動(dòng)企業(yè)的發(fā)展,介紹了大數(shù)據(jù)的應(yīng)用背景和基本概念;第二部分主要是大數(shù)據(jù)技術(shù)相關(guān)問題的討論,重點(diǎn)介紹了大數(shù)據(jù)的存儲(chǔ)技術(shù)和分析方法。本書的特色在于每一章后都有案例學(xué)習(xí),用一家大型的保險(xiǎn)公司ETI對(duì)大數(shù)據(jù)的應(yīng)用案例貫穿始終,為相關(guān)章節(jié)的知識(shí)應(yīng)用提供了現(xiàn)實(shí)場(chǎng)景,以加深讀者對(duì)大數(shù)據(jù)實(shí)際應(yīng)用的認(rèn)識(shí)。另外,本書大量應(yīng)用了簡(jiǎn)單的圖表說明。這些都使得本書非常實(shí)用且通俗易懂,因此,本書特別適合作為了解大數(shù)據(jù)基本知識(shí)和相關(guān)技術(shù)的入門教材,也可以作為高校的通識(shí)課教材來使用。
在本書翻譯過程中,武漢大學(xué)計(jì)算機(jī)學(xué)院的劉歆文、李卓、史成良、陳洪洋、賀瀟雅、萬言歷、陳昊等同學(xué)做了大量輔助性工作,在此,向這些同學(xué)的辛勤工作表示衷心的感謝。
由于譯者能力有限,譯稿難免存在疏漏及不足之處,望廣大讀者不吝賜教。
?ThomasErlThomasErl是IT暢銷書作者,Arcitura教育公司的創(chuàng)始人,PrenticeHall出版社“ThomasErl的服務(wù)技術(shù)叢書”的編輯。他的書發(fā)行量超過200000冊(cè),成為國際暢銷書,并且已經(jīng)獲得多個(gè)重要IT組織成員的正式認(rèn)可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作為Arcitura公司的CEO,Thomas領(lǐng)導(dǎo)研發(fā)了國際公認(rèn)的大數(shù)據(jù)科學(xué)專家認(rèn)證(BDSCP)、云專家認(rèn)證(CCP)與SOA專家認(rèn)證(SOACP)的課程大綱,設(shè)立了一系列正式的、與廠商無關(guān)的工業(yè)認(rèn)證,全球已有數(shù)千IT從業(yè)人員獲得了這些認(rèn)證。Thomas還作為演講家與教育家,在20多個(gè)國家進(jìn)行過巡回演講。Thomas已經(jīng)在諸多出刊物上發(fā)表過100多篇文章和訪談,包括《華爾街日?qǐng)?bào)》與《CIO雜志》。
WajidKhattakWajidKhattak是Arcitura教育公司的大數(shù)據(jù)研究者與教育者。他的研究領(lǐng)域包括大數(shù)據(jù)工程與架構(gòu)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、分析學(xué)與SOA。此外,他在商務(wù)智能報(bào)告解決方案與GIS方面有著豐富的.NET軟件開發(fā)經(jīng)驗(yàn)。
Wajid于2003年在英國伯明翰城市大學(xué)獲得軟件工程學(xué)士學(xué)位,于2008年在該校以杰出的成績(jī)獲得軟件工程與安全碩士學(xué)位。另外,Wajid還獲得了MCAD&MCTS(Microsoft)、SOA架構(gòu)師、大數(shù)據(jù)科學(xué)家、大數(shù)據(jù)工程師以及大數(shù)據(jù)研究顧問(Arcitura)認(rèn)證。
PaulBuhlerPaulBuhler博士是一位經(jīng)驗(yàn)豐富的IT專家,他在商業(yè)公司、政府機(jī)構(gòu)和學(xué)校均有過從業(yè)經(jīng)驗(yàn)。在面向服務(wù)的計(jì)算概念、技術(shù)和實(shí)現(xiàn)方法領(lǐng)域,他是一位受人尊敬的研究者、實(shí)踐者與教育者。他在XaaS領(lǐng)域的研究已經(jīng)延伸到了云、大數(shù)據(jù)與萬物互聯(lián)網(wǎng)(IoE)。目前他的研究興趣是通過權(quán)衡響應(yīng)式設(shè)計(jì)原則與基于目標(biāo)的執(zhí)行方式,減少業(yè)務(wù)策略與流程執(zhí)行之間的差距。
作為Modus21的首席科學(xué)家,PaulBuhler博士根據(jù)當(dāng)前業(yè)務(wù)架構(gòu)與流程執(zhí)行框架的發(fā)展趨勢(shì)調(diào)整企業(yè)的戰(zhàn)略布局。目前,他還是查爾斯頓學(xué)院的合作教授,負(fù)責(zé)本科生與碩士生計(jì)算機(jī)科學(xué)課程的教學(xué)工作。PaulBuhler博士在南卡羅來納大學(xué)獲得計(jì)算機(jī)工程博士學(xué)位,在約翰霍普金斯大學(xué)獲得計(jì)算機(jī)科學(xué)碩士學(xué)位,在塞特多大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。
目 錄
譯者序
致謝
作者簡(jiǎn)介
第一部分 大數(shù)據(jù)基礎(chǔ)
第1章 理解大數(shù)據(jù)3
1.1 概念與術(shù)語4
1.1.1 數(shù)據(jù)集4
1.1.2 數(shù)據(jù)分析5
1.1.3 數(shù)據(jù)分析學(xué)5
1.1.4 商務(wù)智能11
1.1.5 關(guān)鍵績(jī)效指標(biāo)11
1.2 大數(shù)據(jù)特征12
1.2.1 容量12
1.2.2 速率13
1.2.3 多樣性13
1.2.4 真實(shí)性14
1.2.5 價(jià)值14
1.3 不同數(shù)據(jù)類型15
1.3.1 結(jié)構(gòu)化數(shù)據(jù)16
1.3.2 非結(jié)構(gòu)化數(shù)據(jù)17
1.3.3 半結(jié)構(gòu)化數(shù)據(jù)17
1.3.4 元數(shù)據(jù)18
1.4 案例學(xué)習(xí)背景18
1.4.1 歷史背景18
1.4.2 技術(shù)基礎(chǔ)和自動(dòng)化環(huán)境19
1.4.3 商業(yè)目標(biāo)和障礙20
1.5 案例學(xué)習(xí)21
1.5.1 確定數(shù)據(jù)特征22
1.5.2 確定數(shù)據(jù)類型24
第2章 采用大數(shù)據(jù)的商業(yè)動(dòng)機(jī)與驅(qū)動(dòng)25
2.1 市場(chǎng)動(dòng)態(tài)25
2.2 業(yè)務(wù)架構(gòu)27
2.3 業(yè)務(wù)流程管理30
2.4 信息與通信技術(shù)31
2.4.1 數(shù)據(jù)分析與數(shù)據(jù)科學(xué)31
2.4.2 數(shù)字化31
2.4.3 開源技術(shù)與商用硬件32
2.4.4 社交媒體33
2.4.5 超連通社區(qū)與設(shè)備33
2.4.6 云計(jì)算34
2.5 萬物互聯(lián)網(wǎng)35
2.6 案例學(xué)習(xí)35
第3章 大數(shù)據(jù)采用及規(guī)劃考慮39
3.1 組織的先決條件40
3.2 數(shù)據(jù)獲取40
3.3 隱私性40
3.4 安全性41
3.5 數(shù)據(jù)來源42
3.6 有限的實(shí)時(shí)支持43
3.7 不同的性能挑戰(zhàn)43
3.8 不同的管理需求43
3.9 不同的方法論44
3.10 云44
3.11 大數(shù)據(jù)分析的生命周期45
3.11.1 商業(yè)案例評(píng)估45
3.11.2 數(shù)據(jù)標(biāo)識(shí)47
3.11.3 數(shù)據(jù)獲取與過濾47
3.11.4 數(shù)據(jù)提取48
3.11.5 數(shù)據(jù)驗(yàn)證與清理49
3.11.6 數(shù)據(jù)聚合與表示50
3.11.7 數(shù)據(jù)分析52
3.11.8 數(shù)據(jù)可視化52
3.11.9 分析結(jié)果的使用53
3.12 案例學(xué)習(xí)54
3.12.1 大數(shù)據(jù)分析的生命周期55
3.12.2 商業(yè)案例評(píng)估55
3.12.3 數(shù)據(jù)標(biāo)識(shí)56
3.12.4 數(shù)據(jù)獲取與過濾56
3.12.5 數(shù)據(jù)提取57
3.12.6 數(shù)據(jù)驗(yàn)證與清理57
3.12.7 數(shù)據(jù)聚合與表示57
3.12.8 數(shù)據(jù)分析57
3.12.9 數(shù)據(jù)可視化58
3.12.10 分析結(jié)果的使用58
第4章 企業(yè)級(jí)技術(shù)與大數(shù)據(jù)商務(wù)智能59
4.1 聯(lián)機(jī)事務(wù)處理60
4.2 聯(lián)機(jī)分析處理60
4.3 抽取、轉(zhuǎn)換和加載技術(shù)61
4.4 數(shù)據(jù)倉庫61
4.5 數(shù)據(jù)集市62
4.6 傳統(tǒng)商務(wù)智能62
4.6.1 即席報(bào)表63
4.6.2 儀表板63
4.7 大數(shù)據(jù)商務(wù)智能65
4.7.1 傳統(tǒng)數(shù)據(jù)可視化65
4.7.2 大數(shù)據(jù)的數(shù)據(jù)可視化66
4.8 案例學(xué)習(xí)67
4.8.1 企業(yè)技術(shù)67
4.8.2 大數(shù)據(jù)商務(wù)智能68
第二部分 存儲(chǔ)和分析大數(shù)據(jù)
第5章 大數(shù)據(jù)存儲(chǔ)的概念71
5.1 集群72
5.2 文件系統(tǒng)和分布式文件系統(tǒng)72
5.3 NoSQL73
5.4 分片74
5.5 復(fù)制75
5.5.1 主從式復(fù)制76
5.5.2 對(duì)等式復(fù)制77
5.6 分片和復(fù)制80
5.6.1 結(jié)合分片和主從式復(fù)制80
5.6.2 結(jié)合分片和對(duì)等式復(fù)制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例學(xué)習(xí)91
第6章 大數(shù)據(jù)處理的概念93
6.1 并行數(shù)據(jù)處理93
6.2 分布式數(shù)據(jù)處理94
6.3 Hadoop94
6.4 處理工作量95
6.4.1 批處理型95
6.4.2 事務(wù)型95
6.5 集群96
6.6 批處理模式97
6.6.1 MapReduce批處理97
6.6.2 Map和Reduce任務(wù)98
6.6.3 MapReduce的簡(jiǎn)單實(shí)例103
6.6.4 理解MapReduce算法104
6.7 實(shí)時(shí)模式處理107
6.7.1 SCV原則107
6.7.2 事件流處理110
6.7.3 復(fù)雜事件處理110
6.7.4 大數(shù)據(jù)實(shí)時(shí)處理與SCV110
6.7.5 大數(shù)據(jù)實(shí)時(shí)處理與MapReduce111
6.8 案例學(xué)習(xí)112
6.8.1 處理工作量112
6.8.2 批處理模式處理112
6.8.3 實(shí)時(shí)模式處理113
第7章 大數(shù)據(jù)存儲(chǔ)技術(shù)115
7.1 磁盤存儲(chǔ)設(shè)備115
7.1.1 分布式文件系統(tǒng)116
7.1.2 RDBMS數(shù)據(jù)庫117
7.1.3 NoSQL數(shù)據(jù)庫119
7.1.4 NewSQL數(shù)據(jù)庫128
7.2 內(nèi)存存儲(chǔ)設(shè)備129
7.2.1 內(nèi)存數(shù)據(jù)網(wǎng)格131
7.2.2 內(nèi)存數(shù)據(jù)庫138
7.3 案例學(xué)習(xí)141
第8章 大數(shù)據(jù)分析技術(shù)143
8.1 定量分析144
8.2 定性分析145
8.3 數(shù)據(jù)挖掘145
8.4 統(tǒng)計(jì)分析146
8.4.1 A/B測(cè)試146
8.4.2 相關(guān)性分析147
8.4.3 回歸性分析149
8.5 機(jī)器學(xué)習(xí)150
8.5.1 分類(有監(jiān)督的機(jī)器學(xué)習(xí))151
8.5.2 聚類(無監(jiān)督的機(jī)器學(xué)習(xí))152
8.5.3 異常檢測(cè)152
8.5.4 過濾153
8.6 語義分析154
8.6.1 自然語言處理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 視覺分析157
8.7.1 熱點(diǎn)圖157
8.7.2 時(shí)間序列圖159
8.7.3 網(wǎng)絡(luò)圖160
8.7.4 空間數(shù)據(jù)制圖161
8.8 案例學(xué)習(xí)162
8.8.1 相關(guān)性分析162
8.8.2 回歸性分析162
8.8.3 時(shí)間序列圖163
8.8.4 聚類163
8.8.5 分類163
附錄A 案例結(jié)論165
索引167