大數(shù)據(jù)項目管理 從規(guī)劃到實現(xiàn)
定 價:59 元
- 作者:[美] 特德·馬拉斯卡(Ted Malaska)[美] 喬納森·塞德曼(Jonathan Seidman)
- 出版時間:2020/1/1
- ISBN:9787115457363
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:139
- 紙張:
- 版次:01
- 開本:16開
本書提供了一個框架,從整體上介紹與大數(shù)據(jù)項目開發(fā)相關(guān)的基本概念,幫助讀者評估大數(shù)據(jù)項目,理解成功的現(xiàn)代數(shù)據(jù)項目的基本要素。全書共8章,內(nèi)容包括現(xiàn)代數(shù)據(jù)項目的主要類型、生命周期、風險管理、接口設(shè)計、分布式存儲系統(tǒng)、元數(shù)據(jù)管理、數(shù)據(jù)處理等。本書旨在讓讀者厘清思路,順利地從數(shù)據(jù)項目的規(guī)劃階段走到執(zhí)行階段,實現(xiàn)健壯、可維護的架構(gòu)和解決方案。
許多公司會在大數(shù)據(jù)項目的實施細節(jié)上下很多功夫,例如研究分布式處理引擎和數(shù)據(jù)分析算法。這并沒有錯,但不要因為一棵樹而錯過整片森林。本書將為你打開更廣闊的視野,展示如何從大數(shù)據(jù)項目的規(guī)劃階段開始,一步步走向成功。無論是首席信息官、首席技術(shù)官、項目經(jīng)理,還是架構(gòu)師和開發(fā)人員,都能通過本書得到啟迪。
- 開始規(guī)劃:思考大數(shù)據(jù)項目的主要類型
- 評估和選擇數(shù)據(jù)管理解決方案
- 降低與技術(shù)、團隊、需求相關(guān)的風險
- 探索良好的接口設(shè)計模式
- 為項目選擇合適的分布式存儲系統(tǒng)
- 規(guī)劃和實施元數(shù)據(jù)收集
- 使用數(shù)據(jù)管道確保數(shù)據(jù)完整性
- 根據(jù)并行處理引擎的特征評估處理框架
特德·馬拉斯卡(Ted Malaska),Capital One的企業(yè)架構(gòu)主管,曾在暴雪娛樂公司擔任全球視野工程總監(jiān),負責為《魔獸世界》《守望先鋒》《爐石傳說》等游戲提供支持。他為眾多開源項目貢獻過代碼,并與塞德曼等人合著有《Hadoop應(yīng)用架構(gòu)》。
喬納森·塞德曼(Jonathan Seidman),Cloudera云計算團隊的軟件工程師。在加入Cloudera之前,他是Orbitz Worldwide大數(shù)據(jù)團隊的技術(shù)負責人,負責為一個流量巨大的網(wǎng)站管理Hadoop集群。塞德曼與馬拉斯卡等人合著有《Hadoop應(yīng)用架構(gòu)》。
【譯者介紹】
薛命燈,InfoQ高級社區(qū)編輯,畢業(yè)于廈門大學(xué)軟件學(xué)院,擁有十余年軟件開發(fā)和架構(gòu)經(jīng)驗,曾在多家大型軟件公司任職,另譯有《Kafka權(quán)威指南》等技術(shù)圖書。
前言 ix
第 1章 數(shù)據(jù)項目的主要類型及考慮因素 1
1.1 數(shù)據(jù)項目的主要類型 1
1.2 數(shù)據(jù)管道和數(shù)據(jù)暫存 3
1.2.1 主要考慮因素和風險管理 4
1.2.2 數(shù)據(jù)管道和數(shù)據(jù)暫存團隊的人員組成 13
1.3 數(shù)據(jù)的處理和分析 14
1.3.1 主要考慮因素和風險管理 14
1.3.2 數(shù)據(jù)處理和分析團隊的人員組成 17
1.4 應(yīng)用程序開發(fā) 17
1.4.1 主要考慮因素和風險管理 18
1.4.2 應(yīng)用程序開發(fā)團隊的人員組成 22
1.5 小結(jié) 22
第 2章 評估和選擇數(shù)據(jù)管理解決方案 25
2.1 開源項目的階段 26
2.1.1 孵化階段 27
2.1.2 發(fā)布階段 27
2.1.3 “治愈癌癥”階段 27
2.1.4 打破承諾階段 28
2.1.5 強化階段 29
2.1.6 企業(yè)階段 30
2.1.7 終結(jié)階段 30
2.2 開源項目的常見生命周期 31
2.2.1 使產(chǎn)品起死回生 32
2.2.2 追隨者 33
2.3 評估基準測試 34
2.4 技術(shù)選型的考慮因素 35
2.4.1 了解構(gòu)建塊 36
2.4.2 尋求建議 37
2.4.3 從分析師那里獲得見解 37
2.4.4 研究市場趨勢 37
2.5 小結(jié) 39
第3章 數(shù)據(jù)項目的風險管理 41
3.1 風險類型 41
3.1.1 技術(shù)風險 41
3.1.2 團隊風險 42
3.1.3 需求風險 42
3.2 風險管理 42
3.2.1 對架構(gòu)中的風險進行分類 42
3.2.2 技術(shù)風險 45
3.2.3 團隊的優(yōu)勢 45
3.2.4 外部團隊風險 47
3.2.5 需求風險 47
3.2.6 融會貫通 47
3.3 使用原型和PoC 50
3.3.1 找到兩三種方法 50
3.3.2 進行PoC,然后丟棄 50
3.3.3 部署的注意事項 50
3.4 使用接口 51
3.5 盡早開始構(gòu)建 52
3.6 頻繁測試并保留記錄 52
3.7 監(jiān)控和警報 53
3.8 溝通風險 54
3.8.1 合作并獲得信任 54
3.8.2 公開風險 54
3.9 將風險作為談判工具 55
3.10 小結(jié) 55
第4章 接口設(shè)計 57
4.1 人體 57
4.1.1 人體與數(shù)據(jù)架構(gòu) 57
4.1.2 解耦 61
4.1.3 解耦的注意事項 63
4.1.4 專門化 64
4.2 什么造就了好的接口設(shè)計 64
4.2.1 合約 64
4.2.2 抽象 64
4.2.3 版本控制 65
4.2.4 防御 65
4.2.5 接口的文檔和命名 66
4.3 非功能性考慮因素 67
4.3.1 可用性 67
4.3.2 響應(yīng)時間 68
4.3.3 負載容量 68
4.3.4 使用測試來確定SLA 69
4.4 通用接口示例 69
4.4.1 發(fā)布–訂閱 69
4.4.2 異步請求–響應(yīng) 71
4.4.3 同步請求–響應(yīng) 72
4.5 小結(jié) 73
第5章 分布式存儲系統(tǒng) 75
5.1 分布式存儲系統(tǒng)的屬性 75
5.1.1 譜系 76
5.1.2 分區(qū) 77
5.1.3 處理數(shù)據(jù)變更 78
5.1.4 讀取路徑 80
5.1.5 可用性與一致性 84
5.1.6 主要用例 85
5.2 存儲系統(tǒng)細分 85
5.2.1 HDFS 86
5.2.2 S3和對象存儲系統(tǒng) 87
5.2.3 Apache HBase 89
5.2.4 Apache Cassandra 90
5.2.5 Elasticsearch和Apache Solr 94
5.2.6 新進者:Apache Kudu和CockroachDB 95
5.2.7 內(nèi)存存儲系統(tǒng) 96
5.3 小結(jié) 99
第6章 企業(yè)元數(shù)據(jù) 101
6.1 為什么要關(guān)注元數(shù)據(jù) 102
6.1.1 數(shù)據(jù)可見性 102
6.1.2 數(shù)據(jù)之間的關(guān)系 103
6.1.3 數(shù)據(jù)監(jiān)管 104
6.2 數(shù)據(jù)架構(gòu)中的元數(shù)據(jù)類型 105
6.2.1 靜態(tài)數(shù)據(jù) 106
6.2.2 動態(tài)數(shù)據(jù) 107
6.2.3 數(shù)據(jù)源的元數(shù)據(jù) 110
6.2.4 有關(guān)數(shù)據(jù)處理的元數(shù)據(jù) 111
6.2.5 報告和儀表盤 112
6.3 元數(shù)據(jù)收集 112
6.3.1 聲明式元數(shù)據(jù)收集 113
6.3.2 發(fā)現(xiàn)式元數(shù)據(jù)收集 114
6.4 元數(shù)據(jù)管理實踐 115
6.5 小結(jié) 116
第7章 確保數(shù)據(jù)完整性 117
7.1 構(gòu)建數(shù)據(jù)管道 118
7.2 驗證數(shù)據(jù)管道 123
7.2.1 行數(shù) 123
7.2.2 唯一計數(shù) 124
7.2.3 全字節(jié)比較 124
7.2.4 校驗和比較 125
7.3 小結(jié) 126
第8章 數(shù)據(jù)處理 127
8.1 處理引擎的屬性 127
8.1.1 DAG管理 128
8.1.2 計算隔離 130
8.1.3 性能 132
8.1.4 容錯 132
8.1.5 交互模型 135
8.1.6 批處理或流處理 135
8.2 數(shù)據(jù)處理演變史 136
8.3 小結(jié) 138
關(guān)于作者 139
關(guān)于封面 139