本書由知名的計算機科學家Bill Inmon撰寫,是一本介紹數據湖的書。本書講述了如何構建一個有用的數據湖,非常適合數據科學家、數據分析師來參考。通過閱讀本書,讀者可以解決很多工作當中遇到的大數據問題,并且了解數據湖的使用和架構。
眾多公司花費了大量的時間和金錢獲取數據,并將大量的數據保存在一個叫做數據湖的數據容器中。但是,其中又能有多少公司把數據從數據湖中取回并加以利用呢?事實上,很少有公司能把數據湖當成信息的金礦來使用。多數公司得到的僅僅是一個垃圾場。
本書將會告訴你如何去構建一個有用的數據湖,從而讓數據科學家與數據分析師能夠面對業(yè)務挑戰(zhàn)并發(fā)現新的商機。
通過閱讀本書,你將能夠學習如何:
構建數據湖并模擬數據;
應用數據及基于文本的數據池,從而將業(yè)務價值化;
理解原始數據池的角色定位;
掌握使用歸檔數據池的時機;
利用4大核心組件:元數據、業(yè)務的整合對應,語境及元過程信息。
本書的作者曾經讓我們放眼于數據倉庫的架構與成效,如今他又將我們帶入到數據湖架構的新高度。
在錯誤的方向上,我們耗費了數年時間,花費了上百萬美元,但是,我們是不是可以省出一點兒時間和金錢用到正確的方向上來呢?
如今,眾多公司正在瘋狂地建設數據湖泊—一種大數據狂熱的副產品。有朝一日,這些公司幡然醒悟,發(fā)現他們根本不能從數據湖中攫取出任何有用的東西。即便真的從數據湖中找到了一丁點兒有用的信息,起碼也要經歷嘔心瀝血的努力。
他們花費了巨額的資金和大量人年(man years)的努力,卻只換回了昂貴的累贅。
終有一天,這些企業(yè)會驚覺于他們所建造的不過是一個“單向”的數據湖。數據被引入數據湖,卻產生不了任何東西。在這種情況下,數據湖不會比垃圾場好到哪兒去。
這本書就是寫給那些想要建造數據湖,并期望能夠從中獲得價值的機構。數據湖中當然有業(yè)務價值,但前提是建造得法。如果你正打算建造一個數據湖,那么你最好把它建造成公司的一項重要資產,而不是累贅。
本書探究了為什么眾多公司在從他們的數據湖中獲取數據時會面臨如此艱難的困境。關于這個重要問題有數種答案。其中一個原因是,數據被不加區(qū)別地一股腦地打包丟入數據湖中。第二個原因是數據沒有被整合起來。第三個原因是數據是以文本化的形式保存的,而你沒辦法輕易地分析文本數據。
本書建議要以高層(high level)的視角來組織數據,整合數據,“調!睌祿淠康木褪鞘拐{整后的數據能夠成為用于分析和處理的基石。數據湖當然可以成為公司的良性資產,但前提是在構建數據湖時要足夠謹慎,并深謀遠慮。
數據湖需要被劃分成幾個被稱為數據池(data pond)部分,它們是:
? 初始數據池(Raw data pond);
? 模擬信號數據池(Analog data pond);
? 應用程序數據池(Application data pond);
? 文本數據池(Textual data pond);
? 歸檔數據池(Archival data pond)。
在創(chuàng)建之后,數據池需要經歷調整過程,使數據容易訪問,以便進一步加以利用。舉例來說,模擬信號數據池需要對數據進行縮減(reduction)和壓縮。應用程序數據池需要讓數據經歷經典的ETL整合。文本數據池則需要對文本進行消歧,以便使文本可以規(guī)整成一致的數據庫結構,這樣,文本所在的語境就可以被識別出來。
一旦數據池中的數據經歷過算法的調整,那么該數據池就可以作為基礎,為分析和處理流程提供服務。一旦數據湖中的數據被區(qū)劃成不同的數據池,并且數據在池中經歷了調整,那么這些數據池就會成為公司的資產,而不是負累。此外,當數據走完了它在數據池中的生命周期,它就會被移入歸檔數據池。
這本書是寫給管理者、學生、系統(tǒng)開發(fā)人員、架構師、程序員以及最終用戶的,并希望能成為那些想把數據湖打造成公司資產而非負擔的機構的指導手冊。
收起全部↑
Bill Inmon,是“數據倉庫之父”,他著有57本書,并以9種語言在全球出版。Bill最近的創(chuàng)舉是建立了叫做“文本消歧”的技術,這項技術能以敘述性格式讀取初始文本,并能夠將文本置于常規(guī)的數據庫中,以便使用標準的分析技術進行分析處理,從而為大數據/非結構化數據創(chuàng)造獨特的業(yè)務價值。Bill曾被《計算機世界雜志(ComputerWorld)》評選為“歷史上對計算機行業(yè)影響的十個人之一”。Bill住在美國科羅拉多州的堡石城(Castle Rock)。關于文本消歧的更多資料,請訪問 www.forestrimtech.com。
第1章 數據的湖泊 1
1.1 大數據來了 2
1.2 數據湖來了 2
1.3 “單向”的數據湖 4
1.4 小結 7
第2章 改造數據湖 8
2.1 元數據 9
2.2 整合圖譜 9
2.3 語境 11
2.4 元過程 11
2.5 數據科學家 13
2.6 通用性 14
2.7 小結 14
第3章 數據湖內部 16
3.1 模擬信號數據 17
3.2 應用程序數據 20
3.3 文本數據 21
3.4 另一個視角 23
3.5 小結 24
第4章 數據池 26
4.1 數據修整 27
4.2 初始數據池 28
4.3 模擬信號數據池 29
4.4 應用程序數據池 29
4.5 文本數據池 30
4.6 將數據直接傳入數據池 30
4.7 歸檔數據池 31
4.8 小結 32
第5章 數據池的通用結構 33
5.1 數據池描述 34
5.2 數據池目標 35
5.3 數據池數據 36
5.4 數據池元數據 36
5.5 數據池元過程 37
5.6 數據轉換標準 38
5.7 小結 39
第6章 模擬信號數據池 41
6.1 模擬信號數據問題 42
6.2 數據描述 42
6.3 捕獲初始數據、轉換初始數據 43
6.4 轉換/調整初始模擬信號數據 44
6.5 數據切除 47
6.6 聚類數據 48
6.7 數據關系 50
6.8 未來使用的可能性 51
6.9 異常值 52
6.10 臨時性的特定分析 54
6.11 小結 55
第7章 應用程序數據池 57
7.1 數據的基因 58
7.2 數據描述 59
7.3 標準數據庫格式 59
7.4 數據的基本組織 60
7.5 數據的整合 61
7.6 數據模型 61
7.7 整合的必要性 63
7.8 從一個應用指向到下一個應用 65
7.9 交并應用 66
7.10 應用程序數據池內的數據子集 67
7.11 小結 68
第8章 文本數據池 70
8.1 統(tǒng)一化的數據與計算機 70
8.2 寶貴的文本 71
8.3 文本消歧 72
8.4 傳入數據池的文本 73
8.5 文本消歧的輸出 74
8.6 固有的復雜性 75
8.7 文本消歧的功能 77
8.8 分類與本體 77
8.9 文本與語境的價值 79
8.10 對文本追根溯源 80
8.11 消歧的機制 80
8.12 分析數據庫 81
8.13 將結果可視化 82
8.14 小結 84
第9章 數據池間的對比 85
9.1 數據池的相似性 85
9.2 數據池的差異性 86
9.3 數據最終狀態(tài)的關系型格式 86
9.4 技術間差異 87
9.5 數據池中數據的總預期容量 88
9.6 數據池間的數據移動 88
9.7 在多個數據池進行分析 89
9.8 使用元數據來關聯(lián)不同數據池內的數據 90
9.9 假如…… 91
9.10 小結 92
第10章 利用基礎架構 94
10.1 “單向”數據湖 95
10.2 改造數據湖 96
10.3 轉換技術 96
10.4 一些分析問題 97
10.5 查詢文本數據 100
10.6 真實的分析 101
10.7 小結 102
第11章 搜索與分析 103
11.1 供應商所散布的困惑 110
11.2 小結 110
第12章 數據池中的業(yè)務價值 111
12.1 模擬信號數據池中的業(yè)務價值 111
12.2 應用程序數據池中的業(yè)務價值 114
12.3 文本數據池中的業(yè)務價值 115
12.4 記錄中的業(yè)務價值比例 116
12.5 小結 117
第13章 一些額外話題 118
13.1 高層系統(tǒng)級別文檔 118
13.2 詳細的數據池級別文檔 119
13.3 什么樣的數據會流入數據湖/數據池 120
13.4 分析在何處發(fā)生 121
13.5 數據的年齡 125
13.6 數據的安全 125
13.7 小結 126
第14章 分析與整合工具 127
14.1 可視化 127
14.2 搜索與修正 128
14.3 文本消歧 129
14.4 統(tǒng)計分析 130
14.5 經典的ETL處理 131
14.6 小結 131
第15章 歸檔數據池 133
15.1 數據的移除標準 134
15.2 結構性改動 134
15.3 為歸檔數據池建立單獨的索引 135
15.4 小結 136
術語表 137
參考資料 142