本書由知名的計算機科學家Bill Inmon撰寫,是一本介紹數(shù)據(jù)湖的書。本書講述了如何構(gòu)建一個有用的數(shù)據(jù)湖,非常適合數(shù)據(jù)科學家、數(shù)據(jù)分析師來參考。通過閱讀本書,讀者可以解決很多工作當中遇到的大數(shù)據(jù)問題,并且了解數(shù)據(jù)湖的使用和架構(gòu)。
眾多公司花費了大量的時間和金錢獲取數(shù)據(jù),并將大量的數(shù)據(jù)保存在一個叫做數(shù)據(jù)湖的數(shù)據(jù)容器中。但是,其中又能有多少公司把數(shù)據(jù)從數(shù)據(jù)湖中取回并加以利用呢?事實上,很少有公司能把數(shù)據(jù)湖當成信息的金礦來使用。多數(shù)公司得到的僅僅是一個垃圾場。
本書將會告訴你如何去構(gòu)建一個有用的數(shù)據(jù)湖,從而讓數(shù)據(jù)科學家與數(shù)據(jù)分析師能夠面對業(yè)務挑戰(zhàn)并發(fā)現(xiàn)新的商機。
通過閱讀本書,你將能夠?qū)W習如何:
構(gòu)建數(shù)據(jù)湖并模擬數(shù)據(jù);
應用數(shù)據(jù)及基于文本的數(shù)據(jù)池,從而將業(yè)務價值化;
理解原始數(shù)據(jù)池的角色定位;
掌握使用歸檔數(shù)據(jù)池的時機;
利用4大核心組件:元數(shù)據(jù)、業(yè)務的整合對應,語境及元過程信息。
本書的作者曾經(jīng)讓我們放眼于數(shù)據(jù)倉庫的架構(gòu)與成效,如今他又將我們帶入到數(shù)據(jù)湖架構(gòu)的新高度。
在錯誤的方向上,我們耗費了數(shù)年時間,花費了上百萬美元,但是,我們是不是可以省出一點兒時間和金錢用到正確的方向上來呢?
如今,眾多公司正在瘋狂地建設數(shù)據(jù)湖泊—一種大數(shù)據(jù)狂熱的副產(chǎn)品。有朝一日,這些公司幡然醒悟,發(fā)現(xiàn)他們根本不能從數(shù)據(jù)湖中攫取出任何有用的東西。即便真的從數(shù)據(jù)湖中找到了一丁點兒有用的信息,起碼也要經(jīng)歷嘔心瀝血的努力。
他們花費了巨額的資金和大量人年(man years)的努力,卻只換回了昂貴的累贅。
終有一天,這些企業(yè)會驚覺于他們所建造的不過是一個“單向”的數(shù)據(jù)湖。數(shù)據(jù)被引入數(shù)據(jù)湖,卻產(chǎn)生不了任何東西。在這種情況下,數(shù)據(jù)湖不會比垃圾場好到哪兒去。
這本書就是寫給那些想要建造數(shù)據(jù)湖,并期望能夠從中獲得價值的機構(gòu)。數(shù)據(jù)湖中當然有業(yè)務價值,但前提是建造得法。如果你正打算建造一個數(shù)據(jù)湖,那么你最好把它建造成公司的一項重要資產(chǎn),而不是累贅。
本書探究了為什么眾多公司在從他們的數(shù)據(jù)湖中獲取數(shù)據(jù)時會面臨如此艱難的困境。關(guān)于這個重要問題有數(shù)種答案。其中一個原因是,數(shù)據(jù)被不加區(qū)別地一股腦地打包丟入數(shù)據(jù)湖中。第二個原因是數(shù)據(jù)沒有被整合起來。第三個原因是數(shù)據(jù)是以文本化的形式保存的,而你沒辦法輕易地分析文本數(shù)據(jù)。
本書建議要以高層(high level)的視角來組織數(shù)據(jù),整合數(shù)據(jù),“調(diào)!睌(shù)據(jù),其目的就是使調(diào)整后的數(shù)據(jù)能夠成為用于分析和處理的基石。數(shù)據(jù)湖當然可以成為公司的良性資產(chǎn),但前提是在構(gòu)建數(shù)據(jù)湖時要足夠謹慎,并深謀遠慮。
數(shù)據(jù)湖需要被劃分成幾個被稱為數(shù)據(jù)池(data pond)部分,它們是:
? 初始數(shù)據(jù)池(Raw data pond);
? 模擬信號數(shù)據(jù)池(Analog data pond);
? 應用程序數(shù)據(jù)池(Application data pond);
? 文本數(shù)據(jù)池(Textual data pond);
? 歸檔數(shù)據(jù)池(Archival data pond)。
在創(chuàng)建之后,數(shù)據(jù)池需要經(jīng)歷調(diào)整過程,使數(shù)據(jù)容易訪問,以便進一步加以利用。舉例來說,模擬信號數(shù)據(jù)池需要對數(shù)據(jù)進行縮減(reduction)和壓縮。應用程序數(shù)據(jù)池需要讓數(shù)據(jù)經(jīng)歷經(jīng)典的ETL整合。文本數(shù)據(jù)池則需要對文本進行消歧,以便使文本可以規(guī)整成一致的數(shù)據(jù)庫結(jié)構(gòu),這樣,文本所在的語境就可以被識別出來。
一旦數(shù)據(jù)池中的數(shù)據(jù)經(jīng)歷過算法的調(diào)整,那么該數(shù)據(jù)池就可以作為基礎,為分析和處理流程提供服務。一旦數(shù)據(jù)湖中的數(shù)據(jù)被區(qū)劃成不同的數(shù)據(jù)池,并且數(shù)據(jù)在池中經(jīng)歷了調(diào)整,那么這些數(shù)據(jù)池就會成為公司的資產(chǎn),而不是負累。此外,當數(shù)據(jù)走完了它在數(shù)據(jù)池中的生命周期,它就會被移入歸檔數(shù)據(jù)池。
這本書是寫給管理者、學生、系統(tǒng)開發(fā)人員、架構(gòu)師、程序員以及最終用戶的,并希望能成為那些想把數(shù)據(jù)湖打造成公司資產(chǎn)而非負擔的機構(gòu)的指導手冊。
收起全部↑
Bill Inmon,是“數(shù)據(jù)倉庫之父”,他著有57本書,并以9種語言在全球出版。Bill最近的創(chuàng)舉是建立了叫做“文本消歧”的技術(shù),這項技術(shù)能以敘述性格式讀取初始文本,并能夠?qū)⑽谋局糜诔R?guī)的數(shù)據(jù)庫中,以便使用標準的分析技術(shù)進行分析處理,從而為大數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造獨特的業(yè)務價值。Bill曾被《計算機世界雜志(ComputerWorld)》評選為“歷史上對計算機行業(yè)影響的十個人之一”。Bill住在美國科羅拉多州的堡石城(Castle Rock)。關(guān)于文本消歧的更多資料,請訪問 www.forestrimtech.com。
第1章 數(shù)據(jù)的湖泊 1
1.1 大數(shù)據(jù)來了 2
1.2 數(shù)據(jù)湖來了 2
1.3 “單向”的數(shù)據(jù)湖 4
1.4 小結(jié) 7
第2章 改造數(shù)據(jù)湖 8
2.1 元數(shù)據(jù) 9
2.2 整合圖譜 9
2.3 語境 11
2.4 元過程 11
2.5 數(shù)據(jù)科學家 13
2.6 通用性 14
2.7 小結(jié) 14
第3章 數(shù)據(jù)湖內(nèi)部 16
3.1 模擬信號數(shù)據(jù) 17
3.2 應用程序數(shù)據(jù) 20
3.3 文本數(shù)據(jù) 21
3.4 另一個視角 23
3.5 小結(jié) 24
第4章 數(shù)據(jù)池 26
4.1 數(shù)據(jù)修整 27
4.2 初始數(shù)據(jù)池 28
4.3 模擬信號數(shù)據(jù)池 29
4.4 應用程序數(shù)據(jù)池 29
4.5 文本數(shù)據(jù)池 30
4.6 將數(shù)據(jù)直接傳入數(shù)據(jù)池 30
4.7 歸檔數(shù)據(jù)池 31
4.8 小結(jié) 32
第5章 數(shù)據(jù)池的通用結(jié)構(gòu) 33
5.1 數(shù)據(jù)池描述 34
5.2 數(shù)據(jù)池目標 35
5.3 數(shù)據(jù)池數(shù)據(jù) 36
5.4 數(shù)據(jù)池元數(shù)據(jù) 36
5.5 數(shù)據(jù)池元過程 37
5.6 數(shù)據(jù)轉(zhuǎn)換標準 38
5.7 小結(jié) 39
第6章 模擬信號數(shù)據(jù)池 41
6.1 模擬信號數(shù)據(jù)問題 42
6.2 數(shù)據(jù)描述 42
6.3 捕獲初始數(shù)據(jù)、轉(zhuǎn)換初始數(shù)據(jù) 43
6.4 轉(zhuǎn)換/調(diào)整初始模擬信號數(shù)據(jù) 44
6.5 數(shù)據(jù)切除 47
6.6 聚類數(shù)據(jù) 48
6.7 數(shù)據(jù)關(guān)系 50
6.8 未來使用的可能性 51
6.9 異常值 52
6.10 臨時性的特定分析 54
6.11 小結(jié) 55
第7章 應用程序數(shù)據(jù)池 57
7.1 數(shù)據(jù)的基因 58
7.2 數(shù)據(jù)描述 59
7.3 標準數(shù)據(jù)庫格式 59
7.4 數(shù)據(jù)的基本組織 60
7.5 數(shù)據(jù)的整合 61
7.6 數(shù)據(jù)模型 61
7.7 整合的必要性 63
7.8 從一個應用指向到下一個應用 65
7.9 交并應用 66
7.10 應用程序數(shù)據(jù)池內(nèi)的數(shù)據(jù)子集 67
7.11 小結(jié) 68
第8章 文本數(shù)據(jù)池 70
8.1 統(tǒng)一化的數(shù)據(jù)與計算機 70
8.2 寶貴的文本 71
8.3 文本消歧 72
8.4 傳入數(shù)據(jù)池的文本 73
8.5 文本消歧的輸出 74
8.6 固有的復雜性 75
8.7 文本消歧的功能 77
8.8 分類與本體 77
8.9 文本與語境的價值 79
8.10 對文本追根溯源 80
8.11 消歧的機制 80
8.12 分析數(shù)據(jù)庫 81
8.13 將結(jié)果可視化 82
8.14 小結(jié) 84
第9章 數(shù)據(jù)池間的對比 85
9.1 數(shù)據(jù)池的相似性 85
9.2 數(shù)據(jù)池的差異性 86
9.3 數(shù)據(jù)最終狀態(tài)的關(guān)系型格式 86
9.4 技術(shù)間差異 87
9.5 數(shù)據(jù)池中數(shù)據(jù)的總預期容量 88
9.6 數(shù)據(jù)池間的數(shù)據(jù)移動 88
9.7 在多個數(shù)據(jù)池進行分析 89
9.8 使用元數(shù)據(jù)來關(guān)聯(lián)不同數(shù)據(jù)池內(nèi)的數(shù)據(jù) 90
9.9 假如…… 91
9.10 小結(jié) 92
第10章 利用基礎架構(gòu) 94
10.1 “單向”數(shù)據(jù)湖 95
10.2 改造數(shù)據(jù)湖 96
10.3 轉(zhuǎn)換技術(shù) 96
10.4 一些分析問題 97
10.5 查詢文本數(shù)據(jù) 100
10.6 真實的分析 101
10.7 小結(jié) 102
第11章 搜索與分析 103
11.1 供應商所散布的困惑 110
11.2 小結(jié) 110
第12章 數(shù)據(jù)池中的業(yè)務價值 111
12.1 模擬信號數(shù)據(jù)池中的業(yè)務價值 111
12.2 應用程序數(shù)據(jù)池中的業(yè)務價值 114
12.3 文本數(shù)據(jù)池中的業(yè)務價值 115
12.4 記錄中的業(yè)務價值比例 116
12.5 小結(jié) 117
第13章 一些額外話題 118
13.1 高層系統(tǒng)級別文檔 118
13.2 詳細的數(shù)據(jù)池級別文檔 119
13.3 什么樣的數(shù)據(jù)會流入數(shù)據(jù)湖/數(shù)據(jù)池 120
13.4 分析在何處發(fā)生 121
13.5 數(shù)據(jù)的年齡 125
13.6 數(shù)據(jù)的安全 125
13.7 小結(jié) 126
第14章 分析與整合工具 127
14.1 可視化 127
14.2 搜索與修正 128
14.3 文本消歧 129
14.4 統(tǒng)計分析 130
14.5 經(jīng)典的ETL處理 131
14.6 小結(jié) 131
第15章 歸檔數(shù)據(jù)池 133
15.1 數(shù)據(jù)的移除標準 134
15.2 結(jié)構(gòu)性改動 134
15.3 為歸檔數(shù)據(jù)池建立單獨的索引 135
15.4 小結(jié) 136
術(shù)語表 137
參考資料 142