国产亚洲一卡2卡三卡4卡乱码视频,亚洲精品中文字幕乱码4区

本書由知名的計算機科學(xué)家Bill Inmon撰寫，是一本介紹數(shù)據(jù)湖的書。本書講述了如何構(gòu)建一個有用的數(shù)據(jù)湖，非常適合數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師來參考。通過閱讀本書，讀者可以解決很多工作當中遇到的大數(shù)據(jù)問題，并且了解數(shù)據(jù)湖的使用和架構(gòu)。

　　在錯誤的方向上，我們耗費了數(shù)年時間，花費了上百萬美元，但是，我們是不是可以省出一點兒時間和金錢用到正確的方向上來呢？
　　如今，眾多公司正在瘋狂地建設(shè)數(shù)據(jù)湖泊—一種大數(shù)據(jù)狂熱的副產(chǎn)品。有朝一日，這些公司幡然醒悟，發(fā)現(xiàn)他們根本不能從數(shù)據(jù)湖中攫取出任何有用的東西。即便真的從數(shù)據(jù)湖中找到了一丁點兒有用的信息，起碼也要經(jīng)歷嘔心瀝血的努力。
　　他們花費了巨額的資金和大量人年（man years）的努力，卻只換回了昂貴的累贅。
　　終有一天，這些企業(yè)會驚覺于他們所建造的不過是一個“單向”的數(shù)據(jù)湖。數(shù)據(jù)被引入數(shù)據(jù)湖，卻產(chǎn)生不了任何東西。在這種情況下，數(shù)據(jù)湖不會比垃圾場好到哪兒去。
　　這本書就是寫給那些想要建造數(shù)據(jù)湖，并期望能夠從中獲得價值的機構(gòu)。數(shù)據(jù)湖中當然有業(yè)務(wù)價值，但前提是建造得法。如果你正打算建造一個數(shù)據(jù)湖，那么你最好把它建造成公司的一項重要資產(chǎn)，而不是累贅。
　　本書探究了為什么眾多公司在從他們的數(shù)據(jù)湖中獲取數(shù)據(jù)時會面臨如此艱難的困境。關(guān)于這個重要問題有數(shù)種答案。其中一個原因是，數(shù)據(jù)被不加區(qū)別地一股腦地打包丟入數(shù)據(jù)湖中。第二個原因是數(shù)據(jù)沒有被整合起來。第三個原因是數(shù)據(jù)是以文本化的形式保存的，而你沒辦法輕易地分析文本數(shù)據(jù)。
　　本書建議要以高層（high level）的視角來組織數(shù)據(jù)，整合數(shù)據(jù)，“調(diào)�！睌�(shù)據(jù)，其目的就是使調(diào)整后的數(shù)據(jù)能夠成為用于分析和處理的基石。數(shù)據(jù)湖當然可以成為公司的良性資產(chǎn)，但前提是在構(gòu)建數(shù)據(jù)湖時要足夠謹慎，并深謀遠慮。
　　數(shù)據(jù)湖需要被劃分成幾個被稱為數(shù)據(jù)池（data pond）部分，它們是：
　　? 初始數(shù)據(jù)池（Raw data pond）；
　　? 模擬信號數(shù)據(jù)池（Analog data pond）；
　　? 應(yīng)用程序數(shù)據(jù)池（Application data pond）；
　　? 文本數(shù)據(jù)池（Textual data pond）；
　　? 歸檔數(shù)據(jù)池（Archival data pond）。
　　在創(chuàng)建之后，數(shù)據(jù)池需要經(jīng)歷調(diào)整過程，使數(shù)據(jù)容易訪問，以便進一步加以利用。舉例來說，模擬信號數(shù)據(jù)池需要對數(shù)據(jù)進行縮減（reduction）和壓縮。應(yīng)用程序數(shù)據(jù)池需要讓數(shù)據(jù)經(jīng)歷經(jīng)典的ETL整合。文本數(shù)據(jù)池則需要對文本進行消歧，以便使文本可以規(guī)整成一致的數(shù)據(jù)庫結(jié)構(gòu)，這樣，文本所在的語境就可以被識別出來。
　　一旦數(shù)據(jù)池中的數(shù)據(jù)經(jīng)歷過算法的調(diào)整，那么該數(shù)據(jù)池就可以作為基礎(chǔ)，為分析和處理流程提供服務(wù)。一旦數(shù)據(jù)湖中的數(shù)據(jù)被區(qū)劃成不同的數(shù)據(jù)池，并且數(shù)據(jù)在池中經(jīng)歷了調(diào)整，那么這些數(shù)據(jù)池就會成為公司的資產(chǎn)，而不是負累。此外，當數(shù)據(jù)走完了它在數(shù)據(jù)池中的生命周期，它就會被移入歸檔數(shù)據(jù)池。
　　這本書是寫給管理者、學(xué)生、系統(tǒng)開發(fā)人員、架構(gòu)師、程序員以及最終用戶的，并希望能成為那些想把數(shù)據(jù)湖打造成公司資產(chǎn)而非負擔(dān)的機構(gòu)的指導(dǎo)手冊。

收起全部↑

你還可能感興趣

我要評論