本書簡要闡述了數據治理的基本概念及相關理論,側重于數據質量管理和數據集成兩方面,介紹相關基本理論的同時,詳細描述了自主研發(fā)的數據質量管理系統和多源數據匯集處理系統。基于這些數據治理軟件,結合具體的實際案例,詳細描述了數據質量管理與數據集成的典型功能。本書案例內容豐富,步驟翔實具體,有助于讀者在理解數據質量管理和數據集成的基本理論的同時,能較全面地掌握數據質量管理與數據集成軟件的常用功能及其操作方法。
本書既可以作為高等院校信息管理與信息系統、信息資源管理、大數據工程以及計算機信息管理等專業(yè)本科生的教材或輔助讀本,也可以作為企事業(yè)單位信息管理工作人員的培訓教材。
隨著信息量的劇增帶來巨大的數據價值,人們已經意識到挖掘數據價值的重要性,但如何實現數據價值的最大化,始終未得到完美解決。由于各企業(yè)和部門之間的相互獨立,容易造成信息系統之間的不兼容,數據結構存在較大差異,數據難以共享,形成信息的孤島效應。為解決在獲取數據價值過程中出現的這些典型難題,數據治理技術得到快速發(fā)展。數據治理從數據的全生命周期的各個環(huán)節(jié)做出專業(yè)的管理。
本書重點介紹了數據治理中的兩種常用的治理技術——數據質量管理和數據集成,并在自主研發(fā)的平臺上基于典型的案例實現數據質量的管理和數據的集成。數據質量管理能夠確保數據模式和數據實例的一致性、正確性、完整性和最小性。數據集成可將分散的若干個數據源中的數據邏輯地或物理地集成到一個統一的數據集合體中,以統一的視圖對外提供數據服務。因此,本書分為數據治理概述、數據質量管理、數據集成等三部分。
第1部分數據治理概述共1章(第1章),介紹了不同機構體系對數據治理概念的理解,并從四個方面提出對數據治理定義的理解。在進行數據治理時,不同的機構體系都遵循一定的基本原則,具體闡述了COBIT5提出的五項原則。針對不同領域或行業(yè),設計的數據治理模型會有所區(qū)別,IBM數據治理委員會提出了在業(yè)界認可度較高的數據治理模型。該模型從11個數據治理成熟度類別來度量數據治理能力。數據治理的步驟主要闡述了IBM數據治理委員會提出的統一流程。
第2部分數據質量管理共3章(第2~4章),介紹了數據質量常見的三種定義,具體闡述了數據質量的問題分類以及評價數據治理的標準。數據清洗主要研究如何檢測并消除數據中的錯誤和不一致等質量問題。根據常見的數據治理問題,如數據缺失、數據記錄相似或重復、數據異常、數據邏輯錯誤等,提供了相應的數據清洗方法,同時總結了提高數據清洗效率的典型流程。數據質量管理系統是一款通過對數據質量建立各個指標維度后進行質量評估最終實現數據清洗的軟件系統,主要分為用于管理不同類型數據源的數據源管理、用于元數據查看預覽的數據剖析、用于指標體系建立與維護以及支撐整個評估流程的數據質量評估、用于對完成數據評估的數據進行清洗的數據清洗、用于系統基本功能設置以及用戶設置的系統設置等五大功能;跀祿|量管理系統,以教師信息為依托,介紹了常用的數據質量管理的操作流程,以及檢查算子的開發(fā)方法。
第3部分數據集成共3章(第 5~7 章),介紹了數據集成的概念,虛擬視圖和物化及其混合的集成方法,以及數據集成的開發(fā)生命周期。多源數據匯集處理系統是一款基于 Kettle軟件改造的專用數據集成軟件,其核心功能和運行模式與Kettle基本一致。它能夠以普通人員、專業(yè)數據人員、開發(fā)者等不同身份操作軟件的功能。在該軟件上,詳細介紹了表屬性的計算匯總、表數據分組統計、表間數據關聯、腳本處理、多表數據合并、字段合并與數據分流、數據范圍標識等典型數據集成方法,并闡述了這些典型方法的綜合運用。
本書由陳剛負責全面籌劃、設計工作,其中第1、3、4章由陳剛負責編寫,第5、6、7章由郝建東負責編寫,第2章由張中輝負責編寫,胡琨和于坤參與了部分章節(jié)的編寫,郝建東負責統稿、校驗、修訂等工作。
本書既可以作為高等院校信息管理與信息系統、信息資源管理、大數據工程以及計算機信息管理等專業(yè)本科生的教材或輔助讀本,也可以作為企事業(yè)單位信息管理工作人員的培訓教材,在理解數據治理,特別是數據質量管理和數據集成的相關理論的同時,通過數據質量管理和數據集成的典型軟件,掌握數據治理的常用方法,提高實踐操作能力。
由于編者水平有限、編寫時間緊迫,加之數據工程理論與技術不斷發(fā)展,書中難免存有錯誤和不妥之處,敬請專家和廣大讀者不吝批評指正。編者將進一步完善和充實本書的內容。
編著者
2021年5月于南京