序 一
2019年4月,我應北京易華錄林擁軍總裁邀請到湖南長沙,出席中國華錄集團和株洲市人民政府聯(lián)合舉辦的互聯(lián)網(wǎng)岳麓峰會大數(shù)據(jù)產(chǎn)業(yè)論壇,并發(fā)表了題為《數(shù)字經(jīng)濟時代的機遇與網(wǎng)絡安全》的主旨演講。在這次論壇上,我對易華錄提出的數(shù)據(jù)湖有了一些了解�?偟膩砜�,他們提出了在數(shù)字經(jīng)濟時代發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的一種新模式,在全國也落地了不少實踐案例。最近,得知林擁軍總裁能夠組織團隊,總結(jié)這些理論和實踐成果并最終成書出版,實屬可喜可賀。借此機會,我談談對大數(shù)據(jù)的看法。
什么是大數(shù)據(jù)?是不是數(shù)據(jù)量比較大,數(shù)據(jù)共享互聯(lián)就叫大數(shù)據(jù)?恐怕不是的。人類文明自誕生以來就有數(shù)據(jù)這一概念了,數(shù)據(jù)有其科學的發(fā)展過程。遠的不說,從計算機處理數(shù)據(jù)開始,數(shù)據(jù)的發(fā)展分三個階段。首先是數(shù)值計算時代。數(shù)值計算時代的特征是用機器代替手工處理數(shù)據(jù),將數(shù)據(jù)處理的過程用信息化的方式來完成。隨著數(shù)據(jù)量的增多,數(shù)據(jù)除了有相關關系以外,還有語意、語法、相互邏輯,尤其是多媒體時代以后,文件系統(tǒng)處理數(shù)據(jù)顯得不夠有力,于是便誕生了關系型數(shù)據(jù)庫。后來,隨著數(shù)據(jù)量的爆炸,又產(chǎn)生了數(shù)據(jù)倉庫。用數(shù)字來表達產(chǎn)業(yè)與產(chǎn)業(yè)的過程,既提高了效率,又加快了進度,可稱之為數(shù)據(jù)工程時代。在這個階段,數(shù)據(jù)還是作為處理的基礎元素,還沒有形成生產(chǎn)的要素�,F(xiàn)在的數(shù)據(jù)是金錢,也是財富,因此,數(shù)據(jù)已經(jīng)不再是工具,更不是以前用于計算的數(shù)值,數(shù)據(jù)本身也已成為生產(chǎn)的要素。
那么,到底什么是大數(shù)據(jù)呢?從科學的角度來定義,大數(shù)據(jù)是指無法用現(xiàn)有的軟件工具進行處理的海量復雜的數(shù)據(jù)集合,它具有多源異構(gòu)、非結(jié)構(gòu)化、低價值度、快速處理等特點。也就是說,不能用現(xiàn)有的數(shù)據(jù)庫,也不能用現(xiàn)有數(shù)據(jù)互聯(lián)互通的協(xié)議來處理的數(shù)據(jù)才是大數(shù)據(jù)。
因此,數(shù)據(jù)大從根本上講并不是大數(shù)據(jù),有什么區(qū)別呢?無非就是以下幾個區(qū)別:第一,以前我們對數(shù)據(jù)的互通互聯(lián)是有目的、有對象的,但是大數(shù)據(jù)卻非如此。各種各樣的數(shù)據(jù)都要被收集起來,即便是跟你無關的數(shù)據(jù),也可能擦出新的火花。因此,大數(shù)據(jù)是多源異構(gòu),它數(shù)量龐大。第二,政府要治理社會,不是簡單地將與政府有關的數(shù)據(jù)收集起來就可以了,更重要的是要收集那些看似沒有關系的數(shù)據(jù)。因此,這些數(shù)據(jù)收集下來以后是不完全的,是非結(jié)構(gòu)化的。第三,有些數(shù)據(jù)本身價值密度很低,但數(shù)量巨大,那么它就不是大數(shù)據(jù)。數(shù)據(jù)再海量也不是大數(shù)據(jù)。大數(shù)據(jù)要快進快出,不要把垃圾堆積如山。
大數(shù)據(jù)是鉆石礦,而是鉆石礦就會有競爭,就會有搗亂,就會有破壞,會面臨大數(shù)據(jù)時代新的安全風險。怎么辦?我們要有科學的網(wǎng)絡安全觀。殺病毒、防火墻、補漏洞、打補丁,這些是不夠的。那么離開封堵查殺,如何保障網(wǎng)絡安全?這就要有安全可信的體系。按照《中華人民共和國網(wǎng)絡安全法》第十六條,國務院和省、自治區(qū)、直轄市人民政府應當統(tǒng)籌規(guī)劃,加大投入,扶持重點網(wǎng)絡安全技術(shù)產(chǎn)業(yè)和項目,支持網(wǎng)絡安全技術(shù)的研究開發(fā)和應用,推廣安全可信的網(wǎng)絡產(chǎn)品和服務。《國家網(wǎng)絡空間安全戰(zhàn)略》也提出夯實網(wǎng)絡安全基礎,強調(diào)盡快在核心技術(shù)上取得突破,加快安全可信的產(chǎn)品推廣應用。
我國在可信計算領域的創(chuàng)新比較早,從1992年2月第一批成果通過測評和鑒定開始,有關成果被先后應用在國家電網(wǎng)、中央電視臺等核心要害部門。目前,我們開啟了可信計算3.0時代,下一步要按照國家法律法規(guī)、技術(shù)標準有關要求,用可信計算3.0夯實網(wǎng)絡安全等級保護基礎,堅決捍衛(wèi)國家網(wǎng)絡安全。這正是我們要在大數(shù)據(jù)時代應該做的。
希望通過這篇序言,讓更多的人關注和正確認識大數(shù)據(jù),關注大數(shù)據(jù)安全和大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,共同攜起手來,為國家數(shù)字經(jīng)濟建設和網(wǎng)絡強國戰(zhàn)略推進做出更大的貢獻。
中國工程院院士
國家集成電路產(chǎn)業(yè)發(fā)展咨詢委員會委員
國家信息化專家咨詢委員會委員
國家三網(wǎng)融合專家組成員
2019年8月于北京
序 二
什么是數(shù)據(jù)湖?根據(jù)亞馬遜公司的定義,數(shù)據(jù)湖是一個集中式存儲庫,允許以任意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)�?梢园丛瓨哟鎯�(shù)據(jù)(無須先對數(shù)據(jù)進行結(jié)構(gòu)化處理),并運行不同類型的分析從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習,以指導做出更好的決策。
在這本《數(shù)據(jù)湖:新時代數(shù)字經(jīng)濟基礎設施》中,北京易華錄信息技術(shù)股份有限公司創(chuàng)始人、總裁林擁軍先生首創(chuàng)城市數(shù)據(jù)湖理論體系,圍繞城市數(shù)據(jù)存儲、加工、分析、應用,提出獨特的大數(shù)據(jù)解決方案,將城市數(shù)據(jù)湖打造成為新時代的數(shù)字經(jīng)濟基礎設施。
2017年8月,我受邀參訪易華錄,第一次聽取了林擁軍團隊提出的城市數(shù)據(jù)湖概念和實踐。之后我與易華錄團隊多次在全國各地的大數(shù)據(jù)會議碰面并交流。今年5月第三屆世界智能大會期間,受林總邀請,我在數(shù)據(jù)湖生態(tài)與數(shù)據(jù)智能高峰論壇上發(fā)表主旨演講,同時也驚喜地發(fā)現(xiàn):短短兩年時間,易華錄城市數(shù)據(jù)湖已在全國20多個城市中推廣和應用,成為積淀城市數(shù)據(jù)的重要載體,為各地構(gòu)建以數(shù)據(jù)為要素的數(shù)字經(jīng)濟打下了堅實的基礎。
大數(shù)據(jù)相關歷史
大數(shù)據(jù)背后是數(shù)據(jù)科學,而數(shù)據(jù)科學是關于數(shù)據(jù)收集、管理、轉(zhuǎn)換、分析與應用的科學,其核心是研究從數(shù)據(jù)中獲取知識,而基礎是先記錄這些數(shù)據(jù)。
數(shù)據(jù)分析的歷史可追溯到250年前早期使用統(tǒng)計數(shù)據(jù)來解決實際問題。在統(tǒng)計學領域,貝葉斯(Bayes)定理在概率論和統(tǒng)計應用的發(fā)展中發(fā)揮了關鍵作用。1783年,著名統(tǒng)計學家理查德·普萊斯(Richard Price)發(fā)表了壽命表,根據(jù)他作為精算師的觀察結(jié)果計算了英格蘭人生命持續(xù)時間的概率。觀察結(jié)果以記錄行和屬性列作為統(tǒng)計分析的基礎。這些表現(xiàn)在通常在數(shù)據(jù)挖掘中用作多維表。因此,從歷史的角度來看,多維表應稱為理查德普萊斯表,而普萊斯應該被譽為數(shù)據(jù)分析和數(shù)據(jù)挖掘之父。
自20世紀50年代以來,隨著計算技術(shù)逐漸被應用于商業(yè),許多公司已經(jīng)開發(fā)了用于存儲和分析所收集數(shù)據(jù)的數(shù)據(jù)庫。用于處理數(shù)據(jù)集的數(shù)學工具已經(jīng)從統(tǒng)計學演變?yōu)槿斯ぶ悄艿姆椒�,包括神�?jīng)網(wǎng)絡和決策樹。在20世紀90年代,數(shù)據(jù)庫社區(qū)開始使用術(shù)語數(shù)據(jù)挖掘,這與術(shù)語數(shù)據(jù)庫中的知識發(fā)現(xiàn)是等價的。數(shù)據(jù)挖掘(常伴隨人工干預)、機器學習、數(shù)學建模和數(shù)據(jù)庫相交叉,是現(xiàn)在數(shù)據(jù)分析的常用方法。構(gòu)建對大數(shù)據(jù)或數(shù)據(jù)科學的理論組成部分需要來自數(shù)學、社會學、經(jīng)濟學、計算科學和管理科學等學科的共同努力。
大數(shù)據(jù)挑戰(zhàn)
大數(shù)據(jù)分析或數(shù)據(jù)挖掘的關鍵價值在于獲取智能知識。大數(shù)據(jù)分析面臨許多挑戰(zhàn)。為了在科學、工程和商業(yè)應用中利用大數(shù)據(jù)獲益,需要解決以下三個問題:一是半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變;二是復雜性,不確定性和系統(tǒng)建模;三是理解數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性之間的關系。
第一個問題,在云存儲和云計算基礎上,如何利用信息技術(shù)等手段對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行有效處理,已成為各國大數(shù)據(jù)專家共同關注的前沿科研問題。在大數(shù)據(jù)的學術(shù)領域,由于這些數(shù)據(jù)的復雜性、數(shù)據(jù)的原理、基本規(guī)則和屬性,特別是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)尚未得到闡明。這種復雜性不僅反映了數(shù)據(jù)所代表的對象的多樣性,而且反映了每個數(shù)據(jù)集只能呈現(xiàn)給定對象的部分圖像的事實:盡管數(shù)據(jù)集可以準確地表示對象的一個方面,但它無法傳達整個圖像。因此,數(shù)據(jù)表示與真實對象之間的關系類似于盲人和大象的關系:所得到的感知圖像將在很大程度上取決于所觀察的特定方面。
由于最近的進步,Hadoop和MapReduce等技術(shù)使得在合理的時間內(nèi)收集大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)成為可能。關鍵的工程挑戰(zhàn)是如何有效地分析這些數(shù)據(jù)并在特定的時間內(nèi)從中提取知識�?赡艿牡谝徊绞菍虢Y(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后應用為結(jié)構(gòu)化數(shù)據(jù)開發(fā)的數(shù)據(jù)挖掘算法。
一旦數(shù)據(jù)被結(jié)構(gòu)化,已知的數(shù)據(jù)挖掘算法就可以產(chǎn)生粗略的知識。該過程的這個階段可以被視為一階挖掘。結(jié)構(gòu)化粗略知識可以反映決策者在升級為智能知識后可以使用的新屬性。此升級需要分析師利用經(jīng)驗,常識和主題專業(yè)知識等人類知識,這個階段稱為二階挖掘。由于知識隨個人和情況而變化,因此人機界面(大數(shù)據(jù)挖掘與人類知識)在大數(shù)據(jù)分析中起著關鍵作用。
第二個問題,如何探索大數(shù)據(jù)復雜性、不確定性特征描述的刻畫方法及大數(shù)據(jù)的系統(tǒng)建模,這一問題的突破是實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)的前提和關鍵。大數(shù)據(jù)的復雜性是由數(shù)據(jù)的數(shù)量和種類引起的,不確定性來自數(shù)據(jù)表示的性質(zhì)和多樣性的變化。
當某種分析方法應用于大數(shù)據(jù)時,得到的知識受限于真實對象的特定角度或方面。一旦角度改變,通過收集方法或分析方法獲得的知識就不再有用了。例如,在涉及大數(shù)據(jù)的石油勘探工程中,數(shù)據(jù)挖掘已應用于由地震測試和測井數(shù)據(jù)生成的空間數(shù)據(jù)庫。地下地質(zhì)結(jié)構(gòu)本身很復雜,非線性數(shù)據(jù)模式可能因尺寸和角度改變而改變。因此,數(shù)據(jù)挖掘或分析的任何結(jié)果僅代表給定表面的知識。如果曲面發(fā)生變化,結(jié)果也會發(fā)生變化。挑戰(zhàn)在于確定如何從空間數(shù)據(jù)的不同表面獲得有意義的知識。
為了應對這一挑戰(zhàn),需要對大數(shù)據(jù)的復雜性和不確定性進行系統(tǒng)建模。建立一個廣泛適用于大數(shù)據(jù)的綜合數(shù)學系統(tǒng)可能很困難,但通過了解給定主題或領域的特定復雜性或不確定性,可以為特定的大數(shù)據(jù)表示創(chuàng)建基于領域的系統(tǒng)建模。一系列此類建模結(jié)構(gòu)可以模擬不同主題或領域的大數(shù)據(jù)分析。
如果工程師能夠確定一些處理特定領域大數(shù)據(jù)的復雜性和不確定性的一般方法,比如金融市場(有數(shù)據(jù)流和媒體新聞)或互聯(lián)網(wǎng)購物(圖像和媒體評估),這將特別有利于社會和經(jīng)濟發(fā)展。工程中的許多已知技術(shù)(例如優(yōu)化、效用理論、期望分析)可用于衡量從大數(shù)據(jù)獲得的粗略知識如何在二階挖掘過程中有效地與人類判斷相結(jié)合,從而引出決策所需的智能知識支持。
第三個問題,研究數(shù)據(jù)異構(gòu)性與決策異構(gòu)性的關系對大數(shù)據(jù)知識發(fā)現(xiàn)與管理決策的影響。大數(shù)據(jù)為決策者帶來了數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性的問題。傳統(tǒng)意義上,決策依賴于從他人和經(jīng)驗中學到的知識。知識獲取現(xiàn)在越來越多地基于數(shù)據(jù)分析和數(shù)據(jù)挖掘。
與數(shù)據(jù)一樣,決策可以分為結(jié)構(gòu)化,半結(jié)構(gòu)化或非結(jié)構(gòu)化,具體取決于組織中的職責分配。決策者對(定量)數(shù)據(jù)、信息和(定性)知識的需求根據(jù)其責任程度不同而不同。處理日常工作的操作人員做出結(jié)構(gòu)化決策,管理者的決策是基于下屬報告(大多數(shù)是結(jié)構(gòu)化的)和他們自己的判斷的組合,因此是半結(jié)構(gòu)化的。高層管理人員或首席執(zhí)行官(CEO)做出非結(jié)構(gòu)化的最終決策。
大數(shù)據(jù)正在顛覆性地改變決策過程。使用大數(shù)據(jù)分析,可以將運營人員、經(jīng)理和CEO的職能結(jié)合起來,以簡化決策制定過程。例如,銷售人員可以使用基于大數(shù)據(jù)挖掘技術(shù)的實時信用卡審批系統(tǒng)來快速批準客戶的信用額度而無須向主管報告。這樣的決定幾乎沒有風險。銷售助理是最終的決策者,代表經(jīng)理和CEO。
在使用結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘過程中,粗略的知識通常是結(jié)構(gòu)化知識,可以給定其數(shù)據(jù)格式。在大數(shù)據(jù)挖掘中,盡管一階挖掘中的粗略知識源自異構(gòu)數(shù)據(jù),但它可以被視為結(jié)構(gòu)化知識,因為數(shù)據(jù)挖掘是以結(jié)構(gòu)化數(shù)據(jù)類型格式執(zhí)行的。在二階挖掘階段,結(jié)構(gòu)化知識與經(jīng)理或CEO的半結(jié)構(gòu)化或非結(jié)構(gòu)化領域知識相結(jié)合,并逐步升級為智能知識。因此,智能知識成為非結(jié)構(gòu)化知識的代表。
如果業(yè)務操作僅涉及半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),則結(jié)果是沒有數(shù)據(jù)分析的非結(jié)構(gòu)化知識或來自數(shù)據(jù)挖掘的結(jié)構(gòu)化知識。這種結(jié)構(gòu)化或非結(jié)構(gòu)化知識可能會影響半結(jié)構(gòu)化或非結(jié)構(gòu)化決策,具體取決于所涉及的管理級別。
基于一階挖掘的粗略知識,通過二階挖掘搜索智能知識是理解數(shù)據(jù)異質(zhì)性,知識異質(zhì)性和決策異質(zhì)性之間關系的關鍵。學習如何通過大數(shù)據(jù)改變決策制定的成果,需要了解異構(gòu)數(shù)據(jù)處理,大數(shù)據(jù)挖掘,決策者的領域知識以及他們參與決策制定之間的關系。
大數(shù)據(jù)是人類創(chuàng)造的財富。針對上述三大挑戰(zhàn),任何政府、企業(yè)或個人如果在理論或?qū)嵺`方面有所探索、突破,都將更好地造福人類。數(shù)據(jù)湖概念的提出,以及國內(nèi)外商業(yè)巨頭所提出的一系列相應的解決方案,一定程度上回應了大數(shù)據(jù)發(fā)展和應用所面臨的挑戰(zhàn)。而如書中所述,林擁軍團隊基于智慧城市、數(shù)字生態(tài)建設的豐富經(jīng)驗,積極響應國家大數(shù)據(jù)戰(zhàn)略、數(shù)字經(jīng)濟發(fā)展要求,緊緊圍繞數(shù)據(jù)這一數(shù)字經(jīng)濟重要生產(chǎn)資料和核心要素的歸集、運用,打造融合數(shù)據(jù)感知、存儲、分析、應用為一體的新時代數(shù)字經(jīng)濟基礎設施,無疑也是直面上述三大挑戰(zhàn)而開展的具有中國特色的有益探索和重要實踐。
我真誠地希望無論政府、企業(yè)還是個人讀者朋友,通過此書,在建設城市大數(shù)據(jù)基礎設施、繁榮區(qū)域數(shù)字經(jīng)濟發(fā)展等方面,獲得新的啟迪,激發(fā)出更多創(chuàng)舉!
中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室主任
國務院參事 第三世界科學院院士
2019年8月于北京
前言
第一章 人類社會進入大數(shù)據(jù)時代
一、從數(shù)據(jù)到大數(shù)據(jù)
二、數(shù)據(jù)的特征
三、數(shù)據(jù)的本質(zhì)
四、大數(shù)據(jù)戰(zhàn)略
第二章 數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展
一、關于數(shù)字經(jīng)濟
二、數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展現(xiàn)狀
三、數(shù)字經(jīng)濟發(fā)展過程中面臨的問題
第三章 數(shù)據(jù)湖的基本特征和理論
一、數(shù)據(jù)湖理論
二、數(shù)據(jù)湖的先進性
三、數(shù)據(jù)湖產(chǎn)業(yè)實踐
四、數(shù)據(jù)產(chǎn)業(yè)發(fā)展的五化理論
第四章 數(shù)字經(jīng)濟時代城市基礎設施
一、數(shù)據(jù)湖基礎設施
二、數(shù)據(jù)湖提供的服務
三、城市數(shù)據(jù)湖產(chǎn)業(yè)園生態(tài)
四、基礎設施建設在數(shù)字經(jīng)濟發(fā)展中的重要作用
第五章 數(shù)字經(jīng)濟新業(yè)態(tài)數(shù)據(jù)銀行
一、數(shù)據(jù)交易發(fā)展現(xiàn)狀與未來趨勢
二、數(shù)據(jù)銀行概述
三、數(shù)據(jù)銀行業(yè)務探討
四、數(shù)據(jù)銀行業(yè)務探索的意義與重要性
五、數(shù)據(jù)湖與數(shù)據(jù)銀行的關系
第六章 數(shù)據(jù)確權(quán)、數(shù)據(jù)立法配套設施
一、國家政策、行業(yè)背景
二、我國數(shù)據(jù)立法的現(xiàn)狀及特點
三、數(shù)據(jù)確權(quán)的必要性
四、數(shù)據(jù)確權(quán)的主要內(nèi)容
五、立法的價值選擇
六、立法的路徑選擇
后 記