本書將圍繞大數(shù)據(jù)技術的基本原理與實踐,介紹了大數(shù)據(jù)獲取、存儲、分析、數(shù)據(jù)挖掘和機器學習。內(nèi)容涵蓋以下主題:Hadoop、Mapreduce、關聯(lián)規(guī)則、大規(guī)模監(jiān)督機器學習、數(shù)據(jù)流、集群、NoSQL系統(tǒng)(Pig、Hive),以及包括推薦系統(tǒng)、Web和安全性的應用程序。第1章重點闡述了大數(shù)據(jù)驅(qū)動的商業(yè)模式、技術生態(tài)體系,大數(shù)據(jù)的類型、特點、獲取技術。第2章概要介紹了大數(shù)據(jù)的軟硬件架構,包括大數(shù)據(jù)技術基礎與軟硬件設施、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)的分布式處理技術平臺等,包括MapReduce編程框架原理、Spark結構與原理、基于Storm的大規(guī)模數(shù)據(jù)流的分布式處理技術等。第3章介紹了Python編程基礎,包括基本數(shù)據(jù)類型、基本控制流程、Numpy、Scipy、Pandas等。第4章介紹了大數(shù)據(jù)分析技術,包括基于MapReduce基礎編程、文本大數(shù)據(jù)分析與處理技術、大數(shù)據(jù)關聯(lián)分析、相似項的發(fā)現(xiàn)、基于大數(shù)據(jù)的推薦系統(tǒng)、基于大數(shù)據(jù)的圖與網(wǎng)絡分析、大數(shù)據(jù)聚類分析、時空大數(shù)據(jù)分析、非結構化大數(shù)據(jù)分析與處理、基于Storm的流數(shù)據(jù)分析技術等。第5章介紹了基于SparkMLlib/Mahout的大數(shù)據(jù)機器學習,包括機器學習基礎、典型機器學習問題、機器學習評價方法、并行機器學習算法,并進行了利用MLlib解決大數(shù)據(jù)并行分類問題、利用Mahout解決大數(shù)據(jù)推薦優(yōu)化問題實踐。第6章介紹了基于大數(shù)據(jù)的深度學習技術,包括深度學習基本原理、深度學習典型應用、Keras 基礎入門及應用案例。第7章介紹了材料大數(shù)據(jù)材料熱導率預測、旅游大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、工業(yè)大數(shù)據(jù)分析、產(chǎn)品創(chuàng)新大數(shù)據(jù)分析等帶代碼、數(shù)據(jù)的案例。本書內(nèi)容深入淺出,具有很強的理論與實踐指導作用,可作為數(shù)據(jù)科學與技術、人工智能、計算機科學、制造科學、機械工程等學科相關專業(yè)的本科生、研究生的教材或課程教學參考書,也是對工程技術人員、科研人員而言非常實用的工具書。
本書內(nèi)容深入淺出,具有很強的理論與實踐指導作用,可作為數(shù)據(jù)科學與技術、人工智能、計算機科學、制造科學、機械工程等學科相關專業(yè)的本科生、研究生的教材或課程教學參考書,也是對工程技術人員、科研人員而言非常實用的工具書。
當前,數(shù)據(jù)已成為新型生產(chǎn)要素。發(fā)展大數(shù)據(jù)技術已成為國家戰(zhàn)略。數(shù)據(jù)要素的專業(yè)化研究與應用的核心是高端人才。不可否認的是,目前大數(shù)據(jù)人才在世界范圍內(nèi)仍處于緊缺狀態(tài)。大數(shù)據(jù)所具有的規(guī)模性、多樣性、流動性和價值高等特征,決定了大數(shù)據(jù)人才必須是復合型人才,需要具備超強的綜合能力。大數(shù)據(jù)的分析與應用,要求大數(shù)據(jù)人才是多學科交叉型人才,既有數(shù)據(jù)庫和軟件等計算機方面的知識,又有應用領域的學科專業(yè)知識能力。因此,各高等院校必須進一步改善人才培養(yǎng)模式,修訂人才培養(yǎng)方案和課程體系,嘗試用多種形式培養(yǎng)跨界型大數(shù)據(jù)人才。筆者基于國家大數(shù)據(jù)戰(zhàn)略需求,在數(shù)據(jù)科學與技術的基礎上,結合多學科交叉課程體系建設、新工科建設,在總結近年來教學、科研及人才培養(yǎng)實踐的基礎上,組織教學科研一線教師,合力完成了本書。本書為普通高等院校新工科創(chuàng)新教育精品課程系列教材、*高等學校機械類專業(yè)教學指導委員會推薦教材,是目前唯一的將深度學習與大數(shù)據(jù)技術相結合的教材。在教材的編寫過程中,注重以企業(yè)對人才的需求為導向;教材內(nèi)容兼顧本專業(yè)培養(yǎng)目標和學生就業(yè)崗位實際,在講解理論知識的同時,精選了材料大數(shù)據(jù)、旅游大數(shù)據(jù)、交通大數(shù)據(jù)、工業(yè)大數(shù)據(jù)等方面具有代表性的案例進行分析展示。全書共7章。第1章概括介紹了大數(shù)據(jù)技術的基本概念,主要包括大數(shù)據(jù)驅(qū)動的商業(yè)模式、數(shù)據(jù)的類型、大數(shù)據(jù)的特點、大數(shù)據(jù)的獲取方式等。第2章介紹了大數(shù)據(jù)的軟硬件架構,主要包括大數(shù)據(jù)技術基礎與軟硬件設施、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)的分布式處理平臺等。第3章講解了Python的編程基礎,主要包括基本數(shù)據(jù)類型、控制流程、Numpy/Scipy/Pandas/Matplotlib等相關的數(shù)據(jù)庫介紹。第4章講解了大數(shù)據(jù)分析技術,主要包括MapReduce編程基礎、文本大數(shù)據(jù)分析與處理技術、大數(shù)據(jù)關聯(lián)分析、相似項的發(fā)現(xiàn)、基于大數(shù)據(jù)的推薦系統(tǒng)、基于大數(shù)據(jù)的圖與網(wǎng)絡分析、大數(shù)據(jù)聚類分析、時空大數(shù)據(jù)分析、非結構化大數(shù)據(jù)分析與處理、基于Storm的流數(shù)據(jù)分析技術等。第5章介紹了基于Spark MLlib/Mahout的大數(shù)據(jù)機器學習,主要包括機器學習基礎、機器學習要解決的問題及評價方法、并行機器學習算法、利用MLlib解決大數(shù)據(jù)并行分類問題實踐、利用Mahout解決大數(shù)據(jù)推薦優(yōu)化問題實踐等。第6章介紹了基于大數(shù)據(jù)的深度學習技術與應用,主要包括深度學習基本原理、深度學習典型應用、Keras基礎入門以及相應的應用案例等。第7章主要是經(jīng)典案例的分析,包括材料大數(shù)據(jù)與材料熱導率的預測、旅游大數(shù)據(jù)分析、交通大數(shù)據(jù)分析、工業(yè)大數(shù)據(jù)分析、產(chǎn)品創(chuàng)新大數(shù)據(jù)分析等。本書有如下幾方面特色:(1)知識體系合理,語言通俗易懂。本書按照讀者的接受度搭建知識體系,內(nèi)容由淺入深、循序漸進,并盡*大可能地將學術語言轉(zhuǎn)化為讓讀者容易理解的語言。(2)內(nèi)容全面,應用性強。本書提供了從大數(shù)據(jù)概念到Python編程基礎,再到機器學習、深度學習的整體架構,并在第7章通過幾個經(jīng)典的案例解析進行了展示。(3)提供了完整的源代碼,并提供了訓練數(shù)據(jù)集或其來源。如果數(shù)據(jù)集是作者制作的,則可通過掃描書中二維碼直接獲取。如果數(shù)據(jù)集來源于網(wǎng)站,則通過二維碼提供了有效的下載鏈接。本書由貴州大學省部共建公共大數(shù)據(jù)國家重點實驗室(籌)主任李少波教授、貴州大學楊靜副教授編著。李少波、楊靜擔任本書編寫委員會主任,張安思、秦永彬、楊觀賜擔任本書編寫委員會副主任。胡杰、唐向紅、陸豐、周鵬、陳艷平、魏宏靜、白強、全華鳳、李琴、李傳江、張森、李想、張鈞星等一線教學科研人員任本書編寫委員會委員,他們均參與了本書的編寫工作。本書既可作為本科生教學用書,又可作為研究生的主要教材,同時也可作為廣大工程技術人員及對大數(shù)據(jù)感興趣的研究人員的參考書。在本書編寫過程中得到了省部共建公共大數(shù)據(jù)國家重點實驗室(籌)學術委員會各位專家的指導,對此表示衷心的感謝。由于時間倉促,且編者水平有限,書中定有錯訛和不足之處,懇請廣大讀者批評指正。
貴州大學機械工程學院院長,博士生導師,教授,2005年入選西部之光優(yōu)秀人才,2008年入選貴州省優(yōu)秀青年科技人才,2009年入選*新世紀優(yōu)秀人才、貴州省省管專家、享受政府特殊津貼專家,2014年評聘為三級教授,入選貴州省首批高層次創(chuàng)新型人才(百層次)。是貴州大學學術學科帶頭人,機械制造及其自動化、機械電子工程專業(yè)博士生導師,中國科學院大學兼職博士生導師。是十二五貴州省制造業(yè)信息化專家組組長,中國圖學學會理事,貴州省裝備行業(yè)協(xié)會常務理事,貴陽軍民結合(裝備制造)產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟副秘書長,貴州省智能電網(wǎng)產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟副理事長,貴州省計算機學會常務副理事長,《計算機集成制造系統(tǒng)CIMS》理事會理事,《中國制造業(yè)信息化》、《機械設計與制造工程》理事會常務理事,貴州省服務決策專家智庫專家,貴州省青年科技工作者協(xié)會常務理事、信息科學與機電工程專業(yè)委員會主任委員,貴陽市網(wǎng)絡信息安全協(xié)會副會長,《計算機集成系統(tǒng)-CIMS》、《四川大學學報(工程科學版)》、《計算機應用》等期刊的審稿人等。已發(fā)表論文130余篇,SCI/EI/ISTP收錄60余篇次,出版專著2部,譯著1部,軟件著作權登記8項、專利7件(其中發(fā)明3件)。被鑒定為國際先進、國內(nèi)領先的成果8項。主持國家自然科學基金、國家863計劃重點項目、國家科技支撐計劃等科研項目30余項。獲省部級科技進步二等獎2次、三等獎2次,貴陽市科技進步特等獎1次、二等獎2次、三等獎1次。
第1章大數(shù)據(jù)技術概覽(1)
1.1數(shù)據(jù)發(fā)展歷史(1)
1.2什么是大數(shù)據(jù)(5)
1.3大數(shù)據(jù)的生命周期(8)
第2章Python編程基礎(28)
2.1基本數(shù)據(jù)類型(28)
2.2基本控制流程(38)
2.3Python的面向?qū)ο髾C制(43)
2.4Numpy、Scipy和Pandas(47)
2.5Matplotlib軟件包(56)
本章小結(60)
習題(60)
第3章大數(shù)據(jù)的軟硬件架構(61)
3.1大數(shù)據(jù)技術基礎與軟硬件設施概述(61)
3.2大數(shù)據(jù)存儲與管理技術(65)
3.3大數(shù)據(jù)的分布式處理平臺(72)
本章小結(88)
習題(90)
第4章基于Spark MLlib/Mahout的大數(shù)據(jù)機器學習(91)
4.1機器學習基礎(91)
4.2典型機器學習問題(92)
4.3機器學習評價方法(99)
4.4并行機器學習算法(102)
4.5利用Mahout解決大數(shù)據(jù)推薦優(yōu)化問題實踐(104)
本章小結(107)
習題(108)
第5章大數(shù)據(jù)分析技術(109)
5.1MapReduce編程基礎(109)
5.2基于Storm的流數(shù)據(jù)分析(119)
5.3文本大數(shù)據(jù)分析與處理(128)
5.4大數(shù)據(jù)關聯(lián)分析(131)
5.5相似項的發(fā)現(xiàn)(134)
5.6基于大數(shù)據(jù)的推薦技術(138)
5.7基于大數(shù)據(jù)的圖與網(wǎng)絡分析(142)
5.8大數(shù)據(jù)聚類分析(150)
5.9時空大數(shù)據(jù)分析(158)
5.10非結構化大數(shù)據(jù)分析與處理(164)
5.11利用MLlib解決大數(shù)據(jù)并行分類問題實踐(169)
本章小結(173)
習題(173)
第6章大數(shù)據(jù)流式處理(175)
6.1流式處理概述(175)
6.2流式處理模型(183)
6.3流式處理引擎Apache Spark(190)
6.4新一代流式處理引擎 Apach Flink(200)
6.5基于Flink的人體生命體征數(shù)據(jù)分析與告警(218)
6.6本章小結(229)
6.7習題(230)
第7章基于大數(shù)據(jù)的深度學習技術與應用(231)
7.1深度學習基本原理(231)
7.2深度學習典型應用(233)
7.3Keras基礎入門(239)
7.4應 用 案 例(241)
本章小結(248)
習題(248)
第8章大數(shù)據(jù)安全與隱私保護關鍵技術(250)
8.1大數(shù)據(jù)安全(250)
8.1.2大數(shù)據(jù)時代的隱私安全挑戰(zhàn)(251)
8.2大數(shù)據(jù)安全隱私保護(252)
8.3大數(shù)據(jù)安全與隱私保護的關鍵技術(254)
8.3.1匿名化處理技術(255)
8.3.2加密存儲技術(257)
8.3.4訪問控制技術(260)
8.4大數(shù)據(jù)安全與隱私保護展望(262)
8.4.1網(wǎng)絡態(tài)勢感知:助力大數(shù)據(jù)發(fā)展(262)
8.4.2人工智能:為大數(shù)據(jù)發(fā)展護航(263)
8.5本章小結(263)
習題(264)
第9章帶代碼、數(shù)據(jù)的案例研究(265)
9.1材料大數(shù)據(jù)與材料熱導率預測(265)
9.2旅游大數(shù)據(jù)分析(275)
9.3交通大數(shù)據(jù)分析(284)
9.4工業(yè)大數(shù)據(jù)分析(289)
9.4.5模型部署及可視化(313)
9.5產(chǎn)品創(chuàng)新大數(shù)據(jù)分析(322)
9.6基于醫(yī)藥網(wǎng)站數(shù)據(jù)的醫(yī)療知識圖譜(328)
9.7車間生產(chǎn)安全監(jiān)測(337)
9.8人工智能安全案例(350)
9.9司法大數(shù)據(jù)分析案例(355)
本章小結(382)
習題(382)
參考文獻(383)