定 價:42 元
叢書名:數(shù)據(jù)科學與工程專業(yè)系列教材
- 作者:高明,胡卉芪 著
- 出版時間:2021/5/1
- ISBN:9787040553369
- 出 版 社:高等教育出版社
- 中圖法分類:TP311.12
- 頁碼:268
- 紙張:膠版紙
- 版次:1
- 開本:16開
《數(shù)據(jù)科學與工程算法基礎》從概率統(tǒng)計、線性代數(shù)和組合優(yōu)化角度出發(fā),介紹經(jīng)典的數(shù)據(jù)科學與工程算法,內(nèi)容涉及數(shù)據(jù)分析處理全流程的算法及其數(shù)學基礎,主要包括抽樣算法;尾概率不等式及其應用;典型的哈希技術,如布隆過濾器和局部敏感哈希;數(shù)據(jù)流模型以及典型Misra Gries算法、Count Sketch算法;隨機游走及其應用;EM算法;特征值計算;奇異值分解和主成分分析;矩陣分解;整數(shù)規(guī)劃;子模函數(shù)及其應用;模塊度及社區(qū)發(fā)現(xiàn)等。全書配有大量翔實的應用實例可供參考,有相當數(shù)量的習題可供讀者練習。
《數(shù)據(jù)科學與工程算法基礎》可作為數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)本科生、研究生相關課程的教材或參考書,也可供相關領域技術人員參考。
數(shù)據(jù)科學與工程專業(yè)核心課程系列教材終于要面世了,這是一件鼓舞人心的事。作為華東師范大學數(shù)據(jù)學院的發(fā)起者和見證人,核心課程和系列教材一直是我心心念念的事情。值此系列教材出版發(fā)行之際,我很高興能被邀請寫幾句話,做個回顧,分享一些感悟,也展望一下未來。
借著大數(shù)據(jù)熱的東風,依托何積豐院士在2007年倡導成立的華東師范大學海量計算研究所,2012年6月,在時任SAP公司CTO史維學博士(Dr.Vishal Sikka)的支持下,我們成立了華東師范大學云計算與大數(shù)據(jù)研究中心。2013年9月,學校發(fā)起成立作為二級獨立實體的數(shù)據(jù)科學與工程研究院,開始在軟件工程一級學科下自設數(shù)據(jù)科學與工程二級學科,開展博士研究生和碩士研究生的培養(yǎng)工作。在進行研究生培養(yǎng)的探索過程中,我們深切感受到計算機類專業(yè)本科生人才培養(yǎng)需要反思和改革。因此,到了2016年9月,研究院改制為數(shù)據(jù)科學與工程學院,隨后開始招收數(shù)據(jù)科學與工程專業(yè)本科生,第一屆本科生已于2020年畢業(yè)。這就是我們學院和專業(yè)的簡單歷史。經(jīng)過這幾年的實踐和思考,我們越發(fā)堅信當年對“數(shù)據(jù)科學與工程”這一名稱的選擇,“數(shù)據(jù)學院”和“數(shù)據(jù)專業(yè)”已經(jīng)得到越來越多的認可,學院的師生也逐漸接受“數(shù)據(jù)人”這一稱呼。
這里,我想分享以下幾方面的感悟:為什么要辦數(shù)據(jù)專業(yè)?怎么辦數(shù)據(jù)專業(yè)?教材為什么很重要?對人才培養(yǎng)有什么貢獻?
為什么要辦數(shù)據(jù)專業(yè)?數(shù)據(jù)是新能源,這是大家耳熟能詳?shù)囊痪湓挕Uf到能源,我們首先想到的是石油,所以大家習慣于把數(shù)據(jù)比喻成石油。但是,在我們看來,“新能源”對應的英文應該是“New Power”。“Data is Power”,這是我們的基本信念,也是我們要辦數(shù)據(jù)學院的根本動機。數(shù)據(jù)是人類文明史上第三個重要的Power,之前的兩個Power是蒸汽能(steam power)和電能(electric power),它們分別引發(fā)了第一次和第二次工業(yè)革命。如果說蒸汽能和電能造就了從西方世界開始的兩百多年的工業(yè)文明,數(shù)據(jù)能(data power)將把人類帶入數(shù)字文明時代。數(shù)據(jù)是數(shù)字經(jīng)濟發(fā)展的重要生產(chǎn)要素,這個生產(chǎn)要素不同于土地、勞動力,也不同于資本、技術。如果要給數(shù)據(jù)找一個恰當?shù)谋葦M物,也許只有19世紀末偉大的發(fā)明家尼古拉·特斯拉發(fā)明的交流電。數(shù)據(jù)是新時代的交流電,就像20世紀交流電給世界帶來的深刻變化一樣,隨著人們對數(shù)據(jù)能認識的提高,我們將進入一個“未來已來,一切重構”的時代。數(shù)據(jù)學院就像一百多年前的電力學院或電氣學院。
怎么辦數(shù)據(jù)專業(yè)?我們數(shù)據(jù)學院脫胎于軟件工程學院,在此之前還有計算機科學與工程學院,數(shù)據(jù)相關的研究和偏向管理的圖書情報方向的信息系統(tǒng)學科及專業(yè)也密切相關,應用數(shù)學、概率統(tǒng)計更是數(shù)據(jù)分析和處理的理論基礎,不可或缺。到底什么樣的專業(yè)才算是數(shù)據(jù)專業(yè)?最初這對我們來說基本上可以說是一個“靈魂拷問”。為此,我們發(fā)起成立了由國內(nèi)15所高校30多位知名教授組成的“高等學校數(shù)據(jù)科學與工程專業(yè)建設協(xié)作組”,并且以協(xié)作組成員為班底,成立了“數(shù)據(jù)科學與工程專業(yè)系列教材編委會”,除了協(xié)作組成員,還邀請多位有豐富教材編寫經(jīng)驗的華東師范大學教師加入編委會,共同策劃教材的內(nèi)容安排。我們相信,有了先進的理念,再加上集體的力量,數(shù)據(jù)專業(yè)建設的探索之路就能走通。截至2020年11月,協(xié)作組已召開4次研討會,確定了CST專業(yè)建設路線圖,其中C代表Curriculum(培養(yǎng)計劃),S代表Syllabus(課程大綱),T代表Textbook(教材建設)。在得知我們的工作后,ACM/IEEE計算機工程學科規(guī)范主席約翰.因帕利亞佐(John Impagliazzo)教授邀請我們參與了ACM/IEEE數(shù)據(jù)科學學科規(guī)范的制定。
協(xié)作組經(jīng)過討論達成共識:數(shù)據(jù)科學與工程專業(yè)課程分為基礎課、核心課、方向課三類,核心課是體現(xiàn)專業(yè)區(qū)分度的一組課程。與數(shù)據(jù)專業(yè)最相近的專業(yè)就是計算機科學與工程及軟件工程兩個專業(yè),我們確定的第一批數(shù)據(jù)專業(yè)區(qū)別于這兩個專業(yè)的8門核心課程是:數(shù)據(jù)科學與工程導論、數(shù)據(jù)科學與工程數(shù)學基礎、數(shù)據(jù)科學與工程算法基礎、應用統(tǒng)計與機器學習、當代數(shù)據(jù)管理系統(tǒng)、當代人工智能、分布式計算系統(tǒng)、云計算系統(tǒng)。隨后我們又確定兩門課納入這個系列,分別是:區(qū)塊鏈導論——原理、技術與應用,數(shù)據(jù)中臺初階教程。數(shù)據(jù)專業(yè)作為一個新專業(yè),三類課程的邊界還不清晰,我們將關注重點放在核心課程上,核心課有遺漏的知識點可以納入基礎課或方向課。這樣可以保證知識體系的完整性,簡單起步,快速迭代。隨著實踐和認識的深入,逐漸明晰三類課程的邊界,形成完善的培養(yǎng)計劃。
教材為什么很重要?建設好一個專業(yè),確定培養(yǎng)計劃和課程體系固然很重要,但落實在根本上是教材。一套好的教材是建成一個好的專業(yè)的前提。放眼看去,無論是國內(nèi)還是國外,無論是具體某個高校還是國家區(qū)域?qū)用,這都是不爭的事實,即好的專業(yè)都有成體系的好的教材。當然,現(xiàn)在的教材已不僅僅指單純的一本教科書,還有更深層次的內(nèi)容,比如說具體的教學內(nèi)容和教學方式。我們都知道,教材是知識的結(jié)晶,是站到巨人肩膀上的臺階。在自然科學領域,確實如此,一百年前我們民族的仁人志士呼喚“賽先生”,在中華大地上科學的傳播帶來了翻天覆地的變化。
高明,華東師范大學數(shù)據(jù)科學與工程學院教授,博士生導師。主要從事數(shù)據(jù)挖掘、知識工程和計算教育學方面的研究。曾獲國家科技進步二等獎(主要參與人)、《計算機學報》2014-2019年優(yōu)秀論文獎、CCF-騰訊犀牛鳥科研基金優(yōu)秀獎。始終堅持以科研反哺教學的理念,積極參與數(shù)據(jù)科學與工程學科建設,主要承擔本科生和研究生的“數(shù)據(jù)科學與工程算法基礎”教學工作。
胡卉芪,華東師范大學數(shù)據(jù)科學與工程學院副教授。主要從事數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)算法方面的研究。曾獲國家科學技術進步獎、教育部科技進步獎(主要參與人)等獎項。長期參與數(shù)據(jù)科學與工程學科建設,多年來專注于數(shù)據(jù)結(jié)構、算法方面核心課程的本科生教學與學生培養(yǎng)工作。
術人員參考。
第1章 緒論
1.1 數(shù)據(jù)分析處理階段
1.1.1 數(shù)據(jù)采集
1.1.2 數(shù)據(jù)預處理
1.1.3 數(shù)據(jù)存儲與管理
1.1.4 數(shù)據(jù)分析與挖掘
1.1.5 數(shù)據(jù)可視化
1.2 算法設計原則
1.2.1 數(shù)據(jù)特點
1.2.2 算法評價
1.2.3 算法設計原則
本章小結(jié)
習題1
第2章 抽樣算法
2.1 引入
2.2 基本概念
2.2.1 總體與樣本
2.2.2 抽樣調(diào)查
2.3 系統(tǒng)抽樣
2.3.1 直線等距抽樣
2.3.2 圓形等距抽樣
2.3.3 系統(tǒng)抽樣特點
2.4 分層抽樣
2.5 水庫抽樣
2.5.1 水庫抽樣算法
2.5.2 算法分析
2.5.3 分布式水庫抽樣算法
本章小結(jié)
習題2
第3章 尾概率不等式及其應用
3.1 引入
3.2 Markov不等式
3.3 Chebyshev不等式
3.4 Chernoff不等式
3.5 尾概率不等式的應用-Morris算法
3.5.1 Morris算法
3.5.2 Morris+算法
3.5.3 Morris++算法
本章小結(jié)
習題3
第4章 哈希技術
4.1 引入
4.2 哈希
4.3 布隆過濾器
4.3.1 布隆過濾器的基本原理
4.3.2 誤判率
4.3.3 降低誤判率
4.3.4 應用場景
4.4 局部敏感哈希
4.4.1 哈希函數(shù)的選擇
4.4.2 Shingling
4.4.3 Min-Hashing
4.4.4 基于Min-Hashing的局部敏感哈希過程
4.4.5 應用場景
本章小結(jié)
習題4
第5章 數(shù)據(jù)流模型及頻繁項挖掘
5.1 引入
5.2 數(shù)據(jù)流模型
5.2.1 數(shù)據(jù)流和數(shù)據(jù)流模型
5.2.2 數(shù)據(jù)流子模型
5.2.3 概要數(shù)據(jù)結(jié)構
5.2.4 近似算法
5.3 頻繁項挖掘
5.4 確定性近似頻數(shù)算法Misra Gries
5.4.1 Misra Gries算法
5.4.2 Misra Gries算法分析
5.5 隨機近似頻數(shù)算法Count Sketch
5.5.1 簡單抽樣算法
5.5.2 Basic Count Sketch算法
5.5.3 Count Sketch算法
5.5.4 Count-Min Sketch
算法
本章小結(jié)
習題5
第6章 EM算法
6.1 引入
6.2 最大似然估計方法
6.2.1 似然函數(shù)
6.2.2 最大似然估計
6.2.3 混合模型
6.3 EM算法
6.3.1 算法推導
6.3.2 EM算法
6.3.3 EM算法的收斂性
本章小結(jié)
習題6
第7章 隨機游走及其應用
7.1 引入
7.2 隨機過程
7.2.1 馬爾可夫過程
7.2.2 隨機游走
7.2.3 轉(zhuǎn)移概率矩陣
……
第8章 特征值計算
第9章 奇異值分解與主成分分析
第10章 矩陣分解
第11章 整數(shù)規(guī)劃
第12章 子模函數(shù)及其應用
第13章 模塊度及社區(qū)發(fā)現(xiàn)
參考文獻