數(shù)據(jù)科學(xué)與工程算法基礎(chǔ)
定 價(jià):42 元
叢書名:數(shù)據(jù)科學(xué)與工程專業(yè)系列教材
- 作者:高明,胡卉芪 著
- 出版時(shí)間:2021/5/1
- ISBN:9787040553369
- 出 版 社:高等教育出版社
- 中圖法分類:TP311.12
- 頁(yè)碼:268
- 紙張:膠版紙
- 版次:1
- 開本:16開
《數(shù)據(jù)科學(xué)與工程算法基礎(chǔ)》從概率統(tǒng)計(jì)、線性代數(shù)和組合優(yōu)化角度出發(fā),介紹經(jīng)典的數(shù)據(jù)科學(xué)與工程算法,內(nèi)容涉及數(shù)據(jù)分析處理全流程的算法及其數(shù)學(xué)基礎(chǔ),主要包括抽樣算法;尾概率不等式及其應(yīng)用;典型的哈希技術(shù),如布隆過(guò)濾器和局部敏感哈希;數(shù)據(jù)流模型以及典型Misra Gries算法、Count Sketch算法;隨機(jī)游走及其應(yīng)用;EM算法;特征值計(jì)算;奇異值分解和主成分分析;矩陣分解;整數(shù)規(guī)劃;子模函數(shù)及其應(yīng)用;模塊度及社區(qū)發(fā)現(xiàn)等。全書配有大量翔實(shí)的應(yīng)用實(shí)例可供參考,有相當(dāng)數(shù)量的習(xí)題可供讀者練習(xí)。
《數(shù)據(jù)科學(xué)與工程算法基礎(chǔ)》可作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)本科生、研究生相關(guān)課程的教材或參考書,也可供相關(guān)領(lǐng)域技術(shù)人員參考。
數(shù)據(jù)科學(xué)與工程專業(yè)核心課程系列教材終于要面世了,這是一件鼓舞人心的事。作為華東師范大學(xué)數(shù)據(jù)學(xué)院的發(fā)起者和見證人,核心課程和系列教材一直是我心心念念的事情。值此系列教材出版發(fā)行之際,我很高興能被邀請(qǐng)寫幾句話,做個(gè)回顧,分享一些感悟,也展望一下未來(lái)。
借著大數(shù)據(jù)熱的東風(fēng),依托何積豐院士在2007年倡導(dǎo)成立的華東師范大學(xué)海量計(jì)算研究所,2012年6月,在時(shí)任SAP公司CTO史維學(xué)博士(Dr.Vishal Sikka)的支持下,我們成立了華東師范大學(xué)云計(jì)算與大數(shù)據(jù)研究中心。2013年9月,學(xué)校發(fā)起成立作為二級(jí)獨(dú)立實(shí)體的數(shù)據(jù)科學(xué)與工程研究院,開始在軟件工程一級(jí)學(xué)科下自設(shè)數(shù)據(jù)科學(xué)與工程二級(jí)學(xué)科,開展博士研究生和碩士研究生的培養(yǎng)工作。在進(jìn)行研究生培養(yǎng)的探索過(guò)程中,我們深切感受到計(jì)算機(jī)類專業(yè)本科生人才培養(yǎng)需要反思和改革。因此,到了2016年9月,研究院改制為數(shù)據(jù)科學(xué)與工程學(xué)院,隨后開始招收數(shù)據(jù)科學(xué)與工程專業(yè)本科生,第一屆本科生已于2020年畢業(yè)。這就是我們學(xué)院和專業(yè)的簡(jiǎn)單歷史。經(jīng)過(guò)這幾年的實(shí)踐和思考,我們?cè)桨l(fā)堅(jiān)信當(dāng)年對(duì)“數(shù)據(jù)科學(xué)與工程”這一名稱的選擇,“數(shù)據(jù)學(xué)院”和“數(shù)據(jù)專業(yè)”已經(jīng)得到越來(lái)越多的認(rèn)可,學(xué)院的師生也逐漸接受“數(shù)據(jù)人”這一稱呼。
這里,我想分享以下幾方面的感悟:為什么要辦數(shù)據(jù)專業(yè)?怎么辦數(shù)據(jù)專業(yè)?教材為什么很重要?對(duì)人才培養(yǎng)有什么貢獻(xiàn)?
為什么要辦數(shù)據(jù)專業(yè)?數(shù)據(jù)是新能源,這是大家耳熟能詳?shù)囊痪湓。說(shuō)到能源,我們首先想到的是石油,所以大家習(xí)慣于把數(shù)據(jù)比喻成石油。但是,在我們看來(lái),“新能源”對(duì)應(yīng)的英文應(yīng)該是“New Power”!癉ata is Power”,這是我們的基本信念,也是我們要辦數(shù)據(jù)學(xué)院的根本動(dòng)機(jī)。數(shù)據(jù)是人類文明史上第三個(gè)重要的Power,之前的兩個(gè)Power是蒸汽能(steam power)和電能(electric power),它們分別引發(fā)了第一次和第二次工業(yè)革命。如果說(shuō)蒸汽能和電能造就了從西方世界開始的兩百多年的工業(yè)文明,數(shù)據(jù)能(data power)將把人類帶入數(shù)字文明時(shí)代。數(shù)據(jù)是數(shù)字經(jīng)濟(jì)發(fā)展的重要生產(chǎn)要素,這個(gè)生產(chǎn)要素不同于土地、勞動(dòng)力,也不同于資本、技術(shù)。如果要給數(shù)據(jù)找一個(gè)恰當(dāng)?shù)谋葦M物,也許只有19世紀(jì)末偉大的發(fā)明家尼古拉·特斯拉發(fā)明的交流電。數(shù)據(jù)是新時(shí)代的交流電,就像20世紀(jì)交流電給世界帶來(lái)的深刻變化一樣,隨著人們對(duì)數(shù)據(jù)能認(rèn)識(shí)的提高,我們將進(jìn)入一個(gè)“未來(lái)已來(lái),一切重構(gòu)”的時(shí)代。數(shù)據(jù)學(xué)院就像一百多年前的電力學(xué)院或電氣學(xué)院。
怎么辦數(shù)據(jù)專業(yè)?我們數(shù)據(jù)學(xué)院脫胎于軟件工程學(xué)院,在此之前還有計(jì)算機(jī)科學(xué)與工程學(xué)院,數(shù)據(jù)相關(guān)的研究和偏向管理的圖書情報(bào)方向的信息系統(tǒng)學(xué)科及專業(yè)也密切相關(guān),應(yīng)用數(shù)學(xué)、概率統(tǒng)計(jì)更是數(shù)據(jù)分析和處理的理論基礎(chǔ),不可或缺。到底什么樣的專業(yè)才算是數(shù)據(jù)專業(yè)?最初這對(duì)我們來(lái)說(shuō)基本上可以說(shuō)是一個(gè)“靈魂拷問”。為此,我們發(fā)起成立了由國(guó)內(nèi)15所高校30多位知名教授組成的“高等學(xué)校數(shù)據(jù)科學(xué)與工程專業(yè)建設(shè)協(xié)作組”,并且以協(xié)作組成員為班底,成立了“數(shù)據(jù)科學(xué)與工程專業(yè)系列教材編委會(huì)”,除了協(xié)作組成員,還邀請(qǐng)多位有豐富教材編寫經(jīng)驗(yàn)的華東師范大學(xué)教師加入編委會(huì),共同策劃教材的內(nèi)容安排。我們相信,有了先進(jìn)的理念,再加上集體的力量,數(shù)據(jù)專業(yè)建設(shè)的探索之路就能走通。截至2020年11月,協(xié)作組已召開4次研討會(huì),確定了CST專業(yè)建設(shè)路線圖,其中C代表Curriculum(培養(yǎng)計(jì)劃),S代表Syllabus(課程大綱),T代表Textbook(教材建設(shè))。在得知我們的工作后,ACM/IEEE計(jì)算機(jī)工程學(xué)科規(guī)范主席約翰.因帕利亞佐(John Impagliazzo)教授邀請(qǐng)我們參與了ACM/IEEE數(shù)據(jù)科學(xué)學(xué)科規(guī)范的制定。
協(xié)作組經(jīng)過(guò)討論達(dá)成共識(shí):數(shù)據(jù)科學(xué)與工程專業(yè)課程分為基礎(chǔ)課、核心課、方向課三類,核心課是體現(xiàn)專業(yè)區(qū)分度的一組課程。與數(shù)據(jù)專業(yè)最相近的專業(yè)就是計(jì)算機(jī)科學(xué)與工程及軟件工程兩個(gè)專業(yè),我們確定的第一批數(shù)據(jù)專業(yè)區(qū)別于這兩個(gè)專業(yè)的8門核心課程是:數(shù)據(jù)科學(xué)與工程導(dǎo)論、數(shù)據(jù)科學(xué)與工程數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)科學(xué)與工程算法基礎(chǔ)、應(yīng)用統(tǒng)計(jì)與機(jī)器學(xué)習(xí)、當(dāng)代數(shù)據(jù)管理系統(tǒng)、當(dāng)代人工智能、分布式計(jì)算系統(tǒng)、云計(jì)算系統(tǒng)。隨后我們又確定兩門課納入這個(gè)系列,分別是:區(qū)塊鏈導(dǎo)論——原理、技術(shù)與應(yīng)用,數(shù)據(jù)中臺(tái)初階教程。數(shù)據(jù)專業(yè)作為一個(gè)新專業(yè),三類課程的邊界還不清晰,我們將關(guān)注重點(diǎn)放在核心課程上,核心課有遺漏的知識(shí)點(diǎn)可以納入基礎(chǔ)課或方向課。這樣可以保證知識(shí)體系的完整性,簡(jiǎn)單起步,快速迭代。隨著實(shí)踐和認(rèn)識(shí)的深入,逐漸明晰三類課程的邊界,形成完善的培養(yǎng)計(jì)劃。
教材為什么很重要?建設(shè)好一個(gè)專業(yè),確定培養(yǎng)計(jì)劃和課程體系固然很重要,但落實(shí)在根本上是教材。一套好的教材是建成一個(gè)好的專業(yè)的前提。放眼看去,無(wú)論是國(guó)內(nèi)還是國(guó)外,無(wú)論是具體某個(gè)高校還是國(guó)家區(qū)域?qū)用,這都是不爭(zhēng)的事實(shí),即好的專業(yè)都有成體系的好的教材。當(dāng)然,現(xiàn)在的教材已不僅僅指單純的一本教科書,還有更深層次的內(nèi)容,比如說(shuō)具體的教學(xué)內(nèi)容和教學(xué)方式。我們都知道,教材是知識(shí)的結(jié)晶,是站到巨人肩膀上的臺(tái)階。在自然科學(xué)領(lǐng)域,確實(shí)如此,一百年前我們民族的仁人志士呼喚“賽先生”,在中華大地上科學(xué)的傳播帶來(lái)了翻天覆地的變化。
高明,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院教授,博士生導(dǎo)師。主要從事數(shù)據(jù)挖掘、知識(shí)工程和計(jì)算教育學(xué)方面的研究。曾獲國(guó)家科技進(jìn)步二等獎(jiǎng)(主要參與人)、《計(jì)算機(jī)學(xué)報(bào)》2014-2019年優(yōu)秀論文獎(jiǎng)、CCF-騰訊犀牛鳥科研基金優(yōu)秀獎(jiǎng)。始終堅(jiān)持以科研反哺教學(xué)的理念,積極參與數(shù)據(jù)科學(xué)與工程學(xué)科建設(shè),主要承擔(dān)本科生和研究生的“數(shù)據(jù)科學(xué)與工程算法基礎(chǔ)”教學(xué)工作。
胡卉芪,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院副教授。主要從事數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)算法方面的研究。曾獲國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)、教育部科技進(jìn)步獎(jiǎng)(主要參與人)等獎(jiǎng)項(xiàng)。長(zhǎng)期參與數(shù)據(jù)科學(xué)與工程學(xué)科建設(shè),多年來(lái)專注于數(shù)據(jù)結(jié)構(gòu)、算法方面核心課程的本科生教學(xué)與學(xué)生培養(yǎng)工作。
術(shù)人員參考。
第1章 緒論
1.1 數(shù)據(jù)分析處理階段
1.1.1 數(shù)據(jù)采集
1.1.2 數(shù)據(jù)預(yù)處理
1.1.3 數(shù)據(jù)存儲(chǔ)與管理
1.1.4 數(shù)據(jù)分析與挖掘
1.1.5 數(shù)據(jù)可視化
1.2 算法設(shè)計(jì)原則
1.2.1 數(shù)據(jù)特點(diǎn)
1.2.2 算法評(píng)價(jià)
1.2.3 算法設(shè)計(jì)原則
本章小結(jié)
習(xí)題1
第2章 抽樣算法
2.1 引入
2.2 基本概念
2.2.1 總體與樣本
2.2.2 抽樣調(diào)查
2.3 系統(tǒng)抽樣
2.3.1 直線等距抽樣
2.3.2 圓形等距抽樣
2.3.3 系統(tǒng)抽樣特點(diǎn)
2.4 分層抽樣
2.5 水庫(kù)抽樣
2.5.1 水庫(kù)抽樣算法
2.5.2 算法分析
2.5.3 分布式水庫(kù)抽樣算法
本章小結(jié)
習(xí)題2
第3章 尾概率不等式及其應(yīng)用
3.1 引入
3.2 Markov不等式
3.3 Chebyshev不等式
3.4 Chernoff不等式
3.5 尾概率不等式的應(yīng)用-Morris算法
3.5.1 Morris算法
3.5.2 Morris+算法
3.5.3 Morris++算法
本章小結(jié)
習(xí)題3
第4章 哈希技術(shù)
4.1 引入
4.2 哈希
4.3 布隆過(guò)濾器
4.3.1 布隆過(guò)濾器的基本原理
4.3.2 誤判率
4.3.3 降低誤判率
4.3.4 應(yīng)用場(chǎng)景
4.4 局部敏感哈希
4.4.1 哈希函數(shù)的選擇
4.4.2 Shingling
4.4.3 Min-Hashing
4.4.4 基于Min-Hashing的局部敏感哈希過(guò)程
4.4.5 應(yīng)用場(chǎng)景
本章小結(jié)
習(xí)題4
第5章 數(shù)據(jù)流模型及頻繁項(xiàng)挖掘
5.1 引入
5.2 數(shù)據(jù)流模型
5.2.1 數(shù)據(jù)流和數(shù)據(jù)流模型
5.2.2 數(shù)據(jù)流子模型
5.2.3 概要數(shù)據(jù)結(jié)構(gòu)
5.2.4 近似算法
5.3 頻繁項(xiàng)挖掘
5.4 確定性近似頻數(shù)算法Misra Gries
5.4.1 Misra Gries算法
5.4.2 Misra Gries算法分析
5.5 隨機(jī)近似頻數(shù)算法Count Sketch
5.5.1 簡(jiǎn)單抽樣算法
5.5.2 Basic Count Sketch算法
5.5.3 Count Sketch算法
5.5.4 Count-Min Sketch
算法
本章小結(jié)
習(xí)題5
第6章 EM算法
6.1 引入
6.2 最大似然估計(jì)方法
6.2.1 似然函數(shù)
6.2.2 最大似然估計(jì)
6.2.3 混合模型
6.3 EM算法
6.3.1 算法推導(dǎo)
6.3.2 EM算法
6.3.3 EM算法的收斂性
本章小結(jié)
習(xí)題6
第7章 隨機(jī)游走及其應(yīng)用
7.1 引入
7.2 隨機(jī)過(guò)程
7.2.1 馬爾可夫過(guò)程
7.2.2 隨機(jī)游走
7.2.3 轉(zhuǎn)移概率矩陣
……
第8章 特征值計(jì)算
第9章 奇異值分解與主成分分析
第10章 矩陣分解
第11章 整數(shù)規(guī)劃
第12章 子模函數(shù)及其應(yīng)用
第13章 模塊度及社區(qū)發(fā)現(xiàn)
參考文獻(xiàn)