數(shù)據(jù)科學(xué)的主要目標(biāo)就是通過(guò)數(shù)據(jù)分析來(lái)改進(jìn)決策,它與數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域緊密相關(guān),但范圍更廣。本書簡(jiǎn)要介紹了該領(lǐng)域的發(fā)展、基礎(chǔ)知識(shí),并闡釋了數(shù)據(jù)科學(xué)項(xiàng)目的各個(gè)階段。書中既考慮數(shù)據(jù)基礎(chǔ)架構(gòu)和集成多個(gè)數(shù)據(jù)源數(shù)據(jù)所面臨的挑戰(zhàn),又介紹機(jī)器學(xué)習(xí)基礎(chǔ)并探討如何應(yīng)用機(jī)器學(xué)習(xí)專業(yè)技術(shù)解決現(xiàn)實(shí)問(wèn)題。還綜述了倫理和法律問(wèn)題、數(shù)據(jù)法規(guī)的發(fā)展以及保護(hù)隱私的計(jì)算方法。*后探討了數(shù)據(jù)科學(xué)的未來(lái)影響,并給出數(shù)據(jù)科學(xué)項(xiàng)目成功的原則。
數(shù)據(jù)科學(xué)推動(dòng)了現(xiàn)代社會(huì)幾乎所有領(lǐng)域決策的發(fā)展,正在影響著人們?nèi)粘I畹姆椒矫婷。本書旨在闡述理解數(shù)據(jù)科學(xué)所需的基本思想和概念,幫助你理解什么是數(shù)據(jù)科學(xué),它是如何工作的,以及它能(和不能)做什么。本書從數(shù)據(jù)科學(xué)發(fā)展演化史,數(shù)據(jù)科學(xué)定義,數(shù)據(jù)、數(shù)據(jù)集,數(shù)據(jù)科學(xué)生態(tài)系統(tǒng),機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)標(biāo)準(zhǔn)任務(wù),隱私與道德,發(fā)展趨勢(shì)等角度,對(duì)數(shù)據(jù)科學(xué)展開了精彩的闡述。
數(shù)據(jù)科學(xué)的目標(biāo)是通過(guò)將決策建立在從大數(shù)據(jù)集中提取洞察力的基礎(chǔ)上來(lái)改進(jìn)決策。作為一個(gè)活動(dòng)領(lǐng)域,數(shù)據(jù)科學(xué)由一系列原理、問(wèn)題定義、算法和過(guò)程組成,用于從大型數(shù)據(jù)集中提取有用但不顯眼的模式。數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域密切相關(guān),但它涉及的范圍更廣。如今,數(shù)據(jù)科學(xué)推動(dòng)了現(xiàn)代社會(huì)幾乎所有領(lǐng)域決策的發(fā)展。數(shù)據(jù)科學(xué)可能影響人們?nèi)粘I畹姆椒矫婷,如確定在線廣告的呈現(xiàn),向用戶推薦電影、書籍、朋友,過(guò)濾垃圾郵件,用戶續(xù)訂手機(jī)合約時(shí)向他們提供合適的優(yōu)惠套餐,降低醫(yī)保成本,規(guī)劃轄區(qū)內(nèi)交通信號(hào)燈的布局及通行時(shí)間,藥品設(shè)計(jì),警力部署規(guī)劃等。
大數(shù)據(jù)和社交媒體的出現(xiàn)、計(jì)算能力的加速、計(jì)算機(jī)內(nèi)存成本的大幅降低以及更強(qiáng)大的數(shù)據(jù)分析和建模方法的發(fā)展推動(dòng)了當(dāng)代社會(huì)對(duì)數(shù)據(jù)科學(xué)需求的增長(zhǎng),其中典型的技術(shù)有深度學(xué)習(xí)。這些因素共同作用意味著組織收集、存儲(chǔ)和處理數(shù)據(jù)將比以前簡(jiǎn)單。與此同時(shí),這些技術(shù)創(chuàng)新和數(shù)據(jù)科學(xué)的廣泛應(yīng)用意味著與數(shù)據(jù)使用和個(gè)人隱私相關(guān)的道德挑戰(zhàn)從未如此迫切。本書的目的是提供數(shù)據(jù)科學(xué)的介紹,涵蓋該領(lǐng)域的基本要素,并提供對(duì)該領(lǐng)域深刻的原則性見解。
本書第1章介紹了數(shù)據(jù)科學(xué)領(lǐng)域,簡(jiǎn)要回顧了數(shù)據(jù)科學(xué)的發(fā)展演化歷史,還探討了如今數(shù)據(jù)科學(xué)為什么那么重要,以及推動(dòng)采用數(shù)據(jù)科學(xué)的一些因素。在這一章的最后,回顧并揭穿了與數(shù)據(jù)科學(xué)相關(guān)的一些神話。第2章介紹了與數(shù)據(jù)相關(guān)的基本概念,描述了數(shù)據(jù)科學(xué)項(xiàng)目的標(biāo)準(zhǔn)流程:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)估和部署。第3章重點(diǎn)介紹了數(shù)據(jù)基礎(chǔ)設(shè)施以及大數(shù)據(jù)和多源數(shù)據(jù)集成帶來(lái)的挑戰(zhàn)。數(shù)據(jù)基礎(chǔ)設(shè)施的一個(gè)可能具有挑戰(zhàn)性的典型方面是,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常駐留在與用于數(shù)據(jù)分析的服務(wù)器不同的服務(wù)器上。因此,當(dāng)處理大型數(shù)據(jù)集時(shí),可能要花費(fèi)大量時(shí)間在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)所依賴的服務(wù)器與進(jìn)行數(shù)據(jù)分析和機(jī)器學(xué)習(xí)處理的服務(wù)器之間移動(dòng)數(shù)據(jù)。第3章首先描述組織中典型的數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施,以及在數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施中移動(dòng)大型數(shù)據(jù)集的挑戰(zhàn)的一些新興解決方案,其中包括使用數(shù)據(jù)庫(kù)內(nèi)置機(jī)器學(xué)習(xí)算法,使用Hadoop進(jìn)行數(shù)據(jù)存儲(chǔ)和處理,以及混合數(shù)據(jù)庫(kù)系統(tǒng)的開發(fā),這些系統(tǒng)無(wú)縫地結(jié)合了傳統(tǒng)的數(shù)據(jù)庫(kù)軟件和類似Hadoop的解決方案。這一章的最后強(qiáng)調(diào)了將整個(gè)組織的數(shù)據(jù)整合到適合機(jī)器學(xué)習(xí)的統(tǒng)一表示中的一些挑戰(zhàn)。第4章介紹了機(jī)器學(xué)習(xí)領(lǐng)域,并解釋了一些最流行的機(jī)器學(xué)習(xí)算法和模型,包括神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和決策樹模型。第5章聚焦于通過(guò)審視一系列標(biāo)準(zhǔn)業(yè)務(wù)問(wèn)題,描述了機(jī)器學(xué)習(xí)解決方案如何解決這些問(wèn)題來(lái)將機(jī)器學(xué)習(xí)專業(yè)知識(shí)與現(xiàn)實(shí)問(wèn)題聯(lián)系起來(lái)。第6章回顧了數(shù)據(jù)科學(xué)的道德含義、數(shù)據(jù)監(jiān)管的最新發(fā)展,以及在數(shù)據(jù)科學(xué)過(guò)程中保護(hù)個(gè)人隱私的一些新的計(jì)算方法。最后,第7章描述了數(shù)據(jù)科學(xué)在不久的將來(lái)會(huì)產(chǎn)生重大影響的一些領(lǐng)域,并列出了確定數(shù)據(jù)科學(xué)項(xiàng)目是否會(huì)成功的一些重要原則。
約翰· D.凱萊赫(John D. Kelleher) 是都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的教授以及信息、通信和娛樂(lè)研究所的學(xué)術(shù)負(fù)責(zé)人。他的研究得到了ADAPT中心的支持,該中心由愛爾蘭科學(xué)基金會(huì)(Grant 13 / RC / 2106)資助,同時(shí)也接受歐洲區(qū)域發(fā)展基金的資助。 他還是《Fundamentals of Machine Learning for Predictive Data Analytics》的作者之一。
布倫丹·蒂爾尼(Brendan Tierney)是都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的講師,同時(shí)也是Oracle ACE 主任,還著有多本基于Oracle技術(shù)的數(shù)據(jù)挖掘類著作。
譯者序
前言
致謝
作者簡(jiǎn)介
第1章 什么是數(shù)據(jù)科學(xué) …… 1
1.1 數(shù)據(jù)科學(xué)簡(jiǎn)史 …… 5
1.1.1 數(shù)據(jù)收集簡(jiǎn)史 …… 5
1.1.2 數(shù)據(jù)分析簡(jiǎn)史 …… 9
1.1.3 數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展 …… 14
1.2 數(shù)據(jù)科學(xué)用于何處 …… 20
1.2.1 銷售和營(yíng)銷中的數(shù)據(jù)科學(xué) …… 21
1.2.2 數(shù)據(jù)科學(xué)在政府中的應(yīng)用 …… 22
1.2.3 數(shù)據(jù)科學(xué)在競(jìng)技體育中的應(yīng)用 …… 23
1.3 為什么是現(xiàn)在 …… 25
1.4 關(guān)于數(shù)據(jù)科學(xué)的神話 …… 28
第2章 什么是數(shù)據(jù),什么是數(shù)據(jù)集 …… 31
2.1 關(guān)于數(shù)據(jù)的觀點(diǎn) …… 38
2.2 數(shù)據(jù)可以積累,而智慧不能 …… 43
2.3 CRISP-DM …… 45
第3章 數(shù)據(jù)科學(xué)生態(tài)系統(tǒng) …… 54
3.1 將算法遷移至數(shù)據(jù) …… 61
3.1.1 傳統(tǒng)數(shù)據(jù)庫(kù)與現(xiàn)代的傳統(tǒng)數(shù)據(jù)庫(kù) …… 64
3.1.2 大數(shù)據(jù)架構(gòu) …… 67
3.1.3 混合數(shù)據(jù)庫(kù)世界 …… 69
3.2 數(shù)據(jù)準(zhǔn)備和集成 …… 72
第4章 機(jī)器學(xué)習(xí) …… 77
4.1 有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí) …… 78
4.2 學(xué)習(xí)預(yù)測(cè)模型 …… 83
4.2.1 相關(guān)性不等同于因果,但它有時(shí)非常有用 …… 84
4.2.2 線性回歸 …… 90
4.2.3 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) …… 96
4.2.4 決策樹 …… 108
4.3 數(shù)據(jù)科學(xué)中的偏差 …… 114
4.4 評(píng)估模型:泛化而不是記憶 …… 116
4.5 摘要 …… 119
第5章 標(biāo)準(zhǔn)的數(shù)據(jù)科學(xué)任務(wù) …… 121
5.1 誰(shuí)是我們的目標(biāo)客戶(聚類) …… 122
5.2 這是欺詐嗎(異常值檢測(cè)) …… 128
5.3 你要配份炸薯?xiàng)l嗎(關(guān)聯(lián)規(guī)則挖掘) …… 131
5.4 流失還是不流失,這是一個(gè)問(wèn)題(分類) …… 136
5.5 它價(jià)值幾何(回歸) …… 141
第6章 隱私與道德 …… 143
6.1 商業(yè)利益與個(gè)人隱私 …… 145
6.1.1 數(shù)據(jù)科學(xué)的道德啟示:畫像與歧視 …… 148
6.1.2 數(shù)據(jù)科學(xué)的道德含義:創(chuàng)建一個(gè)全景監(jiān)獄 …… 154
6.2 隱私保護(hù) …… 157
6.2.1 保護(hù)隱私的計(jì)算方法 …… 159
6.2.2 規(guī)范數(shù)據(jù)使用和保護(hù)隱私的法律框架 …… 161
6.3 通往道德的數(shù)據(jù)科學(xué)之路 …… 164
第7章 未來(lái)趨勢(shì)與成功準(zhǔn)則 …… 172
7.1 醫(yī)療數(shù)據(jù)科學(xué) …… 172
7.2 智慧城市 …… 174
7.3 數(shù)據(jù)科學(xué)項(xiàng)目準(zhǔn)則:為什么會(huì)成功或失敗 …… 177
7.4 終極思考 …… 185
術(shù)語(yǔ)表 …… 188
延伸閱讀 …… 201
參考文獻(xiàn) …… 203