定 價(jià):79 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:(美)塞巴斯蒂安·拉施卡(Sebastian Raschka)
- 出版時(shí)間:2017/3/1
- ISBN:9787111558804
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:259
- 紙張:膠版紙
- 版次:1
- 開本:16開
機(jī)器學(xué)習(xí)與預(yù)測分析正在改變企業(yè)和其他組織的運(yùn)作方式,本書將帶領(lǐng)讀者進(jìn)入預(yù)測分析的世界。全書共13章,除了簡要介紹機(jī)器學(xué)習(xí)及Python在機(jī)器學(xué)習(xí)中的應(yīng)用,還系統(tǒng)講述了數(shù)據(jù)分類、數(shù)據(jù)預(yù)處理、模型優(yōu)化、集成學(xué)習(xí)、回歸、聚類、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等內(nèi)容。本書將機(jī)器學(xué)習(xí)背后的基本理論與應(yīng)用實(shí)踐聯(lián)系起來,通過這種方式讓讀者聚焦于如何正確地提出問題、解決問題。本書講解了如何使用Python的核心元素以及強(qiáng)大的機(jī)器學(xué)習(xí)庫,同時(shí)還展示了如何正確使用一系列統(tǒng)計(jì)模型。本書可作為學(xué)習(xí)數(shù)據(jù)科學(xué)的初學(xué)者及想進(jìn)一步拓展數(shù)據(jù)科學(xué)領(lǐng)域認(rèn)識(shí)的讀者的參考書。同樣,本書也適合計(jì)算機(jī)等相關(guān)專業(yè)的本科生、研究生閱讀。
前 言無需多言,大家都已知道,機(jī)器學(xué)習(xí)已發(fā)展成為當(dāng)前最能激發(fā)人們興趣的技術(shù)之一。出于各種考慮,谷歌、臉書、蘋果、亞馬遜、IBM等眾多大公司都投入了巨資用于機(jī)器學(xué)習(xí)理論和應(yīng)用的研究。機(jī)器學(xué)習(xí)看起來已經(jīng)成為當(dāng)前的一個(gè)流行語,但這絕不是炒作。這一令人興奮的技術(shù)為我們帶來了全新的可能,并已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧@,與智能手機(jī)的語音助手對話、向客戶推薦合適的商品、防止信用卡詐騙、過濾垃圾郵件,以及檢測與診斷疾病等,這樣的例子不勝枚舉。
如果你想?yún)⑴c機(jī)器學(xué)習(xí)的實(shí)踐,或是成為解決問題的能手,抑或是考慮從事機(jī)器學(xué)習(xí)研究方面的工作,那么本書正適合你。不過,對初學(xué)者來說,機(jī)器學(xué)習(xí)的理論知識(shí)是比較有難度的。幸運(yùn)的是,近年來出版了許多非常實(shí)用的書籍,通過實(shí)現(xiàn)一些功能強(qiáng)大的算法來幫助讀者步入機(jī)器學(xué)習(xí)的殿堂。在我看來,代碼示例起到了重要的作用,通過示例代碼的實(shí)際操作可以對概念進(jìn)行更好的闡釋。不過請記。耗芰(qiáng)大了,責(zé)任就接踵而至!機(jī)器學(xué)習(xí)背后的概念美妙且重要,就如同黑盒一樣令人無法琢磨。因此,我旨在為讀者提供一本不一樣的書籍:討論與機(jī)器學(xué)習(xí)概念相關(guān)的必要細(xì)節(jié),并以直觀且詳實(shí)的方式來說明機(jī)器學(xué)習(xí)算法是如何工作的,以及如何在實(shí)際中應(yīng)用它們。尤為重要的是,如何避開常見的誤區(qū)。
如果在“谷歌學(xué)術(shù)”中搜索“機(jī)器學(xué)習(xí)”一詞,會(huì)返回一個(gè)大的文獻(xiàn)數(shù):1 800 000。當(dāng)然,我們無法討論過去60年中所提出的算法和應(yīng)用的全部細(xì)節(jié)。不過,本書涵蓋了機(jī)器學(xué)習(xí)領(lǐng)域最核心的主題和概念,可以讓大家率先踏入這一領(lǐng)域,從而開啟一段令人興奮的旅程。如果本書內(nèi)容無法滿足你對此領(lǐng)域的求知欲,你可以利用作者所列出的豐富資源,追尋這一領(lǐng)域最核心的突破。
如果你已經(jīng)詳細(xì)地研究過機(jī)器學(xué)習(xí)理論,本書將教會(huì)你如何把所學(xué)知識(shí)付諸實(shí)踐。如果你曾經(jīng)使用過機(jī)器學(xué)習(xí)技術(shù),并且希望能更深入地了解機(jī)器學(xué)習(xí)算法是如何工作的,本書也適合你!如果你剛接觸機(jī)器學(xué)習(xí)領(lǐng)域,也不用擔(dān)心,反而更應(yīng)該感到高興。我保證,機(jī)器學(xué)習(xí)將改變你解決問題的思考方式,并且讓你見識(shí)到如何通過發(fā)揮數(shù)據(jù)的力量來解決問題。
在深度進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域之前,先回答一個(gè)重要的問題:為什么使用Python?答案很簡單:它功能強(qiáng)大且使用方便。Python已經(jīng)成為數(shù)據(jù)科學(xué)領(lǐng)域最為流行的編程語言,它不僅可以讓我們忽略掉編程中那些繁雜的部分,還可以提供一個(gè)交互式環(huán)境,讓我們能夠快速記錄自己的想法,并且將概念直接付諸實(shí)現(xiàn)。
回顧我的個(gè)人經(jīng)歷,實(shí)事求是地說,對機(jī)器學(xué)習(xí)的研究讓我成為一名優(yōu)秀的科學(xué)工作者,讓我變得善于思考,并且成長為問題解決能手。在本書中,我將與讀者分享這些知識(shí)。知識(shí)經(jīng)由學(xué)習(xí)獲得,而學(xué)習(xí)熱情是其中的關(guān)鍵,真正掌握某項(xiàng)技能只有通過實(shí)踐才能夠?qū)崿F(xiàn)。學(xué)習(xí)的歷程不可能一帆風(fēng)順,某些主題相對來說難度會(huì)比較大,但我希望大家能把握住這個(gè)機(jī)會(huì),并享受學(xué)習(xí)的回報(bào)。請記住,在機(jī)器學(xué)習(xí)的旅途中,我們共同前行,通過此書,你將學(xué)會(huì)許多新的技能,借助于它們,我們甚至能夠以數(shù)據(jù)驅(qū)動(dòng)的方式解決那些最棘手的問題。
本書內(nèi)容第1章介紹了機(jī)器學(xué)習(xí)算法的劃分。此外,還討論了構(gòu)建一個(gè)典型的機(jī)器學(xué)習(xí)模型的必要步驟,對此過程的理解有助于后續(xù)章節(jié)的學(xué)習(xí)。
第2章追溯了機(jī)器學(xué)習(xí)的起源,介紹了二元感知分類器和自適應(yīng)線性神經(jīng)元。該章還介紹了模式分類的基礎(chǔ),并著重介紹優(yōu)化算法和機(jī)器學(xué)習(xí)的相互作用。
第3章介紹了機(jī)器學(xué)習(xí)中分類算法的基本內(nèi)容,并使用一個(gè)流行且包含算法種類相對齊全的開源機(jī)器學(xué)習(xí)算法庫scikit-learn,來完成幾個(gè)機(jī)器學(xué)習(xí)分類算法實(shí)例。
第4章討論了如何處理原始數(shù)據(jù)中常見的問題,諸如數(shù)據(jù)缺失等。該章還討論了幾種如何從數(shù)據(jù)集中找出蘊(yùn)含信息最豐富特征的方法,并講解了如何處理不同數(shù)據(jù)類型的變量,以使其與機(jī)器學(xué)習(xí)算法的輸入要求相匹配。
第5章介紹了如何通過降維來壓縮數(shù)據(jù)的特征數(shù)量,以便將數(shù)據(jù)集壓縮到一個(gè)容量相對較小的子集上,同時(shí)還能保持原數(shù)據(jù)中有用的區(qū)分信息。該章主要討論了通過主成分分析來降維的標(biāo)準(zhǔn)方法,并將其與監(jiān)督以及線性變換技術(shù)進(jìn)行了比較。
第6章討論了對預(yù)測模型進(jìn)行評估時(shí)應(yīng)該做什么和不應(yīng)該做什么。此外,還探討了衡量模型的不同標(biāo)準(zhǔn)以及機(jī)器學(xué)習(xí)算法調(diào)優(yōu)的相關(guān)技巧。
第7章介紹了有效地組合多個(gè)機(jī)器學(xué)習(xí)算法的不同方法,并講授了如何通過構(gòu)造繼承模型來消除個(gè)別分類器的弱點(diǎn),從而最終得到更加準(zhǔn)確和可信的預(yù)測結(jié)果。
第8章討論了將文本數(shù)據(jù)轉(zhuǎn)化為有意義的表達(dá)方式的方法,根據(jù)人們的留言借助機(jī)器學(xué)習(xí)算法來預(yù)測其觀點(diǎn)。
第9章繼續(xù)對預(yù)測模型進(jìn)行了探討,并將引導(dǎo)你完成將機(jī)器學(xué)習(xí)模型嵌入到Web應(yīng)用中的核心步驟。
第10章討論了當(dāng)自變量和因變量都為連續(xù)值時(shí),建立線性模型來完成預(yù)測的基本方法。在介紹了不同的線性模型后,又討論了多項(xiàng)式回歸和基于樹的方法—隨機(jī)森林。
第11章將關(guān)注的焦點(diǎn)轉(zhuǎn)移到了另一類型的機(jī)器學(xué)習(xí)方法:無監(jiān)督學(xué)習(xí)。我們使用了三種基本的聚類算法將具備一定相似度的對象劃分為幾個(gè)組別。
第1
作 者 簡 介Sebastian Raschka是密歇根州立大學(xué)的博士生,他在計(jì)算生物學(xué)領(lǐng)域提出了幾種新的計(jì)算方法,還被科技博客Analytics Vidhya評為GitHub上具影響力的數(shù)據(jù)科學(xué)家。他有一整年都使用Python進(jìn)行編程的經(jīng)驗(yàn),同時(shí)還多次參加數(shù)據(jù)科學(xué)應(yīng)用與機(jī)器學(xué)習(xí)領(lǐng)域的研討會(huì)。正是因?yàn)镾ebastian 在數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)以及Python等領(lǐng)域擁有豐富的演講和寫作經(jīng)驗(yàn),他才有動(dòng)力完成此書的撰寫,目的是幫助那些不具備機(jī)器學(xué)習(xí)背景的人設(shè)計(jì)出由數(shù)據(jù)驅(qū)動(dòng)的解決方案。
他還積極參與到開源項(xiàng)目中,由他開發(fā)完成的計(jì)算方法已經(jīng)被成功應(yīng)用到了機(jī)器學(xué)習(xí)競賽(如Kaggle等)中。在業(yè)余時(shí)間,他沉醉于構(gòu)建體育運(yùn)動(dòng)的預(yù)測模型,要么待在電腦前,要么在運(yùn)動(dòng)。
首先,我要感謝Arun Ross和Pang-Ning Tan教授,以及那些曾經(jīng)啟發(fā)我并激起我在模式分類、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域興趣的人。
我還想借此機(jī)會(huì)對Python社區(qū)和開源包的開發(fā)者表示感謝,他們幫助我創(chuàng)建了一個(gè)用于科學(xué)研究和數(shù)據(jù)科學(xué)的完美開發(fā)環(huán)境。
在此,還要特別感謝scikit-learn的核心開發(fā)人員。作為此項(xiàng)目的一個(gè)參與者,我有幸與這些極客合作,他們不僅對機(jī)器學(xué)習(xí)有著深入的了解,同時(shí)還都是非常出色的程序員。
后,我還要感謝所有對本書感興趣的讀者,也真心希望我的熱情能夠感染大家一起加入到Python與機(jī)器學(xué)習(xí)社區(qū)中來。
目 錄
譯者序
推薦序
作者簡介
審校者簡介
前言
第1章 賦予計(jì)算機(jī)學(xué)習(xí)數(shù)據(jù)的能力1
1.1構(gòu)建智能機(jī)器將數(shù)據(jù)轉(zhuǎn)化為知識(shí)1
1.2 機(jī)器學(xué)習(xí)的三種不同方法1
1.2.1 通過監(jiān)督學(xué)習(xí)對未來事件進(jìn)行預(yù)測2
1.2.2 通過強(qiáng)化學(xué)習(xí)解決交互式問題4
1.2.3 通過無監(jiān)督學(xué)習(xí)發(fā)現(xiàn)數(shù)據(jù)本身潛在的結(jié)構(gòu)4
1.2.4 基本術(shù)語及符號介紹5
1.3 構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)的藍(lán)圖6
1.3.1 數(shù)據(jù)預(yù)處理6
1.3.2 選擇預(yù)測模型類型并進(jìn)行訓(xùn)練7
1.3.3 模型驗(yàn)證與使用未知數(shù)據(jù)進(jìn)行預(yù)測8
1.4 Python在機(jī)器學(xué)習(xí)中的應(yīng)用8
本章小結(jié)9
第2章 機(jī)器學(xué)習(xí)分類算法10
2.1 人造神經(jīng)元—早期機(jī)器學(xué)習(xí)概覽10
2.2 使用Python實(shí)現(xiàn)感知器學(xué)習(xí)算法13
2.3 自適應(yīng)線性神經(jīng)元及其學(xué)習(xí)的收斂性19
2.3.1 通過梯度下降最小化代價(jià)函數(shù)20
2.3.2 使用Python實(shí)現(xiàn)自適應(yīng)線性神經(jīng)元21
2.3.3 大規(guī)模機(jī)器學(xué)習(xí)與隨機(jī)梯度下降25
本章小結(jié)29
第3章 使用scikit-learn實(shí)現(xiàn)機(jī)器學(xué)習(xí)分類算法30
3.1 分類算法的選擇30
3.2 初涉scikit-learn的使用30
使用scikit-learn訓(xùn)練感知器31
3.3 邏輯斯諦回歸中的類別概率34
3.3.1 初識(shí)邏輯斯諦回歸與條件概率34
3.3.2 通過邏輯斯諦回歸模型的代價(jià)函數(shù)獲得權(quán)重36
3.3.3 使用scikit-learn訓(xùn)練邏輯斯諦回歸模型37
3.3.4 通過正則化解決過擬合問題39
3.4 使用支持向量機(jī)最大化分類間隔41
3.4.1 對分類間隔最大化的直觀認(rèn)識(shí)41
3.4.2 使用松弛變量解決非線性可分問題42
3.4.3 使用scikit-learn實(shí)現(xiàn)SVM44
3.5 使用核SVM解決非線性問題44
3.6 決策樹48
3.6.1 最大化信息增益—獲知盡可能準(zhǔn)確的結(jié)果49
3.6.2 構(gòu)建決策樹52
3.6.3 通過隨機(jī)森林將弱分類器集成為強(qiáng)分類器53
3.7 惰性學(xué)習(xí)算法—k-近鄰算法54
本章小結(jié)57
第4章 數(shù)據(jù)預(yù)處理—構(gòu)建好的訓(xùn)練數(shù)據(jù)集58
4.1 缺失數(shù)據(jù)的處理58
4.1.1 將存在缺失值的特征或樣本刪除59
4.1.2 缺失數(shù)據(jù)填充60
4.1.3 理解scikit-learn預(yù)估器的API60
4.2 處理類別數(shù)據(jù)61
4.2.1 有序特征的映射61
4.2.2 類標(biāo)的編碼62
4.2.3 標(biāo)稱特征上的獨(dú)熱編碼63
4.3 將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集64
4.4 將特征的值縮放到相同的區(qū)間65
4.5 選擇有意義的特征66
4.5.1 使用L1正則化滿足數(shù)據(jù)稀疏化67
4.5.2 序列特征選擇算法70
4.6 通過隨機(jī)森林判定特征的重要性74
本章小結(jié)76
第5章 通過降維壓縮數(shù)據(jù)77
5.1 無監(jiān)督數(shù)據(jù)降維技術(shù)—主成分分析77
5.1.1 總體方差與貢獻(xiàn)方差78
5.1.2 特征轉(zhuǎn)換80
5.1.3 使用scikit-learn進(jìn)行主成分分析82
5.2 通過線性判別分析壓縮無監(jiān)督數(shù)據(jù)84
5.2.1 計(jì)算散布矩陣85
5.2.2 在新特征子空間上選取線性判別算法87
5.2.3 將樣本映射到新的特征空間89
5.2.4 使用scikit-learn進(jìn)行LDA分析90
5.3 使用核主成分分析進(jìn)行非線性映射91
5.3.1 核函數(shù)與核技巧91
5.3.2 使用Python實(shí)現(xiàn)核主成分分析94
5.3.3 映射新的數(shù)據(jù)點(diǎn)99
5.3.4 scikit-learn中的核主成分分析102
本章小結(jié)103
第6章 模型評估與參數(shù)調(diào)優(yōu)實(shí)戰(zhàn)104
6.1 基于流水線的工作流104
6.1.1 加載威斯康星乳腺癌數(shù)據(jù)集104
6.1.2 在流水線中集成數(shù)據(jù)轉(zhuǎn)換及評估操作105
6.2 使用k折交叉驗(yàn)證評估模型性能106
6.2.1 holdout方法106
6.2.2 k折交叉驗(yàn)證107
6.3 通過學(xué)習(xí)及驗(yàn)證曲線來調(diào)試算法110
6.3.1 使用學(xué)習(xí)曲線判定偏差和方差問題110
6.3.2 通過驗(yàn)證曲線來判定過擬合與欠擬合112
6.4 使用網(wǎng)格搜索調(diào)優(yōu)機(jī)器學(xué)習(xí)模型113
6.4.1 使用網(wǎng)絡(luò)搜索調(diào)優(yōu)超參114
6.4.2 通過嵌套交叉驗(yàn)證選擇算法115
6.5 了解不同的性能評價(jià)指標(biāo)116
6.5.1 讀取混淆矩陣116
6.5.2 優(yōu)化分類模型的準(zhǔn)確率和召回率117
6.5.3 繪制ROC曲線118
6.5.4 多類別分類的評價(jià)標(biāo)準(zhǔn)121
本章小結(jié)121
第7章 集成學(xué)習(xí)—組合不同的模型122
7.1 集成學(xué)習(xí)122
7.2 實(shí)現(xiàn)一個(gè)簡單的多數(shù)投票分類器125
7.3 評估與調(diào)優(yōu)集成分類器131
7.4 bagging —通過bootstrap樣本構(gòu)建集成分類器135
7.5 通過自適應(yīng)boosting提高弱學(xué)習(xí)機(jī)的性能138
本章小結(jié)143
第8章 使用機(jī)器學(xué)習(xí)進(jìn)行情感分析144
8.1 獲取IMDb電影評論數(shù)據(jù)集144
8.2 詞袋模型簡介146
8.2.1 將單詞轉(zhuǎn)換為特征向量146
8.2.2 通過詞頻-逆文檔頻率計(jì)算單詞關(guān)聯(lián)度147
8.2.3 清洗文本數(shù)據(jù)148
8.2.4 標(biāo)記文檔149
8.3 訓(xùn)練用于文檔分類的邏輯斯諦回歸模型151
8.4 使用大數(shù)據(jù)—在線算法與外存學(xué)習(xí)152
本章小結(jié)155
第9章 在Web應(yīng)用中嵌入機(jī)器學(xué)習(xí)模型156
9.1 序列化通過scikit-learn擬合的模型156
9.2 使用SQLite數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)158
9.3 使用Flask開發(fā)Web應(yīng)用160
9.3.1 第一個(gè)Flask Web應(yīng)用160
9.3.2 表單驗(yàn)證及渲染161
9.4 將電影分類器嵌入Web應(yīng)用164
9.5 在公共服務(wù)器上部署Web應(yīng)用169
本章小結(jié)172
第10章 使用回歸分析預(yù)測連續(xù)型目標(biāo)變量173
10.1 簡單線性回歸模型初探173
10.2 波士頓房屋數(shù)據(jù)集174
10.3 基于最小二乘法構(gòu)建線性回歸模型178
10.3.1 通過梯度下降計(jì)算回歸參數(shù)178
10.3.2 使用scikit-learn估計(jì)回歸模型的系數(shù)181
10.4 使用RANSAC擬合高魯棒性回歸模型182
10.5 線性回歸模型性能的評估184
10.6 回歸中的正則化方法185
10.7 線性回歸模型的曲線化-多項(xiàng)式回歸186
10.7.1 房屋數(shù)據(jù)集中的非線性關(guān)系建模188
10.7.2 使用隨機(jī)森林處理非線性關(guān)系190
本章小結(jié)193
第11章 聚類分析——處理無類標(biāo)數(shù)據(jù)194
11.1 使用k-means算法對相似對象進(jìn)行分組194
11.1.1 k-means++196
11.1.2 硬聚類與軟聚類198
11.1.3 使用肘方法確定簇的最佳數(shù)量199
11.1.4 通過輪廓圖定量分析聚類質(zhì)量200
11.2 層次聚類203
11.2.1 基于距離矩陣進(jìn)行層次聚類204
11.2.2 樹狀圖與熱度圖的關(guān)聯(lián)207
11.2.3 通過scikit-learn進(jìn)行凝聚聚類208
11.3 使用DBSCAN劃分高密度區(qū)域209
本章小結(jié)212
第12章 使用人工神經(jīng)網(wǎng)絡(luò)識(shí)別圖像213
12.1 使用人工神經(jīng)網(wǎng)絡(luò)對復(fù)雜函數(shù)建模213
12.1.1 單層神經(jīng)網(wǎng)絡(luò)回顧214
12.1.2 多層神經(jīng)網(wǎng)絡(luò)架構(gòu)簡介215
12.1.3 通過正向傳播構(gòu)造神經(jīng)網(wǎng)絡(luò)216
12.2 手寫數(shù)字的識(shí)別218
12.2.1 獲取MNIST數(shù)據(jù)集218
12.2.2 實(shí)現(xiàn)一個(gè)多層感知器222
12.3 人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練228
12.3.1 計(jì)算邏輯斯諦代價(jià)函數(shù)228
12.3.2 通過反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)230
12.4 建立對反向傳播的直觀認(rèn)識(shí)231
12.5 通過梯度檢驗(yàn)調(diào)試神經(jīng)網(wǎng)絡(luò)232
12.6 神經(jīng)網(wǎng)絡(luò)的收斂性236
12.7 其他神經(jīng)網(wǎng)絡(luò)架構(gòu)237
12.7.1 卷積神經(jīng)網(wǎng)絡(luò)237
12.7.2 循環(huán)神經(jīng)網(wǎng)絡(luò)238
12.8 關(guān)于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)239
本章小結(jié)240
第13章 使用Theano并行訓(xùn)練神經(jīng)網(wǎng)絡(luò)241
13.1 使用Theano構(gòu)建、編譯并運(yùn)行表達(dá)式241
13.1.1 什么是Theano242
13.1.2 初探Theano243
13.1.3 配置Theano244
13.1.4 使用數(shù)組結(jié)構(gòu)245
13.1.5 整理思路—線性回歸示例247
13.2 為前饋神經(jīng)網(wǎng)絡(luò)選擇激勵(lì)函數(shù)250
13.2.1 邏輯斯諦函數(shù)概述250
13.2.2 通過softmax函數(shù)評估多類別分類任務(wù)中的類別概率252
13.2.3 通過雙曲正切函數(shù)增大輸出范圍252
13.3 使用Keras提高訓(xùn)練神經(jīng)網(wǎng)絡(luò)的效率254
本章小結(jié)258