Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn)
定 價(jià):69 元
叢書名:Python
- 作者:劉宇熙(Hayden Liu)
- 出版時(shí)間:2021/2/1
- ISBN:9787115493859
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:210
- 紙張:
- 版次:01
- 開本:16開
機(jī)器學(xué)習(xí)是近年來(lái)比較熱門的一個(gè)領(lǐng)域,Python語(yǔ)言經(jīng)過(guò)一段時(shí)間的發(fā)展也已逐漸成為主流的編程語(yǔ)言之一。本書結(jié)合了機(jī)器學(xué)習(xí)和Python語(yǔ)言兩個(gè)熱門的領(lǐng)域,通過(guò)實(shí)用案例來(lái)詳細(xì)講解機(jī)器學(xué)習(xí)的相關(guān)知識(shí),以便更好地引起讀者的閱讀興趣且?guī)椭x者理解相關(guān)內(nèi)容。
全書共有8章。第1章講解了Python和機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí),第2~7章通過(guò)多個(gè)案例詳細(xì)講解了文本分析算法、樸素貝葉斯、支持向量機(jī)、對(duì)率回歸及回歸算法等知識(shí),案例主要包括探索新聞組數(shù)據(jù)集、檢測(cè)垃圾郵件、微新聞話題分類、預(yù)測(cè)點(diǎn)擊率以及預(yù)測(cè)股價(jià)等。第8章是最佳實(shí)踐,主要介紹機(jī)器學(xué)習(xí)方案的整個(gè)工作流的最佳實(shí)踐。
本書適合Python程序員、數(shù)據(jù)分析人員、機(jī)器學(xué)習(xí)領(lǐng)域的從業(yè)人員以及對(duì)算法感興趣的讀者閱讀。
1.在講解算法的原理和用 scikit-learn 庫(kù)封裝好的方法實(shí)現(xiàn)算法之前,先通過(guò)幾個(gè)例子,教會(huì)你具體的計(jì)算方法,讓你手動(dòng)實(shí)現(xiàn)算法;
2.書中代碼比較連貫,可直接粘貼到Jupyter Notebook中運(yùn)行,這一點(diǎn)對(duì)初學(xué)者非常有幫助;
3.書中示例淺顯易懂,涵蓋多種應(yīng)用場(chǎng)景:新聞話題分類、垃圾郵件過(guò)濾、在線廣告點(diǎn)擊率預(yù)測(cè)和股票價(jià)格預(yù)測(cè)等,講解方式生動(dòng)有趣;
4.提供源代碼。
本書開篇介紹Python語(yǔ)言和機(jī)器學(xué)習(xí)開發(fā)環(huán)境的搭建方法。后續(xù)章節(jié)介紹相關(guān)的重要概念,比如數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、特征抽取、數(shù)據(jù)可視化、聚類、分類、回歸和模型性能度量等。本書包含多個(gè)項(xiàng)目案例,涉及幾種重要且有趣的機(jī)器學(xué)習(xí)算法,引導(dǎo)讀者從頭實(shí)現(xiàn)自己的模型。學(xué)完本書,你將了解機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的全貌,并掌握機(jī)器學(xué)習(xí)技術(shù)的實(shí)踐和應(yīng)用。
在本書的幫助下,你將學(xué)會(huì)用強(qiáng)大卻很簡(jiǎn)單的Python語(yǔ)言來(lái)處理數(shù)據(jù)科學(xué)難題,并構(gòu)建自己的解決方案。
本書包括以下內(nèi)容:
·利用Python語(yǔ)言抽取數(shù)據(jù)、處理數(shù)據(jù)和探索數(shù)據(jù);
·用Python對(duì)多維數(shù)據(jù)進(jìn)行可視化,并抽取有用特征;
·深入鉆研數(shù)據(jù)分析技術(shù),正確預(yù)測(cè)發(fā)展趨勢(shì);
·用Python從頭實(shí)現(xiàn)機(jī)器學(xué)習(xí)分類算法和回歸算法;
·用雅虎財(cái)經(jīng)數(shù)據(jù)來(lái)分析和預(yù)測(cè)股價(jià);
·評(píng)估并優(yōu)化機(jī)器學(xué)習(xí)模型的性能;
·用機(jī)器學(xué)習(xí)和Python解決實(shí)際問(wèn)題。
劉宇熙 Yuxi(Hayden)Liu是加拿大多倫多市一家跨國(guó)網(wǎng)絡(luò)媒體公司的數(shù)據(jù)科學(xué)家,他從事消息應(yīng)用優(yōu)化工作。他的研究方向是社交網(wǎng)絡(luò)挖掘、社交個(gè)性化(social personalization)、用戶人口統(tǒng)計(jì)學(xué)特征和興趣預(yù)測(cè)、垃圾信息監(jiān)測(cè)和推薦系統(tǒng)。他曾在多家程序化廣告投放公司工作,擔(dān)任數(shù)據(jù)科學(xué)家職位,他將機(jī)器學(xué)習(xí)專業(yè)知識(shí)應(yīng)用于廣告優(yōu)化、點(diǎn)擊率和轉(zhuǎn)化率預(yù)測(cè)、點(diǎn)擊欺詐檢測(cè)等。Yuxi擁有多倫多大學(xué)的碩士學(xué)位,研究生期間曾發(fā)表過(guò)5篇IEEE期刊文章和會(huì)議論文。他喜歡爬取網(wǎng)絡(luò)數(shù)據(jù),并從中獲取有價(jià)值的信息。他還熱衷于投資。
第 1章 開始Python和機(jī)器學(xué)習(xí)之旅 1
1.1 什么是機(jī)器學(xué)習(xí)?我們?yōu)槭裁葱枰?
1.2 機(jī)器學(xué)習(xí)概覽 4
1.3 機(jī)器學(xué)習(xí)算法發(fā)展簡(jiǎn)史 6
1.4 從數(shù)據(jù)中泛化的能力 7
1.5 過(guò)擬合、欠擬合及偏差和方差的權(quán)衡 8
1.5.1 用交叉檢驗(yàn)避免過(guò)擬合 10
1.5.2 用正則化避免過(guò)擬合 12
1.6 通過(guò)特征選取和降維避免過(guò)擬合 14
1.7 預(yù)處理、探索和特征工程 15
1.7.1 缺失值 16
1.7.2 標(biāo)簽編碼 17
1.7.3 一位有效編碼 17
1.7.4 調(diào)整數(shù)值范圍 18
1.7.5 多項(xiàng)式特征 18
1.7.6 冪次轉(zhuǎn)換 18
1.7.7面元?jiǎng)澐帧?9
1.8 模型組合 19
1.8.1 Bagging 20
1.8.2 Boosting 20
1.8.3 Stacking 20
1.8.4 Blending 21
1.8.5 投票和平均法 21
1.9 安裝和設(shè)置軟件 21
1.10 問(wèn)題解決和尋求幫助 22
1.11 小結(jié) 23
第 2章 用文本分析算法探索20個(gè)新聞組數(shù)據(jù)集 24
2.1 什么是NLP 25
2.2 強(qiáng)大的Python NLP庫(kù)之旅 27
2.3 新聞組數(shù)據(jù)集 31
2.4 獲取數(shù)據(jù) 31
2.5 思考特征 32
2.6 可視化 35
2.7 數(shù)據(jù)預(yù)處理 39
2.8 聚類 42
2.9 話題建!44
2.10 小結(jié) 48
第3章 用樸素貝葉斯檢測(cè)垃圾郵件 50
3.1 開始分類之旅 51
3.2 分類的類型 51
3.3 文本分類應(yīng)用 53
3.4 探索樸素貝葉斯 54
3.5 貝葉斯定理實(shí)例講解 54
3.6 樸素貝葉斯原理 56
3.7 樸素貝葉斯的實(shí)現(xiàn) 59
3.8 分類器性能評(píng)估 70
3.9 模型調(diào)試和交叉檢驗(yàn) 74
3.10 小結(jié) 77
第4章 用支持向量機(jī)為新聞話題分類 79
4.1 回顧先前內(nèi)容和介紹逆文檔頻率 80
4.2 SVM 81
4.2.1 SVM的原理 82
4.2.2 SVM的實(shí)現(xiàn) 86
4.2.3 SVM內(nèi)核 92
4.2.4 線性和RBF內(nèi)核的選擇 95
4.3 用SVM為新聞話題分類 96
4.4 更多示例—用SVM根據(jù)胎心宮縮監(jiān)護(hù)數(shù)據(jù)為胎兒狀態(tài)分類 100
4.5 小結(jié) 102
第5章 用基于樹的算法預(yù)測(cè)點(diǎn)擊率 103
5.1 廣告點(diǎn)擊率預(yù)測(cè)簡(jiǎn)介 104
5.2 兩種不同類型的數(shù)據(jù):數(shù)值型和類別型 104
5.3 決策樹分類器 106
5.3.1 構(gòu)造決策樹 107
5.3.2 度量劃分的標(biāo)準(zhǔn) 109
5.3.3 實(shí)現(xiàn)決策樹 115
5.4 用決策樹預(yù)測(cè)點(diǎn)擊率 123
5.5 隨機(jī)森林—決策樹的特征裝袋技術(shù) 128
5.6 小結(jié) 129
第6章 用對(duì)率回歸預(yù)測(cè)點(diǎn)擊率 130
6.1 一位有效編碼—將類別型特征轉(zhuǎn)換為數(shù)值型類型 131
6.2 對(duì)率回歸分類器 134
6.2.1 從對(duì)率函數(shù)說(shuō)起 134
6.2.2 對(duì)率回歸的原理 135
6.2.3 用梯度下降方法訓(xùn)練對(duì)率回歸模型 139
6.3 用梯度下降對(duì)率回歸預(yù)測(cè)點(diǎn)擊率 144
6.3.1 訓(xùn)練隨機(jī)梯度下降對(duì)率回歸模型 146
6.3.2 訓(xùn)練帶正則項(xiàng)的對(duì)率回歸模型 149
6.3.3 用線上學(xué)習(xí)方法,在大型數(shù)據(jù)集上訓(xùn)練 151
6.3.4 多分類 153
6.4 用隨機(jī)森林選擇參數(shù) 155
6.5 小結(jié) 156
第7章 用回歸算法預(yù)測(cè)股價(jià) 158
7.1 股市和股價(jià)的簡(jiǎn)介 159
7.2 什么是回歸 159
7.3 用回歸算法預(yù)測(cè)股價(jià) 160
7.3.1 特征工程 162
7.3.2 數(shù)據(jù)獲取和特征生成 165
7.3.3 線性回歸 170
7.3.4 決策樹回歸 176
7.3.5 支持向量回歸 183
7.3.6 回歸性能評(píng)估 185
7.3.7 用回歸算法預(yù)測(cè)股價(jià) 186
7.4 小結(jié) 190
第8章 最佳實(shí)踐 192
8.1 機(jī)器學(xué)習(xí)工作流 193
8.2 數(shù)據(jù)準(zhǔn)備階段的最佳實(shí)踐 193
8.2.1 最佳實(shí)踐1—理解透徹項(xiàng)目的目標(biāo) 193
8.2.2 最佳實(shí)踐2—采集所有相關(guān)字段 194
8.2.3 最佳實(shí)踐3—字段值保持一致 194
8.2.4 最佳實(shí)踐4—缺失值處理 195
8.3 訓(xùn)練集生成階段的最佳實(shí)踐 198
8.3.1 最佳實(shí)踐5—用數(shù)值代替類別型特征 199
8.3.2 最佳實(shí)踐6—決定是否對(duì)類別型特征編碼 199
8.3.3 最佳實(shí)踐7—是否要選擇特征,怎么選 199
8.3.4 最佳實(shí)踐8—是否降維,怎么降 201
8.3.5 最佳實(shí)踐9—是否縮放特征,怎么縮放 201
8.3.6 最佳實(shí)踐10—帶著領(lǐng)域知識(shí)做特征工程 202
8.3.7 最佳實(shí)踐11—缺少領(lǐng)域知識(shí)的前提下,做特征工程 202
8.3.8 最佳實(shí)踐12—記錄每個(gè)特征的生成方法 204
8.4 模型訓(xùn)練、評(píng)估和選擇階段的最佳實(shí)踐 204
8.4.1 最佳實(shí)踐13—選擇從正確的算法開始 204
8.4.2 最佳實(shí)踐14—降低過(guò)擬合 206
8.4.3 最佳實(shí)踐15—診斷過(guò)擬合和欠擬合 206
8.5 系統(tǒng)部署和監(jiān)控階段的最佳實(shí)踐 208
8.5.1 最佳實(shí)踐16—保存、加載和重用模型 208
8.5.2 最佳實(shí)踐17—監(jiān)控模型性能 209
8.5.3 最佳實(shí)踐18—定期更新模型 210
8.6 小結(jié) 210