Python數(shù)據(jù)分析基礎(chǔ)
定 價(jià):69 元
- 作者:[美]克林頓?布朗利(Clinton W. Brownley)
- 出版時(shí)間:2017/7/1
- ISBN:9787115463357
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書展示如何用Python程序?qū)⒉煌袷降臄?shù)據(jù)處理和分析任務(wù)規(guī)模化和自動(dòng)化。主要內(nèi)容包括:Python基礎(chǔ)知識(shí)介紹、CSV文件和Excel文件讀寫、數(shù)據(jù)庫(kù)的操作、示例程序演示、圖表的創(chuàng)建,等等。
想深入應(yīng)用手中的數(shù)據(jù)?還是想在上千份文件上重復(fù)同樣的分析過程?沒有編程經(jīng)驗(yàn)的非程序員們?nèi)绾文茉趜ui短的時(shí)間內(nèi)學(xué)會(huì)用當(dāng)今炙手可熱的Python語(yǔ)言進(jìn)行數(shù)據(jù)分析?
來(lái)自Facebook的數(shù)據(jù)專家Clinton Brownley可以幫您解決上述問題。在他的這本書里,讀者將能掌握基本Python編程方法,學(xué)會(huì)編寫出處理電子表格和數(shù)據(jù)庫(kù)中的數(shù)據(jù)的腳本,并了解使用Python模塊來(lái)解析文件、分組數(shù)據(jù)和生成統(tǒng)計(jì)量的方法。
- 學(xué)習(xí)基礎(chǔ)語(yǔ)法,創(chuàng)建并運(yùn)行自己的Python腳本
- 讀取和解析CSV文件
- 讀取多個(gè)Excel工作表和工作簿
- 執(zhí)行數(shù)據(jù)庫(kù)操作
- 搜索特定記錄、分組數(shù)據(jù)和解析文本文件
- 建立統(tǒng)計(jì)圖并繪圖
- 生成描述性統(tǒng)計(jì)量并估計(jì)回歸模型和分類模型
- 在Windows和Mac環(huán)境下按計(jì)劃自動(dòng)運(yùn)行腳本
Clinton W. Brownley博士,F(xiàn)acebook數(shù)據(jù)科學(xué)家,負(fù)責(zé)大數(shù)據(jù)流水線、統(tǒng)計(jì)建模和數(shù)據(jù)可視化項(xiàng)目,并為大型基礎(chǔ)設(shè)施建設(shè)提供數(shù)據(jù)驅(qū)動(dòng)的決策建議。
前言 xi
第 1 章 Python 基礎(chǔ) 1
1.1 創(chuàng)建 Python 腳本 1
1.2 運(yùn)行 Python 腳本 3
1.3 與命令行進(jìn)行交互的幾項(xiàng)技巧 6
1.4 Python 語(yǔ)言基礎(chǔ)要素 10
1.4.1 數(shù)值 10
1.4.2 字符串 12
1.4.3 正則表達(dá)式與模式匹配 16
1.4.4 日期 19
1.4.5 列表 21
1.4.6 元組 26
1.4.7 字典 27
1.4.8 控制流 30
1.5 讀取文本文件 35
1.5.1 創(chuàng)建文本文件 36
1.5.2 腳本和輸入文件在同一位置 38
1.5.3 讀取文件的新型語(yǔ)法 38
1.6 使用 glob 讀取多個(gè)文本文件 39
1.7 寫入文本文件 42
1.7.1 向 first_script.py 添加代碼 42
1.7.2 寫入 CSV 文件 45
1.8 print 語(yǔ)句 46
1.9 本章練習(xí) 47
第 2 章 CSV文件 48
2.1 基礎(chǔ) Python 與 pandas 50
2.1.1 讀寫 CSV 文件(第 1 部分)50
2.1.2 基本字符串分析是如何失敗的 56
2.1.3 讀寫 CSV 文件(第 2 部分)57
2.2 篩選特定的行 58
2.2.1 行中的值滿足某個(gè)條件 59
2.2.2 行中的值屬于某個(gè)集合 60
2.2.3 行中的值匹配于某個(gè)模式 正則表達(dá)式 62
2.3 選取特定的列 64
2.3.1 列索引值 64
2.3.2 列標(biāo)題 65
2.4 選取連續(xù)的行 67
2.5 添加標(biāo)題行 69
2.6 讀取多個(gè) CSV 文件 71
2.7 從多個(gè)文件中連接數(shù)據(jù) 75
2.8 計(jì)算每個(gè)文件中值的總和與均值 78
2.9 本章練習(xí) 81
第 3 章 Excel 文件 82
3.1 內(nèi)省 Excel 工作簿 84
3.2 處理單個(gè)工作表 88
3.2.1 讀寫 Excel 文件 88
3.2.2 篩選特定行 92
3.2.3 選取特定列 98
3.3 讀取工作簿中的所有工作表 101
3.3.1 在所有工作表中篩選特定行 102
3.3.2 在所有工作表中選取特定列 104
3.4 在 Excel 工作簿中讀取一組工作表 106
3.5 處理多個(gè)工作簿 108
3.5.1 工作表計(jì)數(shù)以及每個(gè)工作表中的行列計(jì)數(shù) 110
3.5.2 從多個(gè)工作簿中連接數(shù)據(jù) 111
3.5.3 為每個(gè)工作簿和工作表計(jì)算總數(shù)和均值 113
3.6 本章練習(xí) 117
第 4 章 數(shù)據(jù)庫(kù) 118
4.1 Python 內(nèi)置的 sqlite3 模塊 119
4.1.1 向表中插入新記錄 124
4.1.2 更新表中記錄 128
4.2 MySQL 數(shù)據(jù)庫(kù) 131
4.2.1 向表中插入新記錄 135
4.2.2 查詢一個(gè)表并將輸出寫入 CSV 文件 140
4.2.3 更新表中記錄 142
4.3 本章練習(xí) 146
第 5 章 應(yīng)用程序 147
5.1 在一個(gè)大文件集合中查找一組項(xiàng)目 147
5.2 為 CSV 文件中數(shù)據(jù)的任意數(shù)目分類計(jì)算統(tǒng)計(jì)量 158
5.3 為文本文件中數(shù)據(jù)的任意數(shù)目分類計(jì)算統(tǒng)計(jì)量 167
5.4 本章練習(xí) 174
第 6 章 圖與圖表 175
6.1 matplotlib 175
6.1.1 條形圖 175
6.1.2 直方圖 177
6.1.3 折線圖 178
6.1.4 散點(diǎn)圖 180
6.1.5 箱線圖 181
6.2 pandas 183
6.3 ggplot 184
6.4 seaborn 186
第 7 章 描述性統(tǒng)計(jì)與建模 192
7.1 數(shù)據(jù)集 192
7.1.1 葡萄酒質(zhì)量 192
7.1.2 客戶流失 193
7.2 葡萄酒質(zhì)量 194
7.2.1 描述性統(tǒng)計(jì) 194
7.2.2 分組、直方圖與 t 檢驗(yàn) 195
7.2.3 成對(duì)變量之間的關(guān)系和相關(guān)性 196
7.2.4 使用最小二乘估計(jì)進(jìn)行線性回歸 198
7.2.5 系數(shù)解釋 200
7.2.6 自變量標(biāo)準(zhǔn)化 200
7.2.7 預(yù)測(cè) 202
7.3 客戶流失 203
7.3.1 邏輯斯蒂回歸 205
7.3.2 系數(shù)解釋 207
7.3.3 預(yù)測(cè) 208
第 8 章 按計(jì)劃自動(dòng)運(yùn)行腳本 209
8.1 任務(wù)計(jì)劃程序(Windows 系統(tǒng))209
8.2 cron 工具(macOS 系統(tǒng)和 Unix 系統(tǒng))215
8.2.1 cron 表文件:一次性設(shè)置 216
8.2.2 向 cron 表文件中添加 cron 任務(wù) 216
第 9 章 從這里啟航 220
9.1 更多的標(biāo)準(zhǔn)庫(kù)模塊和內(nèi)置函數(shù) 221
9.1.1 Python 標(biāo)準(zhǔn)庫(kù)(PSL):更多的標(biāo)準(zhǔn)模塊 221
9.1.2 內(nèi)置函數(shù) 222
9.2 Python 包索引(PyPI):更多的擴(kuò)展模塊 222
9.2.1 NumPy 223
9.2.2 SciPy 227
9.2.3 Scikit-Learn 230
9.2.4 更多的擴(kuò)展包 232
9.3 更多的數(shù)據(jù)結(jié)構(gòu) 232
9.3.1 棧 233
9.3.2 隊(duì)列 233
9.3.3 圖 233
9.3.4 樹 234
9.4 從這里啟航 234
附錄A 下載指南 236
附錄B 練習(xí)答案 245
作者介紹 247
封面介紹 247