Python網(wǎng)絡(luò)爬蟲(chóng)快速入門(mén)(微課版新世紀(jì)高職高專(zhuān)大數(shù)據(jù)技術(shù)專(zhuān)業(yè)系列規(guī)劃教材)
定 價(jià):48.8 元
- 作者:耿倩,白國(guó)政編
- 出版時(shí)間:2021/11/1
- ISBN:9787568534567
- 出 版 社:大連理工大學(xué)出版社
- 中圖法分類(lèi):TP311.561
- 頁(yè)碼:223
- 紙張:
- 版次:1
- 開(kāi)本:16開(kāi)
本教材從初學(xué)者的角度出發(fā),由淺入深地講解了學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)的基礎(chǔ)知識(shí),以及爬蟲(chóng)采集技術(shù)、信息提取技術(shù)等的基本使用方法,以幫助讀者掌握爬蟲(chóng)的相關(guān)技能,使其能夠獨(dú)立編寫(xiě)自己的爬蟲(chóng)項(xiàng)目。本教材在內(nèi)容安排上,充分考慮了知識(shí)體系的完整性和獨(dú)立性,涵蓋了Web頁(yè)面及相關(guān)技術(shù),爬取和解析網(wǎng)頁(yè)數(shù)據(jù)的相關(guān)技術(shù),以及數(shù)據(jù)存儲(chǔ)技術(shù)等內(nèi)容。
第1部分 基礎(chǔ)概念
第l章 爬蟲(chóng)基礎(chǔ)和開(kāi)發(fā)環(huán)境的配置
1.1 爬蟲(chóng)產(chǎn)生的背景和概念
1.1.1 爬蟲(chóng)產(chǎn)生的背景
1.1.2 爬蟲(chóng)的概念
1.2 爬蟲(chóng)的用途和分類(lèi)
1.2.1 爬蟲(chóng)的用途
1.2.2 爬蟲(chóng)的分類(lèi)
1.3 爬蟲(chóng)實(shí)現(xiàn)原理
1.3.1 通用爬蟲(chóng)工作原理
1.3.2 聚焦爬蟲(chóng)工作原理
1.4 爬蟲(chóng)爬取網(wǎng)頁(yè)信息的主要流程
1.5 防爬蟲(chóng)應(yīng)對(duì)策略
1.6 爬蟲(chóng)數(shù)據(jù)采集與挖掘的合規(guī)性
1.7 開(kāi)發(fā)環(huán)境的配置
1.7.1 在Windows上安裝Python
1.7.2 PyCharm的安裝與使用
習(xí)題
第2章 網(wǎng)頁(yè)前端基礎(chǔ)
2.1 URL(統(tǒng)一資源定位符)
2.1.1 協(xié)議頭
2.1.2 服務(wù)器地址和端口
2.1.3 文件路徑
2.2 超文本
2.3 HTTP與HTTPS
2.3.1 HTTP
2 3 2 HTTPS
2.4 HTTP網(wǎng)絡(luò)請(qǐng)求原理
2.4.1 瀏覽器顯示網(wǎng)頁(yè)過(guò)程
2.4.2 客戶(hù)端HTTP請(qǐng)求格式
2.4.3 服務(wù)器HTTP相應(yīng)格式
2.5 Robots協(xié)議
2.5.1 Robots協(xié)議的內(nèi)涵
2.5.2 經(jīng)典robots.txt例子
2.6 網(wǎng)頁(yè)基礎(chǔ)
2.6.1 HTML語(yǔ)言規(guī)范
2.6.2 CSS簡(jiǎn)述
2.6.3 節(jié)點(diǎn)樹(shù)及節(jié)點(diǎn)間的關(guān)系
2.7 Cookie與Session
2.7.1 Cookie
2.7.2 Sessiml
習(xí) 題
案例1 爬蟲(chóng)合法嗎
第2部分 網(wǎng)絡(luò)庫(kù)
第3章 網(wǎng)絡(luò)庫(kù)urllib
3.1 發(fā)送請(qǐng)求與獲得響應(yīng)
3.1.1 用urlopen函數(shù)發(fā)送HTTP GET請(qǐng)求
3.1.2 用urIopen函數(shù)發(fā)送HTTP POST請(qǐng)求
3.1.3 請(qǐng)求超時(shí)
3.1.4 設(shè)置HTTP請(qǐng)求頭
3.1.5 使用代理
3.1.6 讀取和設(shè)置Cookie
3.2 異常處理
3.3 解析鏈接
3.3.1 urlparse與urlunparse
3.3.2 urlsplit和urlunsplit
3.3.3 urljoin
3.3.4 urlencode
3.3.5 quote與unquote
3.3.6 parse_qs與parse_qsl
3.4 解析robots.txt文件
3.5 階段案例
習(xí)題
第4章 網(wǎng)絡(luò)庫(kù)requests
4.1 基本用法
4.1.1 requests的GET.請(qǐng)求
4.1.2 添加HTTP請(qǐng)求頭
4.1.3 抓取二進(jìn)制數(shù)據(jù)
4.1.4 POST請(qǐng)求
4.1.5 響應(yīng)數(shù)據(jù)
4.2 高級(jí)應(yīng)用
4.2.1 處理Cookie
4.2.2 使用同一會(huì)話(huà)(Session)
4.2.3 使用代理
4.2.4 超時(shí)
4.2.5 請(qǐng)求打包
4.3 階段案例
習(xí)題
案例2 大眾點(diǎn)評(píng)訴百度案
第3部分 解析庫(kù)
第5章 正則表達(dá)式
5.1 了解正則表達(dá)式
5.1.1 原子
5.1.2 元字符
5.2 re庫(kù)概述
5.2.1 match()方法和group()方法
5.2.2 search()方法
5.2.3 findall()方法和finditer()方法
5.2.4 sub()方法和subn()方法
5.2.5 split()方法
5.3 使用正則表達(dá)式抓取數(shù)據(jù)
5.3.1 抓取標(biāo)簽間的內(nèi)容
5.3.2 抓取標(biāo)簽中的參數(shù)
5.3.3 字符串處理及替換
5.4 階段案例
習(xí)題
第6章 XPath和lxml解析庫(kù)
6.1 lxml基礎(chǔ)
6.1.1 安裝Ixml
6.1.2 操作XML
6.1.3 操作HTML
6.1.4 操作字符串
6.2 XPath語(yǔ)法
6.3 lxml庫(kù)的基本使用
6.3.1 選取所有節(jié)點(diǎn)
6.3.2 選取子節(jié)點(diǎn)
6.3.3 屬性匹配與獲取
6.3.4 選取父節(jié)點(diǎn)
6.3.5 多屬性匹配
6.3.6 按序選擇節(jié)點(diǎn)
6.3.7 在Chrome中自動(dòng)獲得XPath代碼
6.4 階段案例
習(xí)題
第7章 解析庫(kù)BeautifulSoup4
7.1 BeautifulSoup4概述
7.1.1 BeautifulSoup4的安裝
7.1.2 選擇解析器
7.2 BeautifulSoup對(duì)象
7.2.1 使用BeautifuiSoup解析HTML代碼
7.2.2 節(jié)點(diǎn)選擇器
7.3 方法和CSS選擇器
7.3.1 方法選擇器
7.3.2 CSS選擇器
7.4 階段案例
習(xí)題
第8章 多線(xiàn)程爬蟲(chóng)
8.1 進(jìn)程和線(xiàn)程
8.1.1 進(jìn)程
8.1.2 線(xiàn)程
8.2 Python與線(xiàn)程
8.2.1 使用單線(xiàn)程執(zhí)行程序
8.2.2 使用多線(xiàn)程執(zhí)行程序
8.2.3 為線(xiàn)程函數(shù)傳遞參數(shù)
8.2.4 線(xiàn)程和鎖
8.3 高級(jí)線(xiàn)程模塊(threading)
8.3.1 Thread類(lèi)與線(xiàn)程函數(shù)
8:3.2 Thread類(lèi)與線(xiàn)程對(duì)象
8.3.3 從Thread類(lèi)繼承
8.3.4 線(xiàn)程同步
8.3.5 生產(chǎn)者一消費(fèi)者問(wèn)題與queue模塊
8.4 多進(jìn)程
8.4.1 創(chuàng)建子進(jìn)程
8.4.2 將進(jìn)程定義為類(lèi)
8.4.3 創(chuàng)建多個(gè)進(jìn)程
8.5 階段案例
習(xí)題
案例3 頭條前高管反噬被判刑
第4部分 數(shù)據(jù)存儲(chǔ)
第9章 文件存儲(chǔ)
9.1 操作文件
9.1.1 讀文件和寫(xiě)文件
9.1.2 讀行和寫(xiě)行
9.1.3 使用Filelnput對(duì)象讀取文件
9.2 讀寫(xiě)XML文件
9.2.1 讀取與搜索XML文件
9.2.2 字典轉(zhuǎn)換為XML字符串
9.2.3 XML字符串轉(zhuǎn)換為字典
9.3 讀寫(xiě)JSON文件
9.3.1 JSON字符串與字典互相轉(zhuǎn)換
9.3.2 將JSON字符串轉(zhuǎn)換為XML字符串
9.3.3 將JSON數(shù)據(jù)轉(zhuǎn)存到文件中
9.3.4 從文件中讀取JSON
9.4 讀寫(xiě)CSV文件
9.4.1 寫(xiě)入CSV文件
9.4.