全書共11章,以下是各章的主要內(nèi)容:
第1章:主要講解Python編程環(huán)境的搭建方法及Python語言的基礎(chǔ)語法知識(shí)等內(nèi)容。
第2章:主要講解AI工具的基本使用方法,以及如何在爬蟲編程中利用AI工具解決技術(shù)難題和提高開發(fā)效率。
第3章:主要講解如何對(duì)網(wǎng)頁進(jìn)行初步分析,包括查看網(wǎng)頁源代碼、剖析網(wǎng)頁的結(jié)構(gòu)、判斷網(wǎng)頁的類型等,為獲取網(wǎng)頁源代碼并提取數(shù)據(jù)奠定基礎(chǔ)。
第4、5章:分別講解靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁的爬取,主要內(nèi)容包括如何使用Requests模塊和Selenium模塊獲取網(wǎng)頁源代碼,如何使用正則表達(dá)式和BeautifulSoup模塊從網(wǎng)頁源代碼中提取所需數(shù)據(jù)。
第6章:主要講解如何使用pandas等模塊對(duì)獲取的數(shù)據(jù)進(jìn)行清洗、處理和分析,以提高數(shù)據(jù)的質(zhì)量,并從數(shù)據(jù)中提取有價(jià)值的信息。
第7章:進(jìn)一步探索Python網(wǎng)絡(luò)爬蟲的進(jìn)階技術(shù),例如,用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)、用數(shù)據(jù)接口爬取數(shù)據(jù)、開發(fā)帶圖形用戶界面的爬蟲程序等。
第8~11章:通過一系列實(shí)際應(yīng)用場景來實(shí)踐并強(qiáng)化之前所學(xué)的知識(shí)。這些場景涵蓋了財(cái)經(jīng)、社交媒體、電商等多個(gè)領(lǐng)域的數(shù)據(jù)爬取,以及媒體文件的下載。讀者將深入體會(huì)如何靈活運(yùn)用爬蟲技術(shù)解決實(shí)際問題,在遇到困難時(shí)如何借助AI工具見招拆招,從而踏上編程能力的持續(xù)自我提升之路。
◆前言 ◆
網(wǎng)絡(luò)爬蟲是一種高效的數(shù)據(jù)采集工具,然而對(duì)于許多初學(xué)者而言,這項(xiàng)技術(shù)似乎遙不可及,需要具備高深的編程技能才能掌握。本書旨在探討如何通過簡潔易懂的Python編程語言與先進(jìn)AI工具的強(qiáng)強(qiáng)聯(lián)手,降低爬蟲技術(shù)的學(xué)習(xí)門檻,讓學(xué)習(xí)過程變得輕松愉快。
◎內(nèi)容結(jié)構(gòu)
全書共11章,以下是各章的主要內(nèi)容:
第1章:主要講解Python編程環(huán)境的搭建方法及Python語言的基礎(chǔ)語法知識(shí)等內(nèi)容。
第2章:主要講解AI工具的基本使用方法,以及如何在爬蟲編程中利用AI工具解決技術(shù)難題和提高開發(fā)效率。
第3章:主要講解如何對(duì)網(wǎng)頁進(jìn)行初步分析,包括查看網(wǎng)頁源代碼、剖析網(wǎng)頁的結(jié)構(gòu)、判斷網(wǎng)頁的類型等,為獲取網(wǎng)頁源代碼并提取數(shù)據(jù)奠定基礎(chǔ)。
第4、5章:分別講解靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁的爬取,主要內(nèi)容包括如何使用Requests模塊和Selenium模塊獲取網(wǎng)頁源代碼,如何使用正則表達(dá)式和BeautifulSoup模塊從網(wǎng)頁源代碼中提取所需數(shù)據(jù)。
第6章:主要講解如何使用pandas等模塊對(duì)獲取的數(shù)據(jù)進(jìn)行清洗、處理和分析,以提高數(shù)據(jù)的質(zhì)量,并從數(shù)據(jù)中提取有價(jià)值的信息。
第7章:進(jìn)一步探索Python網(wǎng)絡(luò)爬蟲的進(jìn)階技術(shù),例如,用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)、用數(shù)據(jù)接口爬取數(shù)據(jù)、開發(fā)帶圖形用戶界面的爬蟲程序等。
第8~11章:通過一系列實(shí)際應(yīng)用場景來實(shí)踐并強(qiáng)化之前所學(xué)的知識(shí)。這些場景涵蓋了財(cái)經(jīng)、社交媒體、電商等多個(gè)領(lǐng)域的數(shù)據(jù)爬取,以及媒體文件的下載。讀者將深入體會(huì)如何靈活運(yùn)用爬蟲技術(shù)解決實(shí)際問題,在遇到困難時(shí)如何借助AI工具見招拆招,從而踏上編程能力的持續(xù)自我提升之路。
◎讀者對(duì)象
本書適合需要在網(wǎng)絡(luò)數(shù)據(jù)的采集、處理與分析方面提高效率的職場人士和辦公人員閱讀,也可供Python編程愛好者參考。
由于AI技術(shù)和編程技術(shù)的更新和升級(jí)速度很快,加之編者水平有限,本書難免有不足之處,懇請(qǐng)廣大讀者批評(píng)指正。
第1章 Python入門
1.1安裝Python編程環(huán)境
1.2管理第三方模塊
1.3在代碼中導(dǎo)入模塊
1.4測試Python編程環(huán)境
1.5變量的命名和賦值
1.6Python的基本數(shù)據(jù)類型:數(shù)字、字符串
1.7Python的基本數(shù)據(jù)類型:列表、字典
1.8Python的運(yùn)算符
1.9Python的控制語句:if語句
1.10Python的控制語句:for語句
1.11Python的控制語句:while語句
1.12Python的控制語句:try/except語句
1.13Python控制語句的嵌套
1.14Python的自定義函數(shù)
第2章 AI輔助編程基礎(chǔ)
2.1初識(shí)AI工具
2.2與AI工具對(duì)話的基本操作
2.3設(shè)計(jì)提示詞的原則和技巧
2.4利用AI工具解讀和修改代碼
2.5利用AI工具分析報(bào)錯(cuò)信息
2.6利用AI工具閱讀技術(shù)文檔
第3章 網(wǎng)頁的初步分析
3.1查看網(wǎng)頁源代碼:右鍵快捷菜單
3.2查看網(wǎng)頁源代碼:開發(fā)者工具
3.3認(rèn)識(shí)常見的HTML標(biāo)簽
3.4剖析網(wǎng)頁的結(jié)構(gòu)
3.5判斷網(wǎng)頁的類型
第4章 靜態(tài)網(wǎng)頁的爬取
4.1用Requests模塊獲取靜態(tài)網(wǎng)頁的源代碼
4.2正則表達(dá)式的基礎(chǔ)知識(shí)
4.3分析網(wǎng)頁源代碼并編寫正則表達(dá)式
4.4用正則表達(dá)式從網(wǎng)頁源代碼中提取數(shù)據(jù)
4.5CSS選擇器的基礎(chǔ)知識(shí)
4.6分析網(wǎng)頁源代碼并編寫CSS選擇器
4.7用BeautifulSoup模塊從網(wǎng)頁源代碼中提取數(shù)據(jù)
4.8用Requests模塊下載文件
4.9靜態(tài)網(wǎng)頁爬取實(shí)戰(zhàn)1:單頁爬取
4.10靜態(tài)網(wǎng)頁爬取實(shí)戰(zhàn)2:多頁爬取
第5章 動(dòng)態(tài)網(wǎng)頁的爬取
5.1搭建Selenium模塊的運(yùn)行環(huán)境
5.2用Selenium模塊獲取網(wǎng)頁源代碼
5.3操控瀏覽器:用XPath定位網(wǎng)頁元素
5.4操控瀏覽器:用CSS選擇器定位網(wǎng)頁元素
5.5操控瀏覽器:自動(dòng)向下滾動(dòng)頁面
5.6操控瀏覽器:自動(dòng)下載文件
5.7操控瀏覽器:切換標(biāo)簽頁
5.8操控瀏覽器:切換至
5.9操控瀏覽器:啟用無界面模式
5.10用Requests模塊獲取動(dòng)態(tài)加載的數(shù)據(jù)
5.11使用Cookie模擬登錄
5.12動(dòng)態(tài)網(wǎng)頁爬取實(shí)戰(zhàn)1:單頁爬取
5.13動(dòng)態(tài)網(wǎng)頁爬取實(shí)戰(zhàn)2:多頁爬取
第6章 爬蟲數(shù)據(jù)的處理和分析
6.1pandas模塊的基本數(shù)據(jù)結(jié)構(gòu):Series
6.2pandas模塊的基本數(shù)據(jù)結(jié)構(gòu):DataFrame
6.3用pandas模塊讀寫數(shù)據(jù)文件
6.4DataFrame的常用操作:選取數(shù)據(jù)
6.5DataFrame的常用操作:數(shù)據(jù)的運(yùn)算、排序和篩選
6.6爬蟲數(shù)據(jù)清洗:處理缺失值和重復(fù)值
6.7爬蟲數(shù)據(jù)清洗:刪除無用的字符
6.8爬蟲數(shù)據(jù)清洗:轉(zhuǎn)換數(shù)據(jù)類型
6.9爬蟲數(shù)據(jù)清洗:補(bǔ)全數(shù)據(jù)
6.10爬蟲數(shù)據(jù)分析與可視化
第7章 Python爬蟲技術(shù)進(jìn)階
7.1用pandas模塊爬取網(wǎng)頁表格數(shù)據(jù)
7.2用數(shù)據(jù)接口爬取數(shù)據(jù)
7.3開發(fā)帶圖形用戶界面的爬蟲程序
7.4爬蟲程序的打包
7.5爬蟲提速:優(yōu)化Selenium模塊的等待方式
第8章 綜合實(shí)戰(zhàn):財(cái)經(jīng)數(shù)據(jù)爬取
8.1爬取證券日?qǐng)?bào)網(wǎng)的財(cái)經(jīng)新聞
8.2爬取搜狐的財(cái)經(jīng)要聞
8.3爬取東方財(cái)富網(wǎng)的財(cái)務(wù)報(bào)表
8.4爬取新浪財(cái)經(jīng)的上市公司盈利能力數(shù)據(jù)
8.5批量下載上海證券交易所的問詢函
8.6批量下載東方財(cái)富網(wǎng)的研報(bào)
第9章 綜合實(shí)戰(zhàn):社交媒體數(shù)據(jù)爬取
9.1爬取百度熱搜榜
9.2爬取新浪微博熱搜榜
9.3爬取好看視頻的數(shù)據(jù)
第10章 綜合實(shí)戰(zhàn):電商數(shù)據(jù)爬取
10.1爬取當(dāng)當(dāng)網(wǎng)的圖書暢銷榜數(shù)據(jù)
10.2爬取京東的商品評(píng)價(jià)
第11章 綜合實(shí)戰(zhàn):媒體文件下載
11.1批量下載圖片
11.2批量下載視頻