Python數(shù)據(jù)分析與挖掘實戰(zhàn)(第2版)
定 價:79 元
叢書名:大數(shù)據(jù)技術叢書
內(nèi)容簡介本書是Python數(shù)據(jù)分析與挖掘領域的公認的事實標準,第1版銷售超過10萬冊,銷售勢頭依然強勁,被國內(nèi)100余所高等院校采用為教材,同時也被廣大數(shù)據(jù)科學工作者奉為經(jīng)典。作者在大數(shù)據(jù)挖掘與分析等領域有10余年的工程實踐、教學和創(chuàng)辦企業(yè)的經(jīng)驗,不僅掌握行業(yè)的*技術和實踐方法,而且洞悉學生和老師的需求與痛點,這為本書的內(nèi)容和形式提供了強有力的保障,這是本書第1版能大獲成功的關鍵因素。全書共13章,分為三個部分,從技術理論、工程實踐和進階提升三個維度對數(shù)據(jù)分析與挖掘進行了詳細的講解。*部分 基礎篇(第1~5章)主要講解了Python數(shù)據(jù)分析與挖掘的工具和技術理論,包括數(shù)據(jù)挖掘的基礎知識、Python數(shù)據(jù)挖掘與建模工具、數(shù)據(jù)挖掘的建模過程,以及挖掘建模的常用算法和原理等內(nèi)容。第二部分 實戰(zhàn)篇(第6~12章)通過工程實踐案例講解了數(shù)據(jù)挖掘技術在金融、航空、零售、能源、制造、電商等行業(yè)的應用。在案例組織結構上,本書按照介紹案例背景與挖掘目標闡述分析方法與過程完成模型構建的順序進行,在建模過程關鍵環(huán)節(jié),穿插程序實現(xiàn)代碼。*后,通過上機實踐加深對案例應用中的數(shù)據(jù)挖掘技術的理解。第三部分 提高篇(第13章)重點講解了基于Python引擎的開源數(shù)據(jù)挖掘建模平臺(TipDM)的功能和使用方法,以航空公司客戶價值分析為案例,介紹了如何使用該平臺快速搭建數(shù)據(jù)分析與挖掘工程。本書不僅提供TipDM這樣的上機實踐環(huán)境,而且還提供配套的案例建模數(shù)據(jù)、Python源代碼、教學PPT。
(1)暢銷書全新升級,第1版銷售超過10萬冊,被國內(nèi)100余所高等院校采用為教材,同時被廣大數(shù)據(jù)科學工作者奉為經(jīng)典,是該領域公認的事實標準。(2)作者在大數(shù)據(jù)挖掘與分析等領域有10余年的工程實踐、教學和創(chuàng)辦企業(yè)的經(jīng)驗,不僅掌握行業(yè)的*技術和實踐方法,而且洞悉學生和老師的需求與痛點。(3)本書提供豐富的配套資源,如上機環(huán)境、Python源代碼、案例建模數(shù)據(jù)、教學PPT。
為什么要寫這本書LinkedIn通過對全球超過3.3億用戶的工作經(jīng)歷和技能進行分析后得出,在目前炙手可熱的25項技能中,數(shù)據(jù)挖掘人才需求排名第一。那么數(shù)據(jù)挖掘是什么呢?數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程。數(shù)據(jù)挖掘有助于企業(yè)發(fā)現(xiàn)業(yè)務的趨勢,揭示已知的事實,預測未知的結果,因此,數(shù)據(jù)挖掘已成為企業(yè)保持競爭力的必要方法。與國外相比,我國信息化程度仍不算高,企業(yè)內(nèi)部信息也不完整,零售、銀行、保險、證券等行業(yè)對數(shù)據(jù)挖掘的應用還不太理想。但隨著市場競爭的加劇,各行業(yè)對數(shù)據(jù)挖掘技術的需求越來越強烈,可以預計,未來幾年各行業(yè)的數(shù)據(jù)分析應用一定會從傳統(tǒng)的統(tǒng)計分析發(fā)展到大規(guī)模的數(shù)據(jù)挖掘應用。在大數(shù)據(jù)時代,數(shù)據(jù)過剩、人才短缺,數(shù)據(jù)挖掘專業(yè)人才的培養(yǎng)將離不開專業(yè)知識和職業(yè)經(jīng)驗積累。所以,本書注重數(shù)據(jù)挖掘理論與項目案例實踐相結合,讓讀者獲得真實的數(shù)據(jù)挖掘學習與實踐環(huán)境,更快、更好地學習數(shù)據(jù)挖掘知識并積累職業(yè)經(jīng)驗。總的來說,隨著云時代的來臨,大數(shù)據(jù)技術將具有越來越重要的戰(zhàn)略意義。大數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)要素,人們對于海量數(shù)據(jù)的運用將預示著新一輪生產(chǎn)率增長和消費者盈余浪潮的到來。大數(shù)據(jù)分析技術將幫助企業(yè)用戶在合理的時間內(nèi)攫取、管理、處理、整理海量數(shù)據(jù),為企業(yè)經(jīng)營決策提供積極幫助。大數(shù)據(jù)分析作為數(shù)據(jù)存儲和挖掘分析的前沿技術,廣泛應用于物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等戰(zhàn)略性新興產(chǎn)業(yè)。雖然目前大數(shù)據(jù)在國內(nèi)還處于初級階段,但是其商業(yè)價值已經(jīng)顯現(xiàn)出來,特別是有實踐經(jīng)驗的大數(shù)據(jù)分析人才更是各企業(yè)爭奪的焦點。為了滿足日益增長的大數(shù)據(jù)分析人才需求,很多高校開始嘗試開設不同程度的大數(shù)據(jù)分析課程。大數(shù)據(jù)分析作為大數(shù)據(jù)時代的核心技術,必將成為高校數(shù)學與統(tǒng)計學專業(yè)的重要課程之一。第2版與第1版的區(qū)別本書在第1版的基礎上進行了代碼與內(nèi)容的全方位升級。在代碼方面,將整書代碼由Python 2升級至Python 3.6。在內(nèi)容方面,對基礎篇和實戰(zhàn)篇均做了升級。基礎篇具體升級內(nèi)容如下。第1章增加了章節(jié)的引言;修改了1.5節(jié)中對TipDM開源數(shù)據(jù)挖掘建模平臺的介紹。第2章修改了2.4節(jié)中對配套附件的說明。第3章增加3.2節(jié)所有圖形繪制的代碼。第4章修改了4.1.1節(jié)中對牛頓插值法原理的描述。第5章修改了5.1.3節(jié)中對邏輯回歸模型的評價和相關解釋;5.2.4節(jié)中更新了圖5-17。實戰(zhàn)篇具體升級內(nèi)容如下。第6章為原書第13章,新增了對Lasso回歸方法、灰色預測算法、SVR算法原理的介紹;將原書的神經(jīng)網(wǎng)絡算法改為SVR算法;刪除增值稅預測模型、營業(yè)稅預測模型、企業(yè)所得稅預測模型、個人所得稅預測模型和政府性基金收入預測模型的內(nèi)容;修改了拓展思考。第7章增加了章節(jié)的引言;7.2.2節(jié)增加了分布分析;7.2.3節(jié)增加了RFM模型的介紹;7.2.4節(jié)增加了客戶分群雷達圖的繪制代碼。新增第8章商品零售購物籃分析一章。第9章增加了章節(jié)的引言;9.2.2節(jié)增加了數(shù)據(jù)預處理的Python實現(xiàn)代碼;9.2.3節(jié)中將原書的支持向量機算法改為決策樹算法。第10章增加了章節(jié)的引言;原書的10.2.1數(shù)據(jù)抽取改為10.2.1數(shù)據(jù)探索分析,并增加了有無水流和水流量屬性的探索分析;10.2.2節(jié)增加了屬性構造的Python實現(xiàn)代碼,原書數(shù)據(jù)清洗的內(nèi)容移到屬性構造中實現(xiàn)。第11章為原書第12章,增加了章節(jié)的引言;11.2.3節(jié)刪除了網(wǎng)頁排名的內(nèi)容;11.2.5節(jié)優(yōu)化了基于協(xié)同過濾算法的Python實現(xiàn)代碼,新增了模型評價的代碼,并修改了模型評價的描述。第12章為原書第15章,增加了章節(jié)的引言;刪除原書15.2.1評論數(shù)據(jù)采集的內(nèi)容;12.2.1節(jié)優(yōu)化了預處理的方法,并增加了Python實現(xiàn)代碼;12.2.2節(jié)優(yōu)化了分詞的方法,并增加了Python實現(xiàn)代碼;12.2.3構建模型修改了情感傾向分析的描述,增加了尋找最優(yōu)主題數(shù)的內(nèi)容,以及相關的Python實現(xiàn)代碼。刪除原書第6章電力竊漏電用戶自動識別第8章中醫(yī)證型關聯(lián)規(guī)則挖掘第11章應用系統(tǒng)負載分析與磁盤容量預測第14章基于基站定位數(shù)據(jù)的商圈分析這4章。此外,本版本還額外增加了提高篇,即第13章基于Python引擎的開源數(shù)據(jù)挖掘建模平臺(TipDM),基于開源數(shù)據(jù)挖掘建模平臺(TipDM)實現(xiàn)案例,不僅能夠幫助企業(yè)建立自己的數(shù)據(jù)挖掘平臺,而且能輔助編程能力較弱的讀者更好地理解案例。本書特色本書作者從實踐出發(fā),結合大量數(shù)據(jù)挖掘工程案例及教學經(jīng)驗,以真實案例為主線,深入淺出地介紹了數(shù)據(jù)挖掘建模過程中的有關任務:數(shù)據(jù)探索、數(shù)據(jù)預處理、分類與預測、聚類分析、時序預測、關聯(lián)規(guī)則挖掘、智能推薦、偏差檢測等。因此,本書的編排以解決某個應用的挖掘目標為前提,先介紹案例背景,提出挖掘目標,再闡述分析方法與過程,最后完成模型構建。在介紹建模的過程中同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中。為方便讀者輕松獲取真實的實驗環(huán)境,本書使用大家熟知的Python語言對樣本數(shù)據(jù)進行處理,以進行挖掘建模。為了幫助讀者更好地使用本書,本書提供配套的原始數(shù)據(jù)文件、Python程序代碼,讀者可以從泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/tj/1615.jhtml)免費下載。為方便教師授課,本書還提供了PPT課件,教師可到網(wǎng)址http://www.tipdm.org/tj/840.jhtml咨詢獲取。本書適用對象開設數(shù)據(jù)挖掘課程的高校的教師和學生。目前,國內(nèi)不少高校將數(shù)據(jù)挖掘引入本科教學中,在數(shù)學、計算機、自動化、電子信息、金融等專業(yè)開設了數(shù)據(jù)挖掘技術的相關課程,但這一課程的教學仍然主要限于理論介紹。單純的理論教學過于抽象,學生理解起來往往比較困難,教學效果也不甚理想。本書提供的基于實戰(zhàn)案例和建模實踐的教學,能夠使師生充分發(fā)揮互動性和創(chuàng)造性,理論聯(lián)系實際,使師生獲得最佳的教學效果。需求分析及系統(tǒng)設計人員。這類人員可以在理解數(shù)據(jù)挖掘原理及建模過程的基礎上,結合數(shù)據(jù)挖掘案例完成精確營銷、客戶分群、交叉銷售、流失分析、客戶信用記分、欺詐發(fā)現(xiàn)、智能推薦等數(shù)據(jù)挖掘應用的需求分析和設計。數(shù)據(jù)挖掘開發(fā)人員。這類人員可以在理解數(shù)據(jù)挖掘應用需求和設計方案的基礎上,結合本書提供的基于第三方接口快速完成數(shù)據(jù)挖掘應用的編程實現(xiàn)。從事數(shù)據(jù)挖掘應用研究的科研人員。許多科研院所為了更好地管理科研工作,紛紛開發(fā)了適應自身特點的科研業(yè)務管理系統(tǒng),并在使用過程中積累了大量的科研信息數(shù)據(jù)。但是,這些科研業(yè)務管理系統(tǒng)一般沒有對數(shù)據(jù)進行深入分析,對數(shù)據(jù)所隱藏的價值也沒有充分挖掘利用?蒲腥藛T需要利用數(shù)據(jù)挖掘建模工具及有關方法論來深挖科研信息的價值,從而提高科研水平。關注高級數(shù)據(jù)分析的人員。業(yè)務報告和商業(yè)智能解決方案對有關人員了解過去和現(xiàn)在的狀況是非常有用的。同時,數(shù)據(jù)挖掘的預測分析解決方案還能使這類人員預見未來的發(fā)展狀況,讓他們所在的機構能夠先發(fā)制人,而不是處于被動。因為數(shù)據(jù)挖掘的預測分析解決方案將復雜的統(tǒng)計方法和機器學習技術應用到數(shù)據(jù)之中,通過預測分析技術來揭示隱藏在交易系統(tǒng)或企業(yè)資源計劃(ERP)、結構數(shù)據(jù)庫和普通文件中的模式和趨勢,從而為這類人員的決策提供科學依據(jù)。如何閱讀本書本書共13章,分為基礎篇、實戰(zhàn)篇、提高篇;A篇介紹了數(shù)據(jù)挖掘的基本原理;實戰(zhàn)篇介紹了一些真實案例,通過對案例深入淺出的剖析,使讀者在不知不覺中獲得數(shù)據(jù)挖掘項目經(jīng)驗,同時快速領悟看似難懂的數(shù)據(jù)挖掘理論;提高篇介紹了一個基于Python引擎的開源數(shù)據(jù)挖掘建模平臺,通過平臺去編程、拖曳式的操作,向讀者展示了平臺流程化的思維,使讀者加深對數(shù)據(jù)挖掘流程的理解。讀者在閱讀過程中,應充分利用隨書配套的案例建模數(shù)據(jù),借助相關的數(shù)據(jù)挖掘建模工具,通過上機實驗,快速理解相關知識與理論。基礎篇(第1~5章)第1章的主要內(nèi)容是數(shù)據(jù)挖掘基礎;第2章對本書所用到的數(shù)據(jù)挖掘建模工具Python語言進行了簡明扼要的說明;第3~5章對數(shù)據(jù)挖掘的建模過程,包括數(shù)據(jù)探索、數(shù)據(jù)預處理及挖掘建模的常用算法與原理進行了介紹。實戰(zhàn)篇(第6~12章)重點對數(shù)據(jù)挖掘技術在金融、航空、零售、能源、制造和電商等行業(yè)的應用進行了分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最后完成模型構建的順序進行的,在建模過程關鍵環(huán)節(jié),穿插程序實現(xiàn)代碼。最后通過上機實踐,加深對案例應用中的數(shù)據(jù)挖掘技術的理解。提高篇(第13章)重點講解了基于Python引擎的開源數(shù)據(jù)挖掘建模平臺(TipDM)的使用方法,先介紹了平臺每個模塊的功能,再以航空公司客戶價值分析案例為例,介紹如何使用平臺快速搭建數(shù)據(jù)分析與挖掘工程,展示平臺去編程化、流程化的特點。勘誤和支持我們已經(jīng)盡最大努力避免在文本和代碼中出現(xiàn)錯誤,但是由于水平有限,編寫時間倉促,書中難免出現(xiàn)一些疏漏和不足的地方。如果你有更多的寶貴意見,歡迎在泰迪學社微信公眾號回復圖書反饋進行反饋。更多有關本系列圖書的信息可以在泰迪杯數(shù)據(jù)挖掘挑戰(zhàn)賽網(wǎng)站(http://www.tipdm.org/tj/index.jhtml)查閱。
張良均
張良均資深大數(shù)據(jù)挖掘與分析專家、模式識別專家、AI技術專家。有10余年大數(shù)據(jù)挖掘與分析經(jīng)驗,擅長Python、R、Hadoop、Matlab等技術實現(xiàn)的數(shù)據(jù)挖掘與分析,對機器學習等AI技術驅動的數(shù)據(jù)分析也有深入研究。為電信、電力、政府、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個行業(yè)上百家大型企業(yè)提供過數(shù)據(jù)挖掘應用與咨詢服務,實踐經(jīng)驗非常豐富。華南師范大學、中南財經(jīng)政法大學、廣東工業(yè)大學、西安理工大學、廣西科技大學、重慶交通大學、桂林電子科技大學等校外碩導或兼職教授。撰寫了《R語言數(shù)據(jù)分析與挖掘實戰(zhàn)》《數(shù)據(jù)挖掘:實用案例分析》《Hadoop大數(shù)據(jù)分析與挖掘實戰(zhàn)》等10余部暢銷書,累計銷售超過30萬冊。
前言基礎篇第1章 數(shù)據(jù)挖掘基礎 21.1 某知名連鎖餐飲企業(yè)的困惑 21.2 從餐飲服務到數(shù)據(jù)挖掘 41.3 數(shù)據(jù)挖掘的基本任務 51.4 數(shù)據(jù)挖掘建模過程 51.4.1 定義挖掘目標 61.4.2 數(shù)據(jù)取樣 61.4.3 數(shù)據(jù)探索 71.4.4 數(shù)據(jù)預處理 81.4.5 挖掘建模 81.4.6 模型評價 81.5 常用數(shù)據(jù)挖掘建模工具 91.6 小結 11第2章 Python數(shù)據(jù)分析簡介 122.1 搭建Python開發(fā)平臺 142.1.1 所要考慮的問題 142.1.2 基礎平臺的搭建 142.2 Python使用入門 162.2.1 運行方式 162.2.2 基本命令 172.2.3 數(shù)據(jù)結構 192.2.4 庫的導入與添加 242.3 Python數(shù)據(jù)分析工具 262.3.1 NumPy 272.3.2 SciPy 282.3.3 Matplotlib 292.3.4 pandas 312.3.5 StatsModels 332.3.6 scikit-learn 332.3.7 Keras 342.3.8 Gensim 362.4 配套附件使用設置 372.5 小結 38第3章 數(shù)據(jù)探索 393.1 數(shù)據(jù)質(zhì)量分析 393.1.1 缺失值分析 403.1.2 異常值分析 403.1.3 一致性分析 443.2 數(shù)據(jù)特征分析 443.2.1 分布分析 443.2.2 對比分析 483.2.3 統(tǒng)計量分析 513.2.4 周期性分析 543.2.5 貢獻度分析 553.2.6 相關性分析 583.3 Python主要數(shù)據(jù)探索函數(shù) 623.3.1 基本統(tǒng)計特征函數(shù) 623.3.2 拓展統(tǒng)計特征函數(shù) 663.3.3 統(tǒng)計繪圖函數(shù) 673.4 小結 74第4章 數(shù)據(jù)預處理 754.1 數(shù)據(jù)清洗 754.1.1 缺失值處理 754.1.2 異常值處理 804.2 數(shù)據(jù)集成 804.2.1 實體識別 814.2.2 冗余屬性識別 814.2.3 數(shù)據(jù)變換 814.2.4 簡單函數(shù)變換 814.2.5 規(guī)范化 824.2.6 連續(xù)屬性離散化 844.2.7 屬性構造 874.2.8 小波變換 884.3 數(shù)據(jù)歸約 914.3.1 屬性歸約 914.3.2 數(shù)值歸約 954.4 Python主要數(shù)據(jù)預處理函數(shù) 984.5 小結 101第5章 挖掘建模 1025.1 分類與預測 1025.1.1 實現(xiàn)過程 1035.1.2 常用的分類與預測算法 1035.1.3 回歸分析 1045.1.4 決策樹 1085.1.5 人工神經(jīng)網(wǎng)絡 1155.1.6 分類與預測算法評價 1205.1.7 Python分類預測模型特點 1255.2 聚類分析 1255.2.1 常用聚類分析算法 1265.2.2 K-Means聚類算法 1275.2.3 聚類分析算法評價 1325.2.4 Python主要聚類分析算法 1335.3 關聯(lián)規(guī)則 1355.3.1 常用關聯(lián)規(guī)則算法 1365.3.2 Apriori算法 1365.4 時序模式 1425.4.1 時間序列算法 1425.4.2 時間序列的預處理 1435.4.3 平穩(wěn)時間序列分析 1455.4.4 非平穩(wěn)時間序列分析 1485.4.5 Python主要時序模式算法 1565.5 離群點檢測 1595.5.1 離群點的成因及類型 1605.5.2 離群點檢測方法 1605.5.3 基于模型的離群點檢測方法 1615.5.4 基于聚類的離群點檢測方法 1645.6 小結 167實戰(zhàn)篇第6章 財政收入影響因素分析及預測 1706.1 背景與挖掘目標 1706.2 分析方法與過程 1716.2.1 分析步驟與流程 1726.2.2 數(shù)據(jù)探索分析 1726.2.3 數(shù)據(jù)預處理 1766.2.4 模型構建 1786.3 上機實驗 1846.4 拓展思考 1856.5 小結 186第7章 航空公司客戶價值分析 1877.1 背景與挖掘目標 1877.2 分析方法與過程 1887.2.1 分析步驟與流程 1897.2.2 數(shù)據(jù)探索分析 1897.2.3 數(shù)據(jù)預處理 2007.2.4 模型構建 2077.2.5 模型應用 2127.3 上機實驗 2147.4 拓展思考 2157.5 小結 216第8章 商品零售購物籃分析 2178.1 背景與挖掘目標 2178.2 分析方法與過程 2188.2.1 數(shù)據(jù)探索分析 2198.2.2 數(shù)據(jù)預處理 2248.2.3 模型構建 2268.3 上機實驗 2328.4 拓展思考 2338.5 小結 233第9章 基于水色圖像的水質(zhì)評價 2349.1 背景與挖掘目標 2349.2 分析方法與過程 2359.2.1 分析步驟與流程 2369.2.2 數(shù)據(jù)預處理 2369.2.3 模型構建 2409.2.4 水質(zhì)評價 2419.3 上機實驗 2429.4 拓展思考 2429.5 小結 243第10章 家用熱水器用戶行為分析與事件識別 24410.1 背景與挖掘目標 24410.2 分析方法與過程 24510.2.1 數(shù)據(jù)探索分析 24610.2.2 數(shù)據(jù)預處理 24910.2.3 模型構建 26010.2.4 模型檢驗 26110.3 上機實驗 26210.4 拓展思考 26410.5 小結 265第11章 電子商務網(wǎng)站用戶行為分析及服務推薦 26611.1 背景與挖掘目標 26611.2 分析方法與過程 26711.2.1 分析步驟與流程 26711.2.2 數(shù)據(jù)抽取 26911.2.3 數(shù)據(jù)探索分析 27011.2.4 數(shù)據(jù)預處理 27911.2.5 構建智能推薦模型 28311.3 上機實驗 29111.4 拓展思考 29311.5 小結 293第12章 電商產(chǎn)品評論數(shù)據(jù)情感分析 29412.1 背景與挖掘目標 29412.2 分析方法與過程 29512.2.1 評論預處理 29612.2.2 評論分詞 29712.2.3 構建模型 30312.3 上機實驗 31512.4 拓展思考 31612.5 小結 318提高篇第13章 基于Python引擎的開源數(shù)據(jù)挖掘建模平臺(TipDM) 32013.1 平臺簡介 32113.1.1 模板 32113.1.2 數(shù)據(jù)源 32213.1.3 工程 32313.1.4 系統(tǒng)組件 32413.1.5 TipDM數(shù)據(jù)挖掘建模平臺的本地化部署 32613.2 快速構建數(shù)據(jù)挖掘工程 32713.2.1 導入數(shù)據(jù) 32913.2.2 配置輸入源組件 33113.2.3 配置缺失值處理組件 33213.2.4 配置記錄選擇組件 33413.2.5 配置數(shù)據(jù)標準化組件 33413.2.6 配置K-Means組件 33613.3 小結 339