關(guān)于我們
書單推薦
新書推薦
|
圖解數(shù)據(jù)科學(xué):手把手教你挖掘數(shù)據(jù)的隱藏價(jià)值 從數(shù)據(jù)分析方法到數(shù)據(jù)科學(xué)基礎(chǔ)知識(shí),你需要了解的知識(shí)全部在這本圖解書中! 當(dāng)下,利用數(shù)據(jù)為自己的業(yè)務(wù)和服務(wù)提供支持是大勢(shì)所趨。但是,分析數(shù)據(jù)需要廣泛的知識(shí),自己很難成體系地學(xué)習(xí)。 本書介紹了數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí)及周邊知識(shí),包括數(shù)據(jù)、圖表的類型以及統(tǒng)計(jì)學(xué)、人工智能的基本知識(shí)等,網(wǎng)羅信息社會(huì)中數(shù)據(jù)活用的問(wèn)題點(diǎn),結(jié)合生動(dòng)插圖,讓初學(xué)者也能迅速理解。 除了按順序閱讀,獲取系統(tǒng)的知識(shí),讀者還可以從目錄中挑選感興趣的主題和關(guān)鍵詞,按照自己的需求閱讀,是一本實(shí)用性滿分的數(shù)據(jù)科學(xué)學(xué)習(xí)指南。
[日]增井敏克 增井技術(shù)士事務(wù)所代表,獲得日本信息工學(xué)部門技術(shù)資格認(rèn)證。 畢業(yè)于大阪府立大學(xué)研究生院。通過(guò)技術(shù)工程師(網(wǎng)絡(luò)、信息安全)考試和其他多項(xiàng)信息處理技術(shù)人員考試。 通過(guò)商務(wù)數(shù)學(xué)檢定1級(jí),獲得公益財(cái)團(tuán)法人日本數(shù)學(xué)檢定協(xié)會(huì)認(rèn)定,以培訓(xùn)師身份展開(kāi)活動(dòng)。 開(kāi)創(chuàng)商務(wù)數(shù)學(xué)IT模式,幫助客戶正確、高效提升計(jì)算機(jī)技能,并致力于各種軟件的開(kāi)發(fā)。 著作有《完全圖解網(wǎng)絡(luò)與信息安全》《完全圖解編程原理》《程序員的算法趣題》《用Python編程和實(shí)踐!算法入門》《IT用語(yǔ)圖鑒》等。 第一章 數(shù)據(jù)科學(xué)的支撐技術(shù) - 應(yīng)對(duì)未來(lái)需求高漲的必修課 - 1-1 21 世紀(jì)的石油 數(shù)據(jù)、信息 ..........................................................................................002 1-2 數(shù)據(jù)為何越來(lái)越多 信息化社會(huì)、物聯(lián)網(wǎng)、信息社會(huì)、傳感器 .....................................004 1-3綜合各種知識(shí)進(jìn)行分析 數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘..........................................................................006 1-4從數(shù)據(jù)中發(fā)現(xiàn)價(jià)值的職業(yè) 數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、數(shù)據(jù)分析師..........................................008 1-5數(shù)據(jù)不能直接拿來(lái)使用 結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)..............................................................010 1-6大量的數(shù)據(jù)是寶藏 數(shù)據(jù)、3 個(gè) V........................................................................................012 1-7人與計(jì)算機(jī)易于處理的數(shù)據(jù)不同 雜亂數(shù)據(jù)、整齊數(shù)據(jù)..........................................................................014 1-8把握供數(shù)據(jù)使用的數(shù)據(jù) 主數(shù)據(jù)、元數(shù)據(jù)..................................................................................016 1-9將數(shù)據(jù)整理到一處 數(shù)據(jù)基礎(chǔ)設(shè)施、商業(yè)智能儀表盤、數(shù)據(jù)管道 .................................018 1-10對(duì)高效處理流程進(jìn)行思考 算法、數(shù)據(jù)結(jié)構(gòu)..................................................................................020 1-11導(dǎo)出規(guī)則的實(shí)用化 模型、建模..........................................................................................022 1-12用于處理數(shù)據(jù)的編程語(yǔ)言 R 語(yǔ)言、Python 語(yǔ)言、Julia 語(yǔ)言......................................................024 1-13任何人都可以免費(fèi)使用的數(shù)據(jù) 開(kāi)放數(shù)據(jù)、e-Stat、WebAPI..............................................................026 1-14一邊娛樂(lè),一邊學(xué)習(xí)分析方法 Kaggle、編程比賽、CTF....................................................................028 1-15圍繞 IT 進(jìn)行思考 數(shù)字化轉(zhuǎn)型、數(shù)碼化、數(shù)字化..........................................................030 1-16已經(jīng)分析的數(shù)據(jù)的運(yùn)用事例 聊天機(jī)器人、推薦..............................................................................032 1-17購(gòu)買了這款商品的顧客還同時(shí)購(gòu)買了這樣的商品 購(gòu)物籃分析、關(guān)聯(lián)分析、RFM 分析.................................................034 1-18根據(jù)數(shù)據(jù)進(jìn)行不同的定價(jià) 動(dòng)態(tài)定價(jià)、金融科技..........................................................................036 1-19從小規(guī)模出發(fā)進(jìn)行嘗試 概念驗(yàn)證、小規(guī)模啟動(dòng)......................................................................038 1-20持續(xù)不斷地謀求改善 PDCA 循環(huán)、OODA 循環(huán)、反饋循環(huán)...............................................040 1-21先行確定目標(biāo),之后有策略地進(jìn)行實(shí)施 KPI、KGI、KSF.................................................................................042 1-22把握與數(shù)據(jù)相關(guān)的人 用例、利益相關(guān)者..............................................................................044 試一試嘗試一下對(duì)使用數(shù)據(jù)的事例進(jìn)行調(diào)查吧........................... 046 第二章數(shù)據(jù)的基礎(chǔ) - 表示方法與讀取方法 - 2-1數(shù)據(jù)的分類 名義尺度、定序尺度、定距尺度、比例尺度、定性變量、 定量變量 ..............................................................................................048 2-2從范圍的角度對(duì)數(shù)據(jù)加以區(qū)分 頻數(shù)分布表、組、頻數(shù)、組距、直方圖..........................................050 2-3區(qū)別使用各種圖形 棒狀圖、折線圖..................................................................................052 2-4表示比例的圖形 餅狀圖、帶狀圖..................................................................................054 2-5將各種數(shù)據(jù)展示于一張圖中 雷達(dá)圖、箱形圖..................................................................................056 2-6構(gòu)成數(shù)據(jù)基準(zhǔn)的數(shù)值 代表性數(shù)值、平均值、中位數(shù)、魯棒性、眾數(shù) .............................058 2-7掌握數(shù)據(jù)離散程度 方差、標(biāo)準(zhǔn)偏差..................................................................................060 2-8用一個(gè)標(biāo)準(zhǔn)判斷 變異系數(shù)、標(biāo)準(zhǔn)化、偏差值..............................................................062 2-9處理不恰當(dāng)?shù)臄?shù)據(jù) 異常值、缺失值..................................................................................064 2-10為什么銷售額的八成來(lái)自兩成的商品 ? 帕累托定律、帕累托分析、帕累托圖、長(zhǎng)尾效應(yīng) .........................066 2-11對(duì)數(shù)量實(shí)施視覺(jué)展示 數(shù)據(jù)可視化、層級(jí)區(qū)分圖、文字云圖..............................................068 2-12任何人都可以使用的便捷的數(shù)據(jù)分析工具 BI 工具、OLAP....................................................................................070 2-13集中管理數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)集市..........................................................072 2-14對(duì)數(shù)據(jù)協(xié)作進(jìn)行思考 ETL、EAI、ESB..................................................................................074 2-15對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行可視化 ER 圖、DFD 圖、CRUD 表、CRUD 圖............................................076 2-16設(shè)計(jì)數(shù)據(jù)庫(kù) 正規(guī)化、非正規(guī)化..............................................................................078 2-17對(duì)紙上打印的數(shù)據(jù)進(jìn)行提取處理 OCR、OMR..........................................................................................080 2-18高精度、高速度地導(dǎo)入數(shù)據(jù) 條形碼、二維碼、NFC.......................................................................082 試一試嘗試一下對(duì)使用數(shù)據(jù)的事例進(jìn)行調(diào)查吧............................ 084 第三章數(shù)據(jù)處理與充分利用 - 對(duì)數(shù)據(jù)進(jìn)行分類和預(yù)測(cè) - 3-1根據(jù)獲取時(shí)間而變化的數(shù)據(jù) 時(shí)間序列數(shù)據(jù)、趨勢(shì)、噪聲、周期..................................................086 3-2程序自動(dòng)輸出的數(shù)據(jù) 日志、轉(zhuǎn)儲(chǔ)文件..................................................................................088 3-3捕捉長(zhǎng)期變化 移動(dòng)平均法、移動(dòng)平均線、加權(quán)移動(dòng)平均法.................................090 3-4掌握兩個(gè)數(shù)軸之間的關(guān)系 散點(diǎn)圖、協(xié)方差、相關(guān)系數(shù)..............................................................092 3-5不被表面的關(guān)系所欺騙 相關(guān)關(guān)系、因果關(guān)系、偽相關(guān)..........................................................094 3-6立足于多個(gè)數(shù)軸進(jìn)行匯總 交叉匯總、聯(lián)合分析、直交表..........................................................096 3-7通過(guò)減少數(shù)軸的數(shù)量來(lái)把握特征 維度、主成分分析..............................................................................098 3-8了解人們對(duì)兩點(diǎn)之間距離的看法 歐幾里得距離、曼哈頓距離..............................................................100 3-9調(diào)查相似的角度 余弦相似度、Word2Vec.....................................................................102 3-10數(shù)據(jù)分析不只有帥氣的一面 預(yù)處理、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、數(shù)據(jù)分析識(shí)別.............................104 3-11明確多個(gè)數(shù)軸之間的關(guān)系 回歸分析、最小二乘法......................................................................106 3-12了解高級(jí)回歸分析 多重回歸分析、邏輯回歸分析..........................................................108 3-13對(duì)分類進(jìn)行預(yù)測(cè) 判別分析、馬哈拉諾比斯距離..........................................................110 3-14基于已掌握的知識(shí)進(jìn)行數(shù)值推算 費(fèi)米估算..............................................................................................112 3-15實(shí)現(xiàn)對(duì)擲骰子結(jié)果的操控 隨機(jī)數(shù)、偽隨機(jī)數(shù)、隨機(jī)種子、蒙特卡羅法.................................114 3-16通過(guò)反復(fù)預(yù)測(cè)提高精度 德?tīng)柗品、指?shù)平滑法.....................................................................116 3-17了解各種分析方法 多變量分析、數(shù)量化一類、數(shù)量化二類、數(shù)量化三類.................118 試一試嘗試一下統(tǒng)計(jì)問(wèn)卷調(diào)查的結(jié)果吧........................................ 120 第四章需要了解的統(tǒng)計(jì)學(xué)知識(shí) - 立足于數(shù)據(jù)推測(cè)答案 - 4-1統(tǒng)計(jì)學(xué)的分類 描述統(tǒng)計(jì)學(xué)、推斷統(tǒng)計(jì)學(xué)..................................................................122 4-2抽取數(shù)據(jù) 總體、樣本、隨機(jī)抽樣......................................................................124 4-3用數(shù)值表示易發(fā)性 統(tǒng)計(jì)概率、數(shù)學(xué)概率、概率、期望值 .............................................126 4-4針對(duì)幾個(gè)獨(dú)立事件同時(shí)發(fā)生的概率進(jìn)行思考 同時(shí)概率、獨(dú)立性、互斥性、條件概率、概率的乘法定理.........128 4-5基于結(jié)果對(duì)原因進(jìn)行思考 先驗(yàn)概率、后驗(yàn)概率、貝葉斯定理、似然 .....................................130 4-6把握數(shù)據(jù)的分布 概率分布、均勻分布、二項(xiàng)分布、正態(tài)分布、標(biāo)準(zhǔn)正態(tài)分布.....132 4-7如果收集眾多數(shù)據(jù),就能接近真實(shí)值 中心極限定理、大數(shù)定律..................................................................134 4-8用函數(shù)來(lái)表示分布 概率密度函數(shù)、累積分布函數(shù)..........................................................136 4-9根據(jù)抽取的數(shù)據(jù)推測(cè)原始的總體 無(wú)偏估計(jì)量、點(diǎn)估計(jì)、區(qū)間估計(jì)、置信區(qū)間 .................................138 4-10在不知道方差的情況下進(jìn)行推算 標(biāo)準(zhǔn)誤差、無(wú)偏方差、自由度、t 分布 ...........................................140 4-11從統(tǒng)計(jì)學(xué)的角度進(jìn)行驗(yàn)證 檢驗(yàn)、原假設(shè)、備譯假設(shè)、拒絕......................................................142 4-12確定做出正確判斷的基準(zhǔn) 檢驗(yàn)統(tǒng)計(jì)量、拒絕域、顯著性水平、雙側(cè)檢驗(yàn)、單側(cè)檢驗(yàn).........144 4-13對(duì)檢驗(yàn)結(jié)果做出判斷 p 值、顯著性差異、錯(cuò)誤、第一類錯(cuò)誤、第二類錯(cuò)誤..................146 4-14檢驗(yàn)平均值 Z 檢驗(yàn)、t 檢驗(yàn)....................................................................................148 4-15檢驗(yàn)方差 2 分布、 2 檢驗(yàn)、F 檢驗(yàn)...................................................................150 試一試嘗試檢驗(yàn)一下身邊的食品吧................................................ 152 第五章需要了解的有關(guān)人工智能的知識(shí) - 常用的手法及其機(jī)制 - 5-1 打造與人類具有同等智慧的計(jì)算機(jī) 人工智能、圖靈測(cè)試.........................................................................154 5-2實(shí)現(xiàn)人工智能的手法 機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí).............................156 5-3用于評(píng)價(jià)人工智能的指標(biāo) 混淆矩陣、準(zhǔn)確率、精確率、召回率、F 值、交叉驗(yàn)證.............158 5-4掌握學(xué)習(xí)的進(jìn)度 過(guò)擬合、欠擬合..................................................................................160 5-5模仿大腦的學(xué)習(xí)方法 神經(jīng)網(wǎng)絡(luò)、損失函數(shù)、誤差反向傳播法..........................................162 5-6逐漸接近最優(yōu)解 梯度下降法、局部解、學(xué)習(xí)率..........................................................164 5-7深入各分層,利用大量數(shù)據(jù)進(jìn)行學(xué)習(xí) 深度學(xué)習(xí)、CNN、RNN、LSTM.........................................................166 5-8對(duì)誤差進(jìn)行量化 偏差 - 方差分解、折中......................................................................168 5-9提升精度 正則化、拉索回歸、嶺回歸..............................................................170 5-10分成多個(gè)組 聚類、k 均值算法...............................................................................172 5-11劃分為任意個(gè)簇 分層次聚類、Ward 法、最短距離法、最長(zhǎng)距離法........................174 5-12在樹(shù)結(jié)構(gòu)中學(xué)習(xí) 決策樹(shù)、不純度、信息增益..............................................................176 5-13使用多個(gè)人工智能進(jìn)行多數(shù)表決 隨機(jī)森林、集成學(xué)習(xí)、引導(dǎo)聚集算法、提升方法.........................178 5-14評(píng)價(jià)規(guī)則的指標(biāo) 支持度、置信度、提升度..................................................................180 5-15邊界余量的最大化 支持向量機(jī)、超平面、硬余量、軟余量..........................................182 5-16進(jìn)行自動(dòng)的機(jī)器學(xué)習(xí) 自動(dòng)化機(jī)器學(xué)習(xí)、可解釋性人工智能..............................................184 5-17結(jié)合各種方法尋找解決方法 運(yùn)籌學(xué)、數(shù)理優(yōu)化、數(shù)理設(shè)計(jì)法、概率設(shè)計(jì)法.............................186 試一試 查找一下最新的論文吧........................................................ 188 第六章有關(guān)安全與隱私的問(wèn)題 - 數(shù)據(jù)社會(huì)將走向何方? - 6-1處理數(shù)據(jù)時(shí)必須遵守道德 信息倫理、數(shù)據(jù)倫理..........................................................................190 6-2數(shù)據(jù)可靠性堪憂 統(tǒng)計(jì)造假、技術(shù)人員倫理.................................................................192 6-3錯(cuò)誤認(rèn)識(shí)導(dǎo)致精度下降 數(shù)據(jù)偏差、算法偏差 .........................................................................194 6-4在日本對(duì)于個(gè)人信息的處理 個(gè)人信息保護(hù)法、P 認(rèn)證 ..................................................................196 6-5在海外對(duì)于個(gè)人信息的處理 GDPR、CCPA ......................................................................................198 6-6對(duì)個(gè)人信息的充分利用進(jìn)行思考 假名化、匿名化、k- 匿名化 ............................................................200 6-7對(duì)數(shù)據(jù)的流通、一般使用與充分利用進(jìn)行思考 數(shù)據(jù)驅(qū)動(dòng)型社會(huì)、超智能社會(huì)、信息銀行 ....................................202 6-8制定處理數(shù)據(jù)時(shí)的規(guī)則 信息安全政策、隱私政策..................................................................204 6-9公示收集數(shù)據(jù)的目的 使用目的、選擇加入、選擇退出......................................................206 6-10了解保有數(shù)據(jù)的權(quán)利 知識(shí)產(chǎn)權(quán)、著作權(quán)..............................................................................208 6-11自動(dòng)獲得外部數(shù)據(jù) 抓取、爬取 ..........................................................................................210 6-12對(duì)保有數(shù)據(jù)的讀取進(jìn)行管理 訪問(wèn)控制、備份..................................................................................212 6-13防止從內(nèi)部帶出數(shù)據(jù) 審計(jì)、數(shù)據(jù)泄露防護(hù)..........................................................................214 6-14每次都能得到相同結(jié)果 冪等性 ..................................................................................................216
你還可能感興趣
我要評(píng)論
|