要想在數據科學領域取得成功,你需要精通數學。但不僅僅是數學。這本指南提供了一個清晰的、簡單的答案,你需要了解,包括概率、統(tǒng)計、假設測試、線性代數、機器學習和微積分的知識。使用Python代碼的實際示例將幫助您了解數學如何應用于您將要做的工作,在將概念連接到機器學習等應用程序時,提供了對概念在底層如何工作的清晰理解。你會
本書面向Hadoop大數據技術,通過大量實例,循序漸進地介紹了Hadoop生態(tài)系統(tǒng)常用組件的安裝及使用方法。 全書共15個項目,主要內容包括:在虛擬機中安裝CentOS7、安裝Hadoop偽分布、配置平臺基礎環(huán)境、搭建Zookeeper分布式集群、搭建HDFS分布式集群、搭建YARN分布式集群、Hadoop分布式計算
本書較為系統(tǒng)地講解了大數據處理平臺Hadoop和Spark生態(tài)系統(tǒng)的相關技術原理、使用方法和開發(fā)技術,全書共11章,主要包括大數據技術概述、大數據處理平臺Hadoop、分布式文件系統(tǒng)HDFS、分布式計算框架MapReduce、Hadoop的發(fā)展和演化、數據倉庫Hive、分布式數據庫HBase、Spark的基本概念和整體
本書以企業(yè)真實崗位的實際應用和操作為主要背景,以飲料灌裝智能產線實訓系統(tǒng)為載體,設置了七個學習情境,包括供料站調試、翻轉站調試、灌裝站調試、機器人站調試、立體庫站調試、智能生產線綜合調試、智能生產線維護等內容。本書按照"收集信息、制訂計劃、做出決策、實施計劃、檢查控制、評價反饋”的教學過程組織內容,并配有相關操作的視頻
本書講解了大數據查詢技術涉及的知識體系,主要是Hadoop生態(tài)圈體系中的各個組件,包括HDFS、Hive、Presto、HBase、Phoenix、Elasticsearch和dbeaver。本書采用項目任務驅動的方式進行講解,覆蓋組件的工作原理、部署安裝和使用方法,力求幫助讀者更有效地動手實踐。
"本書結合國內外**的研究成果和實踐經驗,融合傳統(tǒng)紙質媒體和新興數字媒體,系統(tǒng)地介紹大數據治理的基本概念、原則、框架、技術、工具和實踐等內容,注重理論與實踐相結合,注重案例分析和應用演練,幫助讀者全面掌握大數據治理的核心知識和方法。全書共分兩篇16章:第一篇大數據治理理論包括總論、大數據架構管理、元數據管理、主數據管理
在大數據時代,數據的獲取、傳輸和存儲融入了人類生產生活的方方面面,而大數據核心價值體現(xiàn)為人們對數據的分析、理解與應用。面對如此海量、高速和異構的數據,僅靠人類的認知和理解能力遠不能滿足價值發(fā)現(xiàn)的需要。同時,計算機總是針對最細粒度數據進行迭代優(yōu)化的求解模式在特定場景下也不能滿足數據分析的時限需求。粒計算作為一種模擬人類知
"本書從職業(yè)院校學生理論、技能水平和企業(yè)應用實際出發(fā),按照項目引領、任務驅動的體例編寫,將自動化生產線安裝與調試相關的知識點和實操技能點分解到不同項目中,力爭教師與學生真正實現(xiàn)“教、學、做一體化”。本書共設置了7個實訓項目,14個實訓任務,每個項目以工作過程為導向、以任務為驅動,引導學生認識YL-335B自動化生產線,
復雜性是大數據區(qū)別于小數據的本質特性,也是當前大數據質量控制與數據治理面臨的核心挑戰(zhàn)。本書圍繞大數據的復雜性開展研究,旨在探索當前數據資源建設與利用過程中面臨的挑戰(zhàn)和技術難題,促進數據價值的充分釋放。全書分為6部分,共24章。第1部分概述(第1、2章),綜述所研究數據控制技術的基本概念和任務定位,以及國內外的研究進展;
本書分為10章,其中第1~9章探討了排序、推薦系統(tǒng)、聚類、線性回歸等內容,每章都以一個具體的實際問題開始,其主要目的是激發(fā)對某一特定大數據分析技術的研究。接下來探討其背后的數學原理——包括重要的定義、輔助陳述和得出的結論。案例研究有助于將所學知識應用于跨學科的環(huán)境中,包括對逐步任務的描述和有用的提示。每章之后都配有習題