本書分為7個章節(jié)。第一章介紹大數(shù)據(jù)歸約在數(shù)據(jù)預(yù)處理中的作用以及面臨的技術(shù)挑戰(zhàn);第二章介紹多維大數(shù)據(jù)歸約知識體系、業(yè)務(wù)領(lǐng)域本體和歸約任務(wù)本體;第三章介紹大數(shù)據(jù)特征選擇策略和評價準(zhǔn)則,以及兩階段混合特征選擇方法;第四章介紹大數(shù)據(jù)元組相似度度量和快速歸約方法;第五章介紹了大數(shù)據(jù)數(shù)值歸約基本方法和基于約束轉(zhuǎn)變的數(shù)據(jù)立方體計算技
本書是“格致方法·商科研究方法譯叢”中的一種,商科研究方法主要是幫助相關(guān)專業(yè)的研究生進(jìn)行理論研究的教學(xué)參考書。數(shù)字方法在商科方法研究中經(jīng)過許不斷發(fā)展,形成了完備的體系。本書主要教學(xué)的是使用數(shù)字方法收集定性數(shù)據(jù),即在定性研究中使用數(shù)字方法(包括跟蹤和追蹤),幫助相關(guān)專業(yè)的碩士研究生完成其畢業(yè)論文。全書分六章,手把手地幫助
本書采用案例式編寫模式,包括7個單元,其中,單元1介紹數(shù)據(jù)分析的基本概念、流程和常用工具包,單元2介紹數(shù)據(jù)標(biāo)注的分類、基本流程及工具的使用,單元3介紹ndarray數(shù)組及Python科學(xué)計算庫NumPy,單元4介紹數(shù)據(jù)分析處理庫pandas,單元5介紹數(shù)據(jù)可視化工具包Matplotlib和seaborn,單元6介紹分類
本書共有九章,從數(shù)據(jù)采集與預(yù)處理概述開始,介紹了大數(shù)據(jù)環(huán)境的搭建,并對數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理的技術(shù)方法進(jìn)行了系統(tǒng)介紹。數(shù)據(jù)采集的內(nèi)容包括Flume日志數(shù)據(jù)采集、Kafka日志數(shù)據(jù)采集、Fluentd與Logstach等一系列數(shù)據(jù)采集技術(shù);數(shù)據(jù)預(yù)處理的內(nèi)容包括網(wǎng)絡(luò)爬蟲采集Web數(shù)據(jù)、Python數(shù)據(jù)預(yù)處理技術(shù)、Kettle
本書以廣泛使用的Alluxio2.8.0版本為基礎(chǔ)編寫,深入介紹Alluxio相關(guān)技術(shù)原理與實踐案例。本書主要內(nèi)容包括Alluxio系統(tǒng)入門與使用、Alluxio系統(tǒng)內(nèi)核組件設(shè)計實現(xiàn)原理,同時詳細(xì)介紹了Alluxio在大型企業(yè)中的經(jīng)典應(yīng)用案例與生產(chǎn)實踐,并附有Alluxio的開源社區(qū)開發(fā)者指南。本書是工業(yè)界和學(xué)術(shù)界從事
本書為高等職業(yè)教育計算機(jī)類新形態(tài)——工作手冊式教材,內(nèi)容包括基礎(chǔ)環(huán)境的搭建與配置,Hadoop完全分布式集群的搭建與運行,Hadoop核心組件的應(yīng)用案例,Hive組件的安裝、配置與應(yīng)用,ZooKeeper的安裝、配置與應(yīng)用,HBase的安裝、配置與應(yīng)用,Sqoop組件的安裝、配置與應(yīng)用,F(xiàn)lume組件的安裝、配置與應(yīng)用
本書是數(shù)據(jù)標(biāo)注領(lǐng)域領(lǐng)先的實訓(xùn)講義。本書著重對常見的文本、語音和圖像標(biāo)注任務(wù)類型進(jìn)行介紹,幫助從事標(biāo)注工作的學(xué)習(xí)者快速地完成系統(tǒng)化學(xué)習(xí),進(jìn)行標(biāo)注實戰(zhàn)。本書對文本、語音及圖像標(biāo)注的多種任務(wù)類型逐一進(jìn)行講解和分析,每種標(biāo)注類型均配有對應(yīng)的規(guī)范、舉例分析、習(xí)題及解析。同時,本書還針對各類標(biāo)注配套多種子任務(wù)類型或多個領(lǐng)域的實操練
本書是一本專門面向數(shù)據(jù)標(biāo)注人才培養(yǎng)的實訓(xùn)教材,適用于有意從事人工智能訓(xùn)練師和數(shù)據(jù)標(biāo)注工作的人員。為了使學(xué)習(xí)更具有針對性,本書特別選擇了能代表行業(yè)普遍需求的標(biāo)注項目管理知識及典型文本、語音和圖像標(biāo)注任務(wù)進(jìn)行講解與訓(xùn)練,輔助學(xué)習(xí)者快速完成系統(tǒng)化學(xué)習(xí),進(jìn)行標(biāo)注實戰(zhàn)工作。本書對文本的事件標(biāo)注和關(guān)系標(biāo)注、語音的采集和質(zhì)檢、圖像的
隨著“十四五”規(guī)劃綱要中提出“協(xié)同發(fā)展云服務(wù)與邊緣計算服務(wù)”的觀點,邊云智能已成為未來發(fā)展的重要趨勢。本書依托于政策大背景,旨在向讀者介紹邊云智能的基礎(chǔ)知識和應(yīng)用。書中分為四個篇章,第一篇章介紹了邊云架構(gòu)的骨架和基礎(chǔ)概念,第二篇章介紹了人工智能算法和深度學(xué)習(xí)模型,第三篇章介紹了云端決策算法和邊緣端輕量化算法,第四篇章介
本書系統(tǒng)講述ApacheSpark/PySpark大數(shù)據(jù)計算平臺的原理,以及如果將ApachePySpark應(yīng)用于大數(shù)據(jù)的實時流處理、批處理等各個場景。通過原理深入學(xué)習(xí)和實踐示例、案例的學(xué)習(xí)應(yīng)用,使讀者了解并掌握ApacheSpark/PySpark的基本原理和技能,接近理論與實踐的距離。全書共分為8章,主要內(nèi)容包括: