數(shù)據(jù)挖掘技術(shù),又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn),是20世紀(jì)90年代在信息技術(shù)領(lǐng)域開(kāi)始迅速發(fā)展起來(lái)的計(jì)算機(jī)技術(shù)。作者結(jié)合自己近20年從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面的科研工作積累與教學(xué)經(jīng)驗(yàn),編著此書(shū)。
本書(shū)較全面系統(tǒng)地介紹了數(shù)據(jù)挖掘中常用和常見(jiàn)的數(shù)據(jù)挖掘方法,以及文本與視頻數(shù)據(jù)挖掘方法。
本書(shū)的主要內(nèi)容包括:數(shù)據(jù)挖掘基本知識(shí)、數(shù)據(jù)挖掘預(yù)處理方法、決策樹(shù)分類及其他分類方法、關(guān)聯(lián)知識(shí)挖掘方法、各種聚類分析方法,以及文本挖掘所涉及表示、分類和聚類等方法,還包括視頻挖掘所涉及的視頻鏡頭檢測(cè)、字幕提取、視頻摘要和視頻檢索等主要分析方法。
本書(shū)作為學(xué)習(xí)、掌握和應(yīng)用數(shù)據(jù)挖掘方法和技術(shù)的綜合指導(dǎo)書(shū),是從事數(shù)據(jù)挖掘研究與應(yīng)用人員,以及希望了解數(shù)據(jù)挖掘主要方法和技術(shù)的IT技術(shù)人員的良師益友;同時(shí)也是一本可用于大學(xué)高年級(jí)或研究生相關(guān)課程的教材和參考文獻(xiàn)。
數(shù)據(jù)挖掘技術(shù),又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn),是20世紀(jì)90年代在信息技術(shù)領(lǐng)域開(kāi)始迅速發(fā)展起來(lái)的計(jì)算機(jī)技術(shù)。作者結(jié)合自己近20年從事人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面的科研工作積累與教學(xué)經(jīng)驗(yàn),編著此書(shū)。
本書(shū)較全面系統(tǒng)地介紹了數(shù)據(jù)挖掘中常用和常見(jiàn)的數(shù)據(jù)挖掘方法,以及文本與視頻數(shù)據(jù)挖掘方法。
總序
前言
第1章 數(shù)據(jù)挖掘?qū)д?br>1.1 數(shù)據(jù)挖掘的發(fā)展背景
1.2 數(shù)據(jù)挖掘定義
1.3 數(shù)據(jù)挖掘過(guò)程
1.4 數(shù)據(jù)挖掘功能
1.5 數(shù)據(jù)挖掘應(yīng)用
1.6 數(shù)據(jù)挖掘發(fā)展
1.7 本章小結(jié)
第2章 數(shù)據(jù)預(yù)處理
2.1 數(shù)據(jù)描述
2.1.1 數(shù)據(jù)集類型
2.1.2 數(shù)據(jù)質(zhì)量
2.2 數(shù)據(jù)清理
2.2.1 缺失值處理
2.2.2 噪聲數(shù)據(jù)處理
2.2.3 數(shù)據(jù)清理過(guò)程
2.3 數(shù)據(jù)集成和變換
2.3.1 數(shù)據(jù)集成
2.3.2 數(shù)據(jù)變換
2.3.3 維度歸約
2.4 數(shù)據(jù)歸約
2.4.1 數(shù)據(jù)立方體聚集
2.4.2 屬性子集選擇
2.5 本章小結(jié)
第3章 分類挖掘:決策樹(shù)
3.1 決策樹(shù)方法
3.2 決策樹(shù)深入
3.2.1 信息熵基礎(chǔ)
3.2.2 C4.5方法
3.2.3 CART方法
3.2.4 SLIQ方法
3.2.5 SPRINT方法
3.2.6 其他決策樹(shù)方法
3.3 決策樹(shù)的簡(jiǎn)化
3.4 決策樹(shù)的改進(jìn)
3.4.1 屬性選擇
3.4.2 連續(xù)屬性離散化
3.5 決策樹(shù)的討論
3.5.1 決策樹(shù)優(yōu)化問(wèn)題
3.5.2 決策樹(shù)優(yōu)化方法
3.6 分類模型的評(píng)估
3.7 本章小結(jié)
第4章 分類挖掘
4.1 貝葉斯方法
4.1.1 貝葉斯方法概述
4.1.2 樸素貝葉斯分類
4.2 k-近鄰方法
4.3 人工神經(jīng)網(wǎng)絡(luò)方法
4.4 遺傳進(jìn)化方法
4.5 支持向量機(jī)方法
4.5.1 SVM分類方法
4.6 粗糙集方法
4.7 集成學(xué)習(xí)方法
4.7.1 基本概念
4.7.2 Bagging
4.7.3 Boosting
4.8 本章小結(jié)
第5章 關(guān)聯(lián)挖掘
5.1 關(guān)聯(lián)挖掘簡(jiǎn)述
5.1.1 關(guān)聯(lián)挖掘應(yīng)用
5.2 關(guān)聯(lián)挖掘基本方法
5.2.1 關(guān)聯(lián)挖掘基本概念
5.2.2 關(guān)聯(lián)挖掘問(wèn)題
5.2.3 關(guān)聯(lián)挖掘類型
5.2.4 關(guān)聯(lián)挖掘基本方法
5.3 關(guān)聯(lián)挖掘方法改進(jìn)
5.3.1 Apriori算法改進(jìn)
5.3.2 頻繁模式增長(zhǎng)(FP.tree)算法
5.3.3 其他改進(jìn)算法
5.4 關(guān)聯(lián)挖掘并行方法
5.4.1 基于候選集復(fù)制的算法
5.4.2 劃分候選集的算法
5.4.3 混合策略:候選集部分復(fù)制
5.5 基于粒計(jì)算的關(guān)聯(lián)挖掘
5.5.1 基本思想
5.6 本章小結(jié)
第6章 聚類挖掘
6.1 聚類挖掘簡(jiǎn)述
6.2 基于劃分的聚類挖掘
6.2.1 k.means方法
6.3 基于層次的聚類挖掘
6.4 基于密度的聚類挖掘
6.5 基于網(wǎng)格的聚類挖掘
6.6 基于模型的聚類挖掘
6.7 高維海量數(shù)據(jù)的聚類挖掘
6.7.1 高維海量數(shù)據(jù)特點(diǎn)
6.7.2 高維海量數(shù)據(jù)聚類算法
6.8 基于蟻群算法的聚類挖掘
6.8.1 蟻群算法概述
6.8.2 蟻群算法特征
6.8.3 蟻群算法的研究熱點(diǎn)
6.8.4 基于蟻穴清理行為的聚類算法
6.8.5 基于蟻群覓食行為的聚類算法
6.8.6 螞蟻聚類算法分析
6.9 本章小結(jié)
第7章 異類挖掘
7.1 異類挖掘簡(jiǎn)述
7.1.1 基于統(tǒng)計(jì)的異常點(diǎn)檢測(cè)
7.1.2 基于距離的異常點(diǎn)檢測(cè)
7.1.3 基于偏差的異常點(diǎn)檢測(cè)
7.1.4 基于密度的異常點(diǎn)檢測(cè)
7.1.5 高維數(shù)據(jù)的異常點(diǎn)檢測(cè)
7.2 基于屬性的異常點(diǎn)檢測(cè)
7.2.1 基于屬性的異常點(diǎn)檢測(cè)
7.3 時(shí)序異常點(diǎn)檢測(cè)
7.3.1 時(shí)序異常點(diǎn)檢測(cè)概述
7.3.2 時(shí)序異常模式挖掘
7.4 空間異常點(diǎn)挖掘
7.5 時(shí)空異常點(diǎn)挖掘
7.6 數(shù)據(jù)流異常挖掘
7.6.1 基于單調(diào)搜索空間的突變檢測(cè)
7.6.2 基于分段分形模型的無(wú)參數(shù)異常檢測(cè)
7.7 本章小結(jié)
第8章 文本挖掘
第9章 視頻挖掘
第10章 視頻分析
第1章 數(shù)據(jù)挖掘?qū)д?br> 數(shù)據(jù)挖掘是20世紀(jì)80年代末開(kāi)始逐步發(fā)展起來(lái)的一個(gè)新的研究領(lǐng)域,它是多個(gè)學(xué)科和技術(shù)相結(jié)合的產(chǎn)物。本章將簡(jiǎn)要介紹數(shù)據(jù)挖掘的發(fā)展背景、概念定義、主要方法及應(yīng)用案例等內(nèi)容。
1.1 數(shù)據(jù)挖掘的發(fā)展背景
隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,無(wú)數(shù)個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開(kāi)發(fā)等領(lǐng)域,超級(jí)市場(chǎng)中的交易數(shù)據(jù)、加油站里的汽油銷售數(shù)據(jù)、旅行社的旅游信息等等,均構(gòu)成了數(shù)據(jù)庫(kù)系統(tǒng)的信息來(lái)源。近年來(lái),數(shù)據(jù)庫(kù)所管理的數(shù)據(jù)量急劇增大,人們積累的數(shù)據(jù)越來(lái)越多。例如:美國(guó)NASA的地球觀測(cè)系統(tǒng)(EoS)每小時(shí)向地面發(fā)回約50 GB的圖像數(shù)據(jù);美國(guó)沃爾瑪零售系統(tǒng)每天會(huì)產(chǎn)生約2億條交易數(shù)據(jù)。人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。激增的數(shù)據(jù)背后隱藏著許多重要的信息,目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)富有但知