《文本機(jī)器學(xué)習(xí)》系統(tǒng)性地介紹了多個(gè)經(jīng)典的和前沿的機(jī)器學(xué)習(xí)技術(shù)及其在文本域中的應(yīng)用。首先,詳細(xì)介紹了面向文本數(shù)據(jù)的預(yù)處理技術(shù)和經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)(如矩陣分解與主題建模、聚類與分類/回歸等),并深入探討了模型的原理和內(nèi)在聯(lián)系以及相應(yīng)的性能評(píng)估;其次,詳細(xì)介紹了結(jié)合異構(gòu)數(shù)據(jù)的文本學(xué)習(xí)技術(shù)(如知識(shí)共享與遷移學(xué)習(xí)等),以及面向信息檢索與排序的索引和評(píng)分等技術(shù);末尾,詳細(xì)介紹了一些文本應(yīng)用相關(guān)的重要技術(shù),包括序列建模與深度學(xué)習(xí)、文本摘要與信息提取、意見(jiàn)挖掘與情感分析、文本分割與事件檢測(cè)等。本書(shū)從技術(shù)原理到實(shí)際應(yīng)用,綜合梳理了文本機(jī)器學(xué)習(xí)的多個(gè)技術(shù),深入分析了模型的優(yōu)缺點(diǎn)和內(nèi)在聯(lián)系,并在每章結(jié)束時(shí)提供了詳細(xì)的參考資料、軟件資源和習(xí)題。
《文本機(jī)器學(xué)習(xí)》不僅可以作為工具書(shū)供具有相關(guān)背景的專業(yè)人士使用,也可以作為教材幫助具有線性代數(shù)和概率論基礎(chǔ)的初學(xué)者入門(mén)。
譯者序
原書(shū)前言
致謝
第1章 文本機(jī)器學(xué)習(xí)導(dǎo)論1
1.1導(dǎo)論1
1.1.1本章內(nèi)容組織結(jié)構(gòu)2
1.2文本學(xué)習(xí)有何特別之處3
1.3文本分析模型4
1.3.1文本預(yù)處理和相似度計(jì)算4
1.3.2降維與矩陣分解6
1.3.3文本聚類6
1.3.4文本分類與回歸建模8
1.3.5結(jié)合文本與異構(gòu)數(shù)據(jù)的聯(lián)合分析10
1.3.6信息檢索與網(wǎng)頁(yè)搜索11
1.3.7序列語(yǔ)言建模與嵌入11
1.3.8文本摘要11
1.3.9信息提取11
1.3.10意見(jiàn)挖掘與情感分析12
1.3.11文本分割與事件檢測(cè)12
1.4本章小結(jié)12
1.5參考資料13
1.5.1軟件資源13
1.6習(xí)題13
第2章 文本預(yù)處理與相似度計(jì)算15
2.1導(dǎo)論15
2.1.1本章內(nèi)容組織結(jié)構(gòu)16
2.2原始文本提取與詞條化16
2.2.1文本提取中與網(wǎng)頁(yè)相關(guān)的問(wèn)題18
2.3從詞條中提取詞項(xiàng)19
2.3.1停用詞移除19
2.3.2連字符19
2.3.3大小寫(xiě)轉(zhuǎn)換20
2.3.4基于用法的合并20
2.3.5詞干提取21
2.4向量空間表示與歸一化21
2.5文本中的相似度計(jì)算23
2.5.1idf歸一化和詞干提取是否總是有用25
2.6本章小結(jié)26
2.7參考資料26
2.7.1軟件資源26
2.8習(xí)題27
第3章 矩陣分解與主題建模28
3.1導(dǎo)論28
3.1.1本章內(nèi)容組織結(jié)構(gòu)30
3.1.2將二分解歸一化為標(biāo)準(zhǔn)的三分解30
3.2奇異值分解(SVD)31
3.2.1SVD的例子33
3.2.2實(shí)現(xiàn)SVD的冪迭代法35
3.2.3SVD/LSA的應(yīng)用35
3.2.4SVD/LSA的優(yōu)缺點(diǎn)36
3.3非負(fù)矩陣分解36
3.3.1非負(fù)矩陣分解的可解釋性38
3.3.2非負(fù)矩陣分解的例子39
3.3.3融入新文檔40
3.3.4非負(fù)矩陣分解的優(yōu)缺點(diǎn)41
3.4概率潛在語(yǔ)義分析(PLSA)41
3.4.1與非負(fù)矩陣分解的聯(lián)系44
3.4.2與SVD的比較44
3.4.3PLSA的例子45
3.4.4PLSA的優(yōu)缺點(diǎn)45
3.5隱含狄利克雷分布(LDA)概覽46
3.5.1簡(jiǎn)化的LDA模型46
3.5.2平滑的LDA模型49
3.6非線性變換和特征工程50
3.6.1選擇一個(gè)相似度函數(shù)52
3.6.2Nystrom估計(jì)58
3.6.3相似度矩陣的部分可用性60
3.7本章小結(jié)61
3.8參考資料62
3.8.1軟件資源62
3.9習(xí)題63
第4章 文本聚類65
4.1導(dǎo)論65
4.1.1本章內(nèi)容組織結(jié)構(gòu)66
4.2特征選擇與特征工程66
4.2.1特征選擇67
4.2.2特征工程68
4.3主題建模和矩陣分解70
4.3.1混合隸屬度模型與重疊簇70
4.3.2非重疊簇與雙聚類:矩陣分解的角度70
4.4面向聚類的生成混合模型74
4.4.1伯努利模型75
4.4.2多項(xiàng)式模型76
4.4.3與混合隸屬度主題模型的比較77
4.4.4與樸素貝葉斯分類模型的聯(lián)系77
4.5k均值算法78
4.5.1收斂與初始化80
4.5.2計(jì)算復(fù)雜度80
4.5.3與概率模型的聯(lián)系81
4.6層次聚類算法81
4.6.1高效實(shí)現(xiàn)與計(jì)算復(fù)雜度83
4.6.2與k均值的自然聯(lián)姻84
4.7聚類集成85
4.7.1選擇集成分量86
4.7.2混合來(lái)自不同分量的結(jié)果86
4.8將文本當(dāng)作序列來(lái)進(jìn)行聚類87
4.8.1面向聚類的核方法87
4.8.2數(shù)據(jù)相關(guān)的核方法:譜聚類90
4.9聚類到有監(jiān)督學(xué)習(xí)的轉(zhuǎn)換91
4.9.1實(shí)際問(wèn)題92
4.10聚類評(píng)估93
4.10.1內(nèi)部有效性度量的缺陷93
4.10.2外部有效性度量93
4.11本章小結(jié)97
4.12參考資料97
4.12.1軟件資源98
4.13習(xí)題98
第5章 文本分類:基本模型100
5.1導(dǎo)論100
5.1.1標(biāo)記的類型與回歸建模101
5.1.2訓(xùn)練與測(cè)試102
5.1.3歸納、直推和演繹學(xué)習(xí)器102
5.1.4基本模型103
5.1.5分類器中與文本相關(guān)的挑戰(zhàn)103
5.2特征選擇與特征工程104
5.2.1基尼系數(shù)104
5.2.2條件熵105
5.2.3逐點(diǎn)互信息105
5.2.4緊密相關(guān)的度量方式106
5.2.5χ2-統(tǒng)計(jì)量106
5.2.6嵌入式特征選擇模型108
5.2.7特征工程技巧108
5.3樸素貝葉斯模型109
5.3.1伯努利模型109
5.3.2多項(xiàng)式模型111
5.3.3實(shí)際觀察113
5.3.4利用樸素貝葉斯對(duì)輸出進(jìn)行排序113
5.3.5樸素貝葉斯的例子113
5.3.6半監(jiān)督樸素貝葉斯116
5.4最近鄰分類器118
5.4.11-最近鄰分類器的屬性119
5.4.2Rocchio與最近質(zhì)心分類121
5.4.3加權(quán)最近鄰122
5.4.4自適應(yīng)最近鄰:一系列有效的方法124
5.5決策樹(shù)與隨機(jī)森林126
5.5.1構(gòu)造決策樹(shù)的基本步驟126
5.5.2分裂一個(gè)節(jié)點(diǎn)127
5.5.3多變量分裂128
5.5.4決策樹(shù)在文本分類中的問(wèn)題129
5.5.5隨機(jī)森林129
5.5.6把隨機(jī)森林看作自適應(yīng)最近鄰方法130
5.6基于規(guī)則的分類器131
5.6.1順序覆蓋算法131
5.6.2從決策樹(shù)中生成規(guī)則133
5.6.3關(guān)聯(lián)分類器134
5.6.4預(yù)測(cè)135
5.7本章小結(jié)135
5.8參考資料135
5.8.1軟件資源137
5.9習(xí)題137
第6章 面向文本的線性分類與回歸140
6.1導(dǎo)論140
6.1.1線性模型的幾何解釋141
6.1.2我們需要偏置變量嗎142
6.1.3使用正則化的線性模型的一般定義143
6.1.4將二值預(yù)測(cè)推廣到多類144
6.1.5面向文本的線性模型的特點(diǎn)145
6.2最小二乘回歸與分類145
6.2.1使用L2正則化的最小二乘回歸145
6.2.2LASSO:使用L1正則化的最小二乘回歸148
6.2.3Fisher線性判別與最小二乘分類器150
6.3支持向量機(jī)(SVM)156
6.3.1正則優(yōu)化解釋156
6.3.2最大間隔解釋157
6.3.3Pegasos:在原始空間中求解SVM 159
6.3.4對(duì)偶SVM優(yōu)化形式160
6.3.5對(duì)偶SVM的學(xué)習(xí)算法162
6.3.6對(duì)偶SVM的自適應(yīng)最近鄰解釋163
6.4對(duì)數(shù)幾率回歸165
6.4.1正則優(yōu)化解釋165
6.4.2對(duì)數(shù)幾率回歸的訓(xùn)練算法166
6.4.3對(duì)數(shù)幾率回歸的概率解釋167
6.4.4多元對(duì)數(shù)幾率回歸與其他推廣168
6.4.5關(guān)于對(duì)數(shù)幾率回歸性能的評(píng)述169
6.5線性模型的非線性推廣170
6.5.1基于顯式變換的核SVM171
6.5.2為什么傳統(tǒng)的核函數(shù)能夠提升線性可分性172
6.5.3不同核函數(shù)的優(yōu)缺點(diǎn)174
6.5.4核技巧175
6.5.5核技巧的系統(tǒng)性應(yīng)用176
6.6本章小結(jié)179
6.7參考資料180
6.7.1軟件資源181
6.8習(xí)題181
第7章 分類器的性能與評(píng)估184
7.1導(dǎo)論184
7.1.1本章內(nèi)容組織結(jié)構(gòu)184
7.2偏置-方差權(quán)衡185
7.2.1一個(gè)形式化的觀點(diǎn)186
7.2.2偏置和方差的跡象189
7.3偏置-方差權(quán)衡在性能方面可能的影響189
7.3.1訓(xùn)練數(shù)據(jù)規(guī)模的影響189
7.3.2數(shù)據(jù)維度的影響191
7.3.3文本中模型選擇可能的影響191
7.4利用集成方法系統(tǒng)性地提升性能192
7.4.1bagging與子采樣192
7.4.2boosting193
7.5分類器評(píng)估195
7.5.1分割為訓(xùn)練部分和測(cè)試部分196
7.5.2絕對(duì)準(zhǔn)確率度量197
7.5.3面向分類和信息檢索的排序度量199
7.6本章小結(jié)204
7.7參考資料205
7.7.1boosting與對(duì)數(shù)幾率回歸的聯(lián)系205
7.7.2分類器評(píng)估205
7.7.3軟件資源206
7.7.4用于評(píng)估的數(shù)據(jù)集206
7.8習(xí)題206
第8章 結(jié)合異構(gòu)數(shù)據(jù)的聯(lián)合文本挖掘208
8.1導(dǎo)論208
8.1.1本章內(nèi)容組織結(jié)構(gòu)210
8.2共享矩陣分解的技巧210
8.2.1分解圖210
8.2.2應(yīng)用:結(jié)合文本和網(wǎng)頁(yè)鏈接進(jìn)行共享分解211
8.2.3應(yīng)用:結(jié)合文本與無(wú)向社交網(wǎng)絡(luò)214
8.2.4應(yīng)用:結(jié)合文本的圖像遷移學(xué)習(xí)215
8.2.5應(yīng)用:結(jié)合評(píng)分和文本的推薦系統(tǒng)217
8.2.6應(yīng)用:跨語(yǔ)言文本挖掘218
8.3分解機(jī)219
8.4聯(lián)合概率建模技術(shù)223
8.4.1面向聚類的聯(lián)合概率模型223
8.4.2樸素貝葉斯分類器224
8.5到圖挖掘技術(shù)的轉(zhuǎn)換224
8.6本章小結(jié)226
8.7參考資料227
8.7.1軟件資源227
8.8習(xí)題228
第9章 信息檢索與搜索引擎229
9.1導(dǎo)論229
9.1.1本章內(nèi)容組織結(jié)構(gòu)230
9.2索引和查詢處理230
9.2.1詞典數(shù)據(jù)結(jié)構(gòu)231
9.2.2倒排索引233
9.2.3線性時(shí)間的索引構(gòu)建234
9.2.4查詢處理236
9.2.5效率優(yōu)化244
9.3信息檢索模型的評(píng)分248
9.3.1基于tf-idf的向量空間模型248
9.3.2二值獨(dú)立模型249
9.3.3使用詞項(xiàng)頻率的BM25模型251
9.3.4信息檢索中的統(tǒng)計(jì)語(yǔ)言模型252
9.4網(wǎng)絡(luò)爬蟲(chóng)與資源發(fā)現(xiàn)254
9.4.1一個(gè)基本的爬蟲(chóng)算法255
9.4.2帶偏好的爬蟲(chóng)256
9.4.3多線程257
9.4.4避開(kāi)蜘蛛陷阱258
9.4.5用于近似重復(fù)檢測(cè)的Shingling方法258
9.5搜索引擎中的查詢處理259
9.5.1分布式索引構(gòu)建259
9.5.2動(dòng)態(tài)索引更新260
9.5.3查詢處理260
9.5.4信譽(yù)度的重要性261
9.6基于鏈接的排序算法262
9.6.1PageRank262
9.6.2HITS267
9.7本章小結(jié)269
9.8參考資料269
9.8.1軟件資源270
9.9習(xí)題270
第10章 文本序列建模與深度學(xué)習(xí)272
10.1導(dǎo)論272
10.1.1本章內(nèi)容組織結(jié)構(gòu)274
10.2統(tǒng)計(jì)語(yǔ)言模型274
10.2.1skip-gram模型277
10.2.2與嵌入的關(guān)系278
10.3核方法279
10.4單詞-上下文矩陣分解模型 280
10.4.1使用計(jì)數(shù)的矩陣分解280
10.4.2GloVe嵌入282
10.4.3PPMI矩陣分解283
10.4.4位移PPMI矩陣分解283
10.4.5融入句法和其他特征283
10.5單詞距離的圖形化表示284
10.6神經(jīng)語(yǔ)言模型285
10.6.1神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介285
10.6.2基于word2vec的神經(jīng)嵌入295
10.6.3word2vec(SGNS)是對(duì)數(shù)幾率矩陣分解302
10.6.4除了單詞以外:基于doc2vec的段落嵌入304
10.7循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)305
10.7.1實(shí)際問(wèn)題307
10.7.2RNN的語(yǔ)言建模示例308
10.7.3圖像描述應(yīng)用310
10.7.4序列到序列學(xué)習(xí)與機(jī)器翻譯311
10.7.5句子級(jí)分類應(yīng)用314
10.7.6使用語(yǔ)言特征的詞條級(jí)分類315
10.7.7多層循環(huán)網(wǎng)絡(luò)316
10.8本章小結(jié)319
10.9參考資料319
10.9.1軟件資源320
10.10習(xí)題321
第11章 文本摘要323
11.1導(dǎo)論323
11.1.1提取式摘要與抽象式摘要324
11.1.2提取式摘要中的關(guān)鍵步驟324
11.1.3提取式摘要中的分割階段324
11.1.4本章內(nèi)容組織結(jié)構(gòu)325
11.2提取式摘要的主題詞方法325
11.2.1詞項(xiàng)概率325
11.2.2歸一化頻率權(quán)重326
11.2.3主題簽名327
11.2.4句子選擇方法329
11.3提取式摘要的潛在方法329
11.3.1潛在語(yǔ)義分析330
11.3.2詞匯鏈331
11.3.3基于圖的方法332
11.3.4質(zhì)心摘要333
11.4面向提取式摘要的機(jī)器學(xué)習(xí)334
11.4.1特征提取334
11.4.2使用哪種分類器335
11.5多文檔摘要335
11.5.1基于質(zhì)心的摘要335
11.5.2基于圖的方法336
11.6抽象式摘要337
11.6.1句子壓縮337
11.6.2信息融合338
11.6.3信息排列338
11.7本章小結(jié)338
11.8參考資料339
11.8.1軟件資源339
11.9習(xí)題340
第12章 信息提取341
12.1導(dǎo)論341
12.1.1歷史演變343
12.1.2自然語(yǔ)言處理的角色343
12.1.3本章內(nèi)容組織結(jié)構(gòu)345
12.2命名實(shí)體識(shí)別345
12.2.1基于規(guī)則的方法346
12.2.2轉(zhuǎn)化為詞條級(jí)分類任務(wù)349
12.2.3隱馬爾可夫模型350
12.2.4最大熵馬爾可夫模型354
12.2.5條件隨機(jī)場(chǎng)355
12.3關(guān)系提取357
12.3.1轉(zhuǎn)換為分類問(wèn)題357
12.3.2利用顯式的特征工程進(jìn)行關(guān)系預(yù)測(cè)358
12.3.3利用隱式的特征工程進(jìn)行關(guān)系預(yù)測(cè):核方法361
12.4本章小結(jié)365
12.5參考資料365
12.5.1弱監(jiān)督學(xué)習(xí)方法366
12.5.2無(wú)監(jiān)督與開(kāi)放式信息提取 366
12.5.3軟件資源367
12.6習(xí)題367
第13章 意見(jiàn)挖掘與情感分析368
13.1導(dǎo)論368
13.1.1意見(jiàn)詞典370
13.1.2把意見(jiàn)挖掘看作槽填充和信息提取任務(wù)371
13.1.3本章內(nèi)容組織結(jié)構(gòu)372
13.2文檔級(jí)情感分析372
13.2.1面向分類的無(wú)監(jiān)督方法374
13.3短語(yǔ)級(jí)與句子級(jí)情感分類375
13.3.1句子級(jí)與短語(yǔ)級(jí)分析的應(yīng)用376
13.3.2主觀性分類到最小割問(wèn)題的歸約376
13.3.3句子級(jí)與短語(yǔ)級(jí)極性分析中的上下文377
13.4把基于方面的意見(jiàn)挖掘看作信息提取任務(wù)377
13.4.1Hu和Liu的無(wú)監(jiān)督方法378
13.4.2OPINE:一種無(wú)監(jiān)督方法379
13.4.3把有監(jiān)督意見(jiàn)提取看作詞條級(jí)分類任務(wù)380
13.5虛假意見(jiàn)381
13.5.1面向虛假評(píng)論檢測(cè)的有監(jiān)督方法382
13.5.2面向虛假評(píng)論制造者檢測(cè)的無(wú)監(jiān)督方法384
13.6意見(jiàn)摘要384
13.6.1評(píng)分總結(jié)384
13.6.2情感總結(jié)385
13.6.3基于短語(yǔ)與句子的情感總結(jié)385
13.6.4提取式與抽象式總結(jié)385
13.7本章小結(jié)385
13.8參考資料385
13.8.1軟件資源387
13.9習(xí)題387
第14章 文本分割與事件檢測(cè)388
14.1導(dǎo)論388
14.1.1與話題檢測(cè)和追蹤的關(guān)系388
14.1.2本章內(nèi)容組織結(jié)構(gòu)389
14.2文本分割389
14.2.1TextTiling390
14.2.2C99方法390
14.2.3基于現(xiàn)成的分類器的有監(jiān)督的分割392
14.2.4基于馬爾可夫模型的有監(jiān)督的分割393
14.3文本流挖掘395
14.3.1流式文本聚類395
14.3.2面向首次報(bào)道檢測(cè)的應(yīng)用 396
14.4事件檢測(cè)397
14.4.1無(wú)監(jiān)督的事件檢測(cè)397
14.4.2把有監(jiān)督的事件檢測(cè)看作有監(jiān)督的分割任務(wù)399
14.4.3把事件檢測(cè)看作一個(gè)信息提取問(wèn)題399
14.5本章小結(jié)402
14.6參考資料402
14.6.1軟件資源402
14.7習(xí)題403
參考文獻(xiàn)404