本書包括五個(gè)部分:第yi部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎(chǔ)技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達(dá)的諷刺檢測技術(shù);第三部分從用戶個(gè)性化建模的角度出發(fā),介紹多輪對(duì)話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對(duì)抗攻擊場景下的情感分類防御技術(shù)。
前言
文本情感分析是自然語言處理、人工智能與認(rèn)知科學(xué)等領(lǐng)域的重要研究方向之一。通過計(jì)算機(jī)自動(dòng)進(jìn)行文本情感分析的研究始于20世紀(jì)90年代,早期研究以文本情感分類為主,即把文本按照主觀傾向性分成正面、負(fù)面和中性三類。其中正面類別是指文本體現(xiàn)出支持的、積極的、喜歡的態(tài)度和立場,負(fù)面類別是指文本體現(xiàn)出反對(duì)的、消極的、厭惡的態(tài)度和立場,中性類別是指沒有偏向的態(tài)度和立場。隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們?cè)絹碓搅?xí)慣于在社交網(wǎng)絡(luò)上發(fā)表主觀性言論。社交網(wǎng)絡(luò)中的大量用戶生成數(shù)據(jù)為情感分析提供了新的機(jī)遇,同時(shí)也帶來了新的挑戰(zhàn)。
從內(nèi)容的角度看,很多言論所蘊(yùn)含的情感是隱式的,而機(jī)器很難從表面文字推理言外之意;從用戶的角度看,每個(gè)人的性格不同導(dǎo)致情感表達(dá)的方式也不同,所以要考慮用戶特征進(jìn)行個(gè)性化情感分析,不能一概而論;從語料的角度看,對(duì)于低資源領(lǐng)域或者任務(wù),已有的數(shù)據(jù)驅(qū)動(dòng)模型難以取得令人滿意的效果;從魯棒性和安全性的角度看,現(xiàn)有的深度學(xué)習(xí)模型很容易受到不易覺察的對(duì)抗攻擊,從而產(chǎn)生錯(cuò)誤的情感預(yù)測。因此,傳統(tǒng)的文本情感分析方法已經(jīng)難以滿足復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)的分析需求。此外,隨著個(gè)性化推薦、用戶畫像分析、對(duì)話機(jī)器人等新技術(shù)和新應(yīng)用的興起,相關(guān)的情感分析技術(shù)也需要不斷升級(jí),從而提供更加智能化、更加人性化、更加共情的情感分析服務(wù)。
本書針對(duì)以上挑戰(zhàn),全面系統(tǒng)地介紹高級(jí)文本情感分析的核心技術(shù)與應(yīng)用實(shí)踐。本書包括五個(gè)部分:部分介紹文本情感分析的研究背景、研究現(xiàn)狀和基礎(chǔ)技術(shù);第二部分從內(nèi)容語義理解的角度出發(fā),介紹基于隱式表達(dá)的諷刺檢測技術(shù);第三部分從用戶個(gè)性化建模的角度出發(fā),介紹多輪對(duì)話中的情緒分析技術(shù);第四部分介紹小樣本場景下的立場檢測解決方案;第五部分介紹對(duì)抗攻擊場景下的情感分類防御技術(shù)。
本書可以為人工智能、機(jī)器學(xué)習(xí)、自然語言處理和社會(huì)計(jì)算等領(lǐng)域的從業(yè)者和科研人員提供一些前沿視野及相關(guān)理論、方法和技術(shù),如基于隱式表達(dá)的諷刺檢測、面向個(gè)性化的多輪對(duì)話情緒分析、小樣本場景下的立場檢測等,也可作為相關(guān)專業(yè)高年級(jí)本科生或研究生的參考教材。
由于作者水平有限,因此盡管盡了的努力,但書中依然難免存在疏漏和錯(cuò)誤之處,敬請(qǐng)廣大專家、讀者批評(píng)指正。
作者
2023年1月
林政 中國科學(xué)院信息工程研究所研究員、博士生導(dǎo)師,中國科學(xué)院信息工程研究所第三研究室IIE-NLP小組負(fù)責(zé)人。主要研究領(lǐng)域是自然語言處理、網(wǎng)絡(luò)內(nèi)容安全,具體包括情感/情緒分析、機(jī)器閱讀理解、神經(jīng)網(wǎng)絡(luò)模型壓縮等研究任務(wù)。在2018、2019年連續(xù)獲得兩屆全國“軍事智能-機(jī)器閱讀”挑戰(zhàn)賽冠軍。2020年在常識(shí)推理閱讀國際比賽排行榜上取得了三個(gè)任務(wù)的名。近幾年在TASLP、ACL、EMNLP、AAAI、IJCAI、WWW、CIKM、WSDM、ICMR等國內(nèi)外學(xué)術(shù)會(huì)議和期刊上發(fā)表論文50篇,入選科技部F5000優(yōu)秀論文,獲得國家自然科學(xué)基金青年項(xiàng)目、面上項(xiàng)目、國家重點(diǎn)研發(fā)計(jì)劃等多個(gè)項(xiàng)目資助。
目錄
前言
部分
第1章 概述2
1.1文本情感分析相關(guān)概念2
1.2文本情感分析方法4
1.2.1基于知識(shí)庫的方法4
1.2.2基于機(jī)器學(xué)習(xí)的方法4
1.2.3基于深度學(xué)習(xí)的方法5
1.3情感分析的應(yīng)用5
1.3.1商業(yè)領(lǐng)域5
1.3.2文化領(lǐng)域6
1.3.3社會(huì)管理7
1.3.4信息預(yù)測7
1.3.5情緒管理8
1.3.6智能客服8
1.4情感分析面臨的困難9
1.5機(jī)遇和挑戰(zhàn)9
1.6本章小結(jié)10
第2章文本情感分析基礎(chǔ)13
2.1有監(jiān)督學(xué)習(xí)13
2.2無監(jiān)督學(xué)習(xí)13
2.3半監(jiān)督學(xué)習(xí)14
2.4詞向量14
2.4.1詞向量表示的演化過程14
2.4.2詞嵌入方法15
2.5卷積神經(jīng)網(wǎng)絡(luò)18
2.5.1卷積層19
2.5.2激活函數(shù)層20
2.5.3池化層21
2.5.4全連接層22
2.6循環(huán)神經(jīng)網(wǎng)絡(luò)22
2.7記憶網(wǎng)絡(luò)24
2.8預(yù)訓(xùn)練模型25
2.8.1模型結(jié)構(gòu)25
2.8.2預(yù)訓(xùn)練任務(wù)27
2.9本章小結(jié)27
第二部分
第3章基于文本片段不一致性的諷刺
檢測模型32
3.1任務(wù)與術(shù)語32
3.2片段不一致性32
3.3自注意力機(jī)制33
3.4模型框架33
3.4.1總體框架33
3.4.2輸入模塊34
3.4.3卷積模塊34
3.4.4重要性權(quán)重模塊34
3.4.5注意力機(jī)制模塊35
3.4.6輸出模塊35
3.4.7訓(xùn)練目標(biāo)36
3.5實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析36
3.5.1數(shù)據(jù)集介紹36
3.5.2實(shí)驗(yàn)環(huán)境和設(shè)置37
3.5.3基線模型37
3.5.4對(duì)比實(shí)驗(yàn)結(jié)果37
3.5.5消融實(shí)驗(yàn)結(jié)果39
3.5.6模型分析39
3.6應(yīng)用實(shí)踐41
3.7本章小結(jié)42
第4章基于常識(shí)知識(shí)的諷刺檢測
44
4.1任務(wù)與術(shù)語44
4.2常識(shí)知識(shí)資源44
4.3知識(shí)生成方法45
4.4知識(shí)選擇方法45
4.5知識(shí)融合方法46
4.6模型框架47
4.7實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析47
4.7.1數(shù)據(jù)集介紹47
4.7.2實(shí)驗(yàn)環(huán)境和設(shè)置48
4.7.3基線模型48
4.7.4對(duì)比實(shí)驗(yàn)結(jié)果48
4.7.5消融實(shí)驗(yàn)結(jié)果50
4.7.6模型分析50
4.8應(yīng)用實(shí)踐52
4.9本章小結(jié)53
第5章基于多模態(tài)數(shù)據(jù)的諷刺檢測
55
5.1任務(wù)與術(shù)語55
5.2模態(tài)內(nèi)注意力55
5.3模態(tài)間注意力56
5.4模型框架57
5.5實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析57
5.5.1數(shù)據(jù)集介紹57
5.5.2實(shí)驗(yàn)環(huán)境和設(shè)置58
5.5.3基線模型58
5.5.4對(duì)比實(shí)驗(yàn)結(jié)果59
5.5.5消融實(shí)驗(yàn)結(jié)果59
5.5.6模型分析60
5.6應(yīng)用實(shí)踐61
5.7本章小結(jié)63
第三部分
第6章基于用戶建模的對(duì)話情緒分析
66
6.1任務(wù)與術(shù)語66
6.2層級(jí)Transformer和Mask機(jī)制
69
6.3自己-自己關(guān)系建模71
6.4自己-其他關(guān)系建模72
6.5用戶關(guān)系權(quán)重選擇72
6.6模型框架73
6.7應(yīng)用實(shí)踐76
6.7.1常用數(shù)據(jù)集76
6.7.2其他對(duì)話用戶關(guān)系建模模型
76
6.7.3實(shí)驗(yàn)結(jié)果77
6.8本章小結(jié)80
第7章基于過去、現(xiàn)在和未來的對(duì)話
情緒分析84
7.1任務(wù)與術(shù)語84
7.2常識(shí)知識(shí)庫85
7.2.1ATOMIC常識(shí)知識(shí)庫86
7.2.2COMET知識(shí)生成模型87
7.2.3COMETATOMIC2020知識(shí)生成
模型88
7.3圖神經(jīng)網(wǎng)絡(luò)88
7.4基于知識(shí)的情緒預(yù)測92
7.4.1知識(shí)增強(qiáng)的Transformer93
7.4.2COSMIC情緒預(yù)測模型94
7.5對(duì)話上下文交互圖構(gòu)建95
7.6模型框架97
7.7應(yīng)用實(shí)踐98
7.8本章小結(jié)99
第8章基于平衡特征空間的不平衡
情緒分析102
8.1情緒分析中的不平衡問題102
8.2基于重采樣的平衡策略103
8.3基于重權(quán)重化的平衡策略104
8.3.1類別平衡損失函數(shù)104
8.3.2標(biāo)簽分布感知的間隔損失函數(shù)
106
8.4基于數(shù)據(jù)增強(qiáng)的平衡策略107
8.4.1計(jì)算機(jī)視覺中的基于數(shù)據(jù)增強(qiáng)
的平衡策略107
8.4.2自然語言處理中的數(shù)據(jù)增強(qiáng)方法
108
8.5Focal損失函數(shù)108
8.6自我調(diào)整的Dice損失函數(shù)109
8.7中心損失函數(shù)110
8.8三元組中心損失函數(shù)110
8.9馬氏分布中心111
8.10特征空間平衡損失函數(shù)112
8.11應(yīng)用實(shí)踐113
8.11.1代碼實(shí)現(xiàn)113
8.11.2實(shí)驗(yàn)性能115
8.12本章小結(jié)117
第四部分
第9章基于語義-情緒知識(shí)的跨目標(biāo)
立場檢測122
9.1任務(wù)描述122
9.2立場檢測基礎(chǔ)模型123
9.3語義知識(shí)和情緒知識(shí)123
9.4模型框架124
9.5語義-情緒圖建模125
9.6知識(shí)增強(qiáng)的BiLSTM網(wǎng)絡(luò)125
9.7立場檢測分類器127
9.8模型應(yīng)用127
9.8.1實(shí)驗(yàn)說明127
9.8.2實(shí)驗(yàn)結(jié)果與分析128
9.9本章小結(jié)129
第10章基于元學(xué)習(xí)的跨領(lǐng)域立場檢測
131
10.1元學(xué)習(xí)概念131
10.2有監(jiān)督元學(xué)習(xí)131
10.2.1基于度量的元學(xué)習(xí)方法131
10.2.2基于模型的元學(xué)習(xí)方法133
10.2.3基于優(yōu)化的元學(xué)習(xí)方法135
10.3MAML算法136
10.4基于元學(xué)習(xí)的立場檢測模型
137
10.5應(yīng)用實(shí)踐138
10.5.1數(shù)據(jù)集介紹138
10.5.2實(shí)驗(yàn)細(xì)節(jié)139
10.5.3對(duì)比模型139
10.5.4實(shí)驗(yàn)結(jié)果139
10.5.5核心代碼140
10.6本章小結(jié)142
第11章知識(shí)增強(qiáng)的零樣本和小樣本
立場檢測144
11.1任務(wù)與術(shù)語144
11.2概念知識(shí)圖145
11.3多關(guān)系圖神經(jīng)網(wǎng)絡(luò)146
11.4基于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)的
知識(shí)圖編碼147
11.5知識(shí)增強(qiáng)的立場檢測模型
147
11.6應(yīng)用實(shí)踐149
11.6.1實(shí)驗(yàn)設(shè)置149
11.6.2核心代碼149
11.6.3對(duì)比方法152
11.6.4實(shí)驗(yàn)結(jié)果與分析152
11.7本章小結(jié)154
第五部分
第12章面向情感分類的對(duì)抗攻擊
158
12.1對(duì)抗樣本的概念158
12.1.1對(duì)抗樣本的提出158
12.1.2對(duì)抗樣本的定義159
12.2擾動(dòng)控制160
12.2.1編輯距離160
12.2.2歐氏距離160
12.2.3余弦距離161
12.2.4Jaccard相似系數(shù)161
12.2.5單詞移動(dòng)距離161
12.2.6各種指標(biāo)的應(yīng)用161
12.3白盒攻擊與黑盒攻擊162
12.4目標(biāo)攻擊與非目標(biāo)攻擊16