網絡空間一如物理世界,所有行為背后都可以看見人的影子,本書給出的即是一種網絡行為的洞察術,書中具體研究網絡行為背后是誰、是何居心以及此行為有無規(guī)律、可否預測等的理論和方法。
本書共9章,在總體概論的基礎上,按照分析過程,對網絡行為數據獲取、數據聚合、數據處理、網絡用戶資源測繪、事件檢測與評估、事件溯源、行為預測等幾部分內容進行了體系化的講解,并給出了基于行為分析的網絡智慧治理方法。
本書例程翔實,體系完整,既可作為大數據、人工智能、網絡空間安全領域的教材,也可作為網絡行為分析專業(yè)研究者的工具書和參考書。
善惡同源,駕之者勝。當今世界,網絡已經成為如同空氣和水一樣幾乎不可或缺的存在,同時,網絡的虛擬性也使其成為各種惡行滋生泛濫的空間:騷擾、詐騙、謠言、虛假評論、不良信息、反動宣傳、網絡滲透、網絡群體性事件、網絡病毒,凡此種種,危害百姓利益,破壞社會穩(wěn)定甚至威脅國家安全。習總書記指出,網絡空間天朗氣清、生態(tài)良好,符合人民利益。網絡空間的治理,不但需要全社會共同參與、共同努力,更需要技術手段的支撐和保障。網絡空間安全的重要性已為全社會所公認,相關理論與技術也全面開花、枝繁葉茂。
凡是行過,皆有痕跡。網絡世界,縱然表象繁雜繚亂,技術五花八門,其深層的背后仍然是物理世界鮮活的人,因而其本質與物理世界并無二致,“行”則有“痕”,透過“痕”則可以看清人。網絡空間的“行”即網絡行為,其“痕”即為網絡行為數據。網絡行為既是網絡世界的重要組成部分,也是網絡世界存在的理由。網絡空間自身構成虛擬世界,但是由于網絡背后的主角和驅動力是人,因而其必定與物理世界建立連接,構成廣義上的網絡空間。在廣義的網絡空間中,從衣食住行到精神需求甚至于其他的方方面面,物理世界的人都可以通過具體的網絡行為得到解決和滿足。通過對這些行為數據的分析,不難理解行為者的動機,甚至可以通過歷史規(guī)律的分析對未來行為進行預測,這就是網絡行為分析的初衷。網絡行為分析技術近年來蓬勃發(fā)展,已發(fā)展成為網絡空間安全的重要支撐。
有道無術,術尚可求;有術無道,止于術。網絡分析技術的快速發(fā)展急需與之相適應的科學理論,然而截至目前,尚缺乏全面、統一的網絡行為分析專著。我們在近年來的項目實踐和學術研究中發(fā)現,網絡大數據及人工智能的很多應用及研究雖名目各異,然本質和方法上殊途同歸,深感統一論述之必要;诮y一論述的初衷,本書搜聚當前最熱點的網絡行為分析類應用,以它們?yōu)槠鹗佳芯繉ο,針對它們做共性分析,建立網絡行為分析技術的基本概念和框架,進而按照網絡行為分析的過程,從行為數據獲取、數據聚合、數據處理、網絡用戶資源測繪、事件檢測與評估、事件溯源、行為預測等幾方面進行了體系化的講解,最后給出了基于網絡行為分析的網絡智慧治理方法。
兵無常法,水無常形,運用之妙,存乎一心。本書重點講述關于行為分析的技術體系、技術原理及技術應用方法,但要正確分析網絡行為,僅限于此是遠遠不夠的。技術乃良工之利器,其重要性毋庸置疑,不過任何技術都不是萬能仙丹,一試必靈,必須認真考察應用場景對技術的選擇性以及技術針對應用場景的主動適應,尤其網絡行為分析,其背后是復雜的、活生生的人。“周公恐懼流言日,王莽謙恭未篡時”說的就是識人之難。對網絡行為分析來說,除了識人本難,需要從人性角度進行考察外,還要加上前置環(huán)節(jié),即行為數據的選取難。人類沒有上帝視角,永遠無法得到全要素、全周期的行為數據,選取數據時,必須擺脫無關及偽劣數據的牽制、迷惑和干擾,否則如同緣木求魚,結論可能與真相差之千里。可以說,行為數據選擇的代表性和準確性很大程度上決定了行為分析的有效性。
本書的內容組織和形式設計,試圖以身邊的熱點應用為起點,以容易理解的方式引導讀者建立關于行為分析的整體概念,包括通用定義和理論框架,進而以具體的例程貫穿行為分析各個環(huán)節(jié)的講解,以幫助讀者對照概念開展實操以深化理解。其中,全書的章節(jié)內容規(guī)劃和整體統籌由于洪濤負責,第1章由于洪濤、吳翼騰編寫,第2、4章由李邵梅編寫,第3、8章由吳翼騰編寫,第5章由黃瑞陽、李倩編寫,第6章由吳翼騰、曲強編寫,第7章由吳錚、丁悅航編寫,第9章由曲強編寫。另外,趙秀明、胡新棒、鄭洪浩、李繼中等為本書的繪圖、審校、排版付出了大量心血,在此特真誠感謝他們的辛苦付出和認真態(tài)度。
本書終于能夠付諸出版,感觸良多,我要感謝所有給予我智慧的偉大的學者們,還要感謝職業(yè)生涯中給予我真誠的幫助、啟發(fā)以及值得回憶和自省的人和事。特別地:
感謝已去世多年的父親,他曾經當過多年的村支書,沉默寡言,很少過問我的學習和工作,但是他說過的一句話讓我永生難忘,那就是在他供我們姐弟幾個上學、遭遇親鄰不解甚至嘲諷時說的“砸鍋賣鐵也要供孩子們上學”。正是這句話讓我們姐弟幾個都走出農門、接受了高等教育,也正是這句話,讓他負債勞累多年,卻幾乎沒有享受過生活。父親,我時常在夢中看到您慈祥的微笑!
感謝我的母親,她只是一個普通的農民,幾乎沒有接受過什么教育,但她是十里八村有名的記憶力好、識字多的人。在她八十多歲的時候,仍然會偶爾戴上老花鏡顫顫巍巍地給孫女寫上一兩句祝福的話,也會在遇到不認識的字時向別人虛心請教。她有著那個年代婦女共有的勤勞能干的品質,而且富有生活智慧,印象中當年她總能把貧窮的家打理得整潔溫馨。她常常會用“但做好事莫問前程”之類的俗語,告訴我們做個好人,做個善良的人。母親很寬容,對所有的人,其中也包括我,她從不計較我沒在她膝前盡孝。今年疫情期間母親不幸離世,即使在她生命最后的時間里,仍然時常催我早點回單位,好好工作。寸草之心,何以報母愛春暉!
在此特別感謝我的三個姐姐,這些年來,她們毫無怨言、默默付出,照顧父親母親,總是告訴我不用牽掛家里,又時常提醒我工作的時候要勞逸結合、保重身體。有她們在,我有一種一直沒有長大的錯覺,不用操心家里的事,也沒有在父母前盡到我的孝心。她們的愛如冬日暖陽,溫柔和煦。我只想在此告訴她們,我一直幸運于做她們的弟弟!
衷心感謝我的愛人,她在兢兢業(yè)業(yè)完成自己工作的同時,無私地操持著全家的衣食起居,默默承擔著單調、枯燥、瑣碎的家務勞動。她一直包容我的缺點,還用實際行動理解并支持我的工作,會在我忙得暈頭轉向的時候提醒我給母親打電話、陪母親嘮嘮家常,也會在我苦惱煩躁時給予我耐心的傾聽和安慰,還會在很多問題上與我交流看法,從新的視角給我中肯的建議、啟發(fā)性的思路甚至完美的答案。她的鼓勵和支持,是我完成此書最大的動力!
感謝我的女兒,她很小就獨自踏上異國求學之路,用瘦小柔弱的肩膀扛下了一個人在外的生活和學習壓力。尤其是2020年的新冠疫情期間,她自己謀劃、克服重重阻力,輾轉第三國回到澳大利亞,并且在澳大利亞疫情爆發(fā)后,一邊堅持學業(yè),一邊“深挖洞、廣積糧”,整個過程,讓我見識并且感動于她的獨立、努力和堅強。自強者,人恒強之,謹以此書與她共勉!
感謝西安電子科技大學出版社的李惠萍老師,她熱情地支持我編寫此書,且在寫作過程中給予我不厭其煩的悉心指導。
由于作者水平有限,書中難免存在不足與紕漏之處,敬請廣大讀者不吝指正。
第1章 網絡行為分析概述 1
1.1 引言 1
1.2 網絡行為分析的基本概念和實現過程 2
1.3 網絡行為分析的八類熱點應用 3
1.3.1 用戶行為數據聚合 3
1.3.2 社交網絡群體發(fā)現 5
1.3.3 網絡機器人行為分析與異常檢測 7
1.3.4 信息傳播建模 8
1.3.5 入侵檢測 9
1.3.6 用戶畫像 9
1.3.7 推薦系統 11
1.3.8 點擊率預測 12
1.4 網絡行為分析的共性方法 13
1.4.1 基于結構化屬性信息的方法 14
1.4.2 基于文本信息的方法 14
1.4.3 基于圖像信息的方法 15
1.4.4 基于網絡結構信息的方法 16
1.4.5 基于軌跡信息的方法 16
1.5 常用方法對比分析 17
1.5.1 行為分析方法的實現過程 18
1.5.2 特征建模的有效性和可解釋性 18
1.5.3 機器學習模型的安全性 19
1.5.4 機器學習方法對計算資源的
依賴性 20
1.6 網絡行為分析與網絡智慧治理 20
本章小結 22
本章參考文獻 23
第2章 網絡空間行為分析數據采集技術 24
2.1 基于爬蟲的網絡數據采集 24
2.1.1 靜態(tài)頁面的數據爬取 25
2.1.2 動態(tài)頁面的數據爬取 28
2.1.3 滑塊驗證登錄 33
2.1.4 字體二次編碼 41
2.1.5 Scrapy爬蟲簡介 47
2.1.6 基于Scrapy-Redis的分布式爬蟲 52
2.2 網站分析數據的采集 56
2.2.1 基于Web日志的采集方式 56
2.2.2 基于JavaScript標記的方式 57
2.2.3 基于第三方平臺的網站數據
采集方式 59
2.3 全量流量采集 61
2.3.1 基于SNMP的流量采集 61
2.3.2 基于端口鏡像的流量采集 62
2.3.3 基于探針的流量采集 63
2.3.4 基于分光器的流量采集 63
2.3.5 基于NetFlow的流量采集 64
2.3.6 基于sFlow的流量采集 65
本章小結 66
本章參考文獻 66
第3章 網絡空間行為數據聚合技術 67
3.1 用戶行為數據聚合的基本概念 67
3.1.1 問題描述 69
3.1.2 技術框架 70
3.1.3 相似度計算 71
3.1.4 賬號匹配 74
3.1.5 評價指標 78
3.2 基于網絡結構信息的行為數據
聚合技術 79
3.2.1 基于隱藏標簽節(jié)點挖掘的方法 80
3.2.2 基于網絡表示學習的方法 84
3.3 基于屬性文本信息的行為
數據聚合技術 88
3.3.1 基于屬性信息熵權決策的方法 89
3.3.2 基于模糊積分的屬性文本
信息融合方法 92
3.4 基于用戶軌跡信息的行為
數據聚合技術 97
3.4.1 基于軌跡位置訪問順序特征的
方法 97
3.4.2 基于時空軌跡順序特征表示的
方法 103
本章小結 108
本章參考文獻 108
第4章 網絡行為數據的提取、處理和管理 109
4.1 網絡協議解析 109
4.1.1 pcap文件格式 109
4.1.2 基于WireShark的網絡協議解析 111
4.1.3 基于Scapy的網絡協議解析 115
4.2 數據清洗 116
4.2.1 去除/填充有缺失的數據 117
4.2.2 邏輯錯誤清洗 119
4.2.3 關聯性驗證 119
4.3 特征數據的處理 120
4.3.1 定性特征的處理方法 120
4.3.2 時間型特征的處理方法 122
4.3.3 文本型特征的處理方法 122
4.3.4 組合特征分析 123
4.4 特征選取 124
4.4.1 過濾式(Filter) 124
4.4.2 包裹式(Wrapper) 125
4.4.3 嵌入式(Embedded) 125
4.5 網絡行為分析的特征提取案例 126
4.5.1 數據理解與分析 126
4.5.2 特征預處理 128
4.5.3 特征聯想 128
4.5.4 特征提取 130
4.5.5 特征選擇 131
4.6 用戶行為特征管理 131
4.6.1 存儲機制 131
4.6.2 查詢機制 133
4.6.3 定時更新機制 134
本章小結 136
本章參考文獻 136
第5章 基于行為分析的網絡用戶資源測繪 137
5.1 全局性網絡用戶資源測繪 137
5.1.1 用戶通聯網絡的構建 138
5.1.2 用戶通聯網絡拓撲結構分析 139
5.1.3 用戶通聯網絡抗毀性分析 141
5.1.4 用戶群組發(fā)現 145
5.2 用戶個性化深度測繪 147
5.2.1 通信用戶多維度特征建模 147
5.2.2 通信用戶畫像構建技術 151
本章小結 153
本章參考文獻 154
第6章 事件檢測與事件狀態(tài)評估 155
6.1 網絡輿情事件檢測 155
6.1.1 虛假內容檢測 156
6.1.2 水軍賬戶檢測 160
6.1.3 新興事件檢測 162
6.2 事件狀態(tài)評估 163
6.2.1 突發(fā)事件分析 164
6.2.2 電信詐騙分析 164
6.2.3 輿情事件分析 166
6.2.4 事件狀態(tài)評估的層次分析法 168
本章小結 173
本章參考文獻 173
第7章 網絡事件溯源 174
7.1 圖像視頻理解 174
7.1.1 基于特征的圖像理解方法 175
7.1.2 深度學習方法生成圖像描述 178
7.1.3 行人身份識別 181
7.1.4 視頻理解 194
7.2 單一自媒體事件信息溯源 195
7.2.1 微博類信息溯源的概念 195
7.2.2 影響力計算及意見領袖發(fā)現 196
7.2.3 微博類信息傳播模型 197
7.2.4 微博類信息溯源的方法分類 197
7.3 多源媒體事件信息溯源 201
7.3.1 多源媒體信息溯源的概念 201
7.3.2 多源媒體信息的統一表達 201
7.3.3 多源媒體信息的聯合溯源方法 202
本章小結 204
本章參考文獻 204
第8章 網絡用戶行為預測 205
8.1 鏈路預測技術 205
8.1.1 鏈路預測方法概述 206
8.1.2 基于靜態(tài)信息的鏈路預測技術 211
8.1.3 基于時序信息的鏈路預測技術 216
8.2 消費行為預測和消息精準推送 221
8.2.1 消費預測和消息推送的
協同推薦技術概述 222
8.2.2 以用戶為中心的協同推薦技術 226
8.2.3 以項目為中心的協同推薦技術 231
本章小結 236
本章參考文獻 236
第9章 網絡空間智慧治理 237
9.1 柔性治理技術 238
9.1.1 誘導圖片生成 239
9.1.2 誘導文本生成 243
9.1.3 誘導音視頻生成 249
9.1.4 誘導網絡生成 252
9.1.5 柔性治理技術小結 254
9.2 剛性治理技術 254
9.2.1 小范圍隔離治理 255
9.2.2 大范圍阻斷治理 256
本章小結 257
本章參考文獻 257