《圖數(shù)據(jù)管理與挖掘》介紹了圖數(shù)據(jù)管理與挖掘的關(guān)鍵技術(shù),涵蓋基于集合相似度的子圖匹配查詢處理方法與原型系統(tǒng)、情境感知的個(gè)性化推薦方法、利用多層聚簇的跨類協(xié)同過濾推薦算法、基于潛在主題的準(zhǔn)確性Web社區(qū)協(xié)同推薦方法、基于用戶社區(qū)全域關(guān)系閉包的高效均衡性Web社區(qū)推薦方法、Web社區(qū)推薦原型系統(tǒng)、大規(guī)模時(shí)空?qǐng)D中人類行為模式的實(shí)時(shí)挖掘方法、基于潛在引用圖數(shù)據(jù)的專利價(jià)值評(píng)估方法、基于專利關(guān)聯(lián)的新穎專利查找方法,以及異構(gòu)專利網(wǎng)絡(luò)中的競(jìng)爭(zhēng)對(duì)手主題預(yù)測(cè)方法。
《圖數(shù)據(jù)管理與挖掘》適合計(jì)算機(jī)、信息管理等相關(guān)專業(yè)的高年級(jí)本科生和研究生閱讀,也可作為數(shù)據(jù)科學(xué)等相關(guān)領(lǐng)域的研究與開發(fā)人員的參考書。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
最近幾年,圖數(shù)據(jù)管理與挖掘技術(shù)的發(fā)展和應(yīng)用引起了國(guó)內(nèi)外研究者和工業(yè)界的極大興趣。圖作為一種常見的數(shù)據(jù)表示模型,用于建模復(fù)雜數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián),例如社會(huì)網(wǎng)絡(luò)、語(yǔ)義網(wǎng)、路網(wǎng)、生物網(wǎng)絡(luò)、專利網(wǎng)絡(luò)等。圖數(shù)據(jù)庫(kù)是指被存儲(chǔ)的數(shù)據(jù)對(duì)象是基于圖數(shù)據(jù)模型的。圖數(shù)據(jù)管理的核心問題是圖數(shù)據(jù)庫(kù)的查詢處理,即基于圖模型的結(jié)構(gòu)查詢,例如子圖匹配查詢、路徑可達(dá)性查詢、路徑距離查詢等。雖然從某種角度上來(lái)說,圖數(shù)據(jù)庫(kù)中的查詢也可以用SQL語(yǔ)言來(lái)表達(dá),利用現(xiàn)有的RDBMS的查詢功能來(lái)完成,但是這樣的查詢系統(tǒng)的性能是非常低的。圖數(shù)據(jù)管理研究的關(guān)鍵點(diǎn)是如何設(shè)計(jì)有效的索引結(jié)構(gòu)和查詢算法來(lái)快速地回答圖數(shù)據(jù)庫(kù)中的結(jié)構(gòu)查詢問題。圖數(shù)據(jù)挖掘相比于關(guān)系數(shù)據(jù)庫(kù)的挖掘更強(qiáng)調(diào)的是發(fā)現(xiàn)與分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的關(guān)聯(lián)關(guān)系在數(shù)據(jù)挖掘和分析的過程中越來(lái)越受到重視,是商務(wù)智能、決策支持、科學(xué)研究等領(lǐng)域的核心問題與難點(diǎn)。對(duì)于圖數(shù)據(jù)管理與挖掘查詢的研究最早可以追溯到20世紀(jì)90年代。最近,由于社會(huì)網(wǎng)絡(luò)數(shù)據(jù),專利網(wǎng)絡(luò)數(shù)據(jù),以及語(yǔ)義網(wǎng)數(shù)據(jù)等領(lǐng)域大數(shù)據(jù)的大量出現(xiàn),引起了對(duì)于圖數(shù)據(jù)管理與挖掘的新一輪研究熱潮。在最近幾年的三大國(guó)際數(shù)據(jù)庫(kù)頂級(jí)會(huì)議(SIGMOD,VLDB和ICDE)上均有圖數(shù)據(jù)管理與挖掘的相關(guān)論文,并且數(shù)量與比例逐年上升。
社會(huì)網(wǎng)絡(luò)、時(shí)空?qǐng)D以及專利網(wǎng)絡(luò)具有天然的圖數(shù)據(jù)特征,數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)以及大數(shù)據(jù)的產(chǎn)生給管理和挖掘這些數(shù)據(jù)帶來(lái)了巨大的挑戰(zhàn)。本書以圖數(shù)據(jù)理論與模型為基礎(chǔ),面向社會(huì)網(wǎng)絡(luò)、時(shí)空?qǐng)D、專利網(wǎng)絡(luò)等應(yīng)用領(lǐng)域,提出了一系列的圖數(shù)據(jù)管理與挖掘關(guān)鍵技術(shù)。
本書的撰寫得到武漢大學(xué)多位教師、同學(xué)的大力協(xié)助和支持,尤其是余騫博士和馮嶺博士對(duì)本書部分內(nèi)容的撰寫做出了貢獻(xiàn),對(duì)他們的辛勤付出表示由衷的感謝!感謝相關(guān)學(xué)術(shù)研究的合作者,你們?cè)谖覍W(xué)習(xí)和研究道路上給予了大量的幫助和指導(dǎo)。感謝家人的陪伴、支持和鼓勵(lì)。
本研究受到國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)“科學(xué)大數(shù)據(jù)管理系統(tǒng)(面向特定領(lǐng)域的大數(shù)據(jù)管理系統(tǒng))”子課題“圖數(shù)據(jù)管理關(guān)鍵技術(shù)及系統(tǒng)”(編號(hào):2016YFB1000603),國(guó)家自然科學(xué)基金青年基金項(xiàng)目“移動(dòng)社會(huì)網(wǎng)絡(luò)中基于信任關(guān)系的情境感知推薦研究”(編號(hào):61303025),以及國(guó)家自然科學(xué)基金重點(diǎn)國(guó)際合作研究項(xiàng)目“大數(shù)據(jù)環(huán)境下的知識(shí)組織與服務(wù)創(chuàng)新研究”(編號(hào):71420107026)的資助,作者在此表示衷心的感謝。
收起全部↑
目錄
前言
第1章 大圖數(shù)據(jù)庫(kù)中基于集合相似度的子圖匹配查詢處理方法1
1.1 引言1
1.2 預(yù)備知識(shí)4
1.2.1 問題定義4
1.2.2 架構(gòu)5
1.3 集合相似度剪枝6
1.3.1 倒排模式格的構(gòu)建7
1.3.2 剪枝技術(shù)8
1.3.3 倒排模式格的優(yōu)化10
1.4 基于結(jié)構(gòu)的剪枝操作11
1.4.1 結(jié)構(gòu)化簽名11
1.4.2 基于簽名的LSH12
1.4.3 結(jié)構(gòu)化剪枝12
1.5 基于支配集的子圖匹配14
1.5.1 DS-匹配算法14
1.5.2 支配集的選擇17
1.6 實(shí)驗(yàn)分析18
1.6.1 數(shù)據(jù)集合設(shè)置18
1.6.2 比較方法19
1.6.3 線下性能19
1.6.4 線上性能20
1.7 結(jié)論26
第2章 基于集合相似度的子圖匹配查詢?cè)拖到y(tǒng)27
2.1 引言27
2.2 預(yù)備知識(shí)29
2.2.1 問題定義29
2.2.2 方法概覽30
2.3 簽名及DS-Tree31
2.3.1 查詢簽名和數(shù)據(jù)簽名31
2.3.2 DS-Tree32
2.3.3 利用DS-Tree查詢36
2.4 支配子圖38
2.5 SMOC 算法41
2.6 實(shí)驗(yàn)42
2.6.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境42
2.6.2 對(duì)比方法43
2.6.3 離線處理性能43
2.6.4 在線處理性能45
2.7 結(jié)論46
第3章 利用社會(huì)網(wǎng)絡(luò)圖數(shù)據(jù)的情境感知個(gè)性化推薦方法47
3.1 引言47
3.2 預(yù)備知識(shí)49
3.2.1 問題定義50
3.2.2 方法框架50
3.3 角色挖掘52
3.3.1 角色的定義52
3.3.2 用條件數(shù)據(jù)庫(kù)進(jìn)行角色挖掘52
3.3.3 情境感知的角色權(quán)重54
3.4 基于角色的信任模型55
3.5 尋找相似用戶56
3.5.1 WSSQ算法概述57
3.5.2 前綴過濾58
3.5.3 L1-范數(shù)過濾59
3.5.4 相似度計(jì)算的優(yōu)化60
3.6 推薦方法62
3.7 實(shí)驗(yàn)評(píng)價(jià)63
3.7.1 數(shù)據(jù)集描述63
3.7.2 對(duì)比方法63
3.7.3 對(duì)角色挖掘和信任模型的評(píng)價(jià)64
3.7.4 推薦質(zhì)量65
3.7.5 推薦時(shí)間69
3.8 結(jié)論72
第4章 多層聚簇中基于協(xié)同過濾的跨類推薦算法73
4.1 引言73
4.2 預(yù)備知識(shí)74
4.2.1 問題定義74
4.2.2 算法框架75
4.3 多層聚簇75
4.4 利用多層聚簇推薦78
4.4.1 推薦框架78
4.4.2 Top-k推薦79
4.5 實(shí)驗(yàn)80
4.5.1 數(shù)據(jù)集80
4.5.2 對(duì)比方法81
4.5.3 評(píng)價(jià)標(biāo)準(zhǔn)81
4.5.4 參數(shù)設(shè)置81
4.5.5 minsup的影響81
4.5.6 效率和擴(kuò)展性82
4.6 結(jié)論84
第5章 基于潛在主題的準(zhǔn)確性Web社區(qū)協(xié)同推薦方法85
5.1 引言85
5.2 基于潛在主題的Web社區(qū)協(xié)同推薦方法86
5.2.1 方法框架87
5.2.2 ITS值計(jì)算88
5.2.3 ETS值計(jì)算91
5.2.4 IETS值計(jì)算93
5.2.5 可擴(kuò)展性95
5.3 實(shí)驗(yàn)及分析95
5.3.1 數(shù)據(jù)集描述96
5.3.2 實(shí)驗(yàn)方案96
5.3.3 實(shí)驗(yàn)結(jié)果96
5.4 結(jié)論99
第6章 基于用戶-社區(qū)全域關(guān)系的新穎性Web社區(qū)推薦方法100
6.1 引言100
6.2 UCTR 方法102
6.2.1 UCTR 方法框架103
6.2.2 社區(qū)準(zhǔn)確度計(jì)算104
6.2.3 社區(qū)新穎度計(jì)算105
6.2.4 社區(qū)UCTR值計(jì)算108
6.3 實(shí)驗(yàn)及分析108
6.3.1 數(shù)據(jù)集描述109
6.3.2 推薦準(zhǔn)確性評(píng)價(jià)109
6.3.3 推薦新穎性評(píng)價(jià)111
6.3.4 推薦綜合評(píng)價(jià)112
6.4 結(jié)論113
第7章 基于用戶-社區(qū)全域關(guān)系閉包的高效均衡性Web社區(qū)推薦方法114
7.1 引言114
7.2 NovelRec方法116
7.2.1 方法框架117
7.2.2 離線建模計(jì)算118
7.2.3 在線推薦計(jì)算121
7.2.4 NovelRec復(fù)雜度分析126
7.2.5 用戶冷啟動(dòng)分析127
7.3 實(shí)驗(yàn)及分析128
7.3.1 實(shí)驗(yàn)數(shù)據(jù)分析128
7.3.2 推薦準(zhǔn)確性分析130
7.3.3 推薦新穎性分析132
7.3.4 NovelRec性能分析135
7.4 結(jié)論138
第8章 Web社區(qū)推薦原型系統(tǒng)139
8.1 引言139
8.2 Web 社區(qū)建模139
8.2.1 對(duì)象代理模型概述139
8.2.2 利用對(duì)象代理模型建模Web社區(qū)140
8.3 Web 社區(qū)管理原型系統(tǒng)143
8.3.1 對(duì)象代理數(shù)據(jù)庫(kù)概述143
8.3.2 基于TOTEM 的Web社區(qū)管理系統(tǒng)145
8.4 Web 社區(qū)推薦原型系統(tǒng)147
8.4.1 推薦系統(tǒng)實(shí)現(xiàn)機(jī)制147
8.4.2 推薦系統(tǒng)功能效果148
8.5 結(jié)論150
第9章 大規(guī)模時(shí)空?qǐng)D中人類行為模式的實(shí)時(shí)挖掘方法151
9.1 引言151
9.2 預(yù)備知識(shí)153
9.2.1 定義153
9.2.2 問題陳述154
9.2.3 框架154
9.3 在單一時(shí)間間隔中的黑洞檢測(cè)155
9.3.1 STG索引155
9.3.2 候選網(wǎng)格選擇156
9.3.3 空間擴(kuò)展158
9.3.4 流上限更新159
9.4 連續(xù)檢測(cè)159
9.5 實(shí)驗(yàn)評(píng)估161
9.5.1 數(shù)據(jù)161
9.5.2 北京市案例研究162
9.5.3 紐約市案例研究165
9.5.4 在單一時(shí)段內(nèi)的表現(xiàn)167
9.5.5 連續(xù)檢測(cè)的表現(xiàn)169
9.6 結(jié)論171
第10章 基于潛在引用圖數(shù)據(jù)的專利價(jià)值評(píng)估方法172
10.1 引言172
10.2 潛在引用關(guān)聯(lián)174
10.3 專利價(jià)值評(píng)估基本算法175
10.4 專利價(jià)值評(píng)估改進(jìn)算法179
10.5 專利價(jià)值評(píng)估更新算法181
10.6 實(shí)驗(yàn)評(píng)估184
10.6.1 實(shí)驗(yàn)設(shè)置184
10.6.2 評(píng)估方法185
10.6.3 結(jié)果與分析185
10.7 結(jié)論188
第11章 基于專利關(guān)聯(lián)的新穎專利查找方法189
11.1 引言189
11.2 相對(duì)新穎圖191
11.3 專利新穎度排序算法193
11.4 專利新穎度更新算法195
11.5 實(shí)驗(yàn)評(píng)估200
11.5.1 實(shí)驗(yàn)設(shè)置200
11.5.2 評(píng)估方法201
11.5.3 結(jié)果與分析201
11.6 結(jié)論204
第12章 異構(gòu)專利網(wǎng)絡(luò)中的競(jìng)爭(zhēng)對(duì)手主題預(yù)測(cè)方法205
12.1 引言205
12.2 競(jìng)爭(zhēng)對(duì)手的主題預(yù)測(cè)的框架207
12.3 主題詞選取208
12.4 建立企業(yè)-主題異構(gòu)圖208
12.5 拓?fù)涮卣鞯姆治龊统槿?10
12.6 基于監(jiān)督模型的主題預(yù)測(cè)方法213
12.7 實(shí)驗(yàn)評(píng)估215
12.7.1 實(shí)驗(yàn)設(shè)置215
12.7.2 評(píng)估方法216
12.7.3 結(jié)果與分析217
12.8 結(jié)論220
參考文獻(xiàn)221