UGC質(zhì)量實(shí)時(shí)預(yù)判機(jī)制研究
《UGC質(zhì)量實(shí)時(shí)預(yù)判機(jī)制研究》融合用戶研究、行為科學(xué)、信息質(zhì)量、大數(shù)據(jù)分析等相關(guān)理論和方法,深入探討社交網(wǎng)絡(luò)用戶參與行為及其對UGC質(zhì)量的影響,通過挖掘“用戶行為-UGC質(zhì)量”關(guān)聯(lián),把基于內(nèi)容和基于行為的方法結(jié)合起來,建立了多種基于用戶行為挖掘的UGC質(zhì)量實(shí)時(shí)預(yù)判模型,為UGC質(zhì)量治理提供新思路。
與之前相關(guān)研究相比,《UGC質(zhì)量實(shí)時(shí)預(yù)判機(jī)制研究》從用戶行為的角度研究UGC質(zhì)量治理,為適應(yīng)新一代網(wǎng)絡(luò)信息資源管理的需求,提出UGC質(zhì)量“預(yù)判”的思想,能夠變事后控制為事前預(yù)測與管理,有助于管理部門更有效地進(jìn)行網(wǎng)絡(luò)內(nèi)容治理。
更多科學(xué)出版社服務(wù),請掃碼獲取。
總序
前言
第1章 緒論 1
1.1 研究背景及意義 1
1.2 國內(nèi)外研究現(xiàn)狀 4
1.3 研究內(nèi)容與研究方法 22
1.4 本章小結(jié) 26
第2章 UGC基本問題 27
2.1 UGC的發(fā)展現(xiàn)狀 27
2.2 UGC的特點(diǎn) 33
2.3 UGC的類型 34
2.4 UGC存在的問題 38
2.5 本章小結(jié) 42
第3章 UGC質(zhì)量現(xiàn)狀及評價(jià)標(biāo)準(zhǔn) 43
3.1 UGC質(zhì)量現(xiàn)狀 43
3.2 信息質(zhì)量評價(jià)指標(biāo) 51
3.3 UGC質(zhì)量評價(jià)標(biāo)準(zhǔn) 60
3.4 基于用戶體驗(yàn)的UGC質(zhì)量評價(jià)標(biāo)準(zhǔn) 72
3.5 高質(zhì)量UGC的特征 77
3.6 本章小結(jié) 80
第4章 社交網(wǎng)絡(luò)用戶參與行為及其對UGC質(zhì)量的影響 81
4.1 社交網(wǎng)絡(luò)用戶參與行為 81
4.2 社交網(wǎng)絡(luò)用戶參與行為的動(dòng)因 85
4.3 影響UGC質(zhì)量的用戶參與行為因素 86
4.4 社交網(wǎng)絡(luò)用戶參與行為與UGC質(zhì)量關(guān)聯(lián)關(guān)系挖掘—以轉(zhuǎn)發(fā)行為為例 90
4.5 本章小結(jié) 104
第5章 基于用戶信譽(yù)評級的UGC質(zhì)量預(yù)判模型 105
5.1 基本思路 105
5.2 基于歷史行為的用戶信譽(yù)評級算法 107
5.3 基于用戶信譽(yù)評級的UGC質(zhì)量預(yù)判機(jī)制 113
5.4 實(shí)驗(yàn)驗(yàn)證—以“新浪微博”為實(shí)驗(yàn)平臺(tái) 114
5.5 本章小結(jié) 125
第6章 基于用戶行為情景的UGC質(zhì)量預(yù)判模型 126
6.1 UGC用戶行為情景 126
6.2 用戶行為情景本體的形式化表示 131
6.3 基于用戶行為情景本體的UGC質(zhì)量預(yù)判模型 133
6.4 本章小結(jié) 138
第7章 基于用戶情緒感知的UGC質(zhì)量預(yù)判模型 139
7.1 UGC用戶情緒感知 139
7.2 研究設(shè)計(jì) 142
7.3 基于用戶情緒感知的UGC質(zhì)量預(yù)判模型構(gòu)建 144
7.4 模型檢驗(yàn) 150
7.5 本章小結(jié) 152
第8章 基于用戶畫像的UGC質(zhì)量預(yù)判模型 154
8.1 用戶畫像及其構(gòu)建方法 154
8.2 基于用戶畫像的UGC質(zhì)量預(yù)判模型的構(gòu)建 157
8.3 預(yù)判模型的驗(yàn)證 166
8.4 本章小結(jié) 173
第9章 總結(jié)與展望 174
9.1 本書主要的研究工作 174
9.2 本書的突出特色 177
9.3 本書存在的不足 177
參考文獻(xiàn) 179
附錄 197
附錄1 網(wǎng)絡(luò)環(huán)境下影響UGC質(zhì)量的用戶信息行為重要性專家評分 197
附錄2 “新浪微博”志愿者征集說明 198
附錄3 微博內(nèi)容質(zhì)量評估系統(tǒng)部分代碼實(shí)現(xiàn) 199
附錄4 詞條內(nèi)容質(zhì)量管理系統(tǒng)使用界面 207
附錄5 低質(zhì)量UGC識(shí)別算法關(guān)鍵代碼(Python語言實(shí)現(xiàn)) 208
附錄6 用戶畫像生成與UGC質(zhì)量預(yù)判模型關(guān)鍵代碼(Python語言實(shí)現(xiàn)) 211
附錄7 本書設(shè)計(jì)的爬蟲程序關(guān)鍵代碼(Python語言實(shí)現(xiàn)) 218
第1章緒論
本章闡述了本書的研究背景及意義,深入分析了國內(nèi)外UGC質(zhì)量研究的現(xiàn)狀,在梳理已有研究的基礎(chǔ)上,提出了本書的研究內(nèi)容和創(chuàng)新之處,以及相應(yīng)的研究思路和研究方法。
1.1 研究背景及意義
1.1.1 研究背景
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)設(shè)備的普及,人們的生產(chǎn)生活越來越離不開互聯(lián)網(wǎng)絡(luò)。尤其是在Web2.0時(shí)代,人們可以隨時(shí)隨地借助多種形式的移動(dòng)設(shè)備或終端接入互聯(lián)網(wǎng),通過網(wǎng)絡(luò)進(jìn)行信息的創(chuàng)建、傳播、利用等活動(dòng)。中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)2022年8月發(fā)布的第50次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出,截至2022年6月,我國網(wǎng)民規(guī)模為10.51億人,互聯(lián)網(wǎng)普及率達(dá)74.4%,手機(jī)網(wǎng)民規(guī)模達(dá)10.47億,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.6%,中國網(wǎng)民規(guī)模與互聯(lián)網(wǎng)普及率如圖1.1所示(中國互聯(lián)網(wǎng)絡(luò)信息中心,2022)。各類網(wǎng)絡(luò)設(shè)備,數(shù)量龐大的網(wǎng)民,大規(guī)模、多形態(tài)、多樣化的信息內(nèi)容,共同構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò)空間。在這個(gè)數(shù)字空間中,網(wǎng)絡(luò)用戶發(fā)揮了極大的主觀能動(dòng)性,創(chuàng)建和生成了海量、形式豐富的信息內(nèi)容,這些由用戶創(chuàng)建和生成的海量的文字、圖片、音頻、視頻等內(nèi)容,就是UGC(User-Generated Content),即用戶生成內(nèi)容。2007年,經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)指出了UGC的三個(gè)特征:互聯(lián)網(wǎng)上公開可用的內(nèi)容、內(nèi)容的創(chuàng)新性以及強(qiáng)調(diào)普通用戶的創(chuàng)作。
Web2.0時(shí)代,網(wǎng)絡(luò)用戶的參與意識(shí)逐漸覺醒,他們不再僅僅滿足于信息接收者和信息使用者的身份,參與信息創(chuàng)建與傳播的意識(shí)愈發(fā)強(qiáng)烈;ヂ(lián)網(wǎng)絡(luò)也從最初的側(cè)重于為用戶提供靜態(tài)網(wǎng)頁展示信息、提供信息來源、強(qiáng)調(diào)信息屬性等服務(wù),向更多地為用戶提供信息創(chuàng)建、信息傳播與共享的平臺(tái)轉(zhuǎn)變,強(qiáng)調(diào)社交屬性與信息屬性并重。各類網(wǎng)絡(luò)平臺(tái)在給予用戶更多參與權(quán)和選擇權(quán)的同時(shí),也更加注重與用戶的交互性。如國外涌現(xiàn)出的Facebook、Twitter、Instagram等網(wǎng)絡(luò)社交平臺(tái);Amazon、eBay等電子商務(wù)平臺(tái);GitHub、Udemy等在線學(xué)習(xí)平臺(tái);國內(nèi)的微博、微信、豆瓣、知乎、抖音、快手、小紅書等各類社交平臺(tái)。用戶通過這些社交媒體平臺(tái)可以創(chuàng)建、發(fā)布、傳播并利用文字、圖片、視頻、音頻等多形態(tài)、多模態(tài)的信息,既增強(qiáng)了信息的生產(chǎn)、傳播能力,也拓展了用戶的社交范圍!2022年全球數(shù)字概覽》(Digital 2022: Global Overview Report)報(bào)告顯示(2022年1月發(fā)布),全球約有46.2億人(58.4%)使用社交媒體(Kemp,2022)。就國內(nèi)而言,目前,微信的“朋友圈”已經(jīng)成為微信使用率最高的功能;B站2022年第四季度月均活躍用戶達(dá)到3.26億人,用戶數(shù)量持續(xù)增長(李方,2023)。國外,YouTube視頻平臺(tái)的使用率從2019年占美國成年人的73%增長到2021年的81%,用戶每天觀看10億小時(shí)的視頻(翟繼茹,2021)。除此之外,第50次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2022年6月,短視頻用戶規(guī)模達(dá)9.62億人,在用戶的帶動(dòng)下,短視頻類型UGC數(shù)量強(qiáng)勢增長,內(nèi)容范圍逐漸廣泛,傳播范圍也更加分散(中國互聯(lián)網(wǎng)絡(luò)信息中心,2022)。內(nèi)容從生產(chǎn)、生活到學(xué)習(xí)、工作,從健身、旅游到科技、教育,從美食、美妝到購物、體驗(yàn)評價(jià)等眾多領(lǐng)域,充分體現(xiàn)了多元化發(fā)展?梢哉f,網(wǎng)絡(luò)用戶參與信息創(chuàng)建的愿望從未如此強(qiáng)烈,參與信息創(chuàng)建的范圍從未如此之廣,參與信息創(chuàng)建的類型從未如此之多。
龐大的用戶規(guī)模、強(qiáng)烈的參與意識(shí)使UGC保持增長態(tài)勢。伴隨著各類APP的快速發(fā)展,UGC的類型、形態(tài)、內(nèi)容也日趨多元化,文本、圖片、音頻、長視頻、短視頻等各種各樣的UGC屢見不鮮。但不可否認(rèn)的是,隨著用戶參與UGC創(chuàng)建和傳播,UGC質(zhì)量問題,如信息冗余、信息侵權(quán)、信息失真等也逐步浮現(xiàn)。面對海量的UGC,該如何保障和提升其質(zhì)量是目前數(shù)據(jù)時(shí)代面臨的一大難題。一方面,越來越多的用戶參與到信息的創(chuàng)建、組織和傳播階段中,不僅推動(dòng)了UGC數(shù)量的快速增加,還加快了UGC傳播的速度、擴(kuò)大了UGC傳播的廣度,導(dǎo)致數(shù)據(jù)處理面臨渠道分散、體量更大的問題,數(shù)據(jù)分析也更加多元和復(fù)雜,給UGC質(zhì)量治理帶來了更大挑戰(zhàn)。另一方面,用戶參與UGC創(chuàng)建與傳播,在此過程中融入了自己的意志和智慧。由于UGC強(qiáng)調(diào)普通用戶的創(chuàng)建,受自身素養(yǎng)、能力、動(dòng)機(jī)等因素的影響,用戶創(chuàng)建的UGC質(zhì)量參差不齊。此外,UGC的數(shù)量、類型和增長速度遠(yuǎn)遠(yuǎn)超出了人們接收、理解和利用信息的能力范圍。處于UGC過載中的用戶,其認(rèn)知能力和辨別能力都受到挑戰(zhàn),導(dǎo)致用戶對UGC質(zhì)量的滿意度呈下降趨勢。人們在享受信息技術(shù)、互聯(lián)網(wǎng)絡(luò)快速發(fā)展成果的同時(shí),也在承受低質(zhì)量UGC帶來的困擾。用戶不得不花費(fèi)更多的時(shí)間和精力來篩選信息,將大量的時(shí)間消耗在碎片化UGC上。如果不對UGC質(zhì)量進(jìn)行治理,任由大量低質(zhì)量UGC泛濫,會(huì)嚴(yán)重影響網(wǎng)絡(luò)信息生態(tài),給監(jiān)管部門和用戶信息利用都帶來困擾。研究者和實(shí)踐領(lǐng)域的管理者都已經(jīng)意識(shí)到了UGC存在的質(zhì)量問題,并采取了一些方式、方法和手段進(jìn)行UGC質(zhì)量治理,但卻忽略了社交網(wǎng)絡(luò)用戶UGC行為與UGC質(zhì)量之間的關(guān)聯(lián)關(guān)系。本書則立足于用戶行為與UGC質(zhì)量的關(guān)聯(lián),試圖從現(xiàn)有的UGC質(zhì)量治理范式外找到新的治理理念。
1.1.2 研究意義
本書針對UGC質(zhì)量問題進(jìn)行研究,具有如下理論意義和現(xiàn)實(shí)意義。
。1)理論意義。以UGC為代表的社會(huì)化媒體想要保持高效運(yùn)轉(zhuǎn)需要高質(zhì)量的UGC。然而,UGC質(zhì)量參差不齊,其形態(tài)、格式的多樣性及內(nèi)容的動(dòng)態(tài)性、實(shí)時(shí)性、大規(guī)模性對UGC質(zhì)量控制提出了更高的要求。從理論研究來看,目前國內(nèi)外學(xué)者雖然對UGC質(zhì)量評價(jià)、質(zhì)量控制措施和用戶行為等方面有較多的研究,但將用戶行為與UGC質(zhì)量結(jié)合起來進(jìn)行的研究還比較缺乏,且目前的UGC質(zhì)量預(yù)測、評估與控制機(jī)制尚不能很好地解決UGC的質(zhì)量問題。一方面,用戶的UGC創(chuàng)建、傳播的動(dòng)機(jī)、行為會(huì)影響UGC的質(zhì)量;另一方面,目前對UGC質(zhì)量評價(jià)、質(zhì)量控制和用戶行為的研究主要集中在如何豐富UGC和激勵(lì)高質(zhì)量UGC創(chuàng)建方面,仍需要深入和拓展。本書基于用戶行為分析,把UGC的用戶行為和UGC內(nèi)容結(jié)合起來,進(jìn)行UGC質(zhì)量實(shí)時(shí)預(yù)判與控制,探索UGC質(zhì)量預(yù)判與控制的方法,提供一種UGC質(zhì)量控制的新思路,有助于促進(jìn)UGC理論的完善和發(fā)展。
。2)現(xiàn)實(shí)意義。對UGC進(jìn)行質(zhì)量治理,有助于監(jiān)控輿情、規(guī)范網(wǎng)絡(luò)秩序、發(fā)掘UGC價(jià)值。但從實(shí)際情況來看,海量的UGC中存在大量的垃圾內(nèi)容和無用信息,嚴(yán)重影響UGC的價(jià)值實(shí)現(xiàn)。這些垃圾內(nèi)容及無用信息產(chǎn)生和存在的根源之一在于用戶行為的不規(guī)范。進(jìn)入Web2.0時(shí)代,用戶的信息行為變得越來越復(fù)雜,需要從用戶行為的角度,研究用戶行為對UGC質(zhì)量的影響,探索UGC質(zhì)量控制的新路徑。從用戶行為的角度研究UGC質(zhì)量控制,一方面符合行為科學(xué)的理論與實(shí)踐,另一方面也是適應(yīng)新一代網(wǎng)絡(luò)信息資源管理的需求,有助于UGC的良性發(fā)展和高效利用。
在大數(shù)據(jù)時(shí)代,用戶創(chuàng)建信息的情景、動(dòng)機(jī)多樣復(fù)雜,如何把用戶行為和UGC質(zhì)量關(guān)聯(lián)起來,從用戶行為視角探索UGC質(zhì)量提升的途徑,營造和維護(hù)健康、清朗的網(wǎng)絡(luò)信息環(huán)境,幫助用戶更好地利用信息,是目前亟須解決的一個(gè)難題。本書在對當(dāng)前UGC質(zhì)量現(xiàn)狀進(jìn)行分析的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘和大數(shù)據(jù)分析方法挖掘用戶行為與UGC質(zhì)量的關(guān)系,提出基于用戶行為的UGC質(zhì)量預(yù)判模型,并通過實(shí)驗(yàn)驗(yàn)證所提出的UGC質(zhì)量預(yù)判模型的有效性,提出用戶、平臺(tái)、政府等多方協(xié)同,共同提升UGC質(zhì)量,共同營造清朗網(wǎng)絡(luò)空間的建議。
1.2 國內(nèi)外研究現(xiàn)狀
UGC是用戶生成或者創(chuàng)建內(nèi)容的總稱,通常指用戶將自己原創(chuàng)的內(nèi)容通過平臺(tái)進(jìn)行展示或者提供給其他用戶。經(jīng)濟(jì)合作與發(fā)展組織在報(bào)告中描述了UGC的三個(gè)特征:“互聯(lián)網(wǎng)上公開可用的內(nèi)容”“內(nèi)容的創(chuàng)新性”“強(qiáng)調(diào)普通用戶的創(chuàng)作”(Vickery & Wunsch-Vincent,2007)。然而對UGC的研究,較難嚴(yán)格遵循這些特性。因此本書中討論的UGC傾向于更為廣義的UGC,包括以任何形式發(fā)表的由用戶創(chuàng)造的文字、圖片、視頻、音頻等內(nèi)容,從行為上,把“創(chuàng)作”的外延也拓展到轉(zhuǎn)發(fā)、點(diǎn)贊等多種行為,把創(chuàng)作者也擴(kuò)展到機(jī)構(gòu)和專業(yè)人員。
UGC發(fā)軔于20世紀(jì)90年代,經(jīng)歷了個(gè)人網(wǎng)站、論壇、博客、視頻網(wǎng)站、獨(dú)立社交網(wǎng)絡(luò)服務(wù)(Social Networking Service,SNS)的演進(jìn),現(xiàn)正朝微博、微信、短視頻等移動(dòng)化、大眾化、融合化的新方向發(fā)展。隨著Web2.0的發(fā)展,國內(nèi)外的UGC,無論是用戶規(guī)模、用戶活躍度,還是發(fā)展模式、盈利模式等,都已發(fā)展到一定程度。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、區(qū)塊鏈等新興互聯(lián)網(wǎng)技術(shù)的發(fā)展,使用戶可以隨時(shí)隨地借助手機(jī)、電腦、Pad等終端通過網(wǎng)絡(luò)創(chuàng)建、接收和共享信息,用戶創(chuàng)建信息行為已成為網(wǎng)絡(luò)信息資源生產(chǎn)過程中占主導(dǎo)地位的信息生產(chǎn)模式。然而,由于內(nèi)容的創(chuàng)建以普通用戶為主導(dǎo),UGC創(chuàng)建者的信息素養(yǎng)、創(chuàng)建動(dòng)機(jī)、知識(shí)水平等均存在差異性,加之信息平臺(tái)存在利益趨向等問題,致使UGC的質(zhì)量呈現(xiàn)出極大的不均衡性,給用戶的認(rèn)知帶來很大負(fù)擔(dān),影響了用戶對UGC的利用?v觀國內(nèi)外的研究,研究者針對UGC質(zhì)量展開了多層次多方位的研究,其中,UGC質(zhì)量的評價(jià)、UGC質(zhì)量的控制成為國內(nèi)外學(xué)者們的關(guān)注熱點(diǎn)。
1.2.1 國外研究現(xiàn)狀分析
本書以TI=(ugc OR UGC OR CGC OR UCC OR 'user generated content' OR 'user created content' 'wikipedia' OR 'Generated Content' OR 'consumer generated content' OR 'online review' OR 'SOCIAL INFORMATION') AND TS=('quality')為檢索式,在Web of Science引文數(shù)據(jù)庫中選擇核心集進(jìn)行檢索,共獲得相關(guān)文獻(xiàn)878篇。經(jīng)數(shù)據(jù)清洗后,刪除不相關(guān)文獻(xiàn)25篇,最終獲得有效文獻(xiàn)853篇,其年度分布及論文累積數(shù)量如圖1.2、圖1.3所示,從一定程度上反映了該研究主題受關(guān)注程度的變化。將文獻(xiàn)導(dǎo)入CiteSpace 5.7進(jìn)行關(guān)鍵詞分析,得到國外UGC質(zhì)量研究關(guān)鍵詞圖譜(圖1.4),對圖1.4進(jìn)行關(guān)鍵詞統(tǒng)計(jì)得到國外UGC質(zhì)量研究TOP10關(guān)鍵詞統(tǒng)計(jì)表(表1.1)。