《面向短文本的主題模型技術(shù)》系統(tǒng)地介紹了主題模型緊密相關(guān)的基本理論、實用技術(shù)及其在微博、彈幕等社交媒體短文本中的應(yīng)用。
《面向短文本的主題模型技術(shù)》首先從主題模型產(chǎn)生的背景、定義、分類和應(yīng)用入手,概述了主題模型相關(guān)技術(shù)理論和未來發(fā)展趨勢,然后分別對面向微博評論的LDA主題模型、面向微博熱點話題分析與演化的BTM主題模型、面向彈幕短文本分析與演化的oBTM主題模型進(jìn)行深入的剖析和驗證。
《面向短文本的主題模型技術(shù)》學(xué)術(shù)思想新穎、內(nèi)容系統(tǒng)、理論性和實用性強,可供從事人工智能、計算機科學(xué)技術(shù)、軟件工程及相關(guān)專業(yè)的科研人員和高等院校相關(guān)專業(yè)的師生學(xué)習(xí)和參考。
微博等社交媒體因其具有話題內(nèi)容廣、傳播速度快、實時性好、用戶數(shù)量龐大的特點,已經(jīng)成為傳播市場經(jīng)濟、時事政治等資訊的重要平臺,發(fā)揮著輿情發(fā)酵中心、事件記錄中心、力量集聚中心和謠言粉碎中心的作用。因此,對微博等社交媒體文本進(jìn)行主題分析,發(fā)現(xiàn)其演化趨勢,契合新聞輿論監(jiān)控國家需求,落實習(xí)近平總書記在黨的十九大報告中提出的新聞輿論工作著力點,“堅持正確輿論導(dǎo)向,高度重視傳播手段建設(shè)和創(chuàng)新,提高新聞輿論傳播力、引導(dǎo)力、影響力、公信力”。
近年來,傳統(tǒng)長文本分析方法及其性能取得不斷突破的同時也在日趨飽和,其發(fā)展正逐漸面臨來自對篇幅較短且缺乏上下文信息文本的挑戰(zhàn)。短文本的特殊性主要表現(xiàn)在如下三個方面:(1)文體較短。短文本大多在140字以內(nèi),而傳統(tǒng)主題模型(如PLSA、LDA等)僅適用于長文本,若利用傳統(tǒng)的主題模型對短文本建模,會造成嚴(yán)重的數(shù)據(jù)稀疏問題,使得挖掘到的特征詞之間關(guān)聯(lián)性較差,從而影響主題劃分效果。(2)語言表述不規(guī)范。社交媒體面向大眾群體,用詞和語法格式?jīng)]有統(tǒng)一標(biāo)準(zhǔn),用戶更趨向于使用網(wǎng)絡(luò)熱詞、表情、符號等來表達(dá)自己的想法,這就導(dǎo)致短文本中充斥著大量的噪聲數(shù)據(jù),給主題劃分造成了一定的困難。(3)文本形式的特殊性。在形式上,以微博短文本為例,大多含有話題標(biāo)簽,話題標(biāo)簽中的詞能起到概括該微博內(nèi)容的作用,這些特殊形式的文本將影響主題劃分效果。因此,如何快速準(zhǔn)確地從短文本中挖掘和發(fā)現(xiàn)潛在有用的主題特征詞,獲得短文本主題隨時間變化的演化規(guī)律,已經(jīng)成為短文本分析與演化的關(guān)鍵問題。
作者多年來一直從事數(shù)據(jù)挖掘、自然語言處理、網(wǎng)絡(luò)輿情分析等領(lǐng)域的研究工作。近5年來,作者及科研團隊針對現(xiàn)有傳統(tǒng)面向社交媒體短文本的主題模型聚類方法語義分析能力、主題劃分效果不佳、熱點話題演化準(zhǔn)確率不高等重點和難點問題,融合聚類等數(shù)據(jù)挖掘技術(shù),開展短文本主題情感分析和特征提取方法、面向評論短文本分析與演化和面向熱點話題發(fā)現(xiàn)與演化的主題模型研究,有望突破傳統(tǒng)主題模型LDA、BTM和oBTM的局限,形成新的利用主題模型和聚類技術(shù)分析社交媒體短文本的方案。上述研究成果對于融合主題模型的聚類方法在多元化新媒體短文本的應(yīng)用推廣具有理論支撐和實踐價值:同時,也為網(wǎng)絡(luò)輿情監(jiān)控以及應(yīng)急響應(yīng)策略制定提供決策和支持,對維護(hù)社會穩(wěn)定、節(jié)約社會管理資源,具有重要的應(yīng)用價值。
當(dāng)前,面向短文本的主題模型技術(shù)仍處于發(fā)展階段,國內(nèi)尚缺少較為全面和系統(tǒng)地介紹主題模型技術(shù)的書籍。本書是在上述科學(xué)研究和技術(shù)開發(fā)工作基礎(chǔ)上撰寫而成,是筆者及科研團隊在面向微博、彈幕等社交媒體分析及演化的主題模型研究成果的系統(tǒng)總結(jié)。因此,希望本書的出版能夠為主題模型技術(shù)在社交媒體短文本及其他領(lǐng)域的應(yīng)用提供借鑒與幫助。
吳迪,女,1984年12月出生,河北肅寧人,工學(xué)博士,F(xiàn)為河北工程大學(xué)副教授,軟件工程系主任,首批“全國黨建工作樣板支部”書記,校級“雙帶頭人”,碩士生導(dǎo)師,河北安防報警網(wǎng)絡(luò)有限公司技術(shù)顧問和北京大學(xué)邯鄲創(chuàng)新研究院專家。近年來主持或主研***、省部級教學(xué)科研項目20余項,發(fā)表SCI、EI檢索論文20余篇,出版教材4部,授權(quán)國家發(fā)明專利2項,獲河北省科技進(jìn)步獎三等獎和邯鄲市科技進(jìn)步獎三等獎各1項。目前主要從事數(shù)據(jù)挖掘、自然語言處理方面的教學(xué)與研究工作。
第一章主題模型概述第二章面向微博評論的LDA主題模型第三章對面向微博熱點話題分析的BTM主題模型第四章面向微博熱點話題演化的OBTM主題模型第五章面向彈幕短文本分析的OBTM主題模型第六章面向彈幕短文本演化的OBTM主題模型