本書分六章,內(nèi)容包括:面向自然語言處理的情感模型、漢語情感詞表構(gòu)建、情感詞的搭配研究、產(chǎn)品評論分析、總結(jié)及未來的工作。
自萬維網(wǎng)誕生以來,各種信息不斷在網(wǎng)絡(luò)上涌現(xiàn),網(wǎng)絡(luò)用戶數(shù)量也與日俱增些年,網(wǎng)絡(luò)內(nèi)容組織方式也在逐漸地發(fā)生變化,從博客到Facebook,再到Twitter,互聯(lián)網(wǎng)上出現(xiàn)了越來越多的網(wǎng)民表達(dá)。這些網(wǎng)民表達(dá)含大量的評價(jià)、態(tài)度、情緒等主觀性觀點(diǎn)。概括地說,網(wǎng)絡(luò)上有很多的網(wǎng)民,網(wǎng)民有很多的觀點(diǎn),而這些觀點(diǎn)擴(kuò)散得很快。這種現(xiàn)象不得不引起個(gè)人、企業(yè)乃至政府的關(guān)注。我們需要找出這含觀點(diǎn)的信息,更需要含觀點(diǎn)的信行情感分析。
本書的研究有兩個(gè),分別是漢語情感詞表構(gòu)建和產(chǎn)品評論分析。對于情感分析,情感詞表是重要的資源,而漢語情感詞表資源還相對匱乏。另外,產(chǎn)品評論分析作為一個(gè)重要的情感分析應(yīng)用也越來越受到關(guān)注。產(chǎn)品評論分析的工作也可以看成本書情感詞表構(gòu)建工作的應(yīng)用和延伸。
據(jù)美國調(diào)研機(jī)構(gòu)Royal Pingdom對201pan>年全球互聯(lián)網(wǎng)發(fā)展?fàn)罱Y(jié)顯示,全球網(wǎng)民數(shù)量為2pan>億,其中亞洲多,為9.22億,歐洲為4.76億,北美為2.7pan>億。根據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至201pan>年12月底,中國網(wǎng)民規(guī)模突破5億,達(dá)到5.13億;中國手機(jī)網(wǎng)民規(guī)模達(dá)到3.56億。
除了網(wǎng)絡(luò)用戶數(shù)量令人驚嘆地增長,網(wǎng)絡(luò)內(nèi)容組織方式也在逐漸發(fā)生變化。這種變化所帶來的震撼并不亞于網(wǎng)民數(shù)量的增長。自萬維網(wǎng)推出以來,網(wǎng)絡(luò)上的信息不斷涌現(xiàn),一些以前需要從傳統(tǒng)媒體中查找的信息可以方便地從網(wǎng)絡(luò)上獲得。隨著時(shí)間的推移,人們不再滿足于將網(wǎng)絡(luò)當(dāng)作純粹的獲取信息的場所,而是希望將其作為表臺(tái)。
1997年出現(xiàn)了“博客”一詞。這是一種充分個(gè)性化的網(wǎng)絡(luò)表達(dá)工具,在其上“博主”可以發(fā)表自己的見聞和觀點(diǎn),訪客可以留言。2004年,Facebook向大學(xué)生開放。信息的交流以人為節(jié)點(diǎn),以好友關(guān)系為邊,迅速擴(kuò)散到整個(gè)網(wǎng)絡(luò)。結(jié)合了博客和移臺(tái)的Twitter 出現(xiàn)在2006年,并且在短短的幾年時(shí)間內(nèi)全球。2009年8月,中國的門戶網(wǎng)站新浪網(wǎng)推出“新浪”內(nèi)測版,成為門戶網(wǎng)站服務(wù)的網(wǎng)站,正入中文上網(wǎng)主流人群視野。
當(dāng)人們購買商品的時(shí)候,往往要通過網(wǎng)絡(luò)查找大家對該商品的評價(jià),以便決定自己的購買行為。企業(yè)則對客戶和潛在客戶的意見尤為關(guān)注,從而指導(dǎo)產(chǎn)品的設(shè)計(jì)、服務(wù)等。政府部門對影響社會(huì)的輿論密切關(guān)注,從而選擇應(yīng)對措施。
傳統(tǒng)的信息檢索并不能滿足以上各種需求。一個(gè)明顯的不足之處在于,傳統(tǒng)的檢索工具是針對主行檢索,并不能定制化地提供對某個(gè)實(shí)體的評價(jià)。
在自然語言處理(Natural Language Processing,NLP)中,情感分析這個(gè)概念應(yīng)運(yùn)而生。情感分析的工括對評論的極行分類,提取產(chǎn)品的產(chǎn)品特征并對其評行分析,識(shí)別觀點(diǎn)的發(fā)出者等。粗略地講,凡是和文本中觀點(diǎn)、情緒、評價(jià)等相關(guān)的自然語言處理工作都可以歸人情感分析領(lǐng)域。自然語言處理經(jīng)過多年的發(fā)展,積累了豐富的資源,可以獲得各種人工標(biāo)注的語料、句法分析工具、語義詞典等。這些都為情感分析的開展奠定了研究基礎(chǔ)。
目前,學(xué)術(shù)界和工業(yè)界對文本情感分析的相關(guān)問行了廣泛和深入的研究。僅在美國就至少有20個(gè)公司提供情感分析服務(wù)。國際上的高校中基本都設(shè)立相應(yīng)的研究機(jī)構(gòu)和小行情感分析的研究。在國內(nèi),、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交大、復(fù)旦大學(xué)、廈門大學(xué)、大連理工大學(xué)、重慶大學(xué)、北京郵電大學(xué)等許多科研機(jī)構(gòu)和高校都開展了情感分析的研究工作。
文本情感分析的研究已經(jīng)成為當(dāng)前自然語言處理研究的熱點(diǎn)。
1.2本書主要研究內(nèi)容
本書的研究有兩個(gè):一是情感詞表的構(gòu)建;二是產(chǎn)品評論的分析。在詞表構(gòu)建完成后行情感詞搭配的研究工作。這部分工作可以看成連接情感詞表構(gòu)建和產(chǎn)品評論分析的環(huán)節(jié)。事實(shí)上,可以把情感詞作為一種評價(jià),把產(chǎn)品特征看成評價(jià)的特殊搭配,并在此基礎(chǔ)上開展產(chǎn)品評論分析的有關(guān)工作。這樣,從情感詞表的構(gòu)造過渡到產(chǎn)品評論分析的工作就十分自然了。
選擇這兩個(gè)部分作為本書的主要工作是基于這樣的考慮。
(pan>)情感詞表是情感分析的重要資源;诟哔|(zhì)量的詞典,一些情感分析任務(wù)只需要采用簡單的方法即可以獲得很好的效果。對于中文而言,情感詞表資源還很匱乏。
(2)采用自動(dòng)的方式構(gòu)建詞表,充分利用語言學(xué)的知識(shí),盡可能降低構(gòu)建情感詞表的人工代價(jià)。
(3)以產(chǎn)品評論分析作為實(shí)際的應(yīng)用背景,利用已有的資行深人的分析,得到具有實(shí)用性的成果。
自然語言處理需要重視語言學(xué)。Wintner(2009)建議在ACL里設(shè)置一個(gè)語言學(xué)專委會(huì),并呼吁語言學(xué)回歸計(jì)算語言學(xué)。他認(rèn)為,當(dāng)代的自然語言工程里,語言學(xué)整體上是缺位的。從語言學(xué)的角度出發(fā),將語言學(xué)中的知識(shí)和計(jì)算機(jī)的方法結(jié)合起來是本書的一個(gè)基本原則。