自萬維網誕生以來,各種信息不斷在網絡上涌現,網絡用戶數量也與日俱增些年,網絡內容組織方式也在逐漸地發(fā)生變化,從博客到Facebook,再到Twitter,互聯網上出現了越來越多的網民表達。這些網民表達含大量的評價、態(tài)度、情緒等主觀性觀點。概括地說,網絡上有很多的網民,網民有很多的觀點,而這些觀點擴散得很快。這種現象不得不引起個人、企業(yè)乃至政府的關注。我們需要找出這含觀點的信息,更需要含觀點的信行情感分析。
本書的研究有兩個,分別是漢語情感詞表構建和產品評論分析。對于情感分析,情感詞表是重要的資源,而漢語情感詞表資源還相對匱乏。另外,產品評論分析作為一個重要的情感分析應用也越來越受到關注。產品評論分析的工作也可以看成本書情感詞表構建工作的應用和延伸。
據美國調研機構Royal Pingdom對201pan>年全球互聯網發(fā)展狀結顯示,全球網民數量為2pan>億,其中亞洲多,為9.22億,歐洲為4.76億,北美為2.7pan>億。根據《中國互聯網絡發(fā)展狀況統(tǒng)計報告》,截至201pan>年12月底,中國網民規(guī)模突破5億,達到5.13億;中國手機網民規(guī)模達到3.56億。
除了網絡用戶數量令人驚嘆地增長,網絡內容組織方式也在逐漸發(fā)生變化。這種變化所帶來的震撼并不亞于網民數量的增長。自萬維網推出以來,網絡上的信息不斷涌現,一些以前需要從傳統(tǒng)媒體中查找的信息可以方便地從網絡上獲得。隨著時間的推移,人們不再滿足于將網絡當作純粹的獲取信息的場所,而是希望將其作為表臺。
1997年出現了“博客”一詞。這是一種充分個性化的網絡表達工具,在其上“博主”可以發(fā)表自己的見聞和觀點,訪客可以留言。2004年,Facebook向大學生開放。信息的交流以人為節(jié)點,以好友關系為邊,迅速擴散到整個網絡。結合了博客和移臺的Twitter 出現在2006年,并且在短短的幾年時間內全球。2009年8月,中國的門戶網站新浪網推出“新浪”內測版,成為門戶網站服務的網站,正入中文上網主流人群視野。
當人們購買商品的時候,往往要通過網絡查找大家對該商品的評價,以便決定自己的購買行為。企業(yè)則對客戶和潛在客戶的意見尤為關注,從而指導產品的設計、服務等。政府部門對影響社會的輿論密切關注,從而選擇應對措施。
傳統(tǒng)的信息檢索并不能滿足以上各種需求。一個明顯的不足之處在于,傳統(tǒng)的檢索工具是針對主行檢索,并不能定制化地提供對某個實體的評價。
在自然語言處理(Natural Language Processing,NLP)中,情感分析這個概念應運而生。情感分析的工括對評論的極行分類,提取產品的產品特征并對其評行分析,識別觀點的發(fā)出者等。粗略地講,凡是和文本中觀點、情緒、評價等相關的自然語言處理工作都可以歸人情感分析領域。自然語言處理經過多年的發(fā)展,積累了豐富的資源,可以獲得各種人工標注的語料、句法分析工具、語義詞典等。這些都為情感分析的開展奠定了研究基礎。
目前,學術界和工業(yè)界對文本情感分析的相關問行了廣泛和深入的研究。僅在美國就至少有20個公司提供情感分析服務。國際上的高校中基本都設立相應的研究機構和小行情感分析的研究。在國內,、北京大學、哈爾濱工業(yè)大學、上海交大、復旦大學、廈門大學、大連理工大學、重慶大學、北京郵電大學等許多科研機構和高校都開展了情感分析的研究工作。
文本情感分析的研究已經成為當前自然語言處理研究的熱點。
1.2本書主要研究內容
本書的研究有兩個:一是情感詞表的構建;二是產品評論的分析。在詞表構建完成后行情感詞搭配的研究工作。這部分工作可以看成連接情感詞表構建和產品評論分析的環(huán)節(jié)。事實上,可以把情感詞作為一種評價,把產品特征看成評價的特殊搭配,并在此基礎上開展產品評論分析的有關工作。這樣,從情感詞表的構造過渡到產品評論分析的工作就十分自然了。
選擇這兩個部分作為本書的主要工作是基于這樣的考慮。
(pan>)情感詞表是情感分析的重要資源;诟哔|量的詞典,一些情感分析任務只需要采用簡單的方法即可以獲得很好的效果。對于中文而言,情感詞表資源還很匱乏。
(2)采用自動的方式構建詞表,充分利用語言學的知識,盡可能降低構建情感詞表的人工代價。
(3)以產品評論分析作為實際的應用背景,利用已有的資行深人的分析,得到具有實用性的成果。
自然語言處理需要重視語言學。Wintner(2009)建議在ACL里設置一個語言學專委會,并呼吁語言學回歸計算語言學。他認為,當代的自然語言工程里,語言學整體上是缺位的。從語言學的角度出發(fā),將語言學中的知識和計算機的方法結合起來是本書的一個基本原則。