前言
從高中開始接觸數(shù)學和統(tǒng)計學以來,我就一直對數(shù)字著迷。分析學(analytics)、數(shù)據(jù)科學以及最近的文本分析技術均出現(xiàn)較晚,大概是在幾年前,當時關于大數(shù)據(jù)(big data)和數(shù)據(jù)分析的炒作越來越猛烈,甚至有些瘋狂。就個人而言,我認為其中很多都是過度炒作,但是也有一些令人興奮的東西,因為這些技術在新工作、新發(fā)現(xiàn)以及解決人們先前認為不可能解決的問題方面展現(xiàn)了巨大的可能性。
自然語言處理(Natural Language Processing,NLP)一直深深吸引著我,因為人腦科學和人類認知能力確實令人著迷。如果嘗試在機器中重塑這種傳遞信息、復雜思維和情緒的能力,那一定是令人驚喜的。當然,盡管我們在認知計算(cognitive computing)和人工智能(Artificial Intelligence,AI)方面的發(fā)展突飛猛進,但現(xiàn)在尚且無法實現(xiàn)這一點。僅通過圖靈測試可能是不夠的,機器真正能復制人的方方面面嗎?
當今,對于NLP和文本分析應用,迫切需求從非結構化、原始文本數(shù)據(jù)中提取有用信息和可行見解的能力。到目前為止,我一直在努力解決各種問題,面臨諸多挑戰(zhàn),并隨著時間的推移吸取了各種各樣的經驗教訓。本書涵蓋了我在文本分析領域學到的大部分知識,僅僅從一堆文本文檔中建立一個花哨的詞云是不夠的。
在學習文本分析方面,最大的問題或許不是信息缺乏,而是信息過多,通常這稱為信息過載(information overload)。海量的資源、文檔、論文、書籍和期刊包含了大量的理論資料、概念、技術和算法,它們常常使該領域的新手不知所措。解決問題的正確技術是什么?文本摘要如何真正有效?哪些才是解決多類文本分類的框架?通過將數(shù)學和理論概念與現(xiàn)實用例的Python實現(xiàn)相結合,本書嘗試解決這個問題,并幫助讀者避免迄今為止我所遇到的一些急迫問題。
本書采用了全面的和結構化的介紹方法。首先,它在前幾章中介紹了自然語言理解和Python結構的基礎知識。熟悉了基礎知識之后,其余章節(jié)將解決文本分析中的一些有趣問題,包括文本分類、聚類、相似性分析、文本摘要和主題模型。本書還將分析文本的結構、語義、情感和觀點。對于每個主題,將介紹基本概念,并使用一些現(xiàn)實世界中的場景和數(shù)據(jù)來實現(xiàn)涵蓋每個概念的技術。本書的構想是呈現(xiàn)一幅文本分析和NLP的藍海,并提供必要的工具、技術和知識以處理和解決工作中遇到的問題。我希望你能覺得本書很有幫助,并祝你在文本分析的世界中旅途愉快!