關(guān)于我們
書單推薦
新書推薦
|
自然語言處理從入門到實戰(zhàn)
為了幫助廣大愛好自然語言處理(NaturalLanguageProcessing,NLP)技術(shù)的讀者朋友入門此領域,本書闡述了自然語言處理概況、領域應用、相關(guān)處理工具包、相關(guān)的機器學習及深度學習模型、文本預處理及文本表征等基礎知識,以及具體的自然語言處理任務,包括文本分類、關(guān)系抽取、知識圖譜、文本摘要、序列標注、機器翻譯和聊天系統(tǒng),同時介紹了自然語言處理技術(shù)在學術(shù)界以及工業(yè)界的發(fā)展、應用現(xiàn)狀,并為讀者們提供了部分面試參考題目。
本書適合有一定的編程及機器學習基礎,想入門自然語言處理,以及想系統(tǒng)了解或準備求職自然語言處理初級崗位的讀者閱讀。 本書特色 1內(nèi)容安排實用實在、詳略得當,符合初學者的認知規(guī)律 本書內(nèi)容涵蓋了從自然語言數(shù)據(jù)處理、基礎任務(如分詞、詞性標注、命名實體識別等)到實戰(zhàn)性任務(如文本分類、文本摘要、聊天系統(tǒng)等)所必須掌握的知識,從內(nèi)容結(jié)構(gòu)上非常注重知識的實用性和可操作性。必須掌握的細節(jié)處不吝筆墨,輔以圖表以及代碼加深讀者印象;對僅需要大致了解處簡要介紹一些相關(guān)理論及前沿動態(tài)。這樣的安排使得初學者能夠掌握必備知識,了解并思考學術(shù)前沿及行業(yè)應用,符合初學者對自然語言處理知識的認知規(guī)律。 2行文簡單直白,以實例引導理論,特別適合初學者閱讀 本書行文簡單直白,全程都有相應的實例作為引導,對于比較難的內(nèi)容盡量以舉例的形式幫助讀者理解。在介紹這些知識時,并不是教條式的,填鴨式的講解,而是盡量以平實化的語言講解相關(guān)理論,猶如幫助一位老朋友,一步步地成為初級自然語言處理工程師。 3設置思考題以及項目代碼,激發(fā)初學者的熱情與興趣 本書的每一章都設置有相應的思考題,并在附錄中提供了相關(guān)參考答案;讀者可以自測對章節(jié)內(nèi)容的學習的掌握程度。此外,本書章節(jié)介紹的代碼實例,相關(guān)的電子版本會隨書贈予,使讀者能夠進行實踐操作,更加深入地理解知識。這些實踐內(nèi)容是學習自然語言處理過程中必不可少的環(huán)節(jié),通過思考題以及代碼的操作練習,能夠使讀者朋友快速地入門自然語言處理。
雖說自然語言處理(Natural Language Processing, NLP)技術(shù)的歷史并不悠久,卻有著自身成熟的理論體系,覆蓋多門學科,比如數(shù)學、計算機科學、語言學、認知心理學等基礎知識,同時它又是一門應用性極強的技術(shù),在很多領域都具備落地性。這種理論加實際操作能力的要求對初學者形成了雙重困難。通俗地闡述基本的、必備的理論知識,克服困難,使讀者能夠快速從容地上手實際項目,成為一名初級自然語言處理工程師,這是本書的目標。
本書濃縮編者多年的知識積累和實務工作經(jīng)驗奉獻于讀者朋友。書中采用大量的圖示與代碼案例分析,將枯燥復雜的理論知識用平實的語言娓娓道來,讓讀者在熟悉的場景中能夠動態(tài)地理解專業(yè)知識。在具體內(nèi)容安排上,拋開深奧的理論化條文,除了必備的基礎理論、知識介紹外,不貪多求全,強調(diào)實務操作、快速上手——從如何對文本數(shù)據(jù)進行預處理、基礎分析到實用的自然語言處理實踐任務如文本摘要生成、聊天系統(tǒng)等,讓讀者循序漸進地入門系統(tǒng)的自然語言處理技術(shù)。隨著本書的講解,讀者的自然語言處理學習之旅一定會成為一番難忘的快樂體驗。 本書特色 1內(nèi)容安排實用實在、詳略得當,符合初學者的認知規(guī)律 本書內(nèi)容涵蓋了從自然語言數(shù)據(jù)處理、基礎任務(如分詞、詞性標注、命名實體識別等)到實戰(zhàn)性任務(如文本分類、文本摘要、聊天系統(tǒng)等)所必須掌握的知識,從內(nèi)容結(jié)構(gòu)上非常注重知識的實用性和可操作性。必須掌握的細節(jié)處不吝筆墨,輔以圖表以及代碼加深讀者印象;對僅需要大致了解處簡要介紹一些相關(guān)理論及前沿動態(tài)。這樣的安排使得初學者能夠掌握必備知識,了解并思考學術(shù)前沿及行業(yè)應用,符合初學者對自然語言處理知識的認知規(guī)律。 2行文簡單直白,以實例引導理論,特別適合初學者閱讀 本書行文簡單直白,全程都有相應的實例作為引導,對于比較難的內(nèi)容盡量以舉例的形式幫助讀者理解。在介紹這些知識時,并不是教條式的,填鴨式的講解,而是盡量以平實化的語言講解相關(guān)理論,猶如幫助一位老朋友,一步步地成為初級自然語言處理工程師。 3設置思考題以及項目代碼,激發(fā)初學者的熱情與興趣 本書的每一章都設置有相應的思考題,并在附錄中提供了相關(guān)參考答案;讀者可以自測對章節(jié)內(nèi)容的學習的掌握程度。此外,本書章節(jié)介紹的代碼實例,相關(guān)的電子版本會隨書贈予,使讀者能夠進行實踐操作,更加深入地理解知識。這些實踐內(nèi)容是學習自然語言處理過程中必不可少的環(huán)節(jié),通過思考題以及代碼的操作練習,能夠使讀者朋友快速地入門自然語言處理。 自然語言處理從入門到實戰(zhàn) 本書內(nèi)容及體系結(jié)構(gòu) 第一部分自然語言處理核心技術(shù) 第1章自然語言處理初探 本章主要為讀者朋友介紹,在這短短不到一百年的時間里,自然語言處理早期的發(fā)展歷程,近些年突飛猛進的發(fā)展,以及自然語言處理的基本任務,在各行各業(yè)中的應用和基本的工具框架。 第2章自然語言處理與機器學習 本章主要介紹一些常見機器學習模型的原理、對比分析各類機器學習模型的優(yōu)缺點以及機器學習工具庫的使用。 第3章自然語言處理與神經(jīng)網(wǎng)絡 本章將為大家揭開深度學習的神秘面紗,主要介紹神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)以及一些常見的訓練過程中的優(yōu)化方案。 第二部分自然語言處理基本任務 第4章文本預處理 本章主要介紹文本預處理的基礎項目以及相關(guān)工具、關(guān)鍵詞提取的一些常用的方法以及數(shù)據(jù)不平衡的處理方法。 第5章文本的表示技術(shù) 本章將縱向梳理文本表示技術(shù)的發(fā)展脈絡,分析各類表示方法的優(yōu)缺點。 第6章序列標注 本章將為大家介紹一些常見的序列標注場景以及不同場景下的應用模型。 第7章關(guān)系抽取 本章主要講解關(guān)系抽取的主要方法、前沿研究以及相關(guān)的應用框架。 第三部分自然語言處理高級任務 第8章知識圖譜 本章主要介紹知識圖譜的相關(guān)概念、技術(shù)、應用等。 第9章文本分類 本章主要介紹基本的文本分類方法以及相關(guān)工具的應用。 第10章文本摘要 本章主要介紹自動文本摘要中的兩大類型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通過代碼搭建演示兩個簡單版本的抽取式摘要生成器。 第11章機器翻譯 本章主要介紹機器翻譯的歷史、相關(guān)技術(shù)原理、現(xiàn)狀與不足等,通過本章的學習,讀者將了解機器翻譯的源起、統(tǒng)計機器翻譯的原理、神經(jīng)機器翻譯的原理以及常見的改進版本的神經(jīng)機器翻譯模型。 第12章聊天系統(tǒng) 本章節(jié)主要介紹聊天系統(tǒng)的基本類型及應用、關(guān)鍵技術(shù),并且用代碼演示開發(fā)一款簡單的閑聊系統(tǒng)。 第四部分自然語言處理求職 第13章自然語言處理技術(shù)的現(xiàn)在、未來及擇業(yè) 最后一章為有志于入門或從事自然語言處理的讀者提供更多的、與自然語言處理相關(guān)的常識性及實用性內(nèi)容,比如學術(shù)界、工業(yè)界等方面的研究現(xiàn)狀、未來發(fā)展熱點、如何準備面試等。 本書讀者對象 有一定的編程及機器學習基礎,想入門自然語言處理的讀者 因為興趣,想系統(tǒng)性地了解自然語言處理的讀者 準備求職自然語言處理初級崗位的讀者 雖說自然語言處理(Natural Language Processing, NLP)技術(shù)的歷史并不悠久,卻有著自身成熟的理論體系,覆蓋多門學科,比如數(shù)學、計算機科學、語言學、認知心理學等基礎知識,同時它又是一門應用性極強的技術(shù),在很多領域都具備落地性。這種理論加實際操作能力的要求對初學者形成了雙重困難。通俗地闡述基本的、必備的理論知識,克服困難,使讀者能夠快速從容地上手實際項目,成為一名初級自然語言處理工程師,這是本書的目標。 本書濃縮編者多年的知識積累和實務工作經(jīng)驗奉獻于讀者朋友。書中采用大量的圖示與代碼案例分析,將枯燥復雜的理論知識用平實的語言娓娓道來,讓讀者在熟悉的場景中能夠動態(tài)地理解專業(yè)知識。在具體內(nèi)容安排上,拋開深奧的理論化條文,除了必備的基礎理論、知識介紹外,不貪多求全,強調(diào)實務操作、快速上手——從如何對文本數(shù)據(jù)進行預處理、基礎分析到實用的自然語言處理實踐任務如文本摘要生成、聊天系統(tǒng)等,讓讀者循序漸進地入門系統(tǒng)的自然語言處理技術(shù)。隨著本書的講解,讀者的自然語言處理學習之旅一定會成為一番難忘的快樂體驗。 本書特色 1內(nèi)容安排實用實在、詳略得當,符合初學者的認知規(guī)律 本書內(nèi)容涵蓋了從自然語言數(shù)據(jù)處理、基礎任務(如分詞、詞性標注、命名實體識別等)到實戰(zhàn)性任務(如文本分類、文本摘要、聊天系統(tǒng)等)所必須掌握的知識,從內(nèi)容結(jié)構(gòu)上非常注重知識的實用性和可操作性。必須掌握的細節(jié)處不吝筆墨,輔以圖表以及代碼加深讀者印象;對僅需要大致了解處簡要介紹一些相關(guān)理論及前沿動態(tài)。這樣的安排使得初學者能夠掌握必備知識,了解并思考學術(shù)前沿及行業(yè)應用,符合初學者對自然語言處理知識的認知規(guī)律。 2行文簡單直白,以實例引導理論,特別適合初學者閱讀 本書行文簡單直白,全程都有相應的實例作為引導,對于比較難的內(nèi)容盡量以舉例的形式幫助讀者理解。在介紹這些知識時,并不是教條式的,填鴨式的講解,而是盡量以平實化的語言講解相關(guān)理論,猶如幫助一位老朋友,一步步地成為初級自然語言處理工程師。 3設置思考題以及項目代碼,激發(fā)初學者的熱情與興趣 本書的每一章都設置有相應的思考題,并在附錄中提供了相關(guān)參考答案;讀者可以自測對章節(jié)內(nèi)容的學習的掌握程度。此外,本書章節(jié)介紹的代碼實例,相關(guān)的電子版本會隨書贈予,使讀者能夠進行實踐操作,更加深入地理解知識。這些實踐內(nèi)容是學習自然語言處理過程中必不可少的環(huán)節(jié),通過思考題以及代碼的操作練習,能夠使讀者朋友快速地入門自然語言處理。 自然語言處理從入門到實戰(zhàn) 前言 本書內(nèi)容及體系結(jié)構(gòu) 第一部分自然語言處理核心技術(shù) 第1章自然語言處理初探 本章主要為讀者朋友介紹,在這短短不到一百年的時間里,自然語言處理早期的發(fā)展歷程,近些年突飛猛進的發(fā)展,以及自然語言處理的基本任務,在各行各業(yè)中的應用和基本的工具框架。 第2章自然語言處理與機器學習 本章主要介紹一些常見機器學習模型的原理、對比分析各類機器學習模型的優(yōu)缺點以及機器學習工具庫的使用。 第3章自然語言處理與神經(jīng)網(wǎng)絡 本章將為大家揭開深度學習的神秘面紗,主要介紹神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)以及一些常見的訓練過程中的優(yōu)化方案。 第二部分自然語言處理基本任務 第4章文本預處理 本章主要介紹文本預處理的基礎項目以及相關(guān)工具、關(guān)鍵詞提取的一些常用的方法以及數(shù)據(jù)不平衡的處理方法。 第5章文本的表示技術(shù) 本章將縱向梳理文本表示技術(shù)的發(fā)展脈絡,分析各類表示方法的優(yōu)缺點。 第6章序列標注 本章將為大家介紹一些常見的序列標注場景以及不同場景下的應用模型。 第7章關(guān)系抽取 本章主要講解關(guān)系抽取的主要方法、前沿研究以及相關(guān)的應用框架。 第三部分自然語言處理高級任務 第8章知識圖譜 本章主要介紹知識圖譜的相關(guān)概念、技術(shù)、應用等。 第9章文本分類 本章主要介紹基本的文本分類方法以及相關(guān)工具的應用。 第10章文本摘要 本章主要介紹自動文本摘要中的兩大類型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通過代碼搭建演示兩個簡單版本的抽取式摘要生成器。 第11章機器翻譯 本章主要介紹機器翻譯的歷史、相關(guān)技術(shù)原理、現(xiàn)狀與不足等,通過本章的學習,讀者將了解機器翻譯的源起、統(tǒng)計機器翻譯的原理、神經(jīng)機器翻譯的原理以及常見的改進版本的神經(jīng)機器翻譯模型。 第12章聊天系統(tǒng) 本章節(jié)主要介紹聊天系統(tǒng)的基本類型及應用、關(guān)鍵技術(shù),并且用代碼演示開發(fā)一款簡單的閑聊系統(tǒng)。 第四部分自然語言處理求職 第13章自然語言處理技術(shù)的現(xiàn)在、未來及擇業(yè) 最后一章為有志于入門或從事自然語言處理的讀者提供更多的、與自然語言處理相關(guān)的常識性及實用性內(nèi)容,比如學術(shù)界、工業(yè)界等方面的研究現(xiàn)狀、未來發(fā)展熱點、如何準備面試等。 本書讀者對象 有一定的編程及機器學習基礎,想入門自然語言處理的讀者 因為興趣,想系統(tǒng)性地了解自然語言處理的讀者 準備求職自然語言處理初級崗位的讀者
胡盼盼自然語言處理工程師,斯特拉斯堡大學計算機語言學碩士,曾任法國科學院(CNRS,Centre National de la Recherche Scientifique)算法研究員,負責過醫(yī)療知識圖譜、聊天機器人、智能律師系統(tǒng)、文本生成系統(tǒng)等企業(yè)級核心項目。
目錄
第一部分了解自然語言處理 第1章自然語言處理初探 11自然語言處理概述 111自然語言處理早期發(fā)展史 112新世紀的里程碑事件 12自然語言處理的挑戰(zhàn) 121詞義消歧 122指代消解 123上下文理解 124語義與語用的不對等 13自然語言處理的應用領域 131醫(yī)療 132教育 133媒體 134金融 135法律 14自然語言處理的常見工具 141基礎任務工具包 142科學計算及機器學習框架 143深度學習框架 本章小結(jié) 思考題 第二部分自然語言處理核心技術(shù) 第2章自然語言處理與機器學習 21邏輯回歸 211邏輯回歸基本原理 212邏輯回歸在實踐中的注意要點 213邏輯回歸的優(yōu)勢與不足 22樸素貝葉斯 221樸素貝葉斯基本原理 222樸素貝葉斯的類型 223樸素貝葉斯的優(yōu)勢與不足 23Kmeans算法 231Kmeans算法基本原理 232Kmeans算法實踐 233Kmeans算法的優(yōu)勢與不足 24決策樹 241決策樹的屬性劃分 242隨機森林的基本原理 243隨機森林在應用中的注意細節(jié) 25主成分分析 251梯度上升法解PCA 252協(xié)方差矩陣解PCA 253實戰(zhàn)PCA 本章小結(jié) 思考題 第3章自然語言處理與神經(jīng)網(wǎng)絡 31神經(jīng)網(wǎng)絡初探 311神經(jīng)元結(jié)構(gòu) 312常見的激活函數(shù) 313誤差反向傳播算法 32常見的神經(jīng)網(wǎng)絡結(jié)構(gòu) 321多層感知機 322循環(huán)神經(jīng)網(wǎng)絡的基本原理 323卷積神經(jīng)網(wǎng)絡的基本原理 324神經(jīng)網(wǎng)絡的優(yōu)勢與不足 33神經(jīng)網(wǎng)絡算法的改進與提升 331防止過擬合的方法 332訓練速度與精度的提高方法 333注意力機制 本章小結(jié) 思考題 第三部分自然語言處理基本任務 第4章文本預處理 41文本預處理的基礎項目 411文本規(guī)范化 412語義分析 413分詞 414文本糾錯 42關(guān)鍵詞提取 421基于特征統(tǒng)計 422基于主題模型 423基于圖模型 43數(shù)據(jù)不平衡的處理 431常見方法 432數(shù)據(jù)不平衡問題實戰(zhàn) 本章小結(jié) 思考題 第5章文本的表示技術(shù) 51詞袋模型 511基于頻次的詞袋模型 512基于TFIDF的詞袋模型 513相關(guān)工具的使用 52Word2Vec詞向量 521Word2Vec的基本原理 522Word2Vec模型細節(jié)及代碼演示 523應用工具訓練Word2Vec 53改進后的詞表征 531GloVe模型 532FastText模型 533ELMo模型 54句向量 541基于詞向量的平均 542沿用Word2Vec思想 543有監(jiān)督方式 本章小結(jié) 思考題 第6章序列標注 61序列標注基礎 611序列標注的應用場景 612基線方式 613序列標注任務的難點 62基于概率圖的模型 621隱馬爾科夫模型(HMM) 622最大熵馬爾科夫模型(MEMM) 623條件隨機場模型(CRF) 624天氣預測實例 63基于深度學習的方式 631數(shù)據(jù)表征形式 632序列處理模型 本章小結(jié) 思考題 第7章關(guān)系抽取 71關(guān)系抽取基礎 711關(guān)系抽取概述 712關(guān)系抽取的主要方法 713深度學習與關(guān)系抽取 714強化學習與關(guān)系抽取 72基于半監(jiān)督的關(guān)系抽取模式:Snowball系統(tǒng) 721Patterns及Tuples的生成 722Patterns及Tuples的評估 723Snowball的實現(xiàn)細節(jié) 73關(guān)系抽取工具——DeepDive 731DeepDive概述 732DeepDive工作流程 733概率推斷與因子圖 本章小結(jié) 思考題 第四部分自然語言處理高級任務 第8章知識圖譜 81知識圖譜基本概念 811從語義網(wǎng)絡到知識圖譜 812知識的結(jié)構(gòu)化、存儲及查詢 813幾個開源的知識圖譜 82知識圖譜的關(guān)鍵構(gòu)建技術(shù) 821本體匹配 822實體鏈接 823知識推理 83知識圖譜應用 831反欺詐 832個性化推薦 833知識庫問答 本章小結(jié) 思考題 第9章文本分類 91文本分類的常見方法 911機器學習 912模型融合 913深度學習 92文本分類的不同應用場景 921二分類 922多分類 923多標簽多分類 93案例:搭建一款新聞主題分類器 931數(shù)據(jù)預處理 932訓練與預測 933改進 本章小結(jié) 思考題 第10章文本摘要 101抽取式摘要 1011傳統(tǒng)方法 1012基于深度學習的方法 1013抽取式摘要的訓練數(shù)據(jù)問題 102生成式摘要 1021基礎模型 1022前沿模型中的技巧 1023強化學習與生成式摘要 103案例:搭建網(wǎng)球新聞摘要生成器 1031基于詞頻統(tǒng)計的摘要生成器 1032基于圖模型的摘要生成器 1033結(jié)果分析 本章小結(jié) 思考題 第11章機器翻譯 111傳統(tǒng)機器翻譯 1111源起 1112基于規(guī)則 1113基于大規(guī)模語料 112統(tǒng)計機器翻譯 1121相關(guān)流派 1122基于信源信道的統(tǒng)計機器翻譯 1123案例:外星語的翻譯實戰(zhàn) 113神經(jīng)機器翻譯 1131基本原理 1132改進機制 1133前沿與挑戰(zhàn) 本章小結(jié) 思考題 第12章聊天系統(tǒng) 121聊天系統(tǒng)的類型 1211閑聊式機器人 1212知識問答型機器人 1213任務型聊天機器人 122聊天系統(tǒng)的關(guān)鍵技術(shù) 1221檢索技術(shù) 1222意圖識別和詞槽填充 1223對話管理 1224強化學習與多輪對話 123案例:閑聊機器人實戰(zhàn) 1231技術(shù)概要 1232基本配置及數(shù)據(jù)預處理 1233閑聊機器人模型的搭建 1234模型訓練、預測以及優(yōu)化 本章小結(jié) 思考題 第五部分自然語言處理求職 第13章自然語言處理技術(shù)的現(xiàn)在、未來及擇業(yè) 131自然語言處理組織及人才需求介紹 1311學術(shù)界 1312工業(yè)界 1313人才需求現(xiàn)狀 132未來與自然語言處理 1321自然語言處理熱點技術(shù)方向 1322自然語言處理的應用暢想 1323自然語言處理帶來的行業(yè)沖擊 133面試題 1331數(shù)據(jù)結(jié)構(gòu)與算法 1332數(shù)學基礎 1333機器學習與深度學習 1334自然語言處理專業(yè) 1335實際問題解決及技術(shù)領域見解 本章小結(jié) 思考題 附錄A思考題參考答案 附錄B面試題答案目錄 第一部分了解自然語言處理 第1章自然語言處理初探 11自然語言處理概述 111自然語言處理早期發(fā)展史 112新世紀的里程碑事件 12自然語言處理的挑戰(zhàn) 121詞義消歧 122指代消解 123上下文理解 124語義與語用的不對等 13自然語言處理的應用領域 131醫(yī)療 132教育 133媒體 134金融 135法律 14自然語言處理的常見工具 141基礎任務工具包 142科學計算及機器學習框架 143深度學習框架 本章小結(jié) 思考題 第二部分自然語言處理核心技術(shù) 第2章自然語言處理與機器學習 21邏輯回歸 211邏輯回歸基本原理 212邏輯回歸在實踐中的注意要點 213邏輯回歸的優(yōu)勢與不足 22樸素貝葉斯 221樸素貝葉斯基本原理 222樸素貝葉斯的類型 223樸素貝葉斯的優(yōu)勢與不足 23Kmeans算法 231Kmeans算法基本原理 232Kmeans算法實踐 233Kmeans算法的優(yōu)勢與不足 24決策樹 241決策樹的屬性劃分 242隨機森林的基本原理 243隨機森林在應用中的注意細節(jié) 25主成分分析 251梯度上升法解PCA 252協(xié)方差矩陣解PCA 253實戰(zhàn)PCA 本章小結(jié) 思考題 第3章自然語言處理與神經(jīng)網(wǎng)絡 31神經(jīng)網(wǎng)絡初探 311神經(jīng)元結(jié)構(gòu) 312常見的激活函數(shù) 313誤差反向傳播算法 32常見的神經(jīng)網(wǎng)絡結(jié)構(gòu) 321多層感知機 322循環(huán)神經(jīng)網(wǎng)絡的基本原理 323卷積神經(jīng)網(wǎng)絡的基本原理 324神經(jīng)網(wǎng)絡的優(yōu)勢與不足 33神經(jīng)網(wǎng)絡算法的改進與提升 331防止過擬合的方法 332訓練速度與精度的提高方法 333注意力機制 本章小結(jié) 思考題 第三部分自然語言處理基本任務 第4章文本預處理 41文本預處理的基礎項目 411文本規(guī)范化 412語義分析 413分詞 414文本糾錯 42關(guān)鍵詞提取 421基于特征統(tǒng)計 422基于主題模型 423基于圖模型 43數(shù)據(jù)不平衡的處理 431常見方法 432數(shù)據(jù)不平衡問題實戰(zhàn) 本章小結(jié) 思考題 第5章文本的表示技術(shù) 51詞袋模型 511基于頻次的詞袋模型 512基于TFIDF的詞袋模型 513相關(guān)工具的使用 52Word2Vec詞向量 521Word2Vec的基本原理 522Word2Vec模型細節(jié)及代碼演示 523應用工具訓練Word2Vec 53改進后的詞表征 531GloVe模型 532FastText模型 533ELMo模型 54句向量 541基于詞向量的平均 542沿用Word2Vec思想 543有監(jiān)督方式 本章小結(jié) 思考題 第6章序列標注 61序列標注基礎 611序列標注的應用場景 612基線方式 613序列標注任務的難點 62基于概率圖的模型 621隱馬爾科夫模型(HMM) 622最大熵馬爾科夫模型(MEMM) 623條件隨機場模型(CRF) 624天氣預測實例 63基于深度學習的方式 631數(shù)據(jù)表征形式 632序列處理模型 本章小結(jié) 思考題 第7章關(guān)系抽取 71關(guān)系抽取基礎 711關(guān)系抽取概述 712關(guān)系抽取的主要方法 713深度學習與關(guān)系抽取 714強化學習與關(guān)系抽取 72基于半監(jiān)督的關(guān)系抽取模式:Snowball系統(tǒng) 721Patterns及Tuples的生成 722Patterns及Tuples的評估 723Snowball的實現(xiàn)細節(jié) 73關(guān)系抽取工具——DeepDive 731DeepDive概述 732DeepDive工作流程 733概率推斷與因子圖 本章小結(jié) 思考題 第四部分自然語言處理高級任務 第8章知識圖譜 81知識圖譜基本概念 811從語義網(wǎng)絡到知識圖譜 812知識的結(jié)構(gòu)化、存儲及查詢 813幾個開源的知識圖譜 82知識圖譜的關(guān)鍵構(gòu)建技術(shù) 821本體匹配 822實體鏈接 823知識推理 83知識圖譜應用 831反欺詐 832個性化推薦 833知識庫問答 本章小結(jié) 思考題 第9章文本分類 91文本分類的常見方法 911機器學習 912模型融合 913深度學習 92文本分類的不同應用場景 921二分類 922多分類 923多標簽多分類 93案例:搭建一款新聞主題分類器 931數(shù)據(jù)預處理 932訓練與預測 933改進 本章小結(jié) 思考題 第10章文本摘要 101抽取式摘要 1011傳統(tǒng)方法 1012基于深度學習的方法 1013抽取式摘要的訓練數(shù)據(jù)問題 102生成式摘要 1021基礎模型 1022前沿模型中的技巧 1023強化學習與生成式摘要 103案例:搭建網(wǎng)球新聞摘要生成器 1031基于詞頻統(tǒng)計的摘要生成器 1032基于圖模型的摘要生成器 1033結(jié)果分析 本章小結(jié) 思考題 第11章機器翻譯 111傳統(tǒng)機器翻譯 1111源起 1112基于規(guī)則 1113基于大規(guī)模語料 112統(tǒng)計機器翻譯 1121相關(guān)流派 1122基于信源信道的統(tǒng)計機器翻譯 1123案例:外星語的翻譯實戰(zhàn) 113神經(jīng)機器翻譯 1131基本原理 1132改進機制 1133前沿與挑戰(zhàn) 本章小結(jié) 思考題 第12章聊天系統(tǒng) 121聊天系統(tǒng)的類型 1211閑聊式機器人 1212知識問答型機器人 1213任務型聊天機器人 122聊天系統(tǒng)的關(guān)鍵技術(shù) 1221檢索技術(shù) 1222意圖識別和詞槽填充 1223對話管理 1224強化學習與多輪對話 123案例:閑聊機器人實戰(zhàn) 1231技術(shù)概要 1232基本配置及數(shù)據(jù)預處理 1233閑聊機器人模型的搭建 1234模型訓練、預測以及優(yōu)化 本章小結(jié) 思考題 第五部分自然語言處理求職 第13章自然語言處理技術(shù)的現(xiàn)在、未來及擇業(yè) 131自然語言處理組織及人才需求介紹 1311學術(shù)界 1312工業(yè)界 1313人才需求現(xiàn)狀 132未來與自然語言處理 1321自然語言處理熱點技術(shù)方向 1322自然語言處理的應用暢想 1323自然語言處理帶來的行業(yè)沖擊 133面試題 1331數(shù)據(jù)結(jié)構(gòu)與算法 1332數(shù)學基礎 1333機器學習與深度學習 1334自然語言處理專業(yè) 1335實際問題解決及技術(shù)領域見解 本章小結(jié) 思考題 附錄A思考題參考答案 附錄B面試題答案
你還可能感興趣
我要評論
|