I 第二版序言
III 第一版序言
VI 第三版前言
1 第1章 文字和語(yǔ)言 vs 數(shù)字和信息
文字和語(yǔ)言與數(shù)學(xué),從產(chǎn)生起原本就有相通性,雖然它們的發(fā)展一度分道揚(yáng)鑣,但是最終還是能走到一起。
1 信息
2 文字和數(shù)字
3 文字和語(yǔ)言背后的數(shù)學(xué)
15 第2章 自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)
人類對(duì)機(jī)器理解自然語(yǔ)言的認(rèn)識(shí)走了一條大彎路。早期的研究集中采用基于規(guī)則的方法,雖然解決了一些簡(jiǎn)單的問(wèn)題,但是無(wú)法從根本上將自然語(yǔ)言理解實(shí)用化。直到20多年后,人們開(kāi)始嘗試用基于統(tǒng)計(jì)的方法進(jìn)行自然語(yǔ)言處理,才有了突破性進(jìn)展和實(shí)用的產(chǎn)品。
1 機(jī)器智能
2 從規(guī)則到統(tǒng)計(jì)
27 第3章 統(tǒng)計(jì)語(yǔ)言模型
統(tǒng)計(jì)語(yǔ)言模型是自然語(yǔ)言處理的基礎(chǔ),并且被廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、印刷體,或手寫體識(shí)別、拼寫糾錯(cuò)、漢字輸入和文獻(xiàn)查詢。
1 用數(shù)學(xué)的方法描述語(yǔ)言規(guī)律
2 延伸閱讀:統(tǒng)計(jì)語(yǔ)言模型的工程訣竅
41 第4章 談?wù)劮衷~
中文分詞是中文信息處理的基礎(chǔ),它同樣走過(guò)了一段彎路,目前依靠統(tǒng)計(jì)語(yǔ)言模型已經(jīng)基本解決了這個(gè)問(wèn)題。
1 中文分詞方法的演變
2 延伸閱讀:如何衡量分詞的結(jié)果
50 第5章 隱馬爾可夫模型
隱馬爾可夫模型最初應(yīng)用于通信領(lǐng)域,繼而推廣到語(yǔ)音和語(yǔ)言處理中,成為連接自然語(yǔ)言處理和通信的橋梁。同時(shí),隱馬爾可夫模型也是機(jī)器學(xué)習(xí)的主要工具之一。
1 通信模型
2 隱馬爾可夫模型
3 延伸閱讀:隱馬爾可夫模型的訓(xùn)練
60 第6章 信息的度量和作用
信息是可以量化度量的。信息熵不僅是對(duì)信息的量化度量,也是整個(gè)信息論的基礎(chǔ)。它對(duì)于通信、數(shù)據(jù)壓縮、自然語(yǔ)言處理都有很強(qiáng)的指導(dǎo)意義。
1 信息熵
2 信息的作用
3 互信息
4 延伸閱讀:相對(duì)熵
72 第7章 賈里尼克和現(xiàn)代語(yǔ)言處理
作為現(xiàn)代自然語(yǔ)言處理的奠基者,賈里尼克教授成功地將數(shù)學(xué)原理應(yīng)用于自然語(yǔ)言處理領(lǐng)域中,他的一生富于傳奇色彩。
1 早年生活
2 從水門事件到莫妮卡·萊溫斯基
3 一位老人的奇跡
82 第8章 簡(jiǎn)單之美——布爾代數(shù)和搜索引擎
布爾代數(shù)雖然非常簡(jiǎn)單,卻是計(jì)算機(jī)科學(xué)的基礎(chǔ),它不僅把邏輯和數(shù)學(xué)合二為一,而且給了我們一個(gè)全新的視角看待世界,開(kāi)創(chuàng)了數(shù)字化時(shí)代。
1 布爾代數(shù)
2 索引
89 第9章 圖論和網(wǎng)絡(luò)爬蟲(chóng)
互聯(lián)網(wǎng)搜索引擎在建立索引前需要用一個(gè)程序自動(dòng)地將所有的網(wǎng)頁(yè)下載到服務(wù)器上,這個(gè)程序稱為網(wǎng)絡(luò)爬蟲(chóng),它的編寫是基于離散數(shù)學(xué)中圖論的原理。
1 圖論
2 網(wǎng)絡(luò)爬蟲(chóng)
3 延伸閱讀:圖論的兩點(diǎn)補(bǔ)充說(shuō)明
98 第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)
網(wǎng)頁(yè)排名技術(shù)PageRank是早期Google的殺手锏,它的出現(xiàn)使得網(wǎng)頁(yè)搜索的質(zhì)量上了一個(gè)大的臺(tái)階。它背后的原理是圖論和線性代數(shù)的矩陣運(yùn)算。
1 PageRank算法的原理
2 延伸閱讀:PageRank的計(jì)算方法
104 第11章 如何確定網(wǎng)頁(yè)和查詢的相關(guān)性
確定網(wǎng)頁(yè)和查詢的相關(guān)性是網(wǎng)頁(yè)搜索的根本問(wèn)題,其中確定查詢中每個(gè)關(guān)鍵詞的重要性有多高是關(guān)鍵。TF-IDF是目前通用的關(guān)鍵詞重要性的度量,其背后的原理是信息論。
1 搜索關(guān)鍵詞權(quán)重的科學(xué)度量TF-IDF
2 延伸閱讀:TF-IDF 的信息論依據(jù)
111 第12章 有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃——地圖與本地搜索的核心技術(shù)
地圖與本地搜索中要用到有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃技術(shù)。這兩項(xiàng)技術(shù)是機(jī)器智能和機(jī)器學(xué)習(xí)的工具,它們的應(yīng)用非常廣泛,還包括語(yǔ)音識(shí)別、拼寫和語(yǔ)法糾錯(cuò)、拼音輸入法、工業(yè)控制和生物的序列分析等。
1 地址分析和有限狀態(tài)機(jī)
2 全球?qū)Ш胶蛣?dòng)態(tài)規(guī)劃
3 延伸閱讀:有限狀態(tài)傳感器
121 第13章 Google AK-47的設(shè)計(jì)者——阿米特·辛格博士
在所有輕武器中最有名的是AK-47沖鋒槍,因?yàn)樗鼜牟豢,不易損壞,可在任何環(huán)境下使用,可靠性好,殺傷力大并且操作簡(jiǎn)單。Google的產(chǎn)品就是按照上述原則設(shè)計(jì)的。
127 第14章 余弦定理和新聞的分類
計(jì)算機(jī)雖然讀不懂新聞,卻可以準(zhǔn)確地對(duì)新聞進(jìn)行分類。其數(shù)學(xué)工具是看似毫不相干的余弦定理。
1 新聞的特征向量
2 向量距離的度量
3 延伸閱讀:計(jì)算向量余弦的技巧
136 第15章 矩陣運(yùn)算和文本處理中的兩個(gè)分類問(wèn)題
無(wú)論是詞匯的聚類還是文本的分類,都可以通過(guò)線性代數(shù)中矩陣的奇異值分解來(lái)進(jìn)行。這樣一來(lái),自然語(yǔ)言處理的問(wèn)題就變成了一個(gè)數(shù)學(xué)問(wèn)題。
1 文本和詞匯的矩陣
2 延伸閱讀:奇異值分解的方法和應(yīng)用場(chǎng)景
142 第16章 信息指紋及其應(yīng)用
世間萬(wàn)物都有一個(gè)唯一標(biāo)識(shí)的特征,信息也是如此。每一條信息都有它特定的指紋,通過(guò)這個(gè)指紋可以區(qū)別不同的信息。
1 信息指紋
2 信息指紋的用途
3 延伸閱讀:信息指紋的重復(fù)性和相似哈希
153 第17章 由電視劇《暗算》所想到的——談?wù)劽艽a學(xué)的數(shù)學(xué)原理
密碼學(xué)的根本是信息論和數(shù)學(xué)。沒(méi)有信息論指導(dǎo)的密碼是非常容易被破解的。只有在信息論被廣泛應(yīng)用于密碼學(xué)后,密碼才真正變得安全。
1 密碼學(xué)的自發(fā)時(shí)代
2 信息論時(shí)代的密碼學(xué)
162 第18章 閃光的不一定是金子——談?wù)勊阉饕娣醋鞅讍?wèn)題和搜索結(jié)果的權(quán)威性問(wèn)題
閃光的不一定是金子,搜索引擎中排名靠前的網(wǎng)頁(yè)也未必是有用的網(wǎng)頁(yè)。消除這些作弊網(wǎng)頁(yè)的原理和通信中過(guò)濾噪聲的原理相同。這說(shuō)明信息處理和通信的很多原理是相通的。
1 搜索引擎的反作弊
2 搜索結(jié)果的權(quán)威性
171 第19章 談?wù)剶?shù)學(xué)模型的重要性
正確的數(shù)學(xué)模型在科學(xué)和工程中至關(guān)重要,而發(fā)現(xiàn)正確模型的途徑常常是曲折的。正確的模型在形式上通常是簡(jiǎn)單的。
179 第20章 不要把雞蛋放到一個(gè)籃子里——談?wù)勛畲箪啬P?/p>
最大熵模型是一個(gè)完美的數(shù)學(xué)模型。它可以將各種信息整合到一個(gè)統(tǒng)一的模型中,在信息處理和機(jī)器學(xué)習(xí)中有著廣泛的應(yīng)用。它在形式上非常簡(jiǎn)單、優(yōu)美,而在實(shí)現(xiàn)時(shí)需要有精深的數(shù)學(xué)基礎(chǔ)和高超的技巧。
1 最大熵原理和最大熵模型
2 延伸閱讀:最大熵模型的訓(xùn)練
186 第21章 拼音輸入法的數(shù)學(xué)原理
漢字的輸入過(guò)程本身就是人和計(jì)算機(jī)之間的通信。好的輸入法會(huì)自覺(jué)或不自覺(jué)地遵循通信的數(shù)學(xué)模型。當(dāng)然要做出最有效的輸入法,應(yīng)當(dāng)自覺(jué)使用信息論做指導(dǎo)。
1 輸入法與編碼
2 輸入一個(gè)漢字需要敲多少個(gè)鍵——談?wù)勏戕r(nóng)第一定理
3 拼音轉(zhuǎn)漢字的算法
4 延伸閱讀:個(gè)性化的語(yǔ)言模型
197 第22章 自然語(yǔ)言處理的教父馬庫(kù)斯和他的優(yōu)秀弟子們
將自然語(yǔ)言處理從基于規(guī)則的研究方法轉(zhuǎn)到基于統(tǒng)計(jì)的研究方法上,賓夕法尼亞大學(xué)的教授米奇·馬庫(kù)斯功不可沒(méi)。他創(chuàng)立了今天在學(xué)術(shù)界廣泛使用的LCD語(yǔ)料庫(kù),同時(shí)培養(yǎng)了一大批精英人物。
1 教父馬庫(kù)斯
2 從賓夕法尼亞大學(xué)走出的精英們
204 第23章 布隆過(guò)濾器
日常生活中,經(jīng)常要判斷一個(gè)元素是否在一個(gè)集合中。布隆過(guò)濾器是計(jì)算機(jī)工程中解決這個(gè)問(wèn)題最好的數(shù)學(xué)
工具。
1 布隆過(guò)濾器的原理
2 延伸閱讀:布隆過(guò)濾器的誤識(shí)別問(wèn)題
209 第24章 馬爾可夫鏈的擴(kuò)展——貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)是一個(gè)加權(quán)的有向圖,是馬爾可夫鏈的擴(kuò)展。而從認(rèn)識(shí)論的層面看:貝葉斯網(wǎng)絡(luò)克服了馬爾可夫鏈那種機(jī)械的線性約束,它可以把任何有關(guān)聯(lián)的事件統(tǒng)一到它的框架下面。它在生物統(tǒng)計(jì)、圖像處理、決策支持系統(tǒng)和博弈論中都有廣泛的使用。
1 貝葉斯網(wǎng)絡(luò)
2 貝葉斯網(wǎng)絡(luò)在詞分類中的應(yīng)用
3 延伸閱讀:貝葉斯網(wǎng)絡(luò)的訓(xùn)練
217 第25章 條件隨機(jī)場(chǎng)、文法分析及其他
條件隨機(jī)場(chǎng)是計(jì)算聯(lián)合概率分布的有效模型,而句子的文法分析似乎是英文課上英語(yǔ)老師教的東西,這兩者有什么聯(lián)系呢?
1 文法分析——計(jì)算機(jī)算法的演變
2 條件隨機(jī)場(chǎng)
3 條件隨機(jī)場(chǎng)在其他領(lǐng)域的應(yīng)用
227 第26章 維特比和他的維特比算法
維特比算法是現(xiàn)代數(shù)字通信中使用最頻繁的算法,也是很多自然語(yǔ)言處理采用的解碼算法。可以毫不夸張地
講,維特比是對(duì)我們今天的生活影響力最大的科學(xué)家之一,因?yàn)榛贑DMA的3G移動(dòng)通信標(biāo)準(zhǔn)主要就是他和厄文·雅各布創(chuàng)辦的高通公司制定的。
1 維特比算法
2 CDMA技術(shù)——3G移動(dòng)通信的基礎(chǔ)
238 第27章 上帝的算法——期望最大化算法
只要有一些訓(xùn)練數(shù)據(jù),再定義一個(gè)最大化函數(shù),采用EM算法,利用計(jì)算機(jī)經(jīng)過(guò)若干次迭代,就可以得到所需要的模型。這實(shí)在是太美妙了,這也許是造物主刻意安排的,所以我把它稱作上帝的算法。
1 文本的自收斂分類
2 延伸閱讀:期望最大化和收斂的必然性
244 第28章 邏輯回歸和搜索廣告
邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應(yīng)用于信息處理和生物統(tǒng)計(jì)中。
1 搜索廣告的發(fā)展
2 邏輯回歸模型
249 第29章 各個(gè)擊破算法和Google云計(jì)算的基礎(chǔ)
Google頗為神秘的云計(jì)算中最重要的MapReduce工具,其原理就是計(jì)算機(jī)算法中常用的“各個(gè)擊破”算法,它的原理原來(lái)這么簡(jiǎn)單——將復(fù)雜的大問(wèn)題分解成很多小問(wèn)題分別求解,然后再把小問(wèn)題的解合并成原始問(wèn)題的解。由此可見(jiàn),在生活中大量用到的、真正有用的方法常常都是簡(jiǎn)單樸實(shí)的。
1 分治算法的原理
2 從分治算法到MapReduce
254 第30章 Google大腦和人工神經(jīng)網(wǎng)絡(luò)
Google大腦并不是一個(gè)什么都能思考的大腦,而是一個(gè)很能計(jì)算的人工神經(jīng)網(wǎng)絡(luò)。因此,與其說(shuō)Google大腦很聰明,不如說(shuō)它很能算。不過(guò),換個(gè)角度來(lái)說(shuō),隨著計(jì)算能力的不斷提高,計(jì)算量大但簡(jiǎn)單的數(shù)學(xué)方法有時(shí)能夠解決很復(fù)雜的問(wèn)題。
1 人工神經(jīng)網(wǎng)絡(luò)
2 訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)
3 人工神經(jīng)網(wǎng)絡(luò)與貝葉斯網(wǎng)絡(luò)的關(guān)系
4 延伸閱讀:Google大腦
274 第31章 區(qū)塊鏈的數(shù)學(xué)基礎(chǔ)——橢圓曲線加密原理
希爾伯特講,“我們直到能夠把一門自然科學(xué)的數(shù)學(xué)內(nèi)核剝出并完全地揭示出來(lái),才能夠掌握它!币员忍貛艦榇淼募用茇泿诺幕A(chǔ)是數(shù)學(xué)的算法,只有搞清楚加密貨幣的數(shù)學(xué)內(nèi)核,我們才能了解它的本質(zhì)。
1 不對(duì)稱、不透明之美
2 橢圓曲線加密的原理
282 第32章 大數(shù)據(jù)的威力——談?wù)剶?shù)據(jù)的重要性
如果說(shuō)在過(guò)去的40年里,主導(dǎo)全球IT產(chǎn)業(yè)發(fā)展的是摩爾定律,那么在今后的20年里,主導(dǎo)IT行業(yè)繼續(xù)發(fā)展的動(dòng)力則將來(lái)自于數(shù)據(jù)。
1 數(shù)據(jù)的重要性
2 數(shù)據(jù)的統(tǒng)計(jì)和信息技術(shù)
3 為什么需要大數(shù)據(jù)
304 第33章 隨機(jī)性帶來(lái)的好處——量子密鑰分發(fā)的數(shù)學(xué)原理
人們總是喜歡確定性而不喜歡隨機(jī)性。但是從對(duì)確定性規(guī)律的把握上升到對(duì)隨機(jī)性規(guī)律的把握,恰恰是近代數(shù)學(xué)進(jìn)步的標(biāo)志。量子通信就是建立在把握了有關(guān)隨機(jī)性規(guī)律的基礎(chǔ)之上。
1 用(激光)量子的偏振方向傳遞信息
2 利用隨機(jī)性保證信息安全
312 第34章 數(shù)學(xué)的極限——希爾伯特第十問(wèn)題和機(jī)器智能的極限
世界上只有一小部分問(wèn)題是數(shù)學(xué)問(wèn)題,而數(shù)學(xué)問(wèn)題中又只有極小的一部分問(wèn)題有解。在這些問(wèn)題中,今天已經(jīng)找到相應(yīng)算法的少之又少。因此,數(shù)學(xué)不是萬(wàn)能的,我們需要了解數(shù)學(xué)的邊界在哪里。
1 圖靈劃定計(jì)算機(jī)可計(jì)算問(wèn)題的邊界
2 希爾伯特劃定有解數(shù)學(xué)問(wèn)題的邊界
3 延伸閱讀:關(guān)于圖靈機(jī)
323 附錄 計(jì)算復(fù)雜度
327 第三版后記
333 索引