關(guān)于我們
書單推薦
新書推薦
|
斯坦福數(shù)據(jù)挖掘教程
本書由斯坦福大學(xué)“Web挖掘”課程的內(nèi)容總結(jié)而成,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。書中包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)、社會網(wǎng)絡(luò)圖挖掘和大規(guī)模機(jī)器學(xué)習(xí)等主要內(nèi)容。第3 版新增了決策樹、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等內(nèi)容。幾乎每節(jié)都有對應(yīng)的習(xí)題,以此來鞏固所講解的內(nèi)容。讀者還可以從網(wǎng)上獲取相關(guān)拓展資料。
1.本書*作者Jure Leskovec為當(dāng)今AI領(lǐng)域*知名的學(xué)者之一,在圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域取得了了不起的研究進(jìn)展
2.本書第三作者Jeffrey Ullman是2020年圖靈獎得主,第二作者是他的得意弟子 3.本書由國內(nèi)知名NLP專家王斌、Jure實(shí)驗(yàn)室AI專家王達(dá)侃擔(dān)綱翻譯 4.本書被譽(yù)為“數(shù)據(jù)挖掘全景式入門參考書”,源自斯坦福大學(xué)公開課“CS246:海量數(shù)據(jù)挖掘”“CS224W:圖機(jī)器學(xué)習(xí)”和“CS341:項(xiàng)目實(shí)戰(zhàn)課” 5.書中以海量數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)為重點(diǎn),全面分析并實(shí)現(xiàn)了各種常用的數(shù)據(jù)挖掘算法,同時(shí)介紹了目前Web應(yīng)用的許多重要話題 6.在第2版《大數(shù)據(jù) 互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理(第2版)》基礎(chǔ)上,第3版內(nèi)容新增一章,專門探討神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),并擴(kuò)充了社會網(wǎng)絡(luò)分析和決策樹的相關(guān)內(nèi)容 7.本書配套資源豐富,包括開源英文原書PDF、PPT、視頻講解、考試題等
【作者簡介】
尤雷·萊斯科夫(Jure Leskovec) Pinterest公司首席科學(xué)家,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系副教授,研究方向?yàn)榇笮蜕缃缓托畔⒕W(wǎng)絡(luò)的數(shù)據(jù)挖掘。他的研究成果獲得了很多獎項(xiàng),如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,還獲得了很多最佳論文獎,同時(shí)也被《紐約時(shí)報(bào)》《華爾街日報(bào)》《華盛頓郵報(bào)》《連線》、NBC、BBC和CBC等流行的社會媒體刊載。他還創(chuàng)建了斯坦福網(wǎng)絡(luò)分析平臺(SNAP)。 阿南德·拉賈拉曼(Anand Rajaraman) 數(shù)據(jù)庫和Web技術(shù)領(lǐng)域領(lǐng)軍者,硅谷連續(xù)創(chuàng)業(yè)者和風(fēng)險(xiǎn)投資人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。自1996年起創(chuàng)立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團(tuán)收購,而他本人歷任亞馬遜技術(shù)總監(jiān)、沃爾瑪負(fù)責(zé)全球電子商務(wù)業(yè)務(wù)的副總裁。之后創(chuàng)立了風(fēng)投公司Milliways Ventures和Rocketship VC,投資過Facebook、Lyft等眾多公司。作為學(xué)者,他主要研究數(shù)據(jù)庫系統(tǒng)、Web和社交媒體,他的研究論文在學(xué)術(shù)會議上獲得了多個獎項(xiàng),他在2012年被Fast Company雜志列入“商界最具創(chuàng)造力100人”。 杰弗里·大衛(wèi)·厄爾曼(Jeffrey David Ullman) 計(jì)算機(jī)科學(xué)家,美國國家工程院院士,2020年圖靈獎得主。早年在貝爾實(shí)驗(yàn)室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD創(chuàng)新獎、高德納獎、馮諾依曼獎等多項(xiàng)科研大獎;合著有“龍書”《編譯原理》、數(shù)據(jù)庫名著《數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)》等多部經(jīng)典著作;培養(yǎng)的多名學(xué)生已成為數(shù)據(jù)庫領(lǐng)域的專家,其中包括谷歌聯(lián)合創(chuàng)始人Sergey Brin,本書第二作者也是他的得意弟子。目前擔(dān)任Gradiance公司CEO。 【譯者簡介】 王斌博士 小米AI實(shí)驗(yàn)室主任,NLP首席科學(xué)家。中國中文信息學(xué)會理事,《中文信息學(xué)報(bào)》編委。加入小米公司之前,是中科院研究員、博導(dǎo)及中科院大學(xué)教授。譯有《信息檢索導(dǎo)論》《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》和《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》等書。 王達(dá)侃 優(yōu)刻得AI部門負(fù)責(zé)人,曾任WeWork Research & Applied Science中國區(qū)負(fù)責(zé)人,并曾在LinkedIn、Twitter和微軟亞洲研究院負(fù)責(zé)AI以及大數(shù)據(jù)方向的研發(fā)工作。碩士畢業(yè)于美國斯坦福大學(xué)計(jì)算機(jī)系,本科畢業(yè)于上海交通大學(xué)ACM班。
第 1章 數(shù)據(jù)挖掘基本概念 1
1.1 數(shù)據(jù)挖掘的定義 1 1.1.1 建模 1 1.1.2 統(tǒng)計(jì)建模 2 1.1.3 機(jī)器學(xué)習(xí) 2 1.1.4 建模的計(jì)算方法 3 1.1.5 數(shù)據(jù)概括 3 1.1.6 特征抽取 4 1.2 數(shù)據(jù)挖掘的統(tǒng)計(jì)限制 5 1.2.1 整體情報(bào)預(yù)警 5 1.2.2 邦弗朗尼原理 5 1.2.3 邦弗朗尼原理的一個例子 6 1.2.4 習(xí)題 7 1.3 相關(guān)知識 7 1.3.1 詞語在文檔中的重要性 7 1.3.2 哈希函數(shù) 8 1.3.3 索引 9 1.3.4 二級存儲器 10 1.3.5 自然對數(shù)的底e 11 1.3.6 冪定律 12 1.3.7 習(xí)題 13 1.4 本書概要 14 1.5 小結(jié) 15 1.6 參考文獻(xiàn) 16 第 2章 MapReduce和新軟件棧 17 2.1 分布式文件系統(tǒng) 18 2.1.1 計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu) 18 2.1.2 大規(guī)模文件系統(tǒng)的結(jié)構(gòu) 19 2.2 MapReduce 20 2.2.1 Map任務(wù) 21 2.2.2 按鍵分組 21 2.2.3 Reduce任務(wù) 22 2.2.4 組合器 22 2.2.5 MapReduce的執(zhí)行細(xì)節(jié) 23 2.2.6 節(jié)點(diǎn)故障的處理 24 2.2.7 習(xí)題 24 2.3 使用MapReduce的算法 24 2.3.1 基于MapReduce的矩陣—向量乘法實(shí)現(xiàn) 25 2.3.2 向量v無法放入內(nèi)存時(shí)的處理 26 2.3.4 基于MapReduce的選擇運(yùn)算 28 2.3.5 基于MapReduce的投影運(yùn)算 28 2.3.6 基于MapReduce的并、交和差運(yùn)算 29 2.3.7 基于MapReduce的自然連接運(yùn)算 29 2.3.8 基于MapReduce的分組和聚合運(yùn)算 30 2.3.9 矩陣乘法 30 2.3.10 基于單步MapReduce的矩陣乘法 31 2.3.11 習(xí)題 32 2.4 MapReduce的擴(kuò)展 32 2.4.1 工作流系統(tǒng) 33 2.4.2 Spark 34 2.4.3 Spark實(shí)現(xiàn) 36 2.4.4 TensorFlow 37 2.4.5 MapReduce的遞歸擴(kuò)展版本 38 2.4.6 整體同步系統(tǒng) 40 2.4.7 習(xí)題 41 2.5 通信開銷模型 41 2.5.1 任務(wù)網(wǎng)絡(luò)的通信開銷 42 2.5.2 時(shí)鐘時(shí)間 43 2.5.3 多路連接 43 2.5.4 習(xí)題 46 2.6 MapReduce復(fù)雜性理論 47 2.6.1 Reducer規(guī)模及復(fù)制率 47 2.6.2 一個例子:相似性連接 48 2.6.3 MapReduce問題的一個圖模型 51 2.6.5 并非所有輸入都存在時(shí)的處理 52 2.6.7 案例分析:矩陣乘法 54 2.6.8 習(xí)題 57 2.7 小結(jié) 58 2.8 參考文獻(xiàn) 59 第3章 相似項(xiàng)發(fā)現(xiàn) 61 3.1 集合相似度的應(yīng)用 62 3.1.1 集合的Jaccard相似度 62 3.1.2 文檔的相似度 62 3.1.3 協(xié)同過濾——一個集合相似問題 63 3.1.4 習(xí)題 64 3.2 文檔的shingling 65 3.2.1 k-shingle 65 3.2.2 shingle大小的選擇 65 3.2.3 對shingle進(jìn)行哈希 66 3.2.4 基于詞的shingle 66 3.2.5 習(xí)題 67 3.3 保持相似度的集合摘要表示 67 3.3.1 集合的矩陣表示 67 3.3.2 最小哈希 68 3.3.3 最小哈希和Jaccard相似度 69 3.3.4 最小哈希簽名 69 3.3.5 最小哈希簽名的計(jì)算 70 3.3.6 對最小哈希加速 72 3.3.7 使用哈希加速 73 3.3.8 習(xí)題 75 3.4 文檔的局部敏感哈希算法 76 3.4.1 面向最小哈希簽名的LSH 76 3.4.2 行條化策略的分析 77 3.4.3 上述技術(shù)的綜合 79 3.4.4 習(xí)題 79 3.5 距離測度 80 3.5.1 距離測度的定義 80 3.5.2 歐氏距離 80 3.5.3 Jaccard 距離 81 3.5.4 余弦距離 81 3.5.5 編輯距離 82 3.5.6 海明距離 83 3.5.7 習(xí)題 83 3.6 局部敏感函數(shù)理論 85 3.6.1 局部敏感函數(shù) 85 3.6.2 面向Jaccard距離的局部敏感函數(shù)族 86 3.6.3 局部敏感函數(shù)族的放大處理 87 3.6.4 習(xí)題 89 3.7 面向其他距離測度的LSH函數(shù)族 89 3.7.1 面向海明距離的LSH函數(shù)族 89 3.7.2 隨機(jī)超平面和余弦距離 90 3.7.3 梗概 91 3.7.4 面向歐氏距離的LSH函數(shù)族 91 3.7.5 面向歐氏空間的更多LSH函數(shù)族 92 3.7.6 習(xí)題 93 3.8 LSH函數(shù)的應(yīng)用 93 3.8.1 實(shí)體關(guān)聯(lián) 94 3.8.2 一個實(shí)體關(guān)聯(lián)的例子 94 3.8.3 記錄匹配的驗(yàn)證 95 3.8.4 指紋匹配 96 3.8.5 適用于指紋匹配的LSH函數(shù)族 98 3.8.7 習(xí)題 99 3.9 面向高相似度的方法 99 3.9.1 相等項(xiàng)發(fā)現(xiàn) 99 3.9.2 集合的字符串表示方法 100 3.9.3 基于長度的過濾 100 3.9.4 前綴索引 101 3.9.5 位置信息的使用 102 3.9.6 使用位置和長度信息的索引 103 3.9.7 習(xí)題 105 3.10 小結(jié) 106 3.11 參考文獻(xiàn) 108 第4章 數(shù)據(jù)流挖掘 109 4.1 流數(shù)據(jù)模型 109 4.1.1 一個數(shù)據(jù)流管理系統(tǒng) 109 4.1.2 流數(shù)據(jù)源的例子 110 4.1.3 流查詢 111 4.1.4 流處理中的若干問題 112 4.2 流當(dāng)中的數(shù)據(jù)抽樣 112 4.2.1 一個富有啟發(fā)性的例子 112 4.2.2 代表性樣本的獲取 113 4.2.3 一般的抽樣問題 114 4.2.4 樣本規(guī)模的變化 114 4.2.5 習(xí)題 115 4.3 流過濾 115 4.3.1 一個例子 115 4.3.2 布隆過濾器 116 4.3.3 布隆過濾方法的分析 116 4.3.4 習(xí)題 117 4.4 流中獨(dú)立元素的數(shù)目統(tǒng)計(jì) 118 4.4.1 獨(dú)立元素計(jì)數(shù)問題 118 4.4.2 FM算法 118 4.4.3 組合估計(jì) 119 4.4.4 空間需求 120 4.4.5 習(xí)題 120 4.5 矩估計(jì) 120 4.5.1 矩定義 120 4.5.2 二階矩估計(jì)的AMS算法 121 4.5.3 AMS算法有效的原因 122 4.5.4 更高階矩的估計(jì) 122 4.5.5 無限流的處理 123 4.5.6 習(xí)題 124 4.6 窗口內(nèi)的計(jì)數(shù)問題 124 4.6.1 精確計(jì)數(shù)的開銷 125 4.6.2 DGIM算法 125 4.6.3 DGIM算法的存儲需求 127 4.6.4 DGIM算法中的查詢應(yīng)答 127 4.6.5 DGIM條件的保持 127 4.6.6 降低錯誤率 128 4.6.7 窗口內(nèi)計(jì)數(shù)問題的擴(kuò)展 129 4.6.8 習(xí)題 130 4.7 衰減窗口 130 4.7.1 最常見元素問題 130 4.7.2 衰減窗口的定義 130 4.7.3 最流行元素的發(fā)現(xiàn) 131 4.8 小結(jié) 132 4.9 參考文獻(xiàn) 133 第5章 鏈接分析 134 5.1 PageRank 134 5.1.1 早期的搜索引擎及詞項(xiàng)作弊 134 5.1.2 PageRank的定義 136 5.1.3 Web結(jié)構(gòu) 138 5.1.4 避免終止點(diǎn) 140 5.1.5 采集器陷阱和“抽稅”法 142 5.1.6 PageRank在搜索引擎中的使用 144 5.1.7 習(xí)題 144 5.2 PageRank的快速計(jì)算 145 5.2.1 轉(zhuǎn)移矩陣的表示 146 5.2.2 基于MapReduce的PageRank迭代計(jì)算 146 5.2.3 結(jié)果向量合并時(shí)的組合器使用 147 5.2.4 轉(zhuǎn)移矩陣中塊的表示 148 5.2.5 其他高效的PageRank迭代方法 149 5.2.6 習(xí)題 150 5.3 面向主題的PageRank 150 5.3.1 動機(jī) 150 5.3.2 有偏的隨機(jī)游走模型 151 5.3.3 面向主題的PageRank的使用 153 5.3.5 習(xí)題 153 5.4 鏈接作弊 153 5.4.1 垃圾農(nóng)場的架構(gòu) 154 5.4.2 垃圾農(nóng)場的分析 155 5.4.3 與鏈接作弊的斗爭 156 5.4.4 TrustRank 156 5.4.5 垃圾質(zhì)量 156 5.4.6 習(xí)題 157 5.5 導(dǎo)航頁和權(quán)威頁 157 5.5.1 HITS的直觀意義 158 5.5.2 導(dǎo)航度和權(quán)威度的形式化 158 5.5.3 習(xí)題 161 5.6 小結(jié) 161 5.7 參考文獻(xiàn) 164 第6章 頻繁項(xiàng)集 165 6.1 購物籃模型 165 6.1.1 頻繁項(xiàng)集的定義 165 6.1.2 頻繁項(xiàng)集的應(yīng)用 167 6.1.3 關(guān)聯(lián)規(guī)則 168 6.1.4 高可信度關(guān)聯(lián)規(guī)則的發(fā)現(xiàn) 169 6.1.5 習(xí)題 170 6.2 購物籃和A-Priori算法 171 6.2.1 購物籃數(shù)據(jù)的表示 171 6.2.2 項(xiàng)集計(jì)數(shù)中的內(nèi)存使用 172 6.2.3 項(xiàng)集的單調(diào)性 173 6.2.4 二元組計(jì)數(shù) 174 6.2.5 A-Priori算法 174 6.2.6 所有頻繁項(xiàng)集上的A-Priori算法 176 6.2.7 習(xí)題 177 6.3 更大數(shù)據(jù)集在內(nèi)存中的處理 178 6.3.1 PCY算法 179 6.3.2 多階段算法 180 6.3.3 多哈希算法 182 6.3.4 習(xí)題 183 6.4 有限掃描算法 185 6.4.1 簡單的隨機(jī)化算法 185 6.4.2 抽樣算法中的錯誤規(guī)避 186 6.4.3 SON算法 187 6.4.4 SON算法和MapReduce 187 6.4.5 Toivonen算法 188 6.4.6 Toivonen算法的有效性分析 189 6.4.7 習(xí)題 189 6.5 流中的頻繁項(xiàng)計(jì)數(shù) 190 6.5.1 流的抽樣方法 190 6.5.2 衰減窗口中的頻繁項(xiàng)集 191 6.5.3 混合方法 191 6.5.4 習(xí)題 192 6.6 小結(jié) 192 6.7 參考文獻(xiàn) 194 第7章 聚類 195 7.1 聚類技術(shù)介紹 195 7.1.1 點(diǎn)、空間和距離 195 7.1.2 聚類策略 196 7.1.3 維數(shù)災(zāi)難 197 7.1.4 習(xí)題 198 7.2 層次聚類 198 7.2.1 歐氏空間下的層次聚類 198 7.2.2 層次聚類算法的效率 202 7.2.3 控制層次聚類的其他規(guī)則 202 7.2.4 非歐空間下的層次聚類 204 7.2.5 習(xí)題 205 7.3 k-均值算法 206 7.3.1 k-均值算法基本知識 206 7.3.2 k-均值算法的簇初始化 206 7.3.3 選擇正確的k值 207 7.3.4 BFR算法 208 7.3.5 BFR算法中的數(shù)據(jù)處理 210 7.3.6 習(xí)題 211 7.4 CURE算法 212 7.4.1 CURE算法的初始化 213 7.4.2 CURE算法的完成 214 7.4.3 習(xí)題 214 7.5 非歐空間下的聚類 215 7.5.1 GRGPF算法中的簇表示 215 7.5.2 簇表示樹的初始化 215 7.5.3 GRGPF算法中的點(diǎn)加入 216 7.5.4 簇的分裂及合并 217 7.5.5 習(xí)題 218 7.6 流聚類及并行化 218 7.6.1 流計(jì)算模型 218 7.6.2 一個流聚類算法 219 7.6.3 桶的初始化 219 7.6.4 桶合并 219 7.6.5 查詢應(yīng)答 221 7.6.6 并行環(huán)境下的聚類 221 7.6.7 習(xí)題 222 7.7 小結(jié) 222 7.8 參考文獻(xiàn) 224 第8章 Web廣告 226 8.1 在線廣告相關(guān)問題 226 8.1.1 廣告機(jī)會 226 8.1.2 直投廣告 227 8.1.3 展示廣告的相關(guān)問題 227 8.2 在線算法 228 8.2.1 在線和離線算法 228 8.2.2 貪心算法 229 8.2.3 競爭率 230 8.2.4 習(xí)題 230 8.3 廣告匹配問題 231 8.3.1 匹配及完美匹配 231 8.3.2 極大匹配貪心算法 232 8.3.3 貪心匹配算法的競爭率 232 8.3.4 習(xí)題 233 8.4 adwords問題 233 8.4.1 搜索廣告的歷史 234 8.4.2 adwords問題的定義 234 8.4.3 adwords問題的貪心方法 235 8.4.4 Balance算法 236 8.4.5 Balance算法競爭率的一個下界 236 8.4.6 多投標(biāo)者的Balance算法 238 8.4.7 一般性的Balance算法 239 8.4.8 adwords問題的最后論述 240 8.4.9 習(xí)題 240 8.5 adwords的實(shí)現(xiàn) 240 8.5.1 投標(biāo)和搜索查詢的匹配 241 8.5.2 更復(fù)雜的匹配問題 241 8.5.3 文檔和投標(biāo)之間的匹配算法 242 8.6 小結(jié) 243 8.7 參考文獻(xiàn) 245 第9章 推薦系統(tǒng) 246 9.1 推薦系統(tǒng)的模型 246 9.1.1 效用矩陣 246 9.1.2 長尾現(xiàn)象 247 9.1.3 推薦系統(tǒng)的應(yīng)用 249 9.1.4 效用矩陣的填充 249 9.2 基于內(nèi)容的推薦 249 9.2.1 項(xiàng)模型 250 9.2.2 文檔的特征發(fā)現(xiàn) 250 9.2.3 基于Tag的項(xiàng)特征獲取 251 9.2.4 項(xiàng)模型的表示 252 9.2.5 用戶模型 253 9.2.6 基于內(nèi)容的項(xiàng)推薦 254 9.2.7 分類算法 254 9.2.8 習(xí)題 256 9.3 協(xié)同過濾 257 9.3.1 相似度計(jì)算 257 9.3.2 相似度對偶性 259 9.3.3 用戶聚類和項(xiàng)聚類 261 9.3.4 習(xí)題 262 9.4 降維處理 262 9.4.1 UV分解 262 9.4.2 RMSE 263 9.4.3 UV分解的增量式計(jì)算 264 9.4.4 對任一元素的優(yōu)化 267 9.4.5 一個完整UV分解算法的構(gòu)建 269 9.5 Netflix競賽 270 9.6 小結(jié) 271 9.7 參考文獻(xiàn) 272 第 10章 社會網(wǎng)絡(luò)圖挖掘 273 10.1 將社會網(wǎng)絡(luò)看成圖 273 10.1.1 社會網(wǎng)絡(luò)的概念 273 10.1.2 將社會網(wǎng)絡(luò)看成圖 274 10.1.3 各種社會網(wǎng)絡(luò)的例子 275 10.1.4 多類型節(jié)點(diǎn)構(gòu)成的圖 276 10.1.5 習(xí)題 277 10.2 社會網(wǎng)絡(luò)圖的聚類 277 10.2.1 社會網(wǎng)絡(luò)圖的距離計(jì)算 277 10.2.2 應(yīng)用標(biāo)準(zhǔn)的聚類算法 278 10.2.3 中介度 279 10.2.4 Girvan-Newman算法 279 10.2.5 利用中介度來發(fā)現(xiàn)社區(qū) 282 10.2.6 習(xí)題 283 10.3 社區(qū)的直接發(fā)現(xiàn) 283 10.3.1 團(tuán)的發(fā)現(xiàn) 284 10.3.2 完全二部圖 284 10.3.3 發(fā)現(xiàn)完全二部子圖 285 10.3.4 完全二部子圖一定存在的原因 285 10.3.5 習(xí)題 287 10.4 圖劃分 287 10.4.1 圖劃分的好壞標(biāo)準(zhǔn) 288 10.4.2 歸一化割 288 10.4.3 描述圖的一些矩陣 289 10.4.4 拉普拉斯矩陣的特征值 290 10.4.5 其他圖劃分方法 292 10.4.6 習(xí)題 292 10.5 重疊社區(qū)的發(fā)現(xiàn) 293 10.5.1 社區(qū)的本質(zhì) 293 10.5.2 極大似然估計(jì) 294 10.5.3 關(guān)系圖模型 295 10.5.4 社區(qū)分配的離散優(yōu)化 296 10.5.5 避免成員隸屬關(guān)系的離散式變化 297 10.5.6 習(xí)題 298 10.6 Simrank 299 10.6.1 社會網(wǎng)絡(luò)上的隨機(jī)游走者 299 10.6.2 帶重啟的隨機(jī)游走 300 10.6.3 近似Simrank 302 10.6.4 近似Simrank有效的原因 303 10.6.5 Simrank在社區(qū)發(fā)現(xiàn)中的應(yīng)用 304 10.6.6 習(xí)題 305 10.7 三角形計(jì)數(shù)問題. 306 10.7.1 為什么要對三角形計(jì)數(shù) 306 10.7.2 一個尋找三角形的算法 307 10.7.3 三角形尋找算法的最優(yōu)性 308 10.7.4 基于MapReduce尋找三角形 308 10.7.5 使用更少的Reduce任務(wù) 310 10.7.6 習(xí)題 310 10.8 圖的鄰居性質(zhì) 311 10.8.1 有向圖和鄰居 311 10.8.2 圖的直徑 312 10.8.3 傳遞閉包和可達(dá)性 313 10.8.4 基于MapReduce的可達(dá)性計(jì)算 314 10.8.5 半樸素求值 315 10.8.6 線性傳遞閉包 315 10.8.7 基于雙重遞歸的傳遞閉包 316 10.8.8 智能傳遞閉包 317 10.8.9 多種方法的比較 319 10.8.10 基于圖歸約的傳遞閉包 320 10.8.11 鄰居規(guī)模的近似計(jì)算 321 10.8.12 習(xí)題 323 10.9 小結(jié) 324 10.10 參考文獻(xiàn) 326 第 11章 降維處理 328 11.1 特征值和特征向量 328 11.1.1 定義 328 11.1.2 特征值與特征向量計(jì)算 329 11.1.3 基于冪迭代方法的特征對求解 331 11.1.4 特征向量矩陣 333 11.1.5 習(xí)題 333 11.2 主成分分析 334 11.2.1 一個示例 334 11.2.2 利用特征向量進(jìn)行降維 337 11.2.3 距離矩陣 338 11.2.4 習(xí)題 339 11.3 奇異值分解 339 11.3.1 SVD的定義 339 11.3.2 SVD解析 341 11.3.3 基于SVD的降維 342 11.3.4 將較低奇異值置為0后有效的原因 343 11.3.5 使用概念進(jìn)行查詢處理 344 11.3.6 矩陣SVD的計(jì)算 345 11.3.7 習(xí)題 346 11.4 CUR分解 347 11.4.1 CUR的定義 347 11.4.2 合理選擇行和列 348 11.4.3 構(gòu)建中間矩陣 349 11.4.4 完整的CUR分解 350 11.4.5 去除重復(fù)行和列 351 11.4.6 習(xí)題 352 11.5 小結(jié) 352 11.6 參考文獻(xiàn) 353 第 12章 大規(guī)模機(jī)器學(xué)習(xí) 354 12.1 機(jī)器學(xué)習(xí)模型 354 12.1.1 訓(xùn)練集 354 12.1.2 一些例子 355 12.1.3 機(jī)器學(xué)習(xí)方法 357 12.1.4 機(jī)器學(xué)習(xí)架構(gòu) 358 12.1.5 習(xí)題 360 12.2 感知機(jī) 360 12.2.1 訓(xùn)練閾值為0的感知機(jī) 361 12.2.2 感知機(jī)的收斂性 363 12.2.3 Winnow算法 364 12.2.4 允許閾值變化的情況 365 12.2.5 多類感知機(jī) 366 12.2.6 變換訓(xùn)練集 367 12.2.7 感知機(jī)的問題 368 12.2.8 感知機(jī)的并行實(shí)現(xiàn) 369 12.2.9 習(xí)題 370 12.3 支持向量機(jī) 371 12.3.1 支持向量機(jī)的機(jī)理 371 12.3.2 超平面歸一化 372 12.3.3 尋找最優(yōu)逼近分界面 374 12.3.4 基于梯度下降法求解SVM 380 12.3.6 SVM的并行實(shí)現(xiàn) 380 12.3.7 習(xí)題 381 12.4 近鄰學(xué)習(xí) 381 12.4.1 近鄰計(jì)算的框架 381 12.4.2 最近鄰學(xué)習(xí) 382 12.4.3 學(xué)習(xí)一維函數(shù) 383 12.4.4 核回歸 384 12.4.5 處理高維歐氏空間數(shù)據(jù) 385 12.4.6 對非歐距離的處理 386 12.4.7 習(xí)題 386 12.5 決策樹 387 12.5.1 使用決策樹 387 12.5.2 不純度度量方法 389 12.5.3 決策樹節(jié)點(diǎn)的設(shè)計(jì) 390 12.5.4 選擇基于數(shù)值型特征的測試 390 12.5.5 選擇基于分類型特征的測試 392 12.5.6 決策樹的并行設(shè)計(jì) 393 12.5.7 節(jié)點(diǎn)剪枝 394 12.5.8 隨機(jī)森林 395 12.5.9 習(xí)題 396 12.6 各種學(xué)習(xí)方法的比較 397 12.7 小結(jié) 397 12.8 參考文獻(xiàn) 399 第 13章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) 400 13.1 神經(jīng)網(wǎng)絡(luò)簡介 400 13.1.1 神經(jīng)網(wǎng)絡(luò)概述 402 13.1.2 節(jié)點(diǎn)間的連接 403 13.1.3 卷積神經(jīng)網(wǎng)絡(luò) 403 13.1.4 神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)事項(xiàng) 404 13.1.5 習(xí)題 404 13.2 密集型前饋網(wǎng)絡(luò) 405 13.2.1 基于線性代數(shù)的記法 405 13.2.2 激活函數(shù) 406 13.2.3 sigmoid函數(shù) 407 13.2.4 雙曲正切函數(shù) 407 13.2.5 softmax函數(shù) 408 13.2.6 修正線性單元 409 13.2.7 損失函數(shù) 410 13.2.8 回歸損失函數(shù) 410 13.2.9 分類損失函數(shù) 411 13.2.10 習(xí)題 412 13.3 反向傳播與梯度下降 413 13.3.1 計(jì)算圖 414 13.3.2 梯度、雅可比矩陣與鏈?zhǔn)椒▌t 415 13.3.3 反向傳播算法 416 13.3.4 梯度下降的迭代計(jì)算 418 13.3.5 張量 419 13.3.6 習(xí)題 420 13.4 卷積神經(jīng)網(wǎng)絡(luò) 420 13.4.1 卷積層 421 13.4.2 卷積與互相關(guān) 423 13.4.3 池化層 424 13.4.4 CNN架構(gòu) 424 13.4.5 實(shí)現(xiàn)與訓(xùn)練 426 13.4.6 習(xí)題 427 13.5 循環(huán)神經(jīng)網(wǎng)絡(luò) 427 13.5.1 RNN的訓(xùn)練 428 13.5.2 梯度消失與爆炸 430 13.5.3 長短期記憶網(wǎng)絡(luò) 431 13.5.4 習(xí)題 433 13.6 正則化 433 13.6.1 范式懲罰 434 13.6.2 dropout 434 13.6.3 提前停止 434 13.6.4 數(shù)據(jù)增強(qiáng) 435 13.7 小結(jié) 435 13.8 參考文獻(xiàn) 436
你還可能感興趣
我要評論
|