本書基于作者多年的研究成果,詳細介紹了跨數據中心機器學習的訓練系統(tǒng)設計和通信優(yōu)化技術。本書面向多數據中心間的分布式機器學習系統(tǒng),針對多數據中心間有限的傳輸帶寬、動態(tài)異構資源,以及異構數據分布三重挑戰(zhàn),自底向上討論梯度傳輸協(xié)議、流量傳送調度、高效通信架構、壓縮傳輸機制、同步優(yōu)化算法、異構數據優(yōu)化算法六個層次的優(yōu)化技術,旨在提升分布式機器學習系統(tǒng)的訓練效率和模型性能,突破跨數據中心機器學習的通信瓶頸和數據壁壘,實現多數據中心算力和數據資源的高效整合。本書可作為跨數據中心機器學習的參考資料,供人工智能及分布式計算領域的科研和工程人員閱讀。
虞紅芳,博士,電子科技大學教授、博士生導師、副院長。已承擔國家級課題30余項,企業(yè)合作項目20余項,獲省部級科技獎2項、華為優(yōu)秀科研項目獎2次。在國內外知名期刊和會議發(fā)表學術論文200余篇,H指數37;出版學術專著4部,授權發(fā)明專利80余項。研究興趣包括網絡虛擬化、下一代網絡、云/邊緣計算、分布式系統(tǒng)、網絡安全等。李宗航,博士,電子科技大學英才實驗學院導師,曾訪學牛津大學和南洋理工大學。發(fā)表學術論文20篇;入選電子科技大學領軍人才計劃;獲通信學會未來之光獎、牛津最具影響力項目獎和浦口經開英才獎等多項榮譽;主研國家級課題等8項,獲未來網絡領先創(chuàng)新科技成果獎。研究興趣包括分布式人工智能、智算網一體化和聯邦學習。孫罡,博士,電子科技大學教授,博士生導師。長期致力于網絡虛擬化、云計算、物聯網與分布式系統(tǒng)等領域的相關研究。在國內外各知名期刊發(fā)表SCI/EI檢索論文100余篇,出版學術專著3部,已授權美國發(fā)明專利3項、中國發(fā)明專利70余項。羅龍,博士,電子科技大學副教授。長期從事網絡算法、分布式系統(tǒng)等相關研究。在國內外知名期刊和會議上發(fā)表學術論文30篇;授權發(fā)明專利7項;入選第八屆中國科協(xié)青年人才托舉工程;主持/主研國家自然科學基金、國家重點研發(fā)計劃等項目。
第1章 跨數據中心機器學習概述 1
1.1 分布式機器學習 5
1.1.1 基本概念 5
1.1.2 國內外發(fā)展現狀 7
1.1.3 并行模式 10
1.1.4 通信范式 21
1.1.5 通信優(yōu)化技術 32
1.2 跨數據中心分布式機器學習 39
1.2.1 產業(yè)發(fā)展背景及需求 39
1.2.2 基本架構 41
1.2.3 面臨的關鍵挑戰(zhàn) 43
1.3 本書的章節(jié)結構 46
本章參考文獻 47
第2章 高效通信架構 58
2.1 分層參數服務器通信架構 59
2.1.1 架構設計方案 59
2.1.2 運行流程與通信模型 61
2.1.3 主要操作原語 64
2.2 部署模式與適用場景 65
2.3 實驗與性能評估 67
2.4 本章小結 70
本章參考文獻 70
第3章 同步優(yōu)化算法 72
3.1 系統(tǒng)模型與基礎同步優(yōu)化算法 73
3.1.1 系統(tǒng)模型 73
3.1.2 全同步通信算法 73
3.1.3 實驗與性能評估 76
3.2 面向受限域間通信資源的同步算法 78
3.2.1 研究現狀 79
3.2.2 內同步累積的低頻同步通信算法 80
3.2.3 實驗與性能評估 83
3.3 面向異構計算與通信資源的同步算法 84
3.3.1 研究現狀 85
3.3.2 延遲補償的混合同步算法 88
3.3.3 迭代次數自適應的同步算法 91
3.3.4 實驗與性能評估 109
3.4 本章小結 119
本章參考文獻 120
第4章 壓縮傳輸機制 123
4.1 稀疏化與量化基本概念 124
4.2 雙向梯度稀疏化技術 127
4.2.1 梯度稀疏化技術 127
4.2.2 稀疏同步技術 128
4.2.3 冗余梯度修正技術 129
4.3 混合精度傳輸技術 132
4.4 實驗與性能評估 133
4.5 本章小結 139
本章參考文獻 139
第5章 梯度傳輸協(xié)議 142
5.1 研究動機 143
5.2 協(xié)議設計及其挑戰(zhàn) 145
5.3 近似梯度分類算法 146
5.3.1 算法設計 146
5.3.2 分類閾值動態(tài)衰減技術 149
5.4 差異化梯度傳輸協(xié)議的設計 149
5.4.1 基于優(yōu)先級的差異化傳輸 150
5.4.2 差異化接收方法 151
5.5 實現和部署 152
5.5.1 DGT通信中間件的功能實現 152
5.5.2 DGT通信中間件的跨數據中心部署 154
5.6 實驗與性能評估 155
5.7 本章小結 165
本章參考文獻 165
第6章 流量傳送調度 168
6.1 基于動態(tài)通信調度的通信覆蓋機制 170
6.1.1 研究動機 170
6.1.2 問題建模 173
6.1.3 通信覆蓋機制設計 175
6.1.4 實現和部署 183
6.1.5 實驗與性能評估 185
6.2 光廣域網中的在線流量調度 192
6.2.1 研究動機 194
6.2.2 任務內調度 195
6.2.3 任務間調度 199
6.2.4 算法性能分析 203
6.2.5 仿真結果與分析 205
6.3 本章小結 211
本章參考文獻 211
第7章 異構數據優(yōu)化算法 214
7.1 研究現狀 216
7.2 系統(tǒng)模型 220
7.3 聯邦組同步算法設計與實現 221
7.3.1 算法設計動機 221
7.3.2 算法設計與實現 223
7.4 組節(jié)點選擇算法設計與實現 226
7.4.1 問題建模與分析 226
7.4.2 算法設計與實現 228
7.5 算法的收斂性與效率分析 231
7.5.1 算法收斂性分析 232
7.5.2 算法效率分析 233
7.6 實驗與性能評估 235
7.7 本章小結 245
本章參考文獻 245
第8章 總結與展望 249
附錄A 縮略語對照表 250