聯(lián)邦學(xué)習(xí)到底是什么呢?
我們認為可以這樣定義:它是在數(shù)據(jù)不出本地的前提下,由多個參與方聯(lián)合、協(xié)作完成建模任務(wù)的分布式機器學(xué)習(xí)范式。據(jù)統(tǒng)計,2020年產(chǎn)生的聯(lián)邦學(xué)習(xí)相關(guān)論文超過6000篇,是之前所有相關(guān)論文的三倍多。作為大數(shù)據(jù)時代下人工智能發(fā)展不可或缺的核心技術(shù),聯(lián)邦學(xué)習(xí)已經(jīng)成為當(dāng)前學(xué)術(shù)界、產(chǎn)業(yè)界爭相研究和應(yīng)用的對象。
在絕大部分的行業(yè)中,數(shù)據(jù)是以孤島的形式存在的,即數(shù)據(jù)在不同機構(gòu)或部門中獨立存儲、分倉管理,難以流通和利用,而人工智能的發(fā)展又往往會涉及多個領(lǐng)域的數(shù)據(jù)。在過去,為了打破數(shù)據(jù)孤島,數(shù)據(jù)需求方通常會收集來自不同機構(gòu)的數(shù)據(jù)信息,并統(tǒng)一整合到中心數(shù)據(jù)集群后進行集中處理和應(yīng)用。然而,由于數(shù)據(jù)隱私泄露和數(shù)據(jù)獲取成本過高,這一方法變得越來越不可取。同時,在愈發(fā)重視數(shù)據(jù)隱私安全的全球性趨勢下,社會各界逐漸提升了數(shù)據(jù)所有權(quán)、資產(chǎn)化的保護意識,各國也逐步出臺新的法律法規(guī)來嚴格規(guī)范數(shù)據(jù)的管理和使用。例如,2018年5月,歐盟實施《通用數(shù)據(jù)保護條例》(GDPR)來保護用戶的個人隱私和數(shù)據(jù)安全,禁止數(shù)據(jù)在實體間轉(zhuǎn)移、交換和交易。2020年10月,我國公布《中華人民共和國個人信息保護法(草案)》,為個人信息保護提供了強有力的法律保障。在法律法規(guī)強監(jiān)管的環(huán)境下,如何在確保數(shù)據(jù)隱私安全的前提下解決數(shù)據(jù)孤島問題,已然成為人工智能發(fā)展的首要挑戰(zhàn)。
聯(lián)邦學(xué)習(xí)成為打破人工智能發(fā)展困境的“頭雁”,其核心價值是在數(shù)據(jù)安全合規(guī)的前提下提升模型效果,實現(xiàn)降本增效。那么聯(lián)邦學(xué)習(xí)是如何做到的呢?對于聯(lián)邦模型的訓(xùn)練而言,模型可以基于各參與方的本地數(shù)據(jù)庫進行訓(xùn)練,訓(xùn)練過程中的模型參數(shù)通過加密機制在各參與方間通信,數(shù)據(jù)無須出本地,既保證了數(shù)據(jù)隱私安全合規(guī),又間接共享了數(shù)據(jù)資源,促進了數(shù)據(jù)生產(chǎn)要素的流通。對于聯(lián)邦模型的推理而言,由多個參與方聯(lián)合共建的最優(yōu)模型可以在密態(tài)基礎(chǔ)上實現(xiàn)金融、醫(yī)療、政務(wù)等多個行業(yè)的賦能應(yīng)用。
聯(lián)邦學(xué)習(xí)能有效解決人工智能發(fā)展面臨的數(shù)據(jù)隱私安全與孤島問題,這為大數(shù)據(jù)與人工智能的健康發(fā)展和顛覆式變革奠定了基礎(chǔ),并為其在更復(fù)雜、更前沿、更尖端領(lǐng)域的應(yīng)用落地創(chuàng)造了更多的機會和可能。
為什么要寫本書
聯(lián)邦學(xué)習(xí)技術(shù)一經(jīng)提出,便引起了社會各界人士的廣泛關(guān)注。聯(lián)邦學(xué)習(xí)能夠滿足各方在不共享數(shù)據(jù)源的前提下進行數(shù)據(jù)聯(lián)合訓(xùn)練的需求,幫助多方組織構(gòu)建最優(yōu)的機器學(xué)習(xí)模型。這一技術(shù)不僅能夠推動互聯(lián)網(wǎng)時代下海量數(shù)據(jù)的價值變現(xiàn),還能助力人工智能的發(fā)展革新和應(yīng)用落地。
目前,聯(lián)邦學(xué)習(xí)的相關(guān)學(xué)習(xí)資源過于分散,相關(guān)圖書屈指可數(shù)。為了更好地普及聯(lián)邦學(xué)習(xí)知識,傳遞聯(lián)邦學(xué)習(xí)價值,我們特寫作本書,旨在系統(tǒng)全面地介紹聯(lián)邦學(xué)習(xí)的來龍去脈,為有志于聯(lián)邦學(xué)習(xí)理論研究和實踐的讀者提供指引和參考。希望本書能夠給廣大讀者帶來啟示。
讀者對象
大數(shù)據(jù)、人工智能相關(guān)產(chǎn)業(yè)的從業(yè)者和研究人員,包括但不局限于:
q想要全面了解、探索聯(lián)邦學(xué)習(xí)的讀者;
q想要上手實踐聯(lián)邦學(xué)習(xí)的讀者。
本書主要內(nèi)容
全書共9章,分為4部分。
第一部分 基礎(chǔ)(第1~2章)
主要介紹了聯(lián)邦學(xué)習(xí)的概念、由來、發(fā)展歷史、架構(gòu)思想、應(yīng)用場景、優(yōu)勢、規(guī)范與標(biāo)準、社區(qū)與生態(tài)等基礎(chǔ)內(nèi)容。
第二部分 原理(第3~5章)
詳細講解了聯(lián)邦學(xué)習(xí)的工作原理、算法、加密機制、激勵機制等核心技術(shù)。
第三部分 實戰(zhàn)(第6~7章)
主要講解了PySyft、TFF、CrypTen等主流聯(lián)邦學(xué)習(xí)開源框架的部署實踐,并給出了聯(lián)邦學(xué)習(xí)在智慧金融、智慧醫(yī)療、智慧城市、物聯(lián)網(wǎng)等領(lǐng)域的具體解決方案。
第四部分 拓展(第8~9章)
概述了聯(lián)邦學(xué)習(xí)的形態(tài)、聯(lián)邦學(xué)習(xí)的系統(tǒng)架構(gòu)、當(dāng)前面臨的挑戰(zhàn)等,并探討了聯(lián)邦學(xué)習(xí)的發(fā)展前景和趨勢。
勘誤與支持
聯(lián)邦學(xué)習(xí)的概念很新,更新很快,雖然我們已盡可能使本書內(nèi)容準確、全面、緊跟技術(shù)前沿,但書中仍難免存在遺漏或不妥之處,懇請讀者批評指正。如果你有關(guān)于本書的任何意見或建議,歡迎發(fā)送郵件到y(tǒng)fc@hzbook.com,期待你的反饋。
致謝
本書的寫作占用了我們大量的業(yè)余時間,在此特別感謝家人、朋友的理解和支持。另外,在本書寫作過程中,機械工業(yè)出版社華章公司的編輯們給予了精心指導(dǎo)和大力支持,沒有他們細致的工作,本書無法如此順利地出版,特此感謝。
前言
第一部分 基礎(chǔ)
第1章 聯(lián)邦學(xué)習(xí)的前世今生2
1.1 聯(lián)邦學(xué)習(xí)的由來2
1.2 聯(lián)邦學(xué)習(xí)的發(fā)展歷程3
1.3 聯(lián)邦學(xué)習(xí)的規(guī)范與標(biāo)準8
1.4 聯(lián)邦學(xué)習(xí)的社區(qū)與生態(tài)9
1.5 本章小結(jié)10
第2章 全面認識聯(lián)邦學(xué)習(xí)11
2.1 什么是聯(lián)邦學(xué)習(xí)11
2.2 聯(lián)邦學(xué)習(xí)的架構(gòu)思想12
2.3 聯(lián)邦學(xué)習(xí)的應(yīng)用場景14
2.4 聯(lián)邦學(xué)習(xí)的優(yōu)勢與前景15
2.5 本章小結(jié)16
第二部分 原理
第3章 聯(lián)邦學(xué)習(xí)的工作原理18
3.1 聯(lián)邦學(xué)習(xí)的計算環(huán)境18
3.1.1 可信執(zhí)行環(huán)境18
3.1.2 無可信計算環(huán)境22
3.2 聯(lián)邦學(xué)習(xí)的算法23
3.2.1 中心聯(lián)邦優(yōu)化算法24
3.2.2 聯(lián)邦機器學(xué)習(xí)算法25
3.2.3 聯(lián)邦深度學(xué)習(xí)算法28
3.3 聯(lián)邦學(xué)習(xí)的算子29
3.3.1 聯(lián)邦學(xué)習(xí)數(shù)據(jù)預(yù)處理算子30
3.3.2 聯(lián)邦學(xué)習(xí)模型訓(xùn)練算子34
3.4 本章小結(jié)49
第4章 聯(lián)邦學(xué)習(xí)的加密機制50
4.1 聯(lián)邦學(xué)習(xí)的安全問題50
4.1.1 模型完整性問題50
4.1.2 模型可用性問題51
4.1.3 模型機密性問題52
4.1.4 問題總結(jié)53
4.2 聯(lián)邦學(xué)習(xí)的加密方式53
4.2.1 同態(tài)加密53
4.2.2 差分隱私55
4.2.3 安全多方計算57
4.2.4 國密SM2算法58
4.2.5 國密SM4算法60
4.2.6 Deffie-Hellman算法61
4.2.7 混合加密61
4.3 本章小結(jié)63
第5章 聯(lián)邦學(xué)習(xí)的激勵機制64
5.1 數(shù)據(jù)貢獻評估65
5.2 數(shù)據(jù)貢獻與激勵支付的關(guān)系66
5.3 參與方貢獻效益評估67
5.4 參與方貢獻效益與激勵支付的關(guān)系68
5.5 計算和通信消耗評估68
5.6 計算消耗、通信消耗和激勵支付的關(guān)系69
5.7 本章小結(jié)70
第三部分 實戰(zhàn)
第6章 聯(lián)邦學(xué)習(xí)開發(fā)實踐72
6.1 聯(lián)邦學(xué)習(xí)開源框架部署:PySyft72
6.1.1 PySyft基本介紹72
6.1.2 開發(fā)環(huán)境準備與搭建72
6.1.3 PySyft安裝指南75
6.1.4 開發(fā)前的準備76
6.1.5 PySyft測試樣例76
6.1.6 實操:分布式聯(lián)邦學(xué)習(xí)部署87
6.2 聯(lián)邦學(xué)習(xí)開源框架部署:TFF93
6.2.1 TFF基本介紹93
6.2.2 開發(fā)環(huán)境準備與搭建94
6.2.3 TFF安裝指南94
6.2.4 開發(fā)前的準備95
6.2.5 TFF測試樣例95
6.3 聯(lián)邦學(xué)習(xí)開源框架部署:CrypTen100
6.3.1 CrypTen基本介紹100
6.3.2 開發(fā)環(huán)境準備與搭建100
6.3.3 CrypTen安裝指南101
6.3.4 開發(fā)前的準備101
6.3.5 CrypTen測試樣例102
6.4 本章小結(jié)111
第7章 聯(lián)邦學(xué)習(xí)的行業(yè)解決方案112
7.1 聯(lián)邦學(xué)習(xí)+智慧金融112
7.1.1 聯(lián)邦學(xué)習(xí)+銀行112
7.1.2 聯(lián)邦學(xué)習(xí)+保險121
7.1.3 聯(lián)邦學(xué)習(xí)+投資125
7.2 聯(lián)邦學(xué)習(xí)+智慧醫(yī)療128
7.2.1 聯(lián)邦學(xué)習(xí)+醫(yī)療影像診斷128
7.2.2 聯(lián)邦學(xué)習(xí)+疾病風(fēng)險預(yù)測130
7.2.3 聯(lián)邦學(xué)習(xí)+藥物挖掘133
7.2.4 聯(lián)邦學(xué)習(xí)+醫(yī)護資源配置135
7.3 聯(lián)邦學(xué)習(xí)+智慧城市137
7.3.1 聯(lián)邦學(xué)習(xí)+零售137
7.3.2 聯(lián)邦學(xué)習(xí)+交通140
7.3.3 聯(lián)邦學(xué)習(xí)+物流141
7.3.4 聯(lián)邦學(xué)習(xí)+政府143
7.3.5 聯(lián)邦學(xué)習(xí)+安防146
7.4 聯(lián)邦學(xué)習(xí)+物聯(lián)網(wǎng)148
7.4.1 聯(lián)邦學(xué)習(xí)+車聯(lián)網(wǎng)148
7.4.2 聯(lián)邦學(xué)習(xí)+智能家居150
7.4.3 聯(lián)邦學(xué)習(xí)+可穿戴設(shè)備153
7.4.4 聯(lián)邦學(xué)習(xí)+機器人155
7.5 本章小結(jié)160
第四部分 拓展
第8章 聯(lián)邦學(xué)習(xí)的延伸162
8.1 聯(lián)邦學(xué)習(xí)的布局162
8.1.1 Google的聯(lián)邦學(xué)習(xí)162
8.1.2 Facebook的聯(lián)邦學(xué)習(xí)166
8.1.3 聯(lián)邦智能167
8.1.4 共享智能169
8.1.5 知識聯(lián)邦172
8.1.6 異構(gòu)聯(lián)邦177
8.1.7 聯(lián)邦學(xué)習(xí)方案對比178
8.2 聯(lián)邦學(xué)習(xí)系統(tǒng)框架179
8.2.1 工業(yè)級聯(lián)邦學(xué)習(xí)系統(tǒng)179
8.2.2 企業(yè)級聯(lián)邦學(xué)習(xí)系統(tǒng)181
8.2.3 實驗開發(fā)級聯(lián)邦學(xué)習(xí)系統(tǒng)181
8.3 本章小結(jié)183
第9章 聯(lián)邦學(xué)習(xí)的挑戰(zhàn)、趨勢和展望184
9.1 聯(lián)邦學(xué)習(xí)應(yīng)對的挑戰(zhàn)184
9.2 聯(lián)邦學(xué)習(xí)的趨勢和展望187
9.3 本章小結(jié)189