本書先從背景出發(fā),闡述黑盒模型存在的問題以及不解決黑盒問題模型可能帶來的后果,引出可解釋機(jī)器學(xué)習(xí)的重要性;隨后,我們從可解釋機(jī)器學(xué)習(xí)的研究方向,分為內(nèi)在可解釋模型算法和模型事后解析方法兩部分進(jìn)行介紹,闡述不同模型的原理、應(yīng)用及其可解釋性。z后通過三個不同的應(yīng)用場景,介紹在銀行實戰(zhàn)中的數(shù)據(jù)挖掘方法,由問題、處理方法出發(fā),結(jié)合可解釋機(jī)器學(xué)習(xí)模型結(jié)果,證明模型的有效性和實用性,期望讀者通過對本書的閱讀,可以更快更好的解決實際業(yè)務(wù)問題,而非紙上談兵。業(yè)務(wù)場景均為業(yè)內(nèi)的典型案例,希望能夠?qū)ψx者有所啟發(fā)。同時,本書中還會有大量的公式與代碼,保證內(nèi)容的豐富與嚴(yán)謹(jǐn),經(jīng)得起推敲,使得讀者知其然且知其所以然。
讀者對象:
金融機(jī)構(gòu)、銀行、金融科技公司等數(shù)據(jù)技術(shù)相關(guān)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)技術(shù)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)專業(yè)的院校研究生、本科生。
1、涵蓋了可解釋機(jī)器學(xué)習(xí)前沿的研究成果及行業(yè)成功應(yīng)用經(jīng)驗。
2、從算法層面系統(tǒng)地梳理了可解釋機(jī)器學(xué)習(xí)技術(shù)的研究體系,脈絡(luò)清晰,層層遞進(jìn)。
3、書中除詳盡闡述了各種經(jīng)典算法的原理外,還輔以數(shù)據(jù)、代碼實例演示算法實現(xiàn)的步驟,是一本理論與實踐相結(jié)合的實用指南。
4、提供了可解釋機(jī)器學(xué)習(xí)應(yīng)用于銀行業(yè)務(wù)場景的實際案例,讓讀者身臨其境,充分理解可解釋機(jī)器學(xué)習(xí)是如何解決現(xiàn)實問題的。
5、涵蓋了金融科技領(lǐng)域的技術(shù)應(yīng)用成果,對金融機(jī)構(gòu)數(shù)字化建設(shè)有重要的參考價值。
為什么要寫這本書
2018年,索信達(dá)正式成立金融AI實驗室,開始研究和探索人工智能技術(shù)在金融行業(yè)中的應(yīng)用。在與學(xué)術(shù)界領(lǐng)先學(xué)者合作和交流的過程中,我們開始接觸可解釋機(jī)器學(xué)習(xí)。通過數(shù)年的研究和實踐,我們發(fā)現(xiàn)可解釋機(jī)器學(xué)習(xí)恰好能夠彌補(bǔ)當(dāng)下人工智能技術(shù)在金融業(yè)應(yīng)用中的不足,F(xiàn)今,深度學(xué)習(xí)、集成學(xué)習(xí)等復(fù)雜機(jī)器學(xué)習(xí)算法大行其道,銀行里的營銷模型、風(fēng)控模型幾乎全都順應(yīng)了這個大的技術(shù)潮流,雖然模型的精準(zhǔn)性已有了較大的提升,但是業(yè)務(wù)應(yīng)用風(fēng)險卻如影相隨,模型的黑盒屬性導(dǎo)致模型結(jié)果在業(yè)務(wù)應(yīng)用上不具備清晰的邏輯和可解釋性。模型是否存在偏見,何時適用,該如何使用?很多問題都是模糊不清的。
對于金融等風(fēng)險控制嚴(yán)格的領(lǐng)域,如果要應(yīng)用黑盒模型,我們必須慎之又慎。索信達(dá)作為一家深耕金融領(lǐng)域數(shù)據(jù)解決方案的提供商,一直都在致力于追求對行業(yè)問題保持前瞻性的洞察力,這也是金融人工智能實驗室成立的初衷和意義所在?山忉寵C(jī)器學(xué)習(xí)在學(xué)術(shù)界尚屬新興事物,在國內(nèi)金融領(lǐng)域的應(yīng)用更是寥寥無幾,知者甚少,但是可解釋機(jī)器學(xué)習(xí)對于金融業(yè)規(guī)范、合理、安全地使用人工智能技術(shù)的價值和意義卻是非凡的。2021年初,中國人民銀行正式出臺《人工智能算法金融應(yīng)用評價規(guī)范》,這說明國家監(jiān)管部門和行業(yè)專家已經(jīng)意識到人工智能算法在金融領(lǐng)域中的應(yīng)用存在亂象和潛在風(fēng)險,并對此提出了嚴(yán)格的評價規(guī)范。在這個評價標(biāo)準(zhǔn)下,對于未來人工智能技術(shù)在金融領(lǐng)域的應(yīng)用,可解釋機(jī)器學(xué)習(xí)無疑會是大勢所趨。索信達(dá)正好站在了引領(lǐng)潮流的當(dāng)口,有過可解釋機(jī)器學(xué)習(xí)在銀行業(yè)的成功實踐。例如,在客戶流失預(yù)警問題的場景中,我們創(chuàng)造性地運用可解釋機(jī)器學(xué)習(xí),真正做到了對單個客戶流失原因的歸因,大大提升了潛在流失客戶的挽留率。在促活營銷場景中,利用可解釋機(jī)器學(xué)習(xí)輸出的客戶名單的營銷轉(zhuǎn)化率提升了3倍。取得這些令人興奮的成果之后,我們想要讓整個金融業(yè)意識到可解釋機(jī)器學(xué)習(xí)的價值的使命感油然而生,于是便有了寫作這本書的動機(jī),希望將這幾年在可解釋機(jī)器學(xué)習(xí)方面的研究,以及將其應(yīng)用在銀行業(yè)的實踐經(jīng)驗分享給大家,更希望人工智能技術(shù)能夠持續(xù)助力金融業(yè)健康繁榮發(fā)展。作為一家金融科技公司,索信達(dá)也希望能夠為行業(yè)的發(fā)展貢獻(xiàn)自己的一份力量!
讀者對象
金融機(jī)構(gòu)、銀行、金融科技公司等數(shù)據(jù)技術(shù)相關(guān)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘相關(guān)技術(shù)崗位從業(yè)者。
人工智能、機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)專業(yè)的院校研究生、本科生。
如何閱讀本書
本書共分為三大部分,具體內(nèi)容結(jié)構(gòu)如下。
部分為背景(第1~2章)。由于可解釋機(jī)器學(xué)習(xí)在業(yè)內(nèi)屬于新興知識,因此本部分用兩章的篇幅,以各種生動的例子,闡述可解釋機(jī)器學(xué)習(xí)的背景和重要性,幫助讀者建立對可解釋機(jī)器學(xué)習(xí)的初步印象。
第二部分為理論(第3~4章)。本部分主要按照可解釋機(jī)器學(xué)習(xí)已有的分類,從內(nèi)在可解釋和事后可解釋兩個方面來介紹本領(lǐng)域的常見模型,其中既包括傳統(tǒng)的統(tǒng)計學(xué)模型,又包括學(xué)術(shù)界新提出來的一些模型。本部分內(nèi)容可以讓讀者對目前已存在的各種可解釋機(jī)器學(xué)習(xí)算法有一個詳細(xì)的了解,并且能夠讓讀者參照示例代碼自己動手實踐。
第三部分為實例(第5~7章)。本部分主要以案例的形式,重點介紹可解釋機(jī)器學(xué)習(xí)在銀行的營銷、風(fēng)控和推薦系統(tǒng)等業(yè)務(wù)領(lǐng)域的應(yīng)用,以幫助讀者進(jìn)一步理解可解釋機(jī)器學(xué)習(xí)如何解決銀行業(yè)實際遇到的問題。
勘誤和支持
由于作者的水平有限,寫作的時間比較緊張,書中難免會出現(xiàn)一些錯誤或者不準(zhǔn)確的地方,如有發(fā)現(xiàn),懇請大家批評指正。如果大家有建議或意見,歡迎發(fā)送郵件至郵箱shaop@datamargin.com,很期待聽到大家的真摯反饋。
致謝
首先要特別感謝香港大學(xué)張愛軍博士團(tuán)隊,他讓我們看到了可解釋機(jī)器學(xué)習(xí)的價值,他們?yōu)槲覀冎该髁搜芯康姆较蚝吐肪,對標(biāo)國際領(lǐng)先的研究團(tuán)隊,讓我們對可解釋機(jī)器學(xué)習(xí)領(lǐng)域的研究能夠快速步入正軌。在理論研究階段,張愛軍博士給予了我們極其耐心、細(xì)致的指導(dǎo),讓我們的技術(shù)水平有了日新月異的突破和提升。
感謝索信達(dá)金融AI實驗室參與寫作的小伙伴們:蘇思達(dá)、楊健穎、何悅、蘇鈺、孫兆悅、董弋嵩。感謝他們堅持不懈、永不放棄的精神,以及克服巨大挑戰(zhàn)的勇氣。我們要做的研究和寫作對于每個人來說都是全新的,雖然初沒有經(jīng)驗,也沒有太多寫作材料,困難重重,但是大家還是克服一切困難堅持了下來。這種堅持不懈和全心投入是我們珍貴的收獲。
感謝索信達(dá)華南服務(wù)二部李冉冉、何超、李震、鄒美靈團(tuán)隊的大力幫助,感謝他們?yōu)槲覀兲峁┝朔浅ky得的銀行實際業(yè)務(wù)的真實場景,并且協(xié)助我們順利完成技術(shù)實施。沒有他們的幫助,就沒有這些寶貴的案例材料。
后要感謝索信達(dá)市場部的蔣順利老師和機(jī)械工業(yè)出版社華章公司的編輯楊繡國老師在本書出版過程中提供的大力支持。
謹(jǐn)以此書,獻(xiàn)給金融機(jī)構(gòu)、金融科技公司的人工智能技術(shù)從業(yè)者,以及數(shù)據(jù)挖掘、數(shù)據(jù)分析等相關(guān)技術(shù)愛好者。
邵平
索信達(dá)控股AI實驗室總監(jiān)
邵平
資深數(shù)據(jù)科學(xué)家,索信達(dá)控股金融AI實驗室總監(jiān)。在大數(shù)據(jù)、人工智能領(lǐng)域有十多年技術(shù)研發(fā)和行業(yè)應(yīng)用經(jīng)驗。技術(shù)方向涉及可解釋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時間序列預(yù)測、智能推薦、自然語言處理等,F(xiàn)主要致力于可解釋機(jī)器學(xué)習(xí)、推薦系統(tǒng)、銀行智能營銷和智能風(fēng)控等領(lǐng)域的技術(shù)研究和項目實踐。
楊健穎
云南財經(jīng)大學(xué)統(tǒng)計學(xué)碩士,高級數(shù)據(jù)挖掘工程師,一個對數(shù)據(jù)科學(xué)有堅定信念的追求者,目前重點研究機(jī)器學(xué)習(xí)模型的可解釋性。
蘇思達(dá)
美國天普大學(xué)統(tǒng)計學(xué)碩士,機(jī)器學(xué)習(xí)算法專家,長期為銀行提供大數(shù)據(jù)與人工智能解決方案和技術(shù)服務(wù)。主要研究方向為可解釋機(jī)器學(xué)習(xí)與人工智能,曾撰寫《可解釋機(jī)器學(xué)習(xí)研究報告》和多篇可解釋機(jī)器學(xué)習(xí)相關(guān)文章。
前言
部分 背景
第1章 引言2
1.1 可解釋機(jī)器學(xué)習(xí)研究背景2
1.1.1 機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)2
1.1.2 黑盒模型存在的問題4
1.2 模型可解釋性的重要性8
1.3 國內(nèi)外的模型監(jiān)管政策10
1.4 本章小結(jié)11
第2章 可解釋機(jī)器學(xué)習(xí)12
2.1 模型的可解釋性12
2.1.1 可解釋性的定義13
2.1.2 可解釋性的分類14
2.1.3 可解釋機(jī)器學(xué)習(xí)的研究方向16
2.2 可解釋性的作用18
2.2.1 產(chǎn)生信任19
2.2.2 提供因果關(guān)系依據(jù)19
2.2.3 幫助模型診斷20
2.2.4 安全使用模型22
2.2.5 避免發(fā)生偏見與歧視22
2.3 可解釋性的實現(xiàn)23
2.3.1 建模前的可解釋性實現(xiàn)23
2.3.2 建模中的可解釋性實現(xiàn)26
2.3.3 建模后的可解釋性實現(xiàn)28
2.4 本章小結(jié)29
第二部分 理論
第3章 內(nèi)在可解釋機(jī)器學(xué)習(xí)模型32
3.1 傳統(tǒng)統(tǒng)計模型33
3.1.1 線性回歸33
3.1.2 廣義線性模型37
3.1.3 廣義加性模型41
3.1.4 決策樹48
3.2 EBM模型52
3.2.1 模型定義52
3.2.2 識別二階交互項53
3.2.3 實現(xiàn)算法56
3.2.4 模型解釋性59
3.2.5 模型的優(yōu)勢與不足62
3.3 GAMINet模型63
3.3.1 模型定義64
3.3.2 GAMINet的3個重要準(zhǔn)則66
3.3.3 實現(xiàn)算法70
3.3.4 模型解釋性72
3.3.5 模型的優(yōu)勢與不足77
3.4 RuleFit模型77
3.4.1 模型定義78
3.4.2 規(guī)則提取79
3.4.3 實現(xiàn)算法81
3.4.4 模型解釋性81
3.4.5 模型的優(yōu)勢與不足84
3.5 Falling Rule Lists模型85
3.5.1 模型定義85
3.5.2 模型參數(shù)估計87
3.5.3 實現(xiàn)算法88
3.5.4 模型解釋性89
3.5.5 模型的優(yōu)勢與不足90
3.6 GAMMLI模型91
3.6.1 傳統(tǒng)推薦算法的不足92
3.6.2 交互項效應(yīng)擬合方法94
3.6.3 自適應(yīng)軟填充95
3.6.4 模型解釋性97
3.6.5 模型的優(yōu)勢與不足99
3.7 本章小結(jié)99
第4章 復(fù)雜模型事后解析方法101
4.1 部分依賴圖102
4.1.1 部分依賴函數(shù)102
4.1.2 估計方法103
4.1.3 部分依賴圖的局限105
4.1.4 個體條件期望圖106
4.1.5 實例演示107
4.2 累積局部效應(yīng)圖111
4.2.1 從部分依賴圖到累積局部效應(yīng)圖112
4.2.2 累積局部效應(yīng)方程114
4.2.3 實例演示116
4.2.4 ALE方法的優(yōu)劣118
4.3 LIME事后解析方法118
4.3.1 局部代理模型119
4.3.2 LIME方法的基本流程120
4.3.3 LIME方法的解釋121
4.3.4 LIME方法的優(yōu)劣123
4.4 SHAP事后解析方法124
4.4.1 SHAP的基本思想125
4.4.2 Shapley Value126
4.4.3 SHAP的實現(xiàn)算法128
4.4.4 SHAP方法的解釋137
4.4.5 SHAP方法的優(yōu)劣140
4.4.6 擴(kuò)展閱讀141
4.5 本章小結(jié)143
第三部分 實例
第5章 銀行VIP客戶流失預(yù)警及歸因分析146
5.1 案例背景146
5.2 數(shù)據(jù)介紹147
5.3 建模分析148
5.3.1 目標(biāo)定義148
5.3.2 數(shù)據(jù)處理149
5.3.3 模型構(gòu)建150
5.3.4 流失歸因151
5.4 營銷建議157
5.5 代碼展示159
5.6 本章小結(jié)162
第6章 銀行個人客戶信用評分模型研究163
6.1 案例背景163
6.2 數(shù)據(jù)介紹164
6.3 建模分析165
6.3.1 目標(biāo)定義165
6.3.2 數(shù)據(jù)處理166
6.3.3 模型構(gòu)建167
6.4 三種方法對比180
6.5 代碼展示182
6.6 擴(kuò)展思考:基于規(guī)則的特征衍生186
6.7 本章小結(jié)188
第7章 銀行理財產(chǎn)品推薦建模分析189
7.1 場景介紹189
7.1.1 推薦系統(tǒng)190
7.1.2 銀行中的推薦系統(tǒng)193
7.2 數(shù)據(jù)介紹196
7.2.1 推薦場景數(shù)據(jù)特點196
7.2.2 Santander數(shù)據(jù)集197
7.3 建模分析199
7.3.1 數(shù)據(jù)處理199
7.3.2 模型構(gòu)建200
7.3.3 模型結(jié)果評估204
7.4 案例分析208
7.5 本章小結(jié)211