內容介紹
本書基于Python全面介紹了機器學習在信貸風控領域的應用與實踐,從原理、算法與工程實踐3個維度全面展開,包含21種實用算法和26個解決方案。
作者是智能風控、人工智能和算法領域的專家,曾在多加知名金融科技企業(yè)從事風控算法方面的研究與實踐,經驗豐富,本書得到了風控領域9位專家的高度評價。
全書一共8章,每個章節(jié)都由問題、算法、案例三部分組成,具有系統(tǒng)性和實戰(zhàn)性。
第1-2章講解了信貸業(yè)務的基礎知識以及常用的規(guī)則引擎、信用評估引擎的建模方法。
第3章以項目冷啟動為背景,講解了風控領域應用廣泛的遷移學習方法。
第4-5章介紹了幸存者偏差與不均衡學習中所使用的無監(jiān)督學習與半監(jiān)督學習方法。
第6章闡述了無監(jiān)督的異常識別算法,該算法常用于數(shù)據(jù)清洗與冷啟動項目,是反欺詐引擎中常用的個體欺詐檢測方法。
第7章分享了一些經作者實踐證明效果較好的模型優(yōu)化方法,并對模型融合的思路進行了較為詳細的介紹。
第8章重點講解了知識圖譜相關的復雜網(wǎng)絡基礎知識及網(wǎng)絡表示學習方法,其中的社區(qū)發(fā)現(xiàn)算法常用于團伙欺詐檢測。此外,本章中的部分方法對信用評估模型的優(yōu)化也有很大幫助。
推薦序
前言
第1章 風控建模與規(guī)則挖掘 / 1
1.1 信貸與風險 / 1
1.1.1 信貸業(yè)務與互聯(lián)網(wǎng)金融風控體系 / 1
1.1.2 信貸風險與控制 / 4
1.2 工業(yè)建模流程 / 5
1.2.1 抽象業(yè)務 / 6
1.2.2 定義標簽 / 6
1.2.3 樣本選取 / 7
1.2.4 特征工程與模型調優(yōu) / 9
1.2.5 上線監(jiān)控與評估報表 / 10
1.3 規(guī)則挖掘方案 / 13
1.4 本章小結 / 20
第2章 集成模型評分卡 / 21
2.1 特征工程解析 / 21
2.1.1 特征與模型 / 22
2.1.2 信用模型的特征 / 22
2.2 特征衍生方案 / 24
2.3 離散處理 / 27
2.3.1 one-hot編碼 / 27
2.3.2 WOE編碼 / 28
2.4 迭代特征篩選方案 / 33
2.5 自動化調參 / 38
2.5.1 自動化調參策略 / 38
2.5.2 參數(shù)搜索方案 / 39
2.5.3 調參框架搭建 / 40
2.6 遞歸特征刪除方案 / 43
2.7 評分卡制作 / 44
2.7.1 邏輯回歸評分卡 / 45
2.7.2 集成模型的評分映射 / 55
2.7.3 針對業(yè)務改寫評價函數(shù) / 59
2.8 本章小結 / 60
第3章 遷移學習與冷啟動 / 61
3.1 遷移學習基礎 / 61
3.1.1 應用場景 / 62
3.1.2 概念介紹 / 62
3.2 遷移學習方法論 / 63
3.2.1 三類常見算法 / 63
3.2.2 遷移的實現(xiàn)方法 / 64
3.3 少量有標簽樣本的遷移方案 / 65
3.3.1 TrAdaBoost模型 / 65
3.3.2 跨場景遷移模型 / 67
3.4 無標簽樣本遷移之JDA / 76
3.4.1 JDA模型 / 76
3.4.2 模型應用 / 79
3.5 無標簽樣本遷移之DTELM / 80
3.5.1 ELM模型 / 81
3.5.2 DTELM模型 / 82
3.5.3 模型應用 / 84
3.6 遷移樣本篩選方案 / 88
3.6.1 背景介紹 / 88
3.6.2 算法框架概覽 / 88
3.6.3 搭建融合框架 / 89
3.7 本章小結 / 93
第4章 幸存者偏差 / 95
4.1 幸存者偏差的含義 / 95
4.2 增量學習 / 96
4.3 生成對抗網(wǎng)絡 / 97
4.3.1 GAN模型介紹 / 98
4.3.2 GAN與幸存者偏差 / 99
4.4 高斯混合模型 / 100
4.4.1 GMM算法原理 / 101
4.4.2 GMM簡單應用 / 103
4.4.3 GMM中的概率模型 / 104
4.4.4 GMM樣本生成 / 107
4.5 信息準則 / 110
4.5.1 赤池信息準則 / 110
4.5.2 貝葉斯信息準則 / 111
4.5.3 AIC與BIC比較 / 111
4.6 本章小結 / 112
第5章 不均衡學習 / 113
5.1 樣本不均衡 / 113
5.2 代價敏感加權方案 / 114
5.3 插值過采樣方案 / 115
5.3.1 SMOTE算法 / 115
5.3.2 過采樣算法實踐 / 116
5.4 半監(jiān)督學習方案 / 121
5.4.1 前提假設 / 122
5.4.2 S3VM / 122
5.4.3 LP / 127
5.5 本章小結 / 130
第6章 異常檢測 / 132
6.1 離群點與欺詐檢測 / 133
6.2 z-score檢驗 / 134
6.3 LOF異常檢測法 / 134
6.3.1 原理與算法流程 / 135
6.3.2 LOF樣本清洗方案 / 137
6.4 IF異常檢測法 / 139
6.4.1 原理與算法流程 / 139
6.4.2 PreA模型與冷啟動 / 141
6.5 本章小結 / 144
第7章 模型優(yōu)化 / 145
7.1 多損失函數(shù)分段預測 / 145
7.1.1 兩種損失函數(shù) / 146
7.1.2 融合流程 / 146
7.2 樹模型特征衍生 / 149
7.2.1 GBDT離散化 / 149
7.2.2 融合方案詳解 / 150
7.2.3 特征衍生細節(jié) / 151
7.2.4 案例 / 151
7.3 時間序列建!/ 160
7.3.1 RNN / 160
7.3.2 LSTM / 163
7.3.3 門控結構 / 164
7.3.4 LSTM行為評分卡案例 / 166
7.4 高維稀疏數(shù)據(jù)建模 / 170
7.4.1 算法原理 / 171
7.4.2 算法應用 / 172
7.5 模型融合 / 173
7.5.1 模型融合基礎 / 173
7.5.2 模型篩選 / 174
7.5.3 業(yè)務應用方案 / 181
7.6 本章小結 / 183
第8章 知識圖譜 / 184
8.1 復雜網(wǎng)絡基礎 / 184
8.2 中心度與相似性 / 187
8.3 節(jié)點分類 / 193
8.3.1 樸素節(jié)點分類 / 193
8.3.2 鄰節(jié)點加權投票 / 195
8.3.3 一致性標簽傳播 / 197
8.4 社區(qū)發(fā)現(xiàn)算法 / 200
8.4.1 基礎概念 / 200
8.4.2 Girvan-Newman算法 / 201
8.4.3 Louvain算法 / 202
8.4.4 社區(qū)評估 / 204
8.5 網(wǎng)絡表示學習 / 206
8.5.1 矩陣分解 / 207
8.5.2 節(jié)點嵌入 / 210
8.6 圖卷積神經網(wǎng)絡 / 215
8.6.1 卷積神經網(wǎng)絡 / 215
8.6.2 傅里葉變換 / 217
8.6.3 拉普拉斯算子 / 219
8.6.4 GCN中的圖卷積 / 221
8.7 本章小結 / 225
參考文獻 / 226