• APP內打開
    風險提示:防范以虛擬貨幣/區塊鏈名義進行的非法集資風險。 ——銀保監會等五部門

    [好書推薦]一本書介紹Python信用風險量化術《智能風控:Python金融風險管理與評分卡建模》

    白話區塊鏈 2020-06-02 15:42:10
    微信分享

    掃碼分享

    《智能風控:Python金融風險管理與評分卡建模》。該書完整地介紹如何基于Python語言從0到1建立標準信用評分模型,并系統介紹了建立模型之后,如何通過拒絕推斷及校準,來修正模型與真實場景的偏差。

    作者:ZIXUN / 來源:華章計算機

    互聯網金融與金融科技是數據從業者關注度較高的方向之一。風險控制是金融的核心。信貸場景下的風險,很大程度上取決于貸款人的信用風險。因此如何對貸款用戶的信用風險進行合理度量,是信貸平臺關注的首要問題。

    由于信貸風控的建模方法由來已久,筆者在另一本專著《智能風控:原理、算法與工程實踐》中,重點介紹了互聯網金融場景下,機器學習在金融科技中的應用方法與技術實現。與好友交流中發現,市面上大多數信用評分建模的指導書籍,是基于SAS開發或不涉及工程實現的。

    image.png

    為推廣傳統信用評分方法,彌補市場空白,決定撰寫《智能風控:Python金融風險管理與評分卡建模》。該書完整地介紹如何基于Python語言從0到1建立標準信用評分模型,并系統介紹了建立模型之后,如何通過拒絕推斷及校準,來修正模型與真實場景的偏差。此外,本書還介紹了如何上線部署以及后續監控與迭代中的注意事項。希望讀者朋友閱讀該書后,可以學習到規范、完整的評分卡建模體系,可以使用Python獨立地建立標準評分卡模型,并通過模型與策略相組合實現對貸款用戶的信用管理。

    image.png

    Part1.內容介紹

    全書共9章。大部分章節由問題、原理、代碼演示三部分組成。其中第一章主要介紹。從第2章開始,依次介紹信用評分模型開發過程中的數據處理、用戶分層、變量處理、變量衍生、變量篩選、模型訓練、拒絕推斷、模型校準、決策應用、模型監控、模型重構與迭代、模型報告撰寫等。

    第1章主要介紹信用管理基礎知識。風控場景對于業務知識的儲備有較高要求,市面上也缺乏相關名詞的規范化材料。因此本章對于相關術語進行解釋,并給出統一的定義。此外,本章詳細地介紹了現階段企業風險控制架構。了解整個風控框架,有助于讀者理解場景中的具體問題成因,從而精準定義問題,理解使用每一項技術的原因。

    第2章主要介紹評分卡的相關概念,規范了評分卡模型的建模流程。通過適用客群、用途兩種角度揭示從業者定義評分卡的思路。并且對整個建模流程中最重要的步驟——模型設計,進行了詳細地梳理。此外,本章還對常用于評分卡建模的數據進行了解讀。

    第3章主要介紹評分卡建模中常用的機器學習算法。從機器學習基礎出發,從簡單的線性回歸,逐步進階到具有良好解釋性的邏輯回歸模型。除直接用于評分卡建模的邏輯回歸模型外,還介紹了幾種常用于輔助建模的模型。最后,還介紹了一些模型之間相互取長補短的合并方法,在實踐或數據挖掘競賽中也有較好的效果。

    第4章主要介紹了幾種常用的用戶分群方法。同時系統地介紹了決策樹模型和高斯混合聚類模型的原理。并給出了一種基于決策樹模型和卡方分箱,實現自動生成策略組合的分析方法。雖然用戶分群并非評分卡建模的必備流程,但在大多數情況下,它可以為業務帶來實際收益。

    第5章主要介紹探索性數據分析、特征衍生、特征變換的基本方法。由于評分卡中常用的廣義線性模型,只使用了特征的簡單加權求和信息,缺乏對特征的深度挖掘能力。因此評分卡模型對于人工特征工程要求遠高于其他場景。這一章介紹的特征衍生與特征變換操作是評分卡模型建模過程中非常重要的環節。該過程耗費的時間,通常會占用整個開發流程的60%~70%。

    第6章主要介紹特征篩選和模型訓練方法。由于評分卡模型對于穩定性的要求通常要高于準確性,因此需要對建模使用的特征進行精細化的調優與篩選。特征變換調優過程在第5章中有相關介紹。特征篩選方法則主要集中在第6章。在這一章的末尾,為讀者展示了一個建立評分卡模型的案例。希望讀者通過該案例可以理解前6章所介紹技術是如何應用的。

    第7章主要介紹如何對建立好的評分卡模型進行拒絕推斷。信用評分模型本身是一種擁有拒絕屬性的模型。幸存者偏差問題會導致每次迭代的模型逐漸偏離真實環境下的數據分布,因此需要通過數據驗證、標簽分裂、數據推斷等方法,對現有模型進行修正。

    第8章主要介紹評分卡模型建立之后的應用邏輯和校準方法。模型只是一種嵌入在策略體系中的技術手段,其本質是為策略服務的。在實際應用中,模型分數也常常作為一條單獨的規則進行配置。由于一些難以避免的原因,評分卡模型通常需要進行校準,因此這一章對常用的校準方法及其使用場景進行了梳理。

    第9章主要介紹模型開發后的記錄工作。由于在實際工作中,常常需要多人進行交互,且經常需要回溯很久之前開發過的模型詳情,因此保證每一個模型都擁有詳細的記錄是非常重要的。這一章給出了一個完整的評分卡模型開發文檔,以便于讀者參考,從而完善現有的模型記錄文檔。

    Part2.內容特色

    與市面上其他建模實戰或機器學習等技術書籍相比,本書中主要使用Python語言編寫,詳細介紹了傳統信用管理中所涉及的基礎知識、技術與工程實現。從統計學、機器學習角度出發,系統、全面地介紹風險數據分析中的基礎概念與建模技術。本書作為《智能風控》系列第二本書,主要是對《智能風控:原理、算法與工程實踐》一書的基礎內容進行補充。希望讀者以本書為入門選擇,將《智能風控:原理、算法與工程實踐》一書作為進階,能夠由淺入深地掌握信貸領域的分析建模技術。

    image.png

    此外,市場上此類介紹數據建模、算法理論的書很容易就陷入平鋪直述,條理性和嚴謹性有余而生動性不足的窘境。特別是對于廣大初學者,一本容易看進去的書更為有價值。因此,筆者特邀請知名插畫師——毛鑫宇,為本書手繪漫畫與插圖。從而使得本書內容表達形式生動、有趣、且貼近生活。希望讀者閱讀本書的過程中不會感到枯燥或乏味。

    Part3.讀者對象

    該書主要面向希望從事風險控制的分析師、建模師、算法工程師,也適合有一定統計基礎的在校學生、對使用Python實現自動化信用管理感興趣的讀者閱讀。

    Part4.目錄

    推薦序

    前言

    第1章 信用管理基礎 /1

    1.1 信用與管理 /2

    1.2 風控術語解讀 /3

    1.2.1 信貸基礎指標 /4

    1.2.2 信貸風險指標 /5

    1.3 企業信貸風控架構 /7

    1.4 本章小結 /10第2章 評分卡 /11

    2.1 評分卡概念 /12

    2.1.1 適用客群 /13

    2.1.2 用途 /14

    2.2 建模流程 /15

    2.3 模型設計 /16

    2.3.1 業務問題轉化 /17

    2.3.2 賬齡分析與時間窗口設計 /17

    2.3.3 數據集切分 /192.3.4 樣本選擇 /20

    2.3.5 采樣與加權 /212.4 數據與變量解讀 /25

    2.5 本章小結 /26

    第3章 機器學習 /27

    3.1 基本概念 /28

    3.1.1 空間表征 /29

    3.1.2 模型學習 /31

    3.1.3 模型評價 /32

    3.2 廣義線性模型 /33

    3.2.1 多元線性回歸模型 /34

    3.2.2 經驗風險與結構風險 /35

    3.2.3 極大似然估計 /38

    3.3 邏輯回歸 /39

    3.3.1 sigmoid函數 /40

    3.3.2 zuida似然估計 /41

    3.3.3 多項邏輯回歸學習 /41

    3.3.4 標準化 /42

    3.4 性能度量 /44

    3.4.1 誤差 /45

    3.4.2 混淆矩陣與衍生指標 /45

    3.4.3 不均衡模型評價 /48

    3.4.4 業務評價 /52

    3.5 上線部署與監控 /55

    3.5.1 上線部署 /55

    3.5.2 前端監控 /57

    3.5.3 后端監控 /59

    3.6 迭代與重構 /61

    3.6.1 模型迭代 /61

    3.6.2 模型重構 /62

    3.7 輔助模型 /62

    3.7.1 XGBoost /63

    3.7.2 模型解釋性 /74

    3.7.3 因子分解機 /81

    3.8 模型合并 /82

    3.9 本章小結 /86

    第4章 用戶分群 /87

    4.1 辛普森悖論 /88

    4.2 監督分群 /90

    4.2.1 決策樹原理 /90

    4.2.2 決策樹分群 /92

    4.2.3 生成拒絕規則 /95

    4.3 無監督分群 /105

    4.3.1 GMM原理 /106

    4.3.2 GMM分群 /107

    4.4 用戶畫像與聚類分析 /108

    4.4.1 數據分布可視化 /109

    4.4.2 K均值聚類 /110

    4.4.3 均值漂移聚類 /111

    4.4.4 層次聚類 /113

    4.4.5 tSNE聚類 /114

    4.4.6 DBSCAN聚類 /115

    4.4.7 方差分析 /117

    4.5 本章小結 /119

    第5章 數據探索與特征工程 /120

    5.1 探索性數據分析 /121

    5.1.1 連續型變量 /122

    5.1.2 離散型變量 /123

    5.1.3 代碼實現 /123

    5.2 特征生成 /126

    5.2.1 特征聚合 /127

    5.2.2 特征組合 /145

    5.3 特征變換 /147

    5.3.1 卡方分箱 /148

    5.3.2 聚類分箱 /150

    5.3.3 分箱對比 /151

    5.3.4 箱的調整 /154

    5.3.5 兩種特殊的調整方法 /156

    5.3.6 WOE映射 /158

    5.4 本章小結 /158

    第6章 特征篩選與建模 /159

    6.1 初步篩選 /160

    6.1.1 缺失率 /160

    6.1.2 信息量 /161

    6.1.3 相關性 /162

    6.1.4 代碼實現 /163

    6.2 逐步回歸 /164

    6.2.1 F檢驗 /165

    6.2.2 常見逐步回歸策略 /165

    6.2.3 檢驗標準 /166

    6.2.4 代碼實現 /167

    6.3 穩定性 /167

    6.4 負樣本分布圖 /169

    6.5 評分卡案例 /171

    6.6 本章小結 /189

    第7章 拒絕推斷 /190

    7.1 偏差產生的原因 /191

    7.2 數據驗證 /193

    7.3 標簽分裂 /193

    7.4 數據推斷 /195

    7.4.1 硬截斷法 /195

    7.4.2 模糊展開法 /198

    7.4.3 重新加權法 /199

    7.4.4 外推法 /200

    7.4.5 迭代再分類法 /202

    7.5 本章小結 /204

    第8章 模型校準與決策 /205

    8.1 模型校準的意義 /206

    8.2 校準方法 /207

    8.2.1 通用校準 /208

    8.2.2 多模型校準 /210

    8.2.3 錯誤分配 /214

    8.2.4 權重還原 /215

    8.3 決策與應用 /215

    8.3.1 zuiyou評分切分 /216

    8.3.2 交換集分析 /216

    8.3.3 人工干預 /218

    8.4 本章小結 /219

    第9章 模型文檔 /220

    9.1 模型背景 /221

    9.2 模型設計 /222

    9.2.1 模型樣本 /222

    9.2.2 壞客戶定義 /222

    9.3 數據準備 /223

    9.3.1 數據提取 /223

    9.3.2 歷史趨勢聚合 /224

    9.3.3 缺失值與極值處理 /224

    9.3.4 WOE處理 /225

    9.4 變量篩選 /225

    9.4.1 根據IV值進行初篩 /226

    9.4.2 逐步回歸分析 /226

    9.4.3 模型調優 /226

    9.5 最終模型 /227

    9.5.1 模型變量 /227

    9.5.2 模型表現 /228

    9.5.3 模型分制轉換 /228

    9.6 表現追蹤 /228

    9.7 附件 /229

    9.8 本章小結 /231

     

    下載白話區塊鏈APP

    區塊鏈世界入口第一站,人人都能看懂的區塊鏈;24 小時熱點實時追蹤。

    毛片免费看