模板项目-个人贷款违约预测

by prentiss 2022-09-19

1.数据的理解

1.1 项目背景

通过渠道获得了一家银行的个人金融业务数据集,这份数据设计到5300个银行客户的100万笔的交易,而且设计700份贷款信息与900张信用卡的数据

1.2 核心干系人以及分析方向

核心干系人分析方向
提供增值服务的银行客户经理希望明确有哪些客户有更多的业务需求
风险管理的业务人员可以及早发现贷款的潜在损失

1.3 预测切入点

  • 根据客户贷款前的属性、状态信息和交易行为预测其贷款违约行为

1.4 数据摘要

  • 截取自一家银行的真实客户与交易数据;
  • 涉及客户主记录、帐号、交易、业务和信用卡数据;
  • 一个账户只能一笔贷款,“loan” 表中记录了客户贷款信息。
loan_idaccount_iddateamountdurationpaymentsstatus
531417871993-07-0596396128033B
531618011993-07-11165950364610A
686391881993-08-03127080602118A
532518431993-09-06105804362939A
7240110131993-09-13274740604579A
668782611993-09-1587840243660A
7284112651993-09-2452788124399B

1.5 数据的实体-关系图(ER图)

数据实体-关系图(ER图)

2.业务理解

2.1 什么指标有预测能力

数据挖掘1-指标拆解

2.2 客户为什么不还钱

数据挖掘2-客户为什么不还钱

2.3 违约的发生

2.4 预测的价值点

有预测价值的变量基本都是衍生变量:
• 一级衍生,比如资产余额;
• 二级衍生,比如资产余额的波动率、平均资产余额;
• 三级衍生,比如资产余额的变异系数。

3.数据提取

3.1 相关关系 vs 因果关系

因果关系的存在,必然会伴随着相关性。但是,从因到果还需时间上的先后顺序、以及合理的机制等。因此,相关性只是因果关系的必要不充分条件。在数据科学中,相关关系经常会被误认为因果关系。

备注:

  • 需注意构建模型时
    数据选择的标准

3.2 建立因果关系模型

  • 分析的变量按照时间变化情况可以分为「动态变量」和「静态变量」
  • 静态变量
  • 属性变量(比如性别、是否90后)一般是静态变量
  • 动态变量
  • 行为、状态和利益变量均属于动态变量。
  • 动态变量还分为
  • 时点变量;
  • 比如:当前帐户余额(是否破产)和利益变量(对某产品的诉求)均属于时点变量
  • 区间变量;
  • 行为变量(存款频次、平均帐户余额的增长率)为区间变量。
  • 状态变量;

3.3 贷款违约预测的取数规则

模型框架

  • 根据客户基本信息、业务信息、状态信息
  • 预估履约期内贷款客户未来一段时间内发生违约的可能
数据挖掘2-贷款违约预测的取数规则

3.4 数据挖掘模型分类

预测模型

数据挖掘2-预测模型

估计模型(回归)

  • 线性回归
  • 回归树
  • 神经网络

聚类模型

数据挖掘2-聚类模型

3.5 数据线路设计

数据挖掘-步骤解析

4.项目构建

项目主页-输入输出

项目步骤构建

项目流水线调度构建

项目流水线构建

5.项目成果展示

5.1 应用入口及界面

应用入口:https://dd1f1646-d605-5b32-a3ed-45b79284ea77-0.online.linktimecloud.com/#/preview

应用主页
预测结果

5.2 数据科学方法论

  • 数据科学是一个发现和解释数据的模式,并用于解决问题的过程
  • 数据 + 主题 = 信息
  • 信息 + 规则 = 知识
  • 知识 + 业务经验 = 决策和行动

5.3 数据挖掘实施路线图

模型挖机实施路线图

6.数据表解析Reference

贷款表(Loans)

名称标签说明
disp_id权限号主键
loan_id贷款号主键
account_id账号号主键
date发放贷款日期
amount贷款金额
duration贷款日期
payment每月归还额
status还款状态A,B,C,D

说明

  • A 代表合同终止,没问题
  • B 代表合同终止
  • C 代表合同处于执行期
  • D 代表合同处于执行期,欠债状态↵↵备注
  • 状态为A的视为正常客户
  • 状态为B和D的视为违约客户
  • 状态为C的情况还不明确↵↵

数据量

  • 682

账户表(Accounts)

名称标签说明
account_id账户号主键
district_id开户分行地区号
date开户日期
frequency结算频度月、周、交易之后马上

说明

  • 每条记录描述了一个账号的静态信息
    数据量
  • 4500

客户信息表(Clients)

名称标签说明
client_id客户号主键
Sex性别
birth_date出生日期
district_id地区号客户所属地区

说明

  • 每条记录描述了一个客户的特征信息

数据量

  • 5369

权限分配表(Disp)

名称标签说明
disp_id权限设置号主键
client_id顾客号
account_id账户号
type权限类型只有“所有者”身份可以进行增值业务操作和贷款

说明

  • 每条记录描述了客户和账户之间的关系,以及客户操作账户的权限↵数据量
  • 5369

支付命令表(Orders)

名称标签说明
order_id订单号主键
account_id发起订单的账户号
bank_to收款银行每家银行用两个字母代表用于脱敏
account_to收款客户号
amount金额
K_symbol支付方式

说明

  • 每条记录描述了一个支付命令

数据量

  • 6471

交易表(Trans)

名称标签说明
trans_id交易序号主键
account_id发起交易的账户号
date交易日期
type借款类型
operation交易类型
amount金额
balance账户余额
K_Symbol支付方式
bank对方银行
account对方账户号

说明

  • 记录

数据量

  • 1,056,320

信用卡表(Cards)

名称标签说明
card_id信用卡id主键
disp_id账号权限号
type卡类型
issued发卡日期

说用

  • 每条记录描述了一个账户上的信用卡信息

数据量

  • 892

人口地区统计表

名称标签说明
district-id地区号(A1)主键
GDPGDP总量
A4居住人口
A10城镇人口比例
A11平均工资
A121995年失业率
A131996年失业率
A141000人中有多少企业家
A151995犯罪率(千人)
A161996犯罪率(千人)

说明

  • 每条记录描述了一个地区的人口统计学信息

数据量

  • 77

留言

评论

${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}} · ${{item.date.slice(0, 10)}} 回复

暂时还没有一条评论.