模板项目-个人贷款违约预测
1.数据的理解
1.1 项目背景
通过渠道获得了一家银行的个人金融业务数据集,这份数据设计到5300个银行客户的100万笔的交易,而且设计700份贷款信息与900张信用卡的数据
1.2 核心干系人以及分析方向
核心干系人 | 分析方向 |
---|---|
提供增值服务的银行客户经理 | 希望明确有哪些客户有更多的业务需求 |
风险管理的业务人员 | 可以及早发现贷款的潜在损失 |
1.3 预测切入点
- 根据客户贷款前的属性、状态信息和交易行为预测其贷款违约行为
1.4 数据摘要
- 截取自一家银行的真实客户与交易数据;
- 涉及客户主记录、帐号、交易、业务和信用卡数据;
- 一个账户只能一笔贷款,“loan” 表中记录了客户贷款信息。
loan_id | account_id | date | amount | duration | payments | status |
---|---|---|---|---|---|---|
5314 | 1787 | 1993-07-05 | 96396 | 12 | 8033 | B |
5316 | 1801 | 1993-07-11 | 165950 | 36 | 4610 | A |
6863 | 9188 | 1993-08-03 | 127080 | 60 | 2118 | A |
5325 | 1843 | 1993-09-06 | 105804 | 36 | 2939 | A |
7240 | 11013 | 1993-09-13 | 274740 | 60 | 4579 | A |
6687 | 8261 | 1993-09-15 | 87840 | 24 | 3660 | A |
7284 | 11265 | 1993-09-24 | 52788 | 12 | 4399 | B |
1.5 数据的实体-关系图(ER图)
2.业务理解
2.1 什么指标有预测能力
2.2 客户为什么不还钱
2.3 违约的发生
2.4 预测的价值点
有预测价值的变量基本都是衍生变量:
• 一级衍生,比如资产余额;
• 二级衍生,比如资产余额的波动率、平均资产余额;
• 三级衍生,比如资产余额的变异系数。
3.数据提取
3.1 相关关系 vs 因果关系
因果关系的存在,必然会伴随着相关性。但是,从因到果还需时间上的先后顺序、以及合理的机制等。因此,相关性只是因果关系的必要不充分条件。在数据科学中,相关关系经常会被误认为因果关系。
备注:
- 需注意构建模型时
数据选择的标准
3.2 建立因果关系模型
- 分析的变量按照时间变化情况可以分为「动态变量」和「静态变量」
- 静态变量
- 属性变量(比如性别、是否90后)一般是静态变量
- 动态变量
- 行为、状态和利益变量均属于动态变量。
- 动态变量还分为
- 时点变量;
- 比如:当前帐户余额(是否破产)和利益变量(对某产品的诉求)均属于时点变量
- 区间变量;
- 行为变量(存款频次、平均帐户余额的增长率)为区间变量。
- 状态变量;
3.3 贷款违约预测的取数规则
模型框架
- 根据客户基本信息、业务信息、状态信息
- 预估履约期内贷款客户未来一段时间内发生违约的可能
3.4 数据挖掘模型分类
预测模型
估计模型(回归)
- 线性回归
- 回归树
- 神经网络
聚类模型
3.5 数据线路设计
4.项目构建
项目主页-输入输出
项目流水线调度构建
5.项目成果展示
5.1 应用入口及界面
应用入口:https://dd1f1646-d605-5b32-a3ed-45b79284ea77-0.online.linktimecloud.com/#/preview
5.2 数据科学方法论
- 数据科学是一个发现和解释数据的模式,并用于解决问题的过程
- 数据 + 主题 = 信息
- 信息 + 规则 = 知识
- 知识 + 业务经验 = 决策和行动
5.3 数据挖掘实施路线图
6.数据表解析Reference
贷款表(Loans)
名称 | 标签 | 说明 |
---|---|---|
disp_id | 权限号 | 主键 |
loan_id | 贷款号 | 主键 |
account_id | 账号号 | 主键 |
date | 发放贷款日期 | |
amount | 贷款金额 | |
duration | 贷款日期 | |
payment | 每月归还额 | |
status | 还款状态 | A,B,C,D |
说明
- A 代表合同终止,没问题
- B 代表合同终止
- C 代表合同处于执行期
- D 代表合同处于执行期,欠债状态↵↵备注
- 状态为A的视为正常客户
- 状态为B和D的视为违约客户
- 状态为C的情况还不明确↵↵
数据量
- 682
账户表(Accounts)
名称 | 标签 | 说明 |
---|---|---|
account_id | 账户号 | 主键 |
district_id | 开户分行地区号 | |
date | 开户日期 | |
frequency | 结算频度 | 月、周、交易之后马上 |
说明
- 每条记录描述了一个账号的静态信息
数据量 - 4500
客户信息表(Clients)
名称 | 标签 | 说明 |
---|---|---|
client_id | 客户号 | 主键 |
Sex | 性别 | |
birth_date | 出生日期 | |
district_id | 地区号 | 客户所属地区 |
说明
- 每条记录描述了一个客户的特征信息
数据量
- 5369
权限分配表(Disp)
名称 | 标签 | 说明 |
---|---|---|
disp_id | 权限设置号 | 主键 |
client_id | 顾客号 | |
account_id | 账户号 | |
type | 权限类型 | 只有“所有者”身份可以进行增值业务操作和贷款 |
说明
- 每条记录描述了客户和账户之间的关系,以及客户操作账户的权限↵数据量
- 5369
支付命令表(Orders)
名称 | 标签 | 说明 |
---|---|---|
order_id | 订单号 | 主键 |
account_id | 发起订单的账户号 | |
bank_to | 收款银行 | 每家银行用两个字母代表用于脱敏 |
account_to | 收款客户号 | |
amount | 金额 | |
K_symbol | 支付方式 |
说明
- 每条记录描述了一个支付命令
数据量
- 6471
交易表(Trans)
名称 | 标签 | 说明 |
---|---|---|
trans_id | 交易序号 | 主键 |
account_id | 发起交易的账户号 | |
date | 交易日期 | |
type | 借款类型 | |
operation | 交易类型 | |
amount | 金额 | |
balance | 账户余额 | |
K_Symbol | 支付方式 | |
bank | 对方银行 | |
account | 对方账户号 |
说明
- 记录
数据量
- 1,056,320
信用卡表(Cards)
名称 | 标签 | 说明 |
---|---|---|
card_id | 信用卡id | 主键 |
disp_id | 账号权限号 | |
type | 卡类型 | |
issued | 发卡日期 |
说用
- 每条记录描述了一个账户上的信用卡信息
数据量
- 892
人口地区统计表
名称 | 标签 | 说明 |
---|---|---|
district-id | 地区号(A1) | 主键 |
GDP | GDP总量 | |
A4 | 居住人口 | |
A10 | 城镇人口比例 | |
A11 | 平均工资 | |
A12 | 1995年失业率 | |
A13 | 1996年失业率 | |
A14 | 1000人中有多少企业家 | |
A15 | 1995犯罪率(千人) | |
A16 | 1996犯罪率(千人) |
说明
- 每条记录描述了一个地区的人口统计学信息
数据量
- 77
留言
评论
${{item['author_name']}} 回复 ${{idToContentMap[item.parent] !== undefined ? idToContentMap[item.parent]['author_name'] : ''}}说 · ${{item.date.slice(0, 10)}} 回复
暂时还没有一条评论.