风控数据沉淀,风控数据模型不扎心

作者:小菜 更新时间:2023-04-08 点击数:
简介:风控数据沉淀,风控数据模型不扎心在开发模型的过程中,无论是针对传统的线性回归、逻辑回归模型,还是对于随

【菜科解读】

在开发模型的过程中,无论是针对传统的线性回归、逻辑回归模型,还是对于随机森林、GBDT、XGBoost等决策树模型,特征相关性分析是数据建模特征工程阶段一个必不可少的环节。

特征相关性分析及其变量筛选,可以有效优化模型的信息维度,并提升模型的区分能力,使模型在实际业务场景中保持较好的应用性能。

因此,特征的相关性分析是我们从事建模工作必须掌握的一项数据分析处理能力,做好这道处理工序也自然让流水化的作业稳稳的。

1、特征相关性分析

在分析样本特征变量的相关性时,针对不同取值类型的特征有不同的方法,主要分为以下几种情况:

(1)连续型与连续型:相关系数(pearson、spearman、kendall等)(2)连续型与离散型(二分类):T检验、Z检验(3)连续型与离散型(多分类):方差分析(4)离散型与离散型:卡方检验

在实际建模过程中,我们最常见的特征相关性分析情况是连续型与连续型之间,即采用perarson等相关系数来评价变量的相关程度,下面我们以具体样本数据来实现这个过程。

现有一份样本数据,包含5000条样本和16个特征,部分样例如图1所示,其中X01~X14为特征变量,Y为目标变量(取值二分类0/1)。

风控数据沉淀,风控数据模型不扎心(1)

编辑

添加图片注释,不超过 140 字(可选)

图1 样本数据

针对以上样本的特征类型情况,我们通过python语言的corr()函数来实现变量的相关性分析,并指定系数类型method ='pearson',最终输出的二维矩阵系数结果如图2所示。

其中,对角线位置的数值表示变量本身的相关系数为1,其余数值为纵向变量与横向变量之间的相关性系数,例如变量X01与X02的pearson相关性系数大小为0.783652。

风控数据沉淀,风控数据模型不扎心(2)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

图2 特征pearson系数

由上图分布结果,可以很直观的了解到变量之间的相关性情况,pearson系数绝对值越大,代表变量之间的相关性越强,正值代表正相关,负值代表负相关,pearson系数的取值范围为0~1。

从图中可见部分特征字段的相关性系数已经达到了0.9以上,如果将这些变量都保留下来进入模型拟合阶段,显然是不合理的,很有可能使模型存在较严重的共线性(线性回归、逻辑回归),或者导致模型在应用过程中容易出现较大波动等情形。

因此,对于相关性较强的变量,必须对其进行特征筛选,这是建模场景特征应用的要点,也是本文将要介绍的重点内容。

2、特征相关性筛选

在实际业务场景中,通过pearson系数来选取变量的过程,往往是通过某个阈值来进行保留和剔除。

一般情况下,当建模变量池的字段数量较多时,可以初步设置0.5作为筛选标准;当建模变量池的字段数较少时,可以调整为0.6或0.7作为筛选标准。

因此,以0.5~0.7的某个阈值作为特征相关性选择标准最为常见,也符合信贷业务的建模需求与业务表现,具体数值也需要结合样本特征情况以及实际业务需求综合而定,但这是一个核心思路。

以图2的特征样例说明,变量X04与X05的相关性系数为0.992021,说明这两个字段的相关性很强,在某种角度理解,二者数据分布趋势基本一致,完全可以通过其中某一个字段来代替另一个字段,是不需要将其全部选入建模变量池中。

通常情况下,我们根据相关性系数分布,采用某个判断阈值例如0.7来进行特征选择,当系数大于0.7时会删除,但是当变量X04与X05之间相关性系数(0.992021)远大于0.7,虽然满足特征阈值的剔除条件,但注意不能全部将其删除。

针对这两个变量相关性程度较高的情况,我们在实际业务中往往会参考特征的其他指标来进一步分析确定最终需删除的变量,例如特征的缺失率miss、信息值IV等,现简要总结几种比较常用的实践处理方法:

(1)删除缺失率miss较高的变量;

(2)删除信息值IV较低的变量;

(3)删除稳定性PSI较大的变量;

(4)删除重要性importance较低的变量。

对于以上几种方式,方法1对模型的拟合效果不一定有效,有时特征的缺失分布情况也可以表现出较好的区分度;而方法2~4虽然从贡献度(IV、importance)与稳定度(PSI)方面对变量池进行了合理选择,也有利于模型训练的拟合效果,但针对相关变量的指标计算也会消耗较多时间。

此外,还可以结合特征变量的其他维度指标来选取变量,例如共线性VIF、异常率outlier等,其应用逻辑与以上方法类似。

#p#分页标题#e#

针对以上情况,本文要介绍的方法是仅针对特征相关性系数分布来展开变量筛选,也就是对于相关性系数较大的两个特征,不借助其他维度指标来进行变量删除,而是要结合当前两个特征与其他特征的相关性程度,具体实现过程如下:

(1)获取所有特征变量的相关系数矩阵;

(2)选择相关系数值最大的变量组合(例如X1与X2);

(3)算出变量X1、X2与其他所有变量{Xn}相关性系数的平均值w1、w2;

(4)比较平均相关性系数w1、w2的大小关系;

(5)当w1>w2删除X1,当w1<w2删除X2,当w1=w2删除X1或X2均可;

(6)重复步骤2~4,直到变量相关系数最大值低于预设阈值(常见0.5~0.7)。

以图2分布结果的变量组合X04与X05为例,由于二者相关性系数(0.992021)很高,需要删除其中之一。

X04与X05与其他变量之间的相关系数及其平均值结果具体如图3所示。

风控数据沉淀,风控数据模型不扎心(3)

编辑

添加图片注释,不超过 140 字(可选)

图3 特征X04与X05相关系数

从结果可知,X04与X05与其他变量的平均相关性系数分别为0.637524359、0.63713694,由于前者大于后者,说明X04相比X05在所有变量中的相关性较强,因此可以将变量X04删除。

这样在剩余的13个特征变量中,仍然选取相关性系数较高的变量组合,然后采用以上平均相关性系数分析的方法,依次实现变量的相关性筛选,直到满足剩余变量的最大相关性系数小于阈值即可。

为了自动化完成以上特征筛选过程,可以通过图4代码实现批量特征分析与处理,由于本文实例样本数据的特征相关性系数普遍较高,我们以0.8为最终相关性判断阈值。

风控数据沉淀,风控数据模型不扎心(4)

编辑

添加图片注释,不超过 140 字(可选)

图4 特征相关性筛选过程

在生成的数据del_column中,字段Value便是根据特征相关性分析需要删除的变量,具体结果如图5所示,但Value的取值并非特征变量名称,而是特征X变量对应的列索引,也就是数字0~13依次表示变量X01~X14。

风控数据沉淀,风控数据模型不扎心(5)

编辑

添加图片注释,不超过 140 字(可选)

图5 特征相关性删除变量

为了便于对待删除变量的分析与处理,我们将其列索引转换为变量名称,实现过程如图6所示,根据变量相关性筛选阈值0.8,最终需要删除的变量为X04、X13、X10、X05、X12、X07、X08共7个变量。

风控数据沉淀,风控数据模型不扎心(6)

编辑

添加图片注释,不超过 140 字(可选)

图6 样本待删除变量汇总

当然,在实际业务场景中,还可以根据特征变量与X与目标变量Y的关系,得到每个特征的信息值IV,可以对特征变量进一步筛选,从而有效保证模型变量拟合训练的综合效果,即使模型具有较好的区分度和稳定性,这也是特征相关性筛选最终需要实现的目标。

以上内容便是围绕特征相关性分析来完成特征变量筛选的介绍,这在数据建模中特征工程的数据分析环节是非常重要的,在具体实际场景中可以与特征共线性、特征重要性等其他特征处理方式相结合,以获取一个综合性能较优的模型。

为了便于大家理解本文特征相关性分析及其筛选的相关内容,本文额外附带了与实例分析同步的样本数据与python代码,详情请移至知识星球查看相关内容。

风控数据沉淀,风控数据模型不扎心(7)

漳州社保补缴如何补缴?

社保包括养老保险、医疗保险、失业保险、工伤保险和生育保险。

养老保险是为了支撑退休后的生活,医疗保险是为了在生病时提供经济支持,失业保险、工伤保险和生育保险则分别在失业、工伤和生育时提供相应的保险。

漳州个人怎么补交之前的社保,补交流程如下。

漳州社保补缴怎么补缴?随新社通小编一起看看:社保补缴并非人人皆可独立操作。

在漳州,补缴主体主要分为两类:1.漳州企业职工:对于在职期间因单位原因导致的社保断缴,个人无需焦虑,责任在于原单位或现工作单位。

他们应依照法定程序,及时为员工补缴缺失月份的社保费用。

作为职工,您是要了解权益、督促单位履行义务。

2.漳州灵活就业人员:对于以个人身份参保的灵活就业者,常规情况下,社保断缴不允许跨年补缴。

然而,若有特殊法规许补缴,务必密切关注通告,依规行事,以免错过补缴良机。

单位补交社保流程:社保补缴所需资料:参保人的社保卡、身份证,;补缴月份的工资流水证明;补缴月份会计凭证;参保人的补缴时间段劳动合同、个税记录等。

补交需由用人单位提出申请:只能单位名义补缴。

个人不能补缴。

如果在补缴期间有任职单位,可通过单位进行补缴。

对企业应参保未参保的,企业应提供当时的人员名册,为未参保的人员进行补缴。

补缴要按照当时单位和个人应当参保的险种进行补缴,并计缴相应的滞纳金。

各险种的补缴时间不能早于补缴单位的单位成立时间。

各险种的补缴时间不能早于对应险种的险种开始时间。

个人补缴社保流程:1、对于个人来说,如果想缴纳保费,则只能缴纳养老金和医疗保险这两部分。

具体的办理缴纳费用流程如下:直接到户口所在地社保管理部门通常在乡镇社保部门(社区居委会)或县社保局提出申请办理社保。

2、携带个人身份证以及复印件、近期免冠一寸照片两张、保费和申请书等资料,提出申请即可。

漳州社保补缴需提交的资料1、《漳州社会保险费补缴申请表》;2、属原固定工及合同制职工的,应提供职工本人的档案、录用(招工)审批表、历年《漳州职工劳动手册》;3、属其他用工形式的,应提供合同书、录用(招工)审批表(或招工表)、历年《漳州职工劳动手册》(外地户口职工可不提供);4、未办理招用工手续,但存在事实劳动关系的,应提供存在事实劳动关系的有效证明材料(如原始工资发放表、考勤表等)。

以灵活就业方式的人员如已经参保但欠费的,可以按规补缴,但是对于未在企业任职且未按灵活就业身份参保的人员,不存在应参保未参保的补缴。

换工作断交一个月社保如何办?(04/11)

公司社保就是我们日常说的五险,包括包括养老保险、医疗保险、失业保险、工伤保险和生育保险。

其中养老保险、医疗保险和失业保险,这三种险是由企业和个人共同缴纳的保费,工伤保险和生育保险完全是由企业承担的。

>社保换工作停了一个月,可以采取补缴的方式来处理。

根据《中华人民共和国社会保险法》,用人单位应当自用工之日起三十日内为其职工向社会部门申请办理社会保险登记,并按时足额缴纳社会保险费。

因换工作导致社保停缴一个月,新单位可以进行补缴。

>公司补缴:社保断交公司是可以帮忙补交的,可以联系原公司帮忙补交,或者到新公司之后询问人事能否帮忙办理补缴。

灵活就业人员:灵活就业人员一般不能补缴社保,需按月按时缴纳。

相关不能以补缴、追缴的方式增加缴费年限,所以灵活就业人员一定要牢记缴费时间,避免断缴。

(备注:数据仅供参考,具体以当地有关法规为准)

加入收藏
               

风控数据沉淀,风控数据模型不扎心

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录