在开发模型的过程中,无论是针对传统的线性回归、逻辑回归模型,还是对于随机森林、GBDT、XGBoost等决策树模型,特征相关性分析是数据建模特征工程阶段一个必不可少的环节。
特征相关性分析及其变量筛选,可以有效优化模型的信息维度,并提升模型的区分能力,使模型在实际业务场景中保持较好的应用性能。
因此,特征的相关性分析是我们从事建模工作必须掌握的一项数据分析处理能力,做好这道处理工序也自然让流水化的作业稳稳的。
1、特征相关性分析
在分析样本特征变量的相关性时,针对不同取值类型的特征有不同的方法,主要分为以下几种情况:
(1)连续型与连续型:相关系数(pearson、spearman、kendall等)(2)连续型与离散型(二分类):T检验、Z检验(3)连续型与离散型(多分类):方差分析(4)离散型与离散型:卡方检验
在实际建模过程中,我们最常见的特征相关性分析情况是连续型与连续型之间,即采用perarson等相关系数来评价变量的相关程度,下面我们以具体样本数据来实现这个过程。
现有一份样本数据,包含5000条样本和16个特征,部分样例如图1所示,其中X01~X14为特征变量,Y为目标变量(取值二分类0/1)。

编辑
添加图片注释,不超过 140 字(可选)
图1 样本数据
针对以上样本的特征类型情况,我们通过python语言的corr()函数来实现变量的相关性分析,并指定系数类型method ='pearson',最终输出的二维矩阵系数结果如图2所示。
其中,对角线位置的数值表示变量本身的相关系数为1,其余数值为纵向变量与横向变量之间的相关性系数,例如变量X01与X02的pearson相关性系数大小为0.783652。

编辑切换为居中
添加图片注释,不超过 140 字(可选)
图2 特征pearson系数
由上图分布结果,可以很直观的了解到变量之间的相关性情况,pearson系数绝对值越大,代表变量之间的相关性越强,正值代表正相关,负值代表负相关,pearson系数的取值范围为0~1。
从图中可见部分特征字段的相关性系数已经达到了0.9以上,如果将这些变量都保留下来进入模型拟合阶段,显然是不合理的,很有可能使模型存在较严重的共线性(线性回归、逻辑回归),或者导致模型在应用过程中容易出现较大波动等情形。
因此,对于相关性较强的变量,必须对其进行特征筛选,这是建模场景特征应用的要点,也是本文将要介绍的重点内容。
2、特征相关性筛选
在实际业务场景中,通过pearson系数来选取变量的过程,往往是通过某个阈值来进行保留和剔除。
一般情况下,当建模变量池的字段数量较多时,可以初步设置0.5作为筛选标准;
当建模变量池的字段数较少时,可以调整为0.6或0.7作为筛选标准。
因此,以0.5~0.7的某个阈值作为特征相关性选择标准最为常见,也符合信贷业务的建模需求与业务表现,具体数值也需要结合样本特征情况以及实际业务需求综合而定,但这是一个核心思路。
以图2的特征样例说明,变量X04与X05的相关性系数为0.992021,说明这两个字段的相关性很强,在某种角度理解,二者数据分布趋势基本一致,完全可以通过其中某一个字段来代替另一个字段,是不需要将其全部选入建模变量池中。
通常情况下,我们根据相关性系数分布,采用某个判断阈值例如0.7来进行特征选择,当系数大于0.7时会删除,但是当变量X04与X05之间相关性系数(0.992021)远大于0.7,虽然满足特征阈值的剔除条件,但注意不能全部将其删除。
针对这两个变量相关性程度较高的情况,我们在实际业务中往往会参考特征的其他指标来进一步分析确定最终需删除的变量,例如特征的缺失率miss、信息值IV等,现简要总结几种比较常用的实践处理方法:
(1)删除缺失率miss较高的变量;
(2)删除信息值IV较低的变量;
(3)删除稳定性PSI较大的变量;
(4)删除重要性importance较低的变量。
对于以上几种方式,方法1对模型的拟合效果不一定有效,有时特征的缺失分布情况也可以表现出较好的区分度;
而方法2~4虽然从贡献度(IV、importance)与稳定度(PSI)方面对变量池进行了合理选择,也有利于模型训练的拟合效果,但针对相关变量的指标计算也会消耗较多时间。
此外,还可以结合特征变量的其他维度指标来选取变量,例如共线性VIF、异常率outlier等,其应用逻辑与以上方法类似。
针对以上情况,本文要介绍的方法是仅针对特征相关性系数分布来展开变量筛选,也就是对于相关性系数较大的两个特征,不借助其他维度指标来进行变量删除,而是要结合当前两个特征与其他特征的相关性程度,具体实现过程如下:
(1)获取所有特征变量的相关系数矩阵;
(2)选择相关系数值最大的变量组合(例如X1与X2);
(3)算出变量X1、X2与其他所有变量{Xn}相关性系数的平均值w1、w2;
(4)比较平均相关性系数w1、w2的大小关系;
(5)当w1>w2删除X1,当w1<w2删除X2,当w1=w2删除X1或X2均可;
(6)重复步骤2~4,直到变量相关系数最大值低于预设阈值(常见0.5~0.7)。
以图2分布结果的变量组合X04与X05为例,由于二者相关性系数(0.992021)很高,需要删除其中之一。
X04与X05与其他变量之间的相关系数及其平均值结果具体如图3所示。

编辑
添加图片注释,不超过 140 字(可选)
图3 特征X04与X05相关系数
从结果可知,X04与X05与其他变量的平均相关性系数分别为0.637524359、0.63713694,由于前者大于后者,说明X04相比X05在所有变量中的相关性较强,因此可以将变量X04删除。
这样在剩余的13个特征变量中,仍然选取相关性系数较高的变量组合,然后采用以上平均相关性系数分析的方法,依次实现变量的相关性筛选,直到满足剩余变量的最大相关性系数小于阈值即可。
为了自动化完成以上特征筛选过程,可以通过图4代码实现批量特征分析与处理,由于本文实例样本数据的特征相关性系数普遍较高,我们以0.8为最终相关性判断阈值。

编辑
添加图片注释,不超过 140 字(可选)
图4 特征相关性筛选过程
在生成的数据del_column中,字段Value便是根据特征相关性分析需要删除的变量,具体结果如图5所示,但Value的取值并非特征变量名称,而是特征X变量对应的列索引,也就是数字0~13依次表示变量X01~X14。

编辑
添加图片注释,不超过 140 字(可选)
图5 特征相关性删除变量
为了便于对待删除变量的分析与处理,我们将其列索引转换为变量名称,实现过程如图6所示,根据变量相关性筛选阈值0.8,最终需要删除的变量为X04、X13、X10、X05、X12、X07、X08共7个变量。

编辑
添加图片注释,不超过 140 字(可选)
图6 样本待删除变量汇总
当然,在实际业务场景中,还可以根据特征变量与X与目标变量Y的关系,得到每个特征的信息值IV,可以对特征变量进一步筛选,从而有效保证模型变量拟合训练的综合效果,即使模型具有较好的区分度和稳定性,这也是特征相关性筛选最终需要实现的目标。
以上内容便是围绕特征相关性分析来完成特征变量筛选的介绍,这在数据建模中特征工程的数据分析环节是非常重要的,在具体实际场景中可以与特征共线性、特征重要性等其他特征处理方式相结合,以获取一个综合性能较优的模型。
为了便于大家理解本文特征相关性分析及其筛选的相关内容,本文额外附带了与实例分析同步的样本数据与python代码,详情请移至知识星球查看相关内容。

这些树长得矮小、果实畸形、含剧毒汞,恰恰印证地下藏着海量水银。
今天就扒一扒:始皇陵到底浇灌了多少水银?石榴树又藏着哪些秘密?史书记载:水银为百川江河大海司马迁在《史记・秦始皇本纪》明确写道:“以水银为百川江河大海,机相灌输,上具天文,下具地理。
”意思是,地宫用水银模拟天下江河,机械驱动循环流动,顶部绘星空、底部仿地貌,复刻整个大秦疆域。
两千年来,这段文字常被质疑是文学夸张 —— 要形成 “江河大海”,得多少水银?秦朝生产力能办到吗?科学实锤:12000㎡强汞异常区真相,在 1981 年揭开。
中国地质调查局用汞量测量技术探测封土堆,结果震惊学界:封土堆存在约 12000 平方米强汞异常区,汞含量远超正常土壤几十倍;
分布呈东南强、西北弱,完美对应秦代渤海、黄海方位,与《史记》描述完全吻合;
2002 年复测确认:汞来自地宫挥发,非土壤天然富集。
这直接证明:地宫水银真实存在,且规模巨大。
山顶石榴树:水银量的 “活标尺”最直观的证据,是封土堆上的石榴树。
反常生长:矮小、畸形、不结果普通石榴树高 3-7 米、枝干粗壮、果实饱满;
但始皇陵顶的石榴树仅 1-2 米高、枝叶稀疏、叶片发黄、果实瘦小畸形。
化验惊人:汞含量超标百倍专家采样检测发现:树根、叶片汞含量平均 205ppb,最高 1440ppb(比正常值高数十倍);
果实汞含量严重超标百倍,是名副其实的 “毒石榴”,绝对不能吃。
原理:汞蒸气渗透,植物 “中毒”地宫水银持续挥发,汞蒸气沿土壤裂隙向上渗透,被石榴树根系吸收,干扰生长、积累毒素。
简单说:石榴树的 “病态”,就是地下水银海量且持续挥发的铁证。
重磅数据:地宫到底有多少水银?结合汞异常区面积、土壤汞浓度、地宫空间,专家推算:保守估算:100 吨(水银层仅 1 厘米厚,就需约 100 吨);
合理区间:100-150 吨(符合秦朝生产力,需约 115 吨丹砂提炼);
排除 “千吨” 夸张说法:地宫面积仅约 4000㎡,根本容纳不下千吨液体。
100 吨水银是什么概念?相当于20 万瓶 500ml 水银;
能覆盖整个地宫(约 4000㎡)2.5 厘米深;
两千多年持续挥发,仍能让山顶植物 “中毒”,可见储量之恐怖。
秦始皇为何灌海量水银?防盗:汞蒸气剧毒,能毒死盗墓者,两千年来护陵墓周全;
防腐:水银杀菌防腐,保护地宫与陪葬品不朽;
象征:以水银复刻江河大海,彰显皇权至高无上,死后仍掌天下;
长生:古人认为水银与长生相关,助其灵魂不朽。
结语始皇陵地宫100 吨 + 水银,不是传说,是被史书、科学探测、山顶石榴树三重印证的史实。
那些矮小畸形、含剧毒的石榴树,默默守护两千余年,用自身 “病态”,揭开了秦始皇陵最神秘的面纱。
掌握医保报销比例,有助于参保人员充分利用医保资源,减轻就医负担。
本文将为您介绍如何充分利用医保报销比例。
下面随菜科网app小编一起了解相关资讯。
东莞门诊医保可以报销多少比例?第一、医保报销比例普通门诊1、一级及以下定点医疗机构:在职职工报销比例一般为60%,退休人员在此基础上提高10%。
2、二级定点医疗机构:在职职工报销比例一般为55%,退休人员提高至65%。
3、三级定点医疗机构:在职职工报销比例为50%左右,退休人员提高10%。
4、注意:部分地区普通门诊报销不设起付线,超过一定金额即可按比例报销。
部分城市提高了门诊报销比例,如某些地区高血压、糖尿病等慢性病门诊报销比例提升至75%。
年度最高支付限额各地不同,一般在职职工为2000元,退休人员为2500元至5500元不等。
5、起付标准:通常为2000元以上(部分地区可能有所不同)的医疗费用方可报销。
6、最高支付限额:在职职工年度最高支付限额为2000元至5000元不等,退休人员略高。
第二、医保报销比例住院1、一级医院:在职职工报销比例为90%至92%,退休人员为93%至97%。
2、二级医院:在职职工报销比例为87%至95%,退休人员报销比例为92%至97%。
3、三级医院:在职职工报销比例为85%至92%,退休人员报销比例为90%至95%。
4、起付标准:首次住院:起付线一般在400元至1600元不等,根据医院级别确定。
第二次及以后住院:起付线一般降低100元。
5、年度支付限额:一个年度内,住院费用最高支付限额一般为几十万元,超过部分由大额医疗费用补助保险支付,支付比例通常为90%至95%,且不设封顶线。
具体方案:由于各地医保方案存在差异,通过当地医保部门网站、微信公众号或咨询热线,获取最准确的信息。
就医选择:在就医时,可根据报销比例和起付标准,合理选择医疗机构,以减轻个人负担。
报销流程:一般持社保卡或医保电子凭证直接结算,无需额外申请报销。
对于异地就医未直接结算的费用,需按法规提交材料至参保地医保部门申请报销。
对于高血压、糖尿病等慢性病门诊用药,报销比例统一提升至70%至75%,部分地区可达80%。
特殊病种门诊(如恶性肿瘤、尿毒症透析等)的报销比例通常与住院报销比例相同,或略高于普通门诊报销比例。
省内异地就医:一般无需备案,报销比例执行参保地方案。
跨省异地就医:备案后可直接结算,报销比例同样执行参保地方案。
未办理备案的,报销比例可能下降10%至20%。
东莞医保卡每月返钱查询方法有多种,以下是详细的查询步骤和途径:一、线上查询方法1.电话查询拨打12333人社服务热线,按照语音提示进行查询。
2.医保服务平台:登录医保服务平台网站或APP,注册登录后即可查询个人账户信息。
医保服务平台:登录医保服务平台网站或APP,注册登录后即可查询个人账户信息。
3.当地医保局网站:登录当地医保局网站,找到“个人医保查询”入口,输入相关信息即可查询。
也可以登录当地的社保卡信息网,输入个人社保卡保险号和密码(初始密码一般为123456),在“账户余额”选项中查看医疗保险账户余额。
4.有关部门手机APP:登录参保地的有关部门手机APP,注册并登录后,在相关模块中查询医保缴费信息和个人账户余额。
5.支付宝:打开支付宝,搜索“医保”,进入“医保电子凭证”页面,点击“医保查询”即可。
或者打开支付宝,点击“市民中心”,然后点击“医保查询”,再点击“医保账户”,选择“参保地”,最后点击“余额查询”,即可查看每月医保的缴费信息和返还到个人账户的医保资金余额。
6.微信:打开微信,搜索“我的医保”,进入“医保电子凭证”页面,点击“医保查询”即可。
或者在微信“我”的选项中,依次点击“服务”-“城市服务”-“社保”选项-“社保查询”页面,选择“参保明细信息”或“缴费信息查询”,可以查询到医保的缴费记录、个人账户余额以及每月返还的医保资金。
二、线下查询方法1.定点医院、药店:在市区定点医院、药店的医保查询设备上,也可以查询到医保卡的余额情况。
2.医保经办机构窗口:携带本人身份证到当地医保经办机构窗口进行查询,工作人员会协助查询缴费记录和个人账户余额等信息。
注意事项查询医保卡返还金额时,请保持警惕,确保所提供的个人信息准确无误,并避免向不明身份的人透露相关信息,以防信息泄露和财产损失。
医保个人账户的钱属于个人所有,不会清0,可以结转使用和依法继承。
医保缴费基数越高,每月划入个人账户的金额就越多。
部分地区允许灵活就业人员选择高档次医保缴费比例,提高个人账户划入比例。
在查询医保卡每月返钱时,请确保所提供的个人信息准确无误,并避免向不明身份的人透露相关信息,以防信息泄露和财产损失。
同时,由于地区和医保方案可能存在差异,如果查询过程中遇到问题,咨询当地医保机构或社保中心的工作人员。