• <input id="mmiwo"><label id="mmiwo"></label></input>
  • <code id="mmiwo"><label id="mmiwo"></label></code>
  • 全球人工智能与机器人峰会 CCF-GAIR 2019
    您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
    人工智能 正文
    发私信给雷锋字幕组
    发送

    0

    用机器学习做信用评分

    本文作者:雷锋字幕组 2019-04-11 10:09
    ?#21152;錚?#20449;用评分是衡量人们信用的数字表示。

    用机器学习做信用评分

    本文为 AI 研习社编译的技术博客,原标题 :

    Credit Scoring with Machine Learning

    作者 | Hongri Jia

    翻译 | 胡瑛皓         

    校对 | 酱番梨        审核 | 约翰逊·李加薪       整理 | 立鱼王

    原文链接:

    https://medium.com/henry-jia/how-to-score-your-credit-1c08dd73e2ed


    信用评分是衡量人们信用的数字表示。银行?#20302;?#24120;用它作为支持信贷申请决策的方法。本?#24917;?#36848;如何用Python(Pandas、Sklearn)开发标准评分卡模型,它已成为一种最受欢迎且最简单的衡量客户信用的形式。

    用机器学习做信用评分

       项目动机

    如今信用对每个人来说都非常重要,因为它是衡量一个人是否可靠的一种指标。很多时候服务提供商在提供服务前会先评估客户的信用记录,然后决定是否提供服务。可是审核个人资料并手工生成信用报告是非常耗时的。信用评分节省时间而且容易解读,所以就被开发出来服务这些目的。

    产生信用分的过程称为信用评分,它被广泛应用于许多行业特别是银行业。银行通常用信用分决定谁应该授信、授信额度是多少、使用什么样的操作策略去避免信用风险。总体来说主要是?#35762;?#20998;:

    • 建立统计模型

    • 应用统计模型为信用申请或现有信用帐户打分

    本?#24149;?#20171;绍最受欢迎的信用评分方法,我们称为评分卡模型。有两个原因使其成为主流的方法。首先,评分卡模型很容易跟没有相关背景和经验的人(诸如客户)解释说明。其次,评分卡模型的开发过程很标准且被广泛接受,这意味着公司不需要?#24230;?#22826;多研发经?#36873;?#20197;下是评分卡的样例,后面会讲到如何使用。

    用机器学习做信用评分

    图1 评分卡样例

       数据探索和特征工程

    接下来将详细说明如何开发评分卡模型。我用的数据集来自Kaggle竞赛。 图2列出该数据集的数据字典信息。其中第一个变量是目标变量,二元分类变量,其余变量是特征。

    用机器学习做信用评分

    图2 数据字典

    浏览完数据后,开始用一些特征工程的方法处理一下数据。首先检查每个特征变量是否包含缺失值,然后用中位数估算补齐。

    用机器学习做信用评分

    接下来处理异常值。总体来说,需要根据异常的类型进行处理。例如 如果异常值是由机械错误或测量导致的,可以用缺失值的方法进行处理。在这个数据集中有很大的数值,不过这些值看起来都很合理,所以取top/bottom coding。图3中表明当采用top coding后,数据分布看起来更接近于正态。

    用机器学习做信用评分

    图3 用Top coding处理异常值

    如图1中样例评分卡所示,很显然每个特征已被分组为不同的属性(或属性组),分组原因如下:

    • 有助于洞察特征的关联属?#32422;?#24615;能

    • 在非线性?#35272;?#29305;征应用线性模型

    • 深入了解风险预测器的行为,有助于制定更好的组合管理策略

    那么我们可以采用分桶法,处理后每个?#24403;?#36171;予它所应在的一个属性,这样一来数值特征便被转化为分类特征。以下是分桶后的输出样例。

    用机器学习做信用评分

    图4 分桶处理“年龄”

    所有特征分组后,特征工程就完成了。接下来是计算每个属性的证据权重(WoE)?#32422;?#27599;个特点(特征)的信息价值。之前提到将所有数值类?#25237;?#20998;桶处理后转换为分类型特征。?#27426;?#19981;能直接用这些分类模型去拟合模型,所以需要给这些分类特征赋予一些数值。计算证据权重(WoE)的目的是为每个分类变量分配一个唯一值。信息价值(IV)用来衡量特征的预测力,将被用于特征选择。下面给出WoE和IV的公式。这里“Good”意思是客户不会有严重逾期或者目标变量=0,而“Bad”客户会产生逾期目标变量=1.

    用机器学习做信用评分

    通常特征分析报告可提供WoE和IV。我在Python中定义了一个函数自动生成这个报告。以“Age”特征为例,其特征分析报告如图5所示

    用机器学习做信用评分

    图5 “Age”特征分析报告

    绘制一张柱状图,方便比?#32454;?#31181;特征的IV。从柱状图中可以看到最后两个特征“NumberOfOpenCreditLinesAndLoans”和 “NumberRealEstateLoansOrLines”的IV?#21040;?#23567;,因而只选用其他8个特征训练模型。

    用机器学习做信用评分

    图6 特征预测力

       模型拟合及评分卡得分系数计算

    特征选取完成后,用WoE替换原有变量的?#21040;?#34892;建模。训练模型的数据已经准备好了。评分卡模型开发通常使用的模型是逻辑回归,它是一个通用的二分类模型。我通过交叉验证和网格搜索调整参数,然后用测试数据集检查模型的精度。 由于Kaggle不会给出目标变量的值,我不得不在线提交以获得精度。为了证明这些数据处理是?#34892;?#30340;,我分别用原始数据和处理后的数据进行建模。Kaggle给出的结果,经过数据处理精度从0.693956提升至0.800946。雷锋网雷锋网(公众号:雷锋网)雷锋网

    最后一步是为每个属性计算评分卡得分系数,这样就得到了最终的评分卡。评分卡模型的得分可以通过以下式子计算得到:

    Score = (β×WoE+ α/n)×Factor + Offset/n

    此处:
    β?—含?给定属性的逻辑回归模型的系数

    α?—逻辑回归模型的截距? 
    WoE?—?给定属性的证据权重

    n?—模型特征数量
    Factor, Offset?—?缩放参数

    前四个参数的计算方法在前面已经提到过,这里给出最后两个参数factor和offset的计算方法。

    • Factor = pdo/Ln(2)

    • Offset = Score?—?(Factor × ln(Odds))

    这里pdo意思是加倍odds需要的点数,坏样本率在之前的特征分析报告中已计算过了。如果评分卡模型?#24149;?#30784;odds是50:1,其得分为600,那么pdo=20 ,也就是说每增加20点odds翻一倍,具体来说factor和offset公式如下:
    Factor = 20/Ln(2) = 28.85
    Offset = 600- 28.85 × Ln (50) = 487.14

    算完这些之后,评分卡开发就完成了,图7中列出了评分卡的部分结果。

    用机器学习做信用评分

    图7 最终评分卡 部分特征

    如果来了一个新客户,你可以立刻查表?#39029;?#29305;征对应的得分,然后评分卡最终的得分是每个特征得分值之和。比如说,银行开发了一位新的信用卡申请人,年龄45岁、负债率0.5、?#29575;?#20837;5000美元。其信用评分为 53 + 55 + 57 = 165。

    如需要开发更精准的评分卡,开发人员需要考虑更多场景。例如?#34892;?#20010;人属于“Bad”,?#27426;?#30003;请却通过了。或者一些个人属于“Good”,但申请被拒绝。因?#21496;?#32477;推断需要结合到开发过程中。这里并未实现,因为在我的数据集中缺少拒绝数据。如果你想更深入了解这部分,推荐你阅读Naeem Siddiqi写的 《Credit Risk Scorecards?—?Developing and Implementing Intelligent Credit Scoring》。

    想要继续查看该篇文章相关链接和参考文献?

    点击用机器学习做信用评分即可访问:

    https://ai.yanxishe.com/page/TextTranslation/1626

    机器学习大礼包

    限时免费\18本经典书籍/Stanford经典教材+论文

    点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/574


    雷锋网原创文章,未经授权禁止转载。详情见转载须知

    分享:
    相关文章

    文章点评:

    表情
    最新文章
    请填写申请人资料
    姓名
    电话
    邮箱
    微信号
    作品链接
    个人简介
    为了您的账户安全,请验证邮箱
    您的邮箱还未验证,完成可获20积分哟!
    请验证您的邮箱
    立即验证
    完善账号信息
    您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
    立即设置 ?#38498;?#20877;说
    11选5下期推算方法