主页 > 案例大全 > 论文案例分享-个人信用风险识别方法研究

论文案例分享-个人信用风险识别方法研究

2021-06-15 10:50:59

  保持良好的个人信用已经成为人们正常生活必不可少的一部分,同时,商业银行的个贷决策也离不开对贷款人的信用评估。本论文首先从简要介绍关于个人的信用风险识别的研究目的、研究背景和研究现状为切入点,随后总结信用风险识别方法的发展历程,并分析了影响个人信用风险的主要因素。实证部分,首先对样本数据进行了去量纲化的预处理,然后在专家判别法的指导下,初步选出18个影响个人信用风险的指标,接着运用logistics逐步回归分析法来第二次筛选出14个解释力相对比较强的指标,再用因子分析法简化二次筛选过后的指标体系,提取出7个因子变量,最后在因子变量的基础上,运用RBF神经网络模型对借款人是否会违约进行预测。本文构造的模型在实证检验得到了验证。

  人们的日常生活与个人信用密不可分,无论是刷信用卡消费、申请消费贷款、还是按揭买房买车时,各种场景的实现的背后都由信用体系支持着。商业银行必须首先评估借款人的信用,然后再决定是否发放贷款和贷款的额度。

  研究如何鉴别个人的信用风险,应用各种模型来预测借款者是否会按时偿还贷款,这有助于银行审核信贷,降低违约概率,控制风险,缓和信贷配给的现象。同时,个人信用机制的建立有利于缓解社会经济活动中存在的信息的不对称现象,提高资金与社会资源的配置效率。

  (二)研究现状

  1.个人信用发展的现状

  美国的个人信用体系的发展是市场化的结果,已经发展了上百年,数千家机构在市场中大浪淘沙、优胜劣汰,结果,促进了信用中介市场的积极发展,并且产生了诸如信用报告,信用评级等的产品。建立了比较完善的社会征信平台。不仅仅有专业的评级机构、商业银行等来提供信用产品,零售商也能根据自身的经营优势提供不同范围的信用产品。

  在全球范围内,美国的四大评级机构:Moody's、Standard&Poor's、Fitch和McKinsey几乎上垄断了市场。[1]三家个人信用评级机构:Experian、Equifax和Trans Union拥有海量的征信记录。

  在银行、保险公司等领域应用最广泛的FICO评级系统存放着最近10年内的个人信用记录,。它的分值介于300-850之间,既包含从银行业务往中获得的的信息,还包括社会公共部门的信息,比如工商、税务、法院、保险等等,自动化的系统实时更新数据,几分钟就能完成一份标准化的报告,大大地提高了相关机构的决策效率。[2]

  发达的个人信用体系使得个体交易中由信息不对称引起的博弈变成了个体如何向社会保持个人良好的信用记录,激励守信与惩戒失信使市场经济形成了良性的竞争环境。

  相比于发达国家,我国的征信系统从上世纪九十年代才刚刚起步,体系建设还不够完备,存在着合理使用信用数据和个人隐私保护的争议,不同机构之间的数据库大多都是相互隔离的,信息共享的机制还没有完全建立起来。

  尽管这样,随着互联网金融、大数据的发展,也使得中国的金融机构的征信业务蓬勃发展。中国人民银行的征信体系的数据量已经位于世界前几名了。

  2.个人信用风险识别方法的发展历程

  每个人的信用资本是积累形成的,拥有良好的信用资本才能获得交易和融资上的便利。而商业银行对的个人信用风险的识别是基于其所掌握的、反映个人偿付能力和偿付意愿的历史信用数据。

  对个人信用风险的研究已经从最初的定性研究转为了定量研究,并对统计学模型和非统计学模型等多种模型结合套用来进行比较。在大数据时代,掘金理论的应用,结合人工智能、机器学习等等理论使得结合社交数据等一些非结构化数据来预测违约变为可能。[3]

  (1)“主观”信用风险识别方法

  基于人的主观经验的专家判别法是在商业银行的实践中逐渐发展起来的,是一种定性分析的方法,比如像“5C”分析法。专家判别法虽然操作简单,但人为主观论断难免差错。

  杜邦分析法和MM定理的贴现法应用了简单的数据分析,但财务数据存在造假问题,单单凭借几个指标也无法完全概况整体情况。

  (2)基于“参数统计”的信用风险识别方法

  David D最早将统计学思想应用到个人信用风险识别领域,而Durand(1941)第一次提出了个人信用评估的概念。

  Fisher提出了模式识别的经典算法,线性判别分析方法,把借款人划分为“信用正常”还是“信用异常”两组。

  Myers、Forgy、Orgler研究了如何用线性回归的办法来找到特征变量的最优组合,以此来估计出违约概率。

  Freed应用运筹学中的线性规划来把定性指标引入解释变量中,而且可以因变量为二维随机变量的情况。

  (3)基于“非参数统计”的信用风险识别方法

  随着金融科技的不断发展,传统的信用风险识别方法开始结合计算机技术。比如神经网络模型,支持向量机等等的人工智能方法的推广和应用。Rumer hart、Hinton、Williams提出的BP神经网络模型就是一种典型的应用。Baesens和gestel把Corinna cortes、vapnik(1995)的支持向量机方法用到了信用风险识别中。

  (4)基于“遗传组合评估”的信用风险识别方法

  Bates.J.M和granger.C.W.在上个世纪60年代提出了组合模型的构想。J.Holland(1975)提了出遗传算法。而Fogarty和Ireson最早用遗传算法来评估个人信用风险。在后来,Davis在开发信用的评分卡的过程中也用到了遗传算法。[4]

  (5)基于“结构化”的个人贷款定价方法

  非常著名的期权定价理论,由Black-Scholes(1973)和Merton(1974)提出的B-S模型也被应用到了对个人信用风险进行识别的领域中。在研究过程中放松了假设条件,通过预测违约概率从而对期权进行定价。Jarrow(1995)、Lando(1997)建立的模型中假定贷款者的违约是随机的,并且假设违约的概率是时间的一个函数,而且标的资产价格是一个连续扩散的过程。[5]

  二、个人信用风险识别模型设计

  (一)影响个人信用风险的因素

  1.个人还款能力、还款意愿

  还款的意愿用来衡量借款人虽然手头有余钱但就是不还的违约倾向。同时,他未来能够按时还款的有力保障来自于足够的收入来源或者贷款担保。否则即使他的还款意愿再强,还款也成了无源之水,无本之木。[6]

  2.信息不对称

  具有更多信息的的借款人存在道德风险动机,他很可能会将贷款资金投入到风险更大的项目来获得更高的收益。同时,信息不对称使得商业银行难以差别定价,往往提高利率水平来补偿风险。但是,当贷款利率过高的时时候,又会造成逆向选择的出现——信用水平比较好的借款人很可能会因为承担不起高额利率而选择退出信贷市场。

  3.信用制度不完善

  第一、相关的配套制度措施还不够完善。比如个人信用报告文件,财产申报,破产系统等尚未实施。

  第二、存在“信息孤岛”的现象。不同的部门以分散的方式收集不同类型的信用信息,但是缺乏共享和相互联系。

  4.宏观因素影响

  (1)系统性风险

  在疫情影响下,同时我国的经济增长也面临着不可避免的“拐点”。如果市场风险偏好下降,银行为了谨慎起见,实行紧缩性的的信贷政策,那很可能使得依赖银行信贷的中小微企业面临资金周转困难等融资流动性风险。影响中小微企业的经营效率,甚至使之难以生存。小微企业为了节约成本、生存下去而大幅裁员。而中小微企业贡献了我国城镇劳动力的绝大多数的就业率,因此很可能导致失业率上升。因此造成大量个人贷款违约,恶性循环使得使商业银行不良贷款率攀升。

  (2)政策法律风险

  虽然国家鼓励发放消费信贷以扩大内需,支持小微企业。但信用法规体系的不健全导致个人隐私的保护得不到完善的机制和措施的支持。市场上信用中介良莠不齐,机构的运作中存在着不规范、打法律擦边球的现象。我国的失信惩戒机制也尚未完全建立起来,使得银行在处理违约者的抵押品时往往遇到难题。同时,银行必须承担贷款抵押品将继续贬值并变得难以变为现金的流动性风险。

  (二)样本数据来源及预处理

  1.选择数据的来源

  (1)股份制银行等金融机构

  当前,商业银行主要以小额/小额贷款,个人商业贷款,(住房/汽车)抵押贷款向个人发放贷款,而实际消费者信贷的比例并不大。

  国家一直主张的小额贷款大部分都是以个人名义借入的私人企业贷款,主要用于他实际经营的微型企业。很多商业银行渠道贷出来的消费贷款,大部分实际上也是用于经营,消费贷款只是一个壳。

  (2)消费者经济金融行为相关数据的第三方公司或研究机构

  大多数现实生活中的消费贷款都是支持电子商务平台的消费金融。例如阿里巴巴旗下的芝麻信用,就是基于其自身平台的购物消费、转账记录等数据进行分析。

  因此,一个难题是找到合适的足够的数据来源,金融机构出于保密性的原由是不会对外公布数据的。能够找到的数据都是比较陈旧的,有比较多的缺失值,而且难以保证数据的准确性。

  本文的数据来源于某商业银行的个人信用调查的数据结果,由于数据的缺失值比较多,且并不是每一项指标对应的数值,指标的时间还跨度比较大,因此处理数据、填补缺失的数值和处理异常值比较麻烦。

  2.数据预处理

  在1000组抽样样本中,有781个样本是信用正常的,219个样本是信用异常的。

  为了让指标去量纲,让取值范围都落入区间,本文用最小—最大规范化法来处理离散型的数据:

  其中,代表第个变量指标、第个样本的原始数值,代表第个变量指标、第个样本的新的数值,和分别是第个变量指标中所有样本中的最小的值和最大的值。

  对于近似连续型的数据,比如年龄、贷款数额和资产价值等,假设数据近似服从正态分布,根据概率变换的方法,使得取值的范围也落在区间[0,1]之内。

  如果变量服从均值为,方差为的正态分布,那么,对应的概率密度函数为:

  ,

  标准化:

  因此,

  ,

  (三)解释变量

  1、指标体系的设置——专家判别法

  虽然5C分析法一般是用来分析企业贷款人,但我认为,它所考察的方面也可以用来指导个人信用风险的识别。同时,相比于企业贷款人,个人贷款的贷款主体比较分散,因此在指标的选择时也要从实际情况出发,考虑到指标的数据是不是能找得到。在选择指标的时候,指标并不是包括的越多越好,如果选了高度重合的指标,可能导致多重共线性问题,而且包括更多的自变量也意味着需要寻找更多的数据来满足模型的构建。[5]

  第一,个人情况(Condition):包括年龄,性别,教育程度,健康状况,配偶身分,居住状况,婚姻状况,工作年限。

  第二,偿债能力(Capacity):贷款使用,贷款金额(千元),月收入,月支出。

  第三,抵押担保(collateral):是否有担保人。

  第四,个人资本(Capital):自有房产(市值取整数)、储蓄账户/债券(万元)以及负债额度(除该银行外贷款)。

  第五,个人信用(Character):有无犯罪记录、在银行已有贷款(万元取整)以及信用卡记录。[6]

  表1初选评价指标

  一级指标二级指标三级指标变量定义

  个人情况(condition)个人指标年龄Y1实际值

  性别Y2 0=男;1=女

  受教育程度Y3 0=硕士以上;1=本科;2=本科以下

  婚姻状况Y4 0=有配偶;1=无配偶

  住房情况住房情况Y5 0=自有;1=租住

  工作情况单位性质Y6 0=国家机关/事业单位/国有企业;1=民营企业;2=个体户;3=学生

  工作年份Y7 0=10年以上;1=5-10年;2=5年以下;3=0年

  偿债能力(Capacity

  &collateral)贷款信息贷款目的Y8 0=消费;1=经营投资;

  贷款数额(千元)Y9实际值

  担保信息担保Y10 0=有担保者;1=无担保者;

  财务状况

  (Capacity&capital)收入支出月收入Y11 0=5万元以上;1=2万-5万元;2=1万以下

  月支出Y12 0=5万元以上;1=2万-5万元;2=1万以下

  资产负债自有房产(市值取整数)Y13实际值

  储蓄账户/债券(万元)Y14实际值

  负债额度(除该银行外贷款)Y15实际值

  个人信用

  ((Character))公共信息有无犯罪记录Y16 0=无犯罪记录;1=有1犯罪记录;

  商业银行信用信息在银行已有贷款(万元取整)Y17实际值

  信用卡记录Y18 0=无不良记录;1=有不良记录

  2、指标体系的二次筛选——logistics逐步回归分析法

  用向前logistics逐步回归的结果来挑选出对于个人信用风险影响中比较显著的指标。该模型的思想为:

  假设违约概率与指标变量之间存在关系:

  其中,是随机扰动项。然后,可以将样本数据用于参数估计,来估计默认P的概率。在向前logistics逐步回归中,一开始不包括任何指标变量,然后每一步加入一个边际贡献率最大的变量,在模型达到最优时停止。[7]

  3、指标体系的最终确定——主成分因子分析法

  为了减少变量个数,让模型降维,用因子分析法把18个有很强的相关性的原始变量合成若干个具有代表性的、相互独立的公因子变量。

  在使用因子分析的方法之前,我们必须要计算出代表相关系数的矩阵。再根据相关系数的矩阵来分析,原始的变量的相关性是如何的。在本文中,我选择相关系数大于0.3以及具有统计意义的变量。假设:模型中有个原始变量:

  。

  个标准化的公共因子变量,它们的均值是0、标准差是1的:

  且,于是,有:

  式子里面,是因子的载荷矩阵,代表因子的载荷,代表它们之间的关联程度,也就是第个原始的变量在第个因子的变量上的载荷。代表由因子的变量组成的维的因子向量。类似于随机扰动项,也就是没有通过因子变量解释原始变量的那一部分。

  应用因子分析时要认认真真地考虑两个方面:首先,如何来创建一个因子变量,然后,如何来解释因子变量。因此,构造因子变量如下:

  且,满足:

  其中,系数满足:

  (1)与相互独立;

  (2)的所有线性组合中方差最大的那一个,且与都不相关。

  按照上述原则确定的变量是原始变量的第1个,第2个,...,.第个主成分。从个特征值和特征向量中,我们得到因子加载矩阵:

  式中,为特征根,且。

  最大方差正交因子旋转能让因子变量最大限度地反映每一个原始变量的信息。旋转后,大负载变得更大而小负载变得更小,系数负载的平方值分为两个方向:0和1。在确定因子变量后,每个因子变量都有一个因子得分。

  (四)个人信用风险识别模型设计——RBF神经网络模型

  在本文的模型中,RBF神经网络的第一层(输入层),用具有七个因子变量作为神经网络模型的输入,因此输入层具有七个节点。假设输入向量为:

  根据需要确定第二层(隐藏层)中的节点数。本文中的模型假设有7个隐藏节点。基函数是距离函数,激活函数是径向基函数(高斯函数)。

  第三层(输出层)使用线性函数作为激活函数。整个网络的输出是将输出层线性加权为隐藏层节点的输出信息的结果。假设输出向量为:

  输出单元偏移为:

  ,,

  那么,第k个输出可表示为:

  在我的模型中输出的是一个类别向量,也就是信用正常或异常的样本,因此输出层只有2个节点。

  图1 RBF神经网络示意图

  三.实证结果

  表2向前Logistic逐步回归结果

  Beta S.E.Wals

  年龄0.013.007 2.970

  性别0.154.158.946

  受教育程度0.026.096.072

  婚否-0.375.159 5.529

  住房情况0.039 0.158 0.060

  单位性质-0.448 0.071 0.465

  工作时间0.1035 0.070 0.246

  贷款目的-1.083 0.158 0.281

  贷款数额-1.001 01.01 1.057

  担保其他债务人0.137 0.158 0.745

  月收入-1.042 0.097 0.190

  月支出-1.132 0.097 1.862

  自有房产市值1.000 0.001 0.066

  储蓄账户债券-0.010 0.106 2.984

  负债除该银行1.000 0.060 0.006

  犯罪记录1.051 0.686 5.115

  在银行已有贷款1.005 0.006 0.582

  信用卡记录1.314 0.163 64.800

  常量-1.646 0.602 7.475

  对18个初选的指标进行向前的Logistic逐步回归,结果表明:从回归的β系数的绝对值的大小可以看出,向前Logistic逐步回归排除了年龄、性别、受教育程度、住房情况、4个变量,剩下了14个变量。因此,第二次筛选后的指标体系如下:

  表3二选评价指标表

  一级指标二级指标三级指标变量定义

  基本情况个人信息婚姻状况Y1 0=有配偶;1=无配偶

  工作情况单位性质Y2 0=国家机关/事业单位/国有企业;1=民营企业;2=个体户;3=学生

  工作年份Y3 0=10年以上;1=5-10年;2=5年以下;3=0年

  偿债能力(Capacity

  &collateral)贷款信息贷款目的Y4 0=消费;1=经营投资;

  贷款数额(千元)Y5实际值

  担保信息担保Y6 0=有担保者;1=无担保者;

  财务状况

  (Capacity&capital)收入支出月收入Y7 0=5万元以上;1=2万-5万元;2=1万以下

  月支出Y8 0=5万元以上;1=2万-5万元;2=1万以下

  资产负债自有房产(市值取整数)Y9实际值

  储蓄账户/债券(万元)Y10实际值

  负债额度(除该银行外贷款)Y11实际值

  个人信用

  ((Character))公共信息有无犯罪记录Y12 0=无犯罪记录;1=有1犯罪记录;

  商业银行信用信息在银行已有贷款(万元取整)Y13实际值

  信用卡记录Y14 0=无不良记录;1=有不良记录

  为了简化指标体系,本文使用因子分析方法进行简化,最后确定七个公共因子变量。为了检验因子分析的数学模型是否是有效的,本文使用了Bartlett检验和KMO检验,来验证各个量之间,是否是彼此相互独立的。检验结果如下:

  表4 Bartlett和KMO的检验结果

  Kaiser-Meyer-Olkin度量0.505

  Bartlett’s球形度检验近似卡方127.414

  df 136

  Sig 0.000

  样本的Bartlett统计量为136,P=0.000,说明可对样本进行因子分析。KMO统计量为0.505,说明可以接受因子分析的结果。

  表5变量共同度

  初始提取

  婚否1.000 0.813

  单位性质1.000 0.847

  工作时间1.000 0.833

  贷款目的1.000 0.503

  贷款数额1.000 0.963

  担保其他债务人1.000 0.925

  月收入1.000 0.838

  月支出1.000 0.838

  自有房产市值取整数1.000 0.773

  储蓄账户债券1.000 0.766

  负债除该银行1.000 0.989

  犯罪记录1.000 0.736

  在银行已有贷款1.000 0.567

  信用卡记录1.000 0.842

  从上表中可以看出,14个原始变量中的大部分,被因子提取出的部分都大于0.80,也就是说,原始变量具有很高的公共性,这表明,使用因子分析的方法提取出的因子变量,包含了有关的原始变量的信息的80%。

  表6总的方差解释

  成份初始特征值提取平方和载入旋转平方和载入

  合计方差的%累积%合计方差的%累积%合计方差的%累积%

  1 1.211 18.653 18.653 1.211 18.653 18.653 1.151 8.225 8.225

  2 1.144 8.171 26.824 1.144 8.171 26.824 1.148 8.197 36.422

  3 1.112 7.944 34.768 1.112 7.944 34.768 1.095 7.820 34.242

  4 1.085 7.749 42.517 1.085 7.749 42.517 1.079 7.710 41.952

  5 1.062 7.587 50.104 1.062 7.587 50.104 1.079 7.707 59.659

  6 1.015 7.247 67.351 1.015 7.247 67.351 1.050 7.497 67.156

  7 1.004 7.174 74.525 1.004 7.174 74.525 1.032 7.369 74.525

  8.970 6.929 81.454

  9.952 6.798 88.252

  10.938 5.698 93.950

  11.918 4.559 98.509

  12.896 1.102 99.611

  13.860 0.260 99.871

  14.833 0.129 100.000

  一共有7个特征根大于1的因子变量,累计贡献率74.5252%,,因此,选择7个因子变量来代替原始变量。

  表7因子载荷矩阵

  1 2 3 4 5 6 7

  婚否X1-.198-.215.625-.106.037-.116-.109

  单位性质X2-.105-.115-.127.299.294-.113.646

  工作时间X3.214-.343-.227-.218-.076.598.089

  贷款目的X4.115-.029.011.698.023.026-.017

  贷款数额X5-.232-.104-.678-.089.057-.095-.136

  担保其他债务人X6.004.028.221-.276-.233.111.658

  月收入X7-0.159.184.110.153.092.795-.048

  月支出X8.451.192.116-.452.276-.029-.052

  自有房产市值取整数X9.653-.151.038.106.098-.002-.025

  储蓄账户债券X10-.439-.048.237-.053.450.094-.006

  除该银行外负债X11.048.485-.180-.042-.003-.018.342

  犯罪记录X12-.143-.010.079.022-.780-.015-.005

  在银行已有贷款X13.316.354.080.331-.146.002-.063

  信用卡记录X14-.131.708-.002-.079.021.039-.129

  因子变量F1在X9,X10,X8和X13上具有比较大的因子载荷。这表明,因子变量F1主要包含了关于这6个指标的信息。依此类推,可以得到对其他因子变量的解释。由此,实现了对个人信用风险指标评估体系的化简。

  表8 RBF总的分析结果

  N百分比

  样本训练700 70.1%

  测试298 29.9%

  有效998 100.0%

  已排除2

  总计1000

  训练平方和错误32.447

  百分比错误预测22.4%

  培训时间0:00:25.03

  测试平方和错误36.867a

  百分比错误预测25.8%

  在本文里面,使用了700个训练样本来训练RBF神经网络模型,以及300个测试样本来测试训练的效果。具体来说,训练过程只花费了0.0025.03秒,但是,在用来训练的样本中的错误率为22.4%,而在用来测试的样本中的错误率为25.8%,错误率偏高,结果好像不太理想。

  表9 RBF训练样本和测试样本的分析结果

  样本实际值预测值样本数正确率误判率

  0(信用正常)1(信用异常)

  训练0(信用正常)529 12 541 97.78%2.22%

  1(信用异常)14 145 159 91.19%8.81%

  总计百分比700 96.29%3.71%

  测试0(信用正常)183 37 220 83.18%16.82%

  1(信用异常)16 62 78 79.49%20.51%

  总计百分比298 82.14%17.79%

  在700个训练样本中,仅仅包含了26个被错误判断的样本,总体的正确决策率达到96.29%。其中,信用正常的样本组的正确率达到了97.78%,信用异常的样本组的正确率也达到了91.19%。但是,在298个测试样本中,其中有53个样本被误判了,总体正确判断率只达到了82.14%。其中信用正常的样本组正确率有83.18%,信用异常的样本组的误判率正确率只有79.49%,与训练样本组相比,测试样本组的准确率确实变低了不少,这也在一定程度上反映了RBF神经网络稳健性其实并是不太好。