新万博_万博出事了

周一至周五 | 9:00—22:00

作者娩:未知

  摘 要齐:本文借鉴了传统信用评分方法忻布没,提出了适用于P2P网络借贷环境的动态异质集成分类模型DSHE俯婪欺。该模型能够实现对冗余特征变量的筛阉???,具有一定的高维数据处理能力;其异质集成结构与动态筛选策略能够实现基础模型权重的自适应调整删脚斤,从而提高信用评估性能屉魂耿。使用UCI数据库中的数据和网贷真实数据进行实证分析涧客幢,结果表明卯坚,异质集成模型整体表现较优;DSHE模型在预测准确率上表现突出醒侵妓,在4个评价指标下的平均秩优于Logistic回归等对比模型弧。
  关键词肮:信用评分;动态异质集成;P2P网络借贷
  中图分类号匡脖潭:F832 文献标识码失龟酞:B 文章编号敢伦:1674-2265(2018)09-0024-08
  DOI暗:10.19647/j.cnki.37-1462/f.2018.09.004
  一齿、引言
  P2P网络借贷是指资金供需双方通过互联网平台实现的直接借贷霞巧拟,是互联网金融的重要组成部分堂。但是捶汗,P2P网络借贷的坏账率远高于同期商业银行的平均水平妙哭尸,信用风险不容小觑邦:由于其在线交易绦晾、陌生人交易和缺乏抵押品的特点美,P2P网络借贷的投资决策常依赖于非标准化的嘲驴悄、未经验证的软信息;出借人多不具备专业知识扛霸群,所做的投资决策常为非理性的家挛,且无充足资金构建投资组合以分散风险犯胯。因此汉层阔,急需开发一套适用于P2P网络借贷环境的准确揉彪、易操作的信用评分系统来识别信用风险瓦锑,协助投资者做出理性的决策吮。
  信用风险的研究具有较高的理论与应用价值掸,一直是学术界的热点疮杏。信用评分可实现对违约概率的预测陇,是识别和管理信用风险的重要工具辟。很多研究关注传统金融领域的客户信用评分问题挫,涌现出大量建模方法闺。近年来寸脓,集成模型尤为受到关注铺瞧柿:根据偏差―方差均衡理论厂偶眷,集成分类模型可通过融合多个基础分类模型提高其预测结果的方差叙,从而实现降低预测误差的目的剂年磨。如吴冲和夏晗(2008)挠啃、肖进等(2015)等学者提出的集成支持向量机信用评分模型;West等(2005)趟、Tsai等(2008)提出的集成神经网络的信用风险评估模型虑归嗣。尽管这些集成模型取得了不错的效果聊措茫,但是从结构上看帘,大多数为同质集成模型摆,即仅集成了一种分类模型播佩,根据“没有免费午餐理论”懊珐味,这可能对模型的外推性和泛化能力产生不良影响;从集成方法上看倪,大多数模型使用了简单的静态集成方法垢铅轻,如多数投票法酞诫、Dempster-Shafer等方法陪驮枫,未能充分考虑样本特征对集成模型进行自适应调整骑单首。另外蠢,当前对P2P网络借贷的信用评分关注还不多勾嘲炽。一些研究对P2P网络借贷的信用评分系统进行了探索砰灭,比较有代表性的是Guo等(2016)基于核方法度量P2P网络借贷的信用风险俩、Emekter等(2015)的Logistic回归模型遁、Malekipirbazari 和 Aksakalli(2015)的随机森林信用评分模型康磷好、傅彦铭等(2014)的支持向量机模型付骸耪。但总体而言齿活,这些模型以单一模型为主帅烦,结构比较简单且预测精度尚有待提高拣蠢稠。有鉴于此侯,有必要借鉴传统金融领域的信用评分模型坪贤妙,并结合P2P网络借贷特点怜险,构建适应于P2P网络借贷环境的信用评分模型偶肩。在传统金融领域党鸽拾,Visentini等(2016)提出使用F分数对信用评分模型中的基础模型进行动态筛训铣谩;Ala’raj和Abbod(2016)提出了一种基于议会系统的异质集成信用评分模型鸽。
  本文借鉴先前信用评分的研究苹揭贸,并充分考虑P2P网络借贷的特点楼蔫搁,提出了动态选择异质集成模型(Dynamic Selective Heterogeneous Ensemble Model宠狠祈, DSHE)铅。相较于先前模型疚,本文提出的DSHE模型的创新点主要体现在以下几个方面帘:第一涝碾,DSHE是一种异质集成模型抄,引入了多个常用的数据挖掘分类算法媳,扩展了监督学习的假设空间户天矛,从而提高了模型的泛化能力和对不同数据集的预测能力祷,而当前应用至信用评分领域的异质集成模型还较少酚刨,且相较于刘大洪等(2013)提出的动态南耄糊聚类信用评分模型瑰挡,DSHE模型采用的是有监督学习的集成分类方法诲八开,而非无监督学习的聚类方法板变窘,二者建模思想上存在较大差别钾看辽。第二梨,DSHE使用AUC-H指标对基础模型进行筛寻忻堋,可依据测试样本的特征自动调整基础模型的决策权重鞠,实现有选择性的集成懂喀,从而进一步提高模型的性能卤蜗期,而当前研究多使用F分数或准确率进行筛选焙家。第三水,该模型充分考虑了P2P网络借贷中的冗余变量问题够,在模型中包含了变量筛选算法鞭,可删除高维度的P2P网络借贷信用数据中的冗余变量淋,提高模型的运算速度和精度剑订。更为重要的是耐兢黑,实验结果表明逞筏,在多个信用数据集中缴蹄露,该模型的表现优于当前的主流信用评估模型心罕瑟。
  二汰、动态选择异质集成模型
 ∥Ω?(一)基本思想
  当前实证研究所使用的数据集多来自加州大学欧文分校提出的用于机器学习的UCI数据库爽,这些数据集中特征变量数通常少于20个歇,且样本数在1000个以下;而本文所关注的P2P网络借贷领域具有高维度克氰、高噪声端客、复杂性等特点挡浪,比如当前全球最大的P2P网络借贷平台Lending Club的公开交易记录中具有55维特征变量且样本数众多甩铜,连续变量与离散变量混杂卷鳞矗。本文提出的DSHE模型旨在根据P2P网络借贷的信用数据特点额绩,构建适合的信用评分模型团捷。
  假设Dtrain与Dtest分别为信用评分问题中的训练集和测试集脯肃。信用评分的目标是将测试集中的每个样本分成违约与非违约两类迹细加。DSHE的构建共包含三个阶段(见图1)裂景测。
  第一阶段为变量筛选阶段伺擎底。原始数据集中的冗余特征变量会增加模型训练时间长倦坤、降低预测精度弥,本阶段通过变量选择算法筛选出具有代表性的特征?量子集[D*train]用于训练基础模型潞输灵。
  第二阶段为建立基础模型池皇瘫得。考虑到不同分类模型在处理不同类型数据坦火、噪声敏感性和多样性上存在差异宫漠首,本文使用异质集成结构违信尽,即引入三种主流数据挖掘信用评分模型――支持向量机(SVM)按纠谓、多层感知器神经网络(MLP)和决策树(DT)建模扛头。为进一步提高集成分类模型的多样性蝎捐,引入了Bagging算法对[D*train]重复抽样钵信,并逐个构建基础模型组成基础池喷坊,然后针对测试集Dtest中第i个样本输出预测分类和概率(ci扑汲犊,pi)赣。   第三阶段对基础分类模型池进行筛选吐、组合悲。对于Dtest中的每一个样本xj沥,在[D*train]中寻找xj的近邻作为验证集Dvalid烘,然后以模型在检验集中的表现为依据对基础模型池中每个模型赋予权重稀,对检验集预测较为准确的模型会被赋予较高的权重习,反之则赋予较低的权重降攫潞。最后通过加权多数投票的方式得到分类的最终结果寡惩茂。
  需要注意的是涕,DSHE获得的验证集越贴近测试集拦,理论上基于验证集调整的各基础模型权重对测试集样本预测精度的提高越明显病。特别是当样本数量较大时屏,在训练集中可以寻找到与测试集更为相近的样本品。因此该方法一定程度上克服了Nascimento等(2014)提出的动态筛选方法的不足馅,更加适用于P2P网络借贷信用评分这种样本数量多的情况俊汉。
 ”印(二)变量筛选
  变量筛选有助于降低数据集维度豌萎,提高模型运行效率北蛙举。变量筛选的目标主要为两个劳鸽:第一署歇亨,保留与结果变量高度相关的特征;第二汕,删除冗余变量宝厂操。因此该问题通常可视为优化问题袖猎,即保留与结果变量高度相关的特征的同时显嫁,尽可能降低特征间的相关性腾。DSHE引入遗传算法求解该优化问题喘连。将特征变量的非空子集视为遗传算法中相互竞争的个体编澈贝,每个个体具有k个基因的二元染色体宦湿短,每个基因对应代表原始数据集中的特征变量套诽袭。若某基因位点数值为1肛才,则表示其被选中组成子集用于构建基础模型贡。初始种群确定后订墒杆,按照适应度函数计算适应值檀莎,并通过选择店、交叉暴、变异等算子形成新的群体并记录适应值茎洞,经多次迭代后在满足预先设定的停止规则后输出最优解律炽。DSHE模型采取了基于相关系数的?m应度函数作为该遗传算法的优化规则赋堪蔑。适应度函数如式(1)所示柬豪申:
  [fλ=kλ×rλ惺禾,cfkλ+kλkλ-1rλ碾,if] (1)
  其中[λ]表示第[λ]个特征变量子集跋袖斑,[kλ]表示子集中特征变量数量梁夏纺。式(1)越大靖,则说明该特征变量子集越优巫论敌。[rλ税倍,cf]代表该子集与结果变量的平均相关系数锋罢蜜,而[rλ煎辞,if]表示子集中各变量间的平均相关系数济具刮。[rλ爸牧辑,cf]与[rλ定囊洗,if]指标由Symmetrical Uncertainty(SU)度量按。SU是一种基于信息理论的相关性度量方法叉拈,其计算如下帘丛睫:
  [SUX绘,Y=IGX|YHX+H(Y)] (2)
  其中[IGX|Y]表示观察到Y后对X的信息增益看,[HX]与[H(Y)]分别表示X与Y的信息熵蜡。SU值范围为[0萍,1]贡盟,1表示两变量完全相关赁,0则表示相互独立从。根据SU定义分别计算[rλ笨港,cf]与[rλ屯,if]赦防。值得注意的是疗,式(1)的分子表示该子集的预测能力写誊笆,而分母则衡量了子集中变量的冗余程度辅捣呐。与结果变量相关度低或与子集中其他特征高度相关的变量会使适应度函数值变小而被排除堪。因此描,式(1)同步实现了变量筛选保留预测变量和删除冗余变量的目标淌龚骑。经筛选后的最优特征训练子集[D*train]被用于下一阶段的基础模型池训练蝗梦盲。
 √?(三)基础模型池构建
  为使基础模型池更具多样性剖品蘑,DSHE模型使用Bagging方法对训练集[D*train]进行了重复抽样化颊添:从具有N个样本的[D*train]中随机有放回抽取N个样本组成训练子集Dtrain并用其训练基础模型弛卜,如此往复进行k次随机抽样唤姜底。本文的基础模型池中包含三类常用于信用评分领域的分类模型锌酞,包括多层感知器神经网络惟、决策树和支持向量机奶窃电。接下来对这三类分类模型进行简要描述钉罐。
  MLP作为最常见的神经网络之一陷,其核心思想是将输入/输出的映射问题转化为非线性优化问题擞庙,其一般由输入层茅馁、隐含层和输出层等三层组成逝吨,每层各包含若干个节点淡廊,每层节点与邻层节点相互连接卵敝丹,而同层节点之间没有连接青会屎。当数据输入神经网络后托,由输入层经由隐含层向输出层传播苗挤净,随后按照网络实际输出与期望输出间的均方误差(MSE)进行反向传播襄,根据梯度下降算法经多次迭代修正网络权值辨扭胯,以实现MSE的最小化锈。神经网络具有较强的泛化能力和模式识别优势费窟,较符合信用风险分类这一特点筋。
  DT是一种基于信息理论建立的由上到下的树状结构拣确废,由一系列结点和分支组成拎撕退。决策树的构建本质上是一个依据特定规则对数据的拆分过程沤摹:每个结点对应一个特征变量荤杀壳,结点延伸出的分支对应按该结点对应特征变量的临界值拆分出的样本集淮耙匿。理想情况下碱娟宋,分支对应的样本应属于同一类别漓疙。使用决策树进行决策的过程就是从根结点开始缎,测试待分类项中相应的特征属性晤,属性选择常基于信息增益(ID3算法)和信息增益率(C4.5算法)按乡受,然后按照其值选择输出分支岔辩,直到到达叶子结点倍嫡氢,将叶子结点存放的类别作为决策结果孔岗介。决策树具有较强的可读性和描述性冲嫡兔,与信用评分的特点较为吻合琅。
  SVM是基于结构风险最小化建立的机器学习方法熟,其基本思想是将低维线性不可分的训练集按照映射函数投射至更高维度使其线性可分娇,从而找到一个最优分类超平面区分输入样本徽。SVM结构简单挫爆、推广能力强丘,在处理非线性及高维度模式识别中具有优势扰具,因此在信用评分领域得到广泛应用田睡。
  令Bagging次数为k佬扯,使用Bagging方法对训练集[D*train]重复抽样获得的训练子集被分别用上述三类方法构建分类模型污,共训练[C1娄魂,C2颧,???眠旧陇,C3k]散,共计3k个模型作为基础模型池以备下阶段模型筛鸭灯睢,并对测试集Dtest中的样本进行预测定邪,输出分类矩阵[ctest]及样本非违约的概率矩阵[ptest]敞。
 ⌒鹉濉(四)模型动态筛选
  DSHE模型使用一种基于遗传算法的筛选准则对构建的基础模型池进行筛呀拍?摺,其基本思路是从基础模型池中挑选恰当的子集瓣袒,对每一基础模型测试集预测结果的权重进行自适应调整内请。为实现上述过程疚懊,模型首先从训练集[D*train]中逐个寻找与测试集Dtest中每个样本最为相似的样本檄陪馅。经过特征变量选择阶段摔,训练集中特征变量间的相关性已经比较低栓,本文使用欧式距离衡量用作样本间相似性的度量你胳,n维向量[xi]和[xj]的欧氏距离定义为奔雄殊:
  [Dxi参赐,xj=l=1n(xil-xjl)2] (3)   通过式(3)从训练集中找到与测试集中最为相近的样本组成验证集Dvalid入敞,使用基础模型池中的所有模型对Dvalid进行预测径嫉。对于Dvalid中的任意样本[si]祭耸顾,输出分类结果[cvalidi=ci|C1驹,ci|C2吞,???耿伴强,ci|C3kT]与样本非违约的可信度团墟钝:
  [pvalidi=Pci=1C1显,Pci=1C2咖衬伪,???趣,P(ci=1)|C3kT]
 》莺耘堋(4)
  为实现对基础分类模型[Cii=1遍绒,2驹李覆,…徽秸入,3k]的筛巡瞥炜怼,本文引入第二个遗传算法以对每个基础模型池赋予恰当的权重尖潜。先前研究多基于基础模型预测结果的多样性指标修剪模型朗,常用的指标有Yule Q 统计量多、Kohavi-Wolpert方差囊枚、Kuncheva熵等溪,但是上述指标经常会对同一组分类器的多样性度量产生分歧咕查。而基于精度的筛选是另一种思路拴脚,Visentini等(2016)比较了精度和多样性的筛选规则谐彩惨,并提出一种基于F分数的模型修剪方法恍篱。本文提出一种基于精度指标AUC-H的筛选规则路慌痴,AUC-H指标由Hand(2009)提出温狸,修正了传统AUC指标受模型可信度输出分布的影响导致的结果缺乏可比性的弊驳嗥盘埂,本文使用该指标作为基础模型池的筛选准则钒。
  令[AUCH(*)]为给定一组可信度和实际类别后的AUC-H值扑扩廖,给定[pvalidi]吗芬肪,使用遗传算法寻找基础模型池中各模型的最优权重[w*]水刨,遗传算法适应度函数为
  [fs=argmax[AUCHpvalidi×w*]] (5)
  求得[w*]后肆雄,对输出分类矩阵[ctest]及样本非违约的概率矩阵[ptest]进行加权处理伙逢,DSHE模型对验证集中任一样本[xi]的最终预测结果为软:
  [cxi=1梢,pxi=ptest×w*≥0.5-1别,pxi=ptest×w*   [AR=TP+FNTP+FP+FN+TN] (6)
  [Error I=FPFP+TN] (7)
  [Error II=FNTP+FN] (8)
  Hand(2009)指出传统的AUC假设不同分类模型的误分类成本不同躺换,但实际上该成本取决于分类问题本身而非模型妹,因此提出了改进的AUC-H指标廊揩。该指标使用[β]分布矮,修正了不同分类模型误分类成本的不同蹬廉,使指标更加可信关蚀笔。
  针对不同的指标和数据集寐枫,模型间往往互有优劣估蠢。由于分类模型间的比较会违背参数检验的假设吭,本文引入非参数的Friedman检验就迹聘,利用秩检验多个总体分布是否存在显著差异湾。Friedman检验的统计量值表示如下苫釜:
  [χ2F=12DK(K+1)k=1KAvR2j-K(K+1)24] (9)
  其中[AvR2j=1Di=1Drji]娟吉,D为数据集个数泼,K是分类模型个数粕玲,[rji]表示第j个模型在第i个数据集上的平均排序匣。当Friedman检验的零假设被拒绝后费陇,可实施post-hoc检验岛高,用于确认分类模型间的总体分布差异是否显著惩笆锹。本文使用post-hoc检验中的Nemenyi检验太。该检验认为如果两个分类模型的平均排名大于某一临界值CD则存在显著差别宋熔。CD的计算如式(10)所示皮湘傅:
  [CD=qα江耗,∞嗡,kK(K+1)12D] (10)
  其中[qα煎戌,∞鸿,k]值大小基于t统计量少分比。为将本文提出的DSHE模型与其他基准模型比较黄,本文对CD进行Bonferroni-Dunn修正氨驼屏。
 〗悴А(四)结果分析
  表4给出了DSHE模型与其他对比模型在German数据集寒爬、Lending Club数据集和人人贷数据集上的性能汝聚,表中的粗体字表示每一列对应的最佳表现惟跺匠。根据模型在各评价指标上的表现由好至坏排序僻惮,分别赋予1吭珊,2愧虎,…棋,16钱茶,最后通过对每个模型对应的序值取平均红次,即可得到平均秩奥赐。从中可以得出尝构甲:
  1. 对于单一分类模型而言祈,LR的表现优于其他统计学方法和SVM溅雷凶、MLP菠激备、DT等数据挖掘方法诡洪,这与Lessmann等(2015)巩、晏艳阳和蒋恒波(2010)的研究结果是一致的讣。LR取得了最低的平均秩且错误率较为平衡官。加之LR易于操作光切币,使得其在当今信用评分领域仍占据一席之地;而朴素贝叶斯和K近邻的表现较差嫂习,这是因为这两个模型较容易过拟合峭马。
  2. 在同质集成模型中陷,比较单一模型及应用Bagging方法构建的集成模型睹,发现MLP集成模型的精度提升较大平防嘿,而SVM集成模型的提升较械枋苋!,这也从侧面证明Bagging塑年、Boosting等集成方法较适宜能够提供更高多样性的不稳定分类模型鬼。随机森林在同质集成模型中表现最佳雾莱,Lessmann等(2015)也提出将随机森林作为新的信用评分模型的对照模型跨汉。
  3. 异质集成模型的表现整体上优于单一分类模型和同质集成模型化核话,简单的多数投票异质模型(HE-MV)就取得了相当可观的分类效果卢妹,包含行业标杆的LR和随机森林模型瓣污,这可能是由于不同类型的基础模型提供了不同的假设空间和搜索空间赦肪,从而增强了模型的泛化能力潞速。这一结果为构建信用评分模型提供了新的思路杜蹭骇,可继续探索异质集成信用评分模型磐。本文提出的DSHE模型是在HE-MV模型的基础上更进一步等赊黔,在P2P网络借贷数据集和传统信用数据集均取得令人满意的效果父丁,特别是AR和AUC-H两个指标痕拢爱,处于全体模型的前两位熊炒。而对于信用评分中比较关心的第一类错误腐率间,DSHE的表现也比较好辩辫筐,在集成分类模型中均处于前列疮韭,这也从侧面说明本文提出的基于AUC-H指标的动态筛选策略的有效性秽。
  为更加清晰地分析各模型跨数据集和跨评价准则的表现兴蛔氏,使用式(9)对表2中各模型性能使用非参数Friedman检验迷,得到[χ2F=65.875]斜,对应p值小于0.001剂次啸,拒绝零假设牡靶僳,各模型的平均秩存在显著差异烂探,进而实施Nemenyi检验比较DSHE是否与其他模型存在统计学上的显著差异进行具体分析粮敝,其结果如图2所示帘嘘八。
  图2中横轴表示各模型残,纵轴则表示模型在3个数据集闯、共计12个评价准则下的平均秩图。平均秩越大碉赐蟹,则表明该模型表现越差岔碌。其中DSHE模型具有最低的平均秩耿,说明其综合表现最优;针对其他模型而言废,若高于对比线戏涧,则表明在该显著水平下其平均表现显著地劣于DSHE模型摆尸晃。在最为严格的p=0.01的水平下鞘唬,DSHE的平均秩显著低于全体单一模型和除随机森林外的绝大部分同质集成模型遣,DSHE相较于当前的主流方法能够提供更佳的信用评估性能拎。而DSHE与大部分其他异质集成模型的表现在统计学上不存在显著差别谦,表明异质集成模型整体上取得令人满意的评估性能掏日。
  四亭葱袭、结论
  建立准确且易操作的信用评分体系儒响辅,对于P2P网络借贷的参与者而言具有十分重大的意义雹烫。本文借鉴了传统信用评分方法腊,特别地对P2P网络借贷的信用评分进行了研究孪鼓,相比于相?P集成信用评分模型研究稀槽裂,在结构和集成策略上进行了改进哥,提出了三阶段的动态异质集成信用评估模型DSHE杰涸,并使用UCI数据库中的数据集和P2P网络借贷的真实数据进行了实证分析镐怕,结果发现在3个数据集中DSHE的平均表现最佳蒲挎,特别是在准确率和AUC-H指标上表现较为突出袖,其综合表现显著优于包括行业普遍使用的LR模型在内的大部分基准模型收,从而为异质集成信用评分模型的建模提供了一个新的思路潍媚痕:在今后的信用评分模型的构建中稼涪古,可充分考虑引入评估性能更具优势的异质集成模型桂,对P2P借款人信用情况做出更准确的预测距。
  参考文献昆:
  [1]吴冲沃,夏晗.基于支持向量机集成的电子商务环境下客户信用评估模型研究[J].中国管理科学挟乱诬,2008毋硷,24(S1).
  [2]肖进凌念铝,刘敦虎角膏清,顾新.银行客户信用评估动态分类器集成选择模型[J].管理科学学报饥,2015妹轿,17(3).
  [3]傅彦铭巫,臧敦刚篙童纬,戚名钰.P2P网络贷款信用的风险评估[J].统计与决策绷挽光,2014加币,29(21).   [4]刘大洪烦悸,廖检文勿款,陈柳洁.动态拿婺媳?糊聚类信用评价模型及其应用研究[J].企业导报缕殴炽,2013当煌顾,19(16).
  [5]晏艳阳歪,蒋恒波.信用评分模型应用比较研究――基于个体工商户数据的检验[J].统计与信息论坛阶藕,2010墒伙继, 25(5).
  [6]Guo Y戒,Zhou W忍溺势,Luo C卫盎放, et al. 2016. Instance-Based Credit Risk Assessment for Investment Decisions in P2P Lending[J].European Journal of Operational Research超激腔,249(2).
  [7]West D面脑,Dellana S景乓,Qian J. 2005. Neural network ensemble strategies for financial decision applications[J].Computers & operations research次,32(10).
  [8]Tsai C-F录,Wu J-W. 2008. Using neural network ensembles for bankruptcy prediction and credit scoring[J].Expert systems with applications牌簇,34(4).
  [9]Wolpert D H车参础,Macready W G. 1997. No free lunch theorems for optimization[J].IEEE transactions on evolutionary computation革,1(1).
  [10]Emekter R疚,Tu Y玲币慌,Jirasakuldech B菩誊捌,et al. 2015. Evaluating credit risk and loan performance in online Peer-to-Peer (P2P) lending[J]. Applied Economics鹅,47(1).
  [11]Malekipirbazari M寝炯,Aksakalli V. 2015. Risk assessment in social lending via random forests[J].Expert Systems with Applications镰纠,42(10).
  [12]Visentini I疚浆梆,Snidaro L赁恫,Foresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Information Fusion伐,28.
  [13]Ala'raj M第洼劳,Abbod M F. 2016. Classifiers consensus system approach for credit scoring[J].Knowledge-Based Systems课粳,10.
  [14]Nascimento D S鼓,Coelho A L晴艾掳,Canuto A M. 2014. Integrating complementary techniques for promoting diversity in classifier ensembles屑: A systematic study[J].Neurocomputing亭,138(8).
  [15]Visentini I臼南,Snidaro L钙,Foresti G L. 2016. Diversity-aware classifier ensemble selection via f-score[J].Info Infus巾抛, 28(3).
  [16]Hand D J. 2009. Measuring classifier performance储桔绿: a coherent alternative to the area under the ROC curve[J]. Machine learning烷,77(1).
  [17]Paleologo G缔危,Elisseeff A儡拉,Antonini G. 2010. Subagging for credit scoring models[J].European Journal of Operational Research妻氯胶,201(2).
  [18]Dem?ar J. 2006. Statistical comparisons of classifiers over multiple data sets[J].J Mach Learn Res藐仑儡,7(1).
  [19]Lessmann S赊彤,Baesens B莎,Seow H-V试履搞,et al. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring涛: An update of research[J].European Journal of Operational Research涝,247(1).
  Abstract刀沤:Following the mechanism of traditional credit scoring methods嘎氦,a novel dynamic selective heterogeneous ensemble(DSEH)model suitable to the application of P2P lending is proposed. The model provides a feature selection algorithm膛,which is able to filter redundant features and handle high-dimension data. The heterogeneous structure and dynamic selection strategy can adaptively adjust the weights of base models and thus娩蔡,enhance the evaluation capability. UCI credit dataset and real dataset from two P2P lending platforms are used to validate the proposal. The results show that DSHE outperforms other mainstream credit scoring approaches in several measures. The average rank of proposed DSHE is superior to baseline models including logistic regression.
  Key Words缄:credit scoring夺靖,dynamic selective heterogeneous ensemble model棠,P2P lending
 〈堋(?任编辑 耿 欣;校对 LX浅,GX)