新万博_万博出事了

周一至周五 | 9:00—22:00

作者便械:未知

  摘要馅葱:为克服传统多视角分类器无法充分最小化结构风险的不足免,提出基于Universum的多视角全局和局部结构风险最小化模型酚。该模型采用Universum学习椽熟碾,利用有标签样本生成大量包含分类信息的无标签样本裁化蔬,从而增加分类器性能未嚏。这些信息有利于最小化结构风险衡。通过在Mfeat令、Reuters和Corel等3个多视角数据集上的试验可以发现奢裙,该模型可以提高多视角分类器的性能埠齐软,并可以更好地应用到多视角数据集的分类问题中渡。
  关键词鹃去:
  Universum学习; 多视角; 结构风险
  中图分类号懈殊瓮: TP181
  文献标志码党茹勺: A
  Abstract认矢跑:
  In order to overcome the disadvantage of traditional multiview classifiers that can not fully minimize structural risk贤罕谋, a Universumbased multiview global and local structural risk minimization model is proposed. The model uses Universum learning薯, which uses labeled samples to generate a large number of unlabeled samples containing classification information so as to enhance the performances of classifiers. This information helps minimize structural risks. Experiments on three multiview data sets悍, i.e.巢竭, Mfeat老好, Reuters and Corel奇奢睬, show that the model can improve the performance of multiview classifiers and can be better applied to the classification of multiview data sets.
  Key words差划:
  Universum learning; multiview; structural risk
  0引言
  多视角分类器可以用于处理多视角数据集的分类碴栓。以图1为例侣虚,假设有
  一个网页数据集X茶掸,它有4个样本句,每个样本是一个网页思,且这4个样本被平均分为2类备前,一类是与科学有关的网页
  [WTHX]x[WTBX]1和
  [WTHX]x[WTBX]2淋孙,另一类是与艺术娱乐有关的网页
  [WTHX]x[WTBX]3和
  [WTHX]x[WTBX]4冗。对每个网页而言诬绒,有3类信息祷脆,分别是文本(text)风焊非、图像(image)和视频(video)忍侣。每类信息可以被视为样本的一个视角郎。若用
  [WTHX]x[WTBX](v)i来表示第i个样本的第v个视角门京,则X(v)={
  [WTHX]x[WTBX](v)1信,
  [WTHX]x[WTBX](v)2杆计,
  [WTHX]x[WTBX](v)3川售,
  [WTHX]x[WTBX](v)4}表示数据集的第v个视角凸丁冒。因此看矮,数据集X也可以被写为X={X(1)橡昆,X(2)首,X(3)}陵颁忿。把这样的X称为多视角数据集誊。多视角分类器的目的在于通过学习已经标记的多视角样本的信息训练出一个分类器粳块,对未知的多视角样本进行类别标定抛。针对多视角分类器的设计而提出的学习过程被称为多视角学习[1]海。多视角学习如今已被广泛运用于多视角聚簇[2]林淬、手写数字识别[3]霸汾、人类姿势识别[4]棉、图像识别[57]等领域扇适,并取得了不错的成绩溜苍僵。
  传统的多视角分类器旨在最小化结构风险藉秒情,即最小化经验风险(对训练样本的识别误差)与泛化风险(对测试样本的预测误差)之和库弗够。最小化结构风险意味着多视角分类器对训练样本和测试样本在总体上有较好的分类性能鲤。再者俗揩,一般情况下砍兄,由于数据
  集通过聚簇的方式(如k均值推、层次聚类鼓霜腐、核聚类等)可以被分成多个子类姆贿,同一子类内的样本具有高相似度咆赣,而不同子类之间的样本相似度并不高蚊。若把整个数据集所占据的空间视为全局空间驮嫂,每个子类所占据的空间视为局部空间碘,则基于全局空间和局部空间所实现的结构风险最小化被称为全局和局部结构风险最小化(global and local structural risk minimization桨涣, GLSRM)[8]姑。GLSRM的典型模型为
  min JGLSRMJGLSRM=JG+ndi=1JLi+JGLS
 「?蓟А(1)
  式中矗睦:
  JG=Remp+Rreg表示全局结构风险(Remp为经验风险姐,Rreg为泛化风险);JLi=RLiemp+RLireg表示在第i个子空间中的局部结构风险(RLiemp为经验风险横捻氮,RLireg为泛化风险);
  JGLS=f(JG-ndi=1JLi)
  表示全局结构风险与局部结构风险之间的差异;nd表示子空间个数酣虹妮。在当前的分类器设计中必店施,GLSRM模型处于起步阶段庙拣虑,ZHU等[8]在2016年首次提出了该模型问宿,但该模型仅被用在单视角问题中聪,这就给提升多视角问题的分类性能提供了一个契机贬。
  更进一步蝎盗慑,当前传统多视角分类器普遍存在着分类性能提升有限的问题韭莫痊,这是由有标签训练样本不足而导致的畅。众所周知缮岛继,有标签样本是事先知道类别标签的样本磨,它们可以提供用于分类器设计的有效分类信息和先验信息限。然而侥,在现实世界中榔貉彼,有标签样本的数目是不多的负,而且获取和标记该类样本需要消耗比较多的人力财力垮埃,故成本较大聚。这就使得传统的分类器性能受到有标签样本的限制妓嚏。幸运的是缓,VAPNIK[9]在1982年提出用Universum学习来解决这一问题筷才劝。Universum学习以有限的有标签样本为基炊稹,通过分析这些样本之间的相似度匹,生成大量的无标签样本欧疽驳。这些无标签样本包含了原本有标签样本的一些分类信息链惶割,从而增加了更多有利于分类器设计的信息精。在Universum学习的指导下邓奋蚕,近几年出现了许多相关的分类器擂睛认,如CHERKASSKY等[10]提出的Universum支持向量机(Universum support vector machine滤赤, USVM)汰墟,LIU等[11]提出的半Universum支持向量机(selfUniversum support vector machine食镶, SUSVM)缓獭舒。相关试验已经证实夯柬朴,在单视角问?}中抹汝钝,Universum学习可以带来更好的分类性能型挡古。   根据Universum学习和GLSRM模型所存在的提升空间隘衬复,本文在Universum学习的基础上提出基于Universum的多视角GLSRM(Universumbased multiview GLSRM辅, UMGLSRM)模型玻,从而提升多视角分类器的性能普降斑。
  1UMGLSRM模型框架
  为解决有标签样本不足的问题藏,并把GLSRM模型应用到多视角问题中考,本文提出了UMGLSRM模型茫。UMGLSRM模型由两步构成汀:第一步焊朽,利用Universum学习算法哥,以有标签样本为基磁移场,生成大量无标签样本;第二步偷氨,把无标签样本和有标签样本应用到GLSRM模型框架中洼锑,并优化求解韧素,得到相关的最优参数辩评。
  1.1利用Universum学习算法生成无标签样本
  为证明UMGLSRM模型的有效性栋葱耻,采用Mfeat挂虏禄、Reuters和Corel等3个典型的多视角数据集[1213]逞涡梯。
  Mfeat数据集是多特征 (multiple features) 集快刃菱,由0~9共10个数字的若干手写体数字构成筹创赋。每个数字由若干个案例构成康,每个案例就是一个人所写的数字样本嗅节。每个数字有6个视角铃,分别是分布相关性(fac)崔、Fourier系数(fou)侯岭、KarhunenLove系数(kar)茶、2*3窗口中的像素平均值(pix)梁巩沟、Zernike矩(zer)和形态特征(mor)搽。每个视角的特征数表示该视角的信息由多少个维度值加以描述经。针对每个数字俏讨嘿,选择2 000个手写体案例用于试验归惜。表1为采用的Mfeat数据集的信息渐。
  Reuters数据集是Reuters RCV1/RCV2多语种数据集蓉,由多种机器翻译的文档构成先。该数据集中的文档分别用5种不同的语言写成擎,这5种语言分别是英语(EN)馁困屁、法语(FR)垢、德语(GR)委叫撇、意大利语(IT)和西班牙语(SP)烧潞。每个文档都可以转变成与自身语言不同的其他语言的文档缮派。每种语言可被视为该数据集的一个视角踏。再者小,该数据集中的文档又被分为6个类别催,分别是C15行仁醋、CCAT读殿、E21沉、ECAT晌、GCAT和M11陇翁成,每个类别又被视为一种视角孝午县。表2和3为采用的Reuters数据集的信息彼健葡。在语言视角下(见表2)仕咕,样本数是该语言标识的文档数目瓦,特征数是该种语言文档的单词数目懈。在类别视角下(见表3)闹,样本数是属于该类别的文档数目免改,比例是属于该类别的文档数目占所有文档数目的百分数范。
  Corel数据集是一个图像数据集譬,取自多种不同类别的物体较摄狈。选取该数据集中的10类物体感。对于每类物体团,选择100幅图像僚识,总计1 000幅图像馅踏,即1 000个样本酪染。每个样本有4个视角肌嫡急,分别为色彩柱状图(Colh)表、色彩直方图分布(Colhl)脓、颜色矩(Colm)和共生纹理(Coot)涧扒送。每个视角的特征数表示该视角信息由多少个维度值表示连锯。表4为采用的Corel数据集的信息问系。
  首先辰,在测试准确率(即被准确分类的测试样本数占总的测试样本数的比例)上进行对比钾协化,见表6顽貌氖。从表6可知芜,UMGLSRM模型可以有效提升多视角数据集的分类性能熬。从方差看渡邵才,UMGLSRM模型的性能相对平稳报,不容易受到外界环境的影响急。
  然后安须,在时间复杂度上进行对比躬踏,分析这4个模型在训练时间和测试时间上的差异躲托盲,如表7所示徒。该表中捻,针对训练或测试时间辉,把MVML模型对每个数据集的训练或测试时间定为1钡酿撇,从而观察其他模型与MVML模型在时间上的倍数关系栖。从结果可知拨,在测试时间上遍,各模型相差不大桔锰。UMGLSRM模型的测试时间会增加1%~2%蒲撩。在训练时间上颧泌,相比MVML模型另扛,UMGLSRM模型的训练时间平均会增加10%镭馅渐,这主要是由UMGLSRM模型需要执行Universum步骤且模型相对复杂导致的玲菠肆。USVM模型与MVML模型的训练时间相当城采痪,这主要是因为前者即便需要?绦?Universum步骤党鞍惭,也只是一个单视角分类器乳,而后者是一个多视角分类器坎咆响,两者在模型复杂度上相似赦牌。MVU模型是一个需要执行Universum步骤的多视角分类器娥,因此它比USVM模型和MVML模型复杂疮滤。然而陛涛,相比UMGLSRM模型环夹,MVU模型相对简单分书票。
  从分类和时间两方面综合分析可知搅龋纽,UMGLSRM模型的分类性能比其他模型的高苟偏龟,其多出来的时间是可以接受的漠,从而证明了UMGLSRM模型的有效性蔽粒。
  3结束语
  多视角问题普遍存在于网页撅、视频童、文本等分类问题中沽输逝。为了处理多视角问题垦锈菠,相关的多视角分类器应运而生态河。传统的多视角分类器可以最小化结构风险嫂,即使训练样本和测试样本的分类误差尽可能胁美ぁ,但存在两个问题沸铜痪:(1)暂时没有合适的模型能同时从全局和局部两个角度实现结构风险的最小化;(2)由于缺少足够的有标签样本进行训练础,分类器性能提升空间受到限制磐庭。
  本文利用Universum学习生成大量包含分类信息的无标签样本苛,从而增加分类信息岛林,并将其与单视角问题中已经提出的全局和局部结构风险最小化模型结合性杯,用到多视角问题中旦窖稀,从而提出一个基于Universum的多视角全局和局部结构风险最小化模型眉,即UMGLSRM模型传隆荡。在3个典型的多视角数据集上的试验验证了UMGLSRM模型可以以增加少量时间为代价痪窘牵,有效提升分类性能污梆唱,同时具有较低的Rademacher复杂度签。
  参考文献墩脸:
  [1]
  XU Yumeng犯勿, WANG Changdong奸, LAI Jianhuang. Weighted multiview clustering with feature selection[J]. Pattern Recognition纷孤, 2016耽庇, 53裳胜: 2535.
  [2]SUN Shiliang煌徐, ZHANG Qingqiu. Multipleview multiplelearner semisupervised learning[J]. Neural Processing Letters洽, 2011屎, 34谜笆胶: 229240.   [3]DENG Muqing阔鲁拘, WANG Cong川胶, CHEN Qingfeng. Human gait recognition based on deterministic learning through multiple views fusion[J]. Pattern Recognition Letters台构, 2016惠烙, 78巴: 5663. DOI波齿怠: 10.1016/j.patrec.2016.04.004.
  [4]WU Fei堪惟堂, JING Xiaoyuan辩, YOU Xinge冻舜, et al. Multiview lowrank dictionary learning for image classification[J]. Pattern Recognition京唬敛, 2016翁淑, 50抛函迪: 143154. DOI辆诞朔: 10.1016/j.patcog.2015.08.012.
  [5]ZHU Songhao蝎, SUN Xian拷滤片, JIN Dongliang. Multiview semisupervised learning for image classification[J]. Neurocomputing棱妥, 2016逻, 208懒: 136142. DOI泥察: 10.1016/j.neucom.2016.02.072.
  [6]WANG Huiyan弥斜, WANG Xun韶畔吨, ZHENG Jia抡杉, et al. Video object matching across multiple nonoverlapping camera views based on multifeature fusion and incremental learning[J]. Pattern Recognition埂搅, 2014忙, 47(12)箩: 38413851. DOI妹: 10.1016/j.patcog.2014.06.019.
  [7]TZORTZIS G确接, LIKAS A. Kernelbased weighted multiview clustering[C]//IEEE 12th International Conference on Data Mining镣, 2012渐们: 675684.
  [8]ZHU Changming错, WANG Zhe矢伐杠, GAO Daqi. New design goal of a classifier侠朽: global and local structural risk minimization[J]. KnowlegdeBased Systems屑, 2016尽染, 100勘陈: 2549. DOI冉: 10.1016/j.knosys.2016.02.002.
  [9]VAPNIK V. Estimation of dependences based on empirical data[M]. Springer顾森, 2006.
  [10]CHERKASSKY V图迪磕, DAI Wuyang. Empirical study of the Universum SVM learning for highdimensional data[J]. Lecture Notes in Computer Science咕朗开, 2009通, 5768绦酶淘: 932941.
  [11]LIU Dalian咐统焕, TIAN Yingjie背庭, BIE Rongfang悉歼椒, et al. SelfUniversum support vector machine[J]. Personal and Ubiquitous Computing粪, 2014峨, 18(8)瞬涤奶: 18131819. DOI垒阑锭: 10.1007/s0077901407979.
  [12]XU Yumeng茸吗椒, WANG Changdong轻篓, LAI Jianhuang. Weighted multiview clustering with feature selection[J]. Pattern Recognition纽潦, 2016绿壤刺, 53迹挽: 2535. DOI婆瘫鸡: 10.1016/j.patcog.2015.12.007.
  [13]ZHU Changming. Doublefold localized multiple matrix learning machine with Universum[J]. Pattern Analysis and Application徽亭臂, 2017枪, 20哀莲赋: 10911118. DOI付婚: 10.1007/s1004401605489.
  [14]WANG Zhe设具, ZHU Yujin颁抚, LIU Wenwen奶长, et al. Multiview learning with Universum[J]. KnowledgeBased Systems诽鞍免, 2014聊, 70别捐晃: 376391. DOI人埔裙: 10.1016/j.knosys.2014.07.019.
  [15]MENDELSON S. Rademacher averages and phase transitions in glivenkocantelli classes[J]. IEEE Transactions on Information Theory挛斜磷, 2002径潦梨, 48(1)化涎: 251263.
  [16]KOLTCHINSKII V缺思, PANCHENKO D. Rademacher processes and bounding the risk of function learning[M]. Springer鲍沉参: High Dimensional Probability II绥圣堆, 2000韧目竭: 443459. DOI掏淡熬: 10.1007/9781461213581_29.
 ∠埠毙贰(?辑赵勉)