学术:一种不平衡数据的分类方法
今日荐文的作者为第二炮兵工程大学专家李艳玲,郭文普,徐东辉。本文节选自论文《一种不平衡数据的分类方法》,发表于《中国电子科学研究院学报》第7卷第3期。下面和小编一起开始学习吧~~~
分类的基本过程是首先将一些具有类别标记的样本作为训练数据,通过学习算法获得分类器,然后根据分类器判定待分类样本的类别。因此,训练数据的质量直接影响学习算法获得的分类器性能。基于机器学习的分类方法要求训练数据比较完整及数据分布相对均匀等,当样本分布出现不平衡时,分类性能会降低。
然而,最近的一些研究认为,许多情况下,样本分布存在偏斜问题,尤其在两类分类中,不平衡问题更为多见。因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战。目前对数据不平衡问题的解决方法主要集中在三个层次:一是数据集;二是分类方法;三是评估方法的优化。
数据不平衡问题
训练数据的不平衡通常是指某些类拥有较多的样本,而某些类只有相对较少或很少的样本。在这种情况下,标准的分类器会倾向于过分适应大类而忽略小类。在数据挖掘或机器学习的许多应用领域中,数据不平衡问题是普遍存在的。
比如,在舆论监控、信息安全监管、入侵检测、医疗诊断、风险管理以及文本分类等应用中,都会遭遇数据不平衡的问题。但目前常用的一些分类算法例如:决策树,支持向量机(SVM),KNN,神经网络,Bayesian network,以及关联规则挖掘等方法,当处理不平衡数据时,都表现出不适应。
数据的不平衡性
通常认为,数据的不平衡性主要体现在类别之间样本数量的差异。据统计,在实际应用中,小类和大类的样本数之比可以是1:100、1:1000,甚至是1:10000。那么,当各类别样本数量大致相当时,是否还会存在类别不平衡性呢?小类别样本的规模大小、样本的独立性以及类别中存在的子类等都会影响分类的性能。
对数据不平衡问题的解决策略
目前对不平衡数据问题研究有三个方面:(1)类别不平衡问题的本质研究,例如在什么领域中,数据不平衡最影响标准分类器的性能?(2)对不平衡数据问题的解决方法。(3)在面临不平衡数据时,对分类性能合适的评估方法。
提出的解决方法可归纳为三种策略:
策略1:训练集重构
训练集重构的主要思路是通过某种方法重新构造训练集,使其达到类别平衡。目前主要是通过重取样方法,来构造类别分布均衡的训练数据集。重取样的方法有多种,在不同的重取样方法中主要体现了两种思路:对小类别进行向上取样;对大类别进行向下取样。向上取样指通过增加小类别的样本,来平衡大类别与小类别的样本数量,降低分类器对大类别的偏好;而向下取样则是通过减少大类别的样本数量,来达到类别分布平衡。向上或向下取样时,既有随机方式也有选择方式,还有上述方法的组合方式。不管是哪种重取样方法,其追求的目标都是要达到各类别的样本数量的大致相当。虽然重取样方法在不平衡数据集的分类中经常使用,而且被证实是比较有效的方法,但也还存在一些明显的缺陷。
策略2:分类方法的改进
一般地,凡是不是对训练集本身进行重构的方法,都可归为分类方法的改进,其主要思路是通过调整分类策略,使训练算法对小类别重视起来。由于各种分类方法其分类原理有所不同,在面对不平衡数据时,其表现也会有所不同,因此,相应的改进策略也有多种:
①改进或优化特征选择方法
一般的学习算法处理的基本对象就是特征,因此,特征的选取对分类精度有重要的影响。
②权重润饰
权重润饰的主要思想是通过引入权系数,调整样本的权重或者特征的权重,获得分类器对小样本的重视,从而寻求达到类别的平衡状态,提高分类精度。
③基于一类的分类
基于一类的分类方法,一般将目标类样本定义为正例,而将其他样本统统定义为反例,其主要思路是仅基于正例样本来训练分类模型,这类方法不是试图在特征空间中,划分正例和反例样本的界限,而是努力划清目标类的边界。
④基于集成学习的分类
集成学习,也称为多重学习或分类器组合,主要通过决策优化或覆盖优化两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能。
策略3:优化评估方法
常用的评估方法,例如查准率、查全率和F1测试值,在面对不平衡数据时不能做出准确的评估。于是,如何准确的评估分类器的分类效果,以及如何依据评估结果来优化分类模型,成为一个研究热点。但是,数据不平衡会对分类模型产生影响,所以只从公平的评估角度考虑改进评估方法本身意义不大,应着重考虑对分类模型的改进。
基于组合的不平衡数据分类方法
综上所述,各种数据不平衡问题的解决策略实际上是从不同角度改进分类模型,降低分类器对大类别的偏好,究竟哪种方法好,并没有公认的结论,但从相关文献的研究结果不难看出,数据集本身的特点以及所用分类方法的原理是应首要考虑的两个因素。
本文采用基于类别空间模型的分类方法,其基本思想是基于词的类别权重为待分类文本打分,根据文本相对于每个类别的分值大小,将文本归入到分值高的一类。
特征选择与词的类别权重计算是影响该分类方法的两个关键因素,而特征选择与类别权重计算都是基于词频、词的文本频、词的分布等统计特征,这些统计特征显然会直接受到数据分布的平衡与否的影响。考虑到数据重取样能很好地解决数据分布的不平衡问题,但不能有效解决类别规模、类别交迭、子类等问题。因此,本文提出了基于组合的不平衡数据分类方法,其基本思路如下:
第一,采取合适的数据重取样方法构造分布大致均衡的训练集;
第二,采用权重润饰方法弥补数据重取样不能很好解决类别规模、类别交迭、子类等问题。
随机取样是目前常用的数据重取样方法,但相关文献的研究表明:随机向上取样不仅会增加训练时间,而且可能造成分类器的过适应问题;而随机向下取样可能造成信息损失。哪种取样方法更好,目前并没有统一的结论,这与实验所用的数据以及分类方法有关。
权重润饰的关键是计算出合适的加权系数,从现有的研究看,加权系数的计算一般有两类方法:一是根据数据集的分布情况计算,称为预先计算;另一种则是根据分类结果的反馈信息计算。基于以往的研究发现,预先计算中有许多不确定性,因此,本文所用加权系数计算方法,其基本思路是根据上一轮分类结果的反馈信息来计算加权系数,通过几轮迭代,达到较高的分类精度。
实验及结果分析
1、实验数据集
本文所用数据集是从网上下载的关于讨论 “房价”的帖子,根据帖子所表达的观点将其分成两类:C1、C2,经整理得到初始数据集如表1所示。
表1 初始数据集
类别 | 训练集 | 测试集 |
C1 | 718 | 42 |
C2 | 111 | 39 |
从表1可得该数据集有两个明显特点:
1)两类文本数相差悬殊,C1类与C2类文本数比值约为6.46:1,即数据分布明显不平衡;
2)初始训练集总词数为8986个,其中C1类有8854个,C2类有1033个,两类相同的词有901个,占C2类的87.22%,即类别交迭较多。
2、分类性能测试指标
实验中,测试指标采用常用的查准率(P)、查全率(R),F1测试值。对于全局的分类结果,采用宏平均方式,即Macro-P、Macro-R、Macro-F1。
3、相关实验和分析
实验1
首先基于数据重取样方法来构造分布均衡的训练集:第1组,对大类别C1随机向下取样,C1、C2各111篇;第2组,对小类别采用随机复制的方法进行向上取样,C1、C2各718篇;第3组,采用组合取样,即对大类别随机向下取样,对小类别随机向上取样,C1、C2各360篇。此外,为了比较重取样方法对分类精度提高的效果,第4组实验基于分布不平衡的初始训练集。实验中,为了克服结果的随机性,每组实验都做了三、四次,结果取几次实验的平均值。基于构造的均衡训练集的分类结果与基于初始分布不平衡数据集的结果对比如图1所示。
图1 基于重取样方法的分类结果
①由图1可见,不管哪种重取样方法,都明显地提高了分类精度,表明重取样方法较好地解决了类别间样本数量差异对分类的影响;
②第3组,即组合取样的分类精度最高,第2组,即单纯对小类别采取随机复制向上取样,分类效果最差。但不管哪种重取样方法,当两类文本数量大致相当时,分类精度不再提高。以随机向上取样为例,本文做了五次实验,每次随机复制的样本数不同,分别是222,360,700,718,730,分类结果如图2所示。由图2可见,随机复制小类别样本,对分类精度的提高有一定的效果,但当小类别样本数量增加到一定程度时,分类精度不再提高。这表明重取样方法着力解决的是样本数量差异对分类的影响,当类别间样本数量大致相当时,重取样方法对类别间数据其它的不平衡性没有明显作用。
图2 基于随机向上取样方法的分类结果
③对比两类的分类效果发现仍有较大的差别,如图3所示,C1类的查全率普遍高于C2类的,说明分类器仍偏好大类别C1。分析其原因发现,由于C1类的文本长度普遍大于C2类的,因而经过特征选择后,两类的特征词数仍然相差悬殊,此外,类别间相同词语较多,即类别交迭较多,如表2所示。可见,虽然此时两类的文本分布大致均衡,但仍存在特征词数的差异、类别交迭等其它不平衡问题,因此按照本文所采用的分类方法,建立的分类器仍然偏好于大类别C1。
(a)两类的查准率对比
(b)两类的查全率对比
图3 两类分类结果对比
表2 两类特征词数对比
分组 | 1 | 2 | 3 |
C1类词数 | 1069 | 3675 | 2202 |
C2类词数 | 551 | 1026 | 931 |
相同词数 | 536 | 907 | 802 |
④综合②与③中的分析结果,表明数据重取样方法能很好地解决样本数量分布不均的问题,但对文本长度差异造成的特征词数的差异、类别交迭等其它不平衡问题,不能有效解决,应考虑结合其它方法解决类别交迭等不平衡问题。
实验2
基于重取样和权重润饰组合的分类结果如图4所示,组合后的分类效果优于单纯使用重取样的效果,从图5所示的两类分类结果对比情况看,此时两类的分类效果大致相当,即分类器不再偏好大类别。可见,权重润饰较好的弥补了重取样方法对特征词数差异、类别交迭等问题不能有效解决的不足。
图4 基于组合方法的分类结果
(a)两类的查准率对比
(b)两类的查全率对比
图5 基于组合方法的两类分类结果对比
本文对数据挖掘与机器学习领域中常遇到的数据不平衡问题进行了研究,在对数据不平衡性以及目前解决策略的分析基础上,提出了将数据重取样与权重润饰组合的分类方法,以降低分类模型对大类别的偏重,由相关实验的结果可见,权重润饰能较好地弥补重取样方法对类别交迭等问题处理不理想的不足,组合方法有效地提高了不平衡数据的分类精度。
本文发表于《中国电子科学研究院学报》第7卷第3期,版权归学报所有,阅读全文请联系我们。
欢迎各位专家、学者赐稿!投稿链接
部分图片来自于网络
电话:010-68893411
邮箱:dkyxuebao@vip.126.com