计算;推算;计数设备的制造及其应用技术一种基于随机欠采样的改进smote方法技术领域:1.本发明涉及smote算法、随机欠采样算法、knn算法及其应用技术领域,特别是涉及非平衡数据的一种基于随机欠采样的改进smote方法。背景技术:2.smote是针对随机过采样算法的缺点提出的算法,它不仅增加了少数类样本的数量,同时提高了模型预测的准确率。然而它在生成样本的过程中,忽略了噪声样本的生成。而随机欠采样算法通过随机的消除多数类的实例来平衡样本,如果样本差距过大,会导致大量的有效信息缺失,不利于数据的分析和模型的评估。技术实现要素:3.本发明的目的是为了解决smote算法在生成样本的过程中忽略噪声样本,随机欠采样方法丢失重要信息的问题提出的基于随机欠采样的改进smote方法。4.为了达到上述目的,本发明提出的技术方案为:一种基于随机欠采样的改进smote方法,包括以下步骤:5.(1)数据提取与预处理;6.(2)少数类样本去噪;7.(3)随机删除多数类样本;8.(4)合并数据集;9.(5)平衡样本;10.(6)性能评估。附图说明:11.图1为本发明一种基于随机欠采样的改进smote方法步骤流程示意图。12.图2为一种基于随机欠采样的改进smote方法具体的流程图。具体实施方式:13.为了使本发明的实施例中的技术方案能够清楚和完整地描述,结合实施例及附图对本发明作进一步详细的描述。14.本实例提出一种基于随机欠采样的改进smote方法,如图1所示,主要包括以下步骤:15.(1)首先提取不平衡数据样本,将seer数据库中提取乳腺癌临床数据,并将提取到的数据的特征和标签做数值化处理,对所有的样本进行数据的归一化,将数值控制在0~1之间;16.(2)针对训练数据的样本不平衡问题,通过对少数类去噪,用k近邻的方式找到少数类样本的k个邻居,比较k个邻居里多数类样本的数量,如果k个邻居里面全部都是多数类样本,那么将这个少数类样本删除,保留剩余的少数类样本;17.(3)使用随机欠采样方法,随机从多数类样本集中不放回的抽取整体数据样本的二分之一的多数类样本,删除部分多数类样本;18.(4)合并处理好的基于knn的去噪样本和基于随机欠采样的多数类样本,将其放入到smote算法中,smote算法的采样倍率为1;19.(5)最后得到平衡样本;20.(6)将处理好的数据按照8:2的比例划分为训练数据和测试数据,用训练数据训练模型,用测试数据分析提出的方法的性能。21.本实例提出一种基于随机欠采样的改进smote方法,如图2所示,主要包括以下步骤:22.(1)从seer数据库提取2010-2015年乳腺癌患者的数据。包括:种族,年龄,肿瘤等级,偏侧性、t分期,n分期,m分期,组织学形态,区域淋巴结阳性个数,乳腺癌亚型,雌激素状态,孕激素状态,her2状态,存活状态的15个特征如表1数据样例所示,其中6年的数据集描述如表2所示:23.表1数据样例[0024][0025]表2数据集描述[0026][0027][0028](2)将处理过的数据集分为少数类样本p和多数类样本q,确定最近邻数量k。通过欧式距离计算p中样本xi的k近邻,如果k近邻中的多数类样本数目等于k,则过滤xi,否则,将xi存于p′,本文k取5;[0029](3)对多数类样本集q使用随机欠采样算法,保留原始不平衡数据集的二分之一多数类样本,得到新的多数类样本集qnew;[0030](4)合并得到的去噪后的少数类数据集p′和多数类数据集qnew,得到新的数据集t1;[0031](5)最后通过smote算法得到新的平衡数据集d0,具体的smote算法的步骤如下:[0032](5.1)输入:少数类样本集p1,近邻数k,采样倍数为n,n为欠采样后的多数类样本个数和去噪后少数类样本个数的比值;[0033](5.2)根据原始少数样本集p1中的每一个少数类样本xi,通过欧氏距离计算它到所有少数类样本集中的少数类样本的距离,得到xi的k近邻样本记为{m1,m2,...,mk};[0034](5.3)从k个近邻中按照设置的采样倍率n,从它的k近邻中选取若干个样本pm(i,j),再生成一个0~1之间的随机数,从而合成新样本,其计算公式如下:[0035]pnew=xi+rand(0,1)*(pm(i,j)-xi)[0036]其中,xi代表少数类样本,rand(0,1)代表随机数,pm(i,j)代表最近邻样本;[0037](5.4)将通过(5.3)合成的新样本pnew和其余少数类样本合并最终生成新的少数类样本,记为pnew;[0038](5.5)输出:合成新的和多数类样本个数相同的少数类样本pnew;[0039](6)将提取的2010~2015年的6个数据集分别按照样本的80%作为训练集,20%作为测试集,其中smote参数采取默认值,k近邻去噪方法中k取5,比较年份取值不同时,分析提出的方法的性能,评估结果如表3~6所示,表中每列的加粗数字代表该组数据的最大值。其中的rq-smote算法为本文提出的方法。[0040]表3六种算法在6个数据集上的准确率[0041][0042]表4六种算法在6个数据集上的召回率[0043][0044]表5六种算法在6个数据集上的f1-score[0045][0046][0047]表6六种算法在6个数据集上的g-means[0048][0049]由表3可知,提出的rq-smote算法在准确率上比smote提升6%~11%,比随机欠采样算法提升了8%~15%;由表4可知在召回率方面,rq-smote算法比smote算法提升了9%~14%,比随机欠采样算法提升了8%~15%;由表5可知,提出的rq-smote算法在2012~2015的4个数据集上的f1-score均优于其他算法,相比随机欠采样算法最高提升17%;由表6可知提出的rq-smote在对多数类和少数类的分类精度上比smote提升7%~10%,比随机欠采样算法提升了6%~11%,同时在四个评价指标上相比于adasyn、随机过采样、smotetomek表现的更好。[0050]综上所述,本发明提供了一种基于随机欠采样的改进smote方法,有效结合随机欠采样算法和基于knn去噪的smote算法,减少噪声样本的影响,提高模型预测的性能,为处理不平衡数据提供有力的支持。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于随机欠采样的改进SMOTE方法
作者:admin
2022-08-31 12:08:42
221
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种综合态势智能辅助生成方法与流程
- 上一篇: 一种便携式石油检测用取样装置的制作方法