计算;推算;计数设备的制造及其应用技术1.本发明属于机器学习领域,涉及一种多模型融合的用户属性预测方法。背景技术:2.随着网络技术的快速发展,网络广告成为商家宣传的主要方式之一;在网络上发布广告,传播速度更快、传播范围更广,比线下发布广告的效率更高,因此网络上充满了各式各样的广告;在广告定向中,用户的搜索内容、浏览记录和基础属性等有着重要作用,其中基础属性性别、年龄至关重要,但并非所有用户都愿意公开自己的年龄、性别信息,因此会导致用户的基础属性数据缺失,就需要利用现有数据及相关算法进行预测。3.目前现有研究主要采用 svm、贝叶斯等传统机器学习方法,集成学习作为机器学习的重要部分也逐渐被应用于用户属性预测领域;现有的用户属性预测方法大多通过分析用户的搜索、浏览等互联网行为数据,结合贝叶斯网络算法、随机森林、svm等单一机器学习算法对用户的性别及年龄进行预测;也有学者以微博用户为研究对象,基于用户昵称、标签、微博文本等对用户的性别、年龄进行预测推测,但其准确率仅为 73.6%;还有的预测方法将lightgbm和fm等算法融合,分析智能手机 app 安装和使用情况,预测用户的基础属性,最终其对性别的预测准确率为67.65%。4.综上所述,目前对于广告用户的性别、年龄预测还处于起步阶段,大多使用朴素贝叶斯或者支持向量机等机器学习常用的算法,并且算法较为单一,导致对属性的预测效果不佳。技术实现要素:5.为解决现有技术在广告用户属性预测的不足,本发明提供了一种用户属性预测方法。有效提升了用户属性预测效果较差的问题,技术方案如下:一种基于stacking多模型融合的用户属性预测方法主要步骤如下:(1)对用户的浏览记录进行数值化处理得到训练样本,并将数据集划分为训练集和测试集;(2)对特征相关性进行分析以及重要性排名,剔除掉相关性高,并重要性排名较低的特征,实现对特征的筛选;(3)将处理好的数据集输入到基于stacking的多算法模型中进行训练,实现多层次、多算法的融合学习;(4)采用五折交叉验证的方式对模型进行训练,最大程度的减少过拟合;(5)将测试集输入到预测模型中得到预测结果,并得到用户年龄和性别征准确率、召回率、f1值和精确度等性能指标;(6)对stacking第一层的元分类器逻辑回归、随机森林、极限树和xgboost算法进行随机组合得到14组对比模型,分别将数据集输入到14个模型中进行训练,结合本方法的模型对比15个模型的准确率、召回率、f1值和精确度等性能指标,验证模型预测的效果。6.附图说明7.为了更清楚的说明本发明的具体技术方案,下面将对本发明中涉及的附图进行说明。8.图 1 是训练流程图;图 2 是特征相关性热力图;图 3 是特征重要性排名图;图 4 是stacking的流程图;图 5 是多模型-lightgbm模型图。具体实施方式9.下面结合附图对本发明进行说明。10.本发明提出了一种基于stacking多模型融合的用户属性预测方法,该方法可以解决用户基础属性年龄、性别数据缺失的问题,可以运用于用户画像以及后续的个性化推荐中,能够有效提高用户画像准确率,提高广告的投放效果。11.从用户对广告的点击历史中,获取用户的浏览日志数据并进行预处理;将所处理数据使用热力图进行相关性分析以及使用xgboost算法对特征重要性进行排名,实现对特征的筛选;筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征;将数据输入到模型中进行训练以及预测。12.本发明的具体操作流程如下:(1)提取用户的广告浏览记录,并对数据进行处理,得到用户id、年龄、性别、日期、点击次数,被点击的广告的信息包括素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id等11个用户特征,以此为基础,并将数据集分为训练集和测试集;(2)首先使用热力图多11个特征进行相关性分析,得到的结果如图3所示,其次使用xgboost算法对11个特征进行重要性排名,排名结果如图4所示,筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征;(3)整个训练过程采用五折交叉验证的方式进行训练,五折交叉验证就是将训练集等分成五份,其中的四折作训练集,另外一折为测试集,重复训练五次得到和原训练集相同长度的预测值,然后作为stage2 模型的训练集。同样的,真正的测试数据集也重复五次,用经过训练集训练好的stage1模型作预测,预测值取平均后作为第二层的测试数据,经过第二层模型预测后得到最终输出结果,stacking模型的整体框架如图2所示;(4)选择逻辑回归、随机森林、极限树和xgboost算法作为stacking模型的第一层,选择lightgbm作为stacking模型的第二层,模型的结构如图5所示,将训练集输入到模型中进行训练,保存得到的第一层训练结果,作为新的训练集输入到第二层模型中进行训练,将第一层训练得到的测试集取平均,得到新的测试集,并将其作为新的测试集输入到第二层模型中,最后得到预测结果。技术特征:1.一种多模型融合的用户属性预测方法,包括以下步骤:(1)数据采集:对广告用户的点击浏览历史进行记录,对浏览记录进行数值化处理得到训练样本,并将所述训练集划分为用于训练和测试的训练集和测试集;(2)特征工程:使用热力图对和特征之间的相关性进行分析,并使用xgboost算法对各特征进行重要性排名,剔除掉相关性高,并重要性排名较低的特征,实现对特征的筛选;(3)模型训练:将逻辑回归、随机森林、极限树和xgboost算法作为stacking模型第一层的元分类器对数据,使用lightgbm作为stacking模型第二层的元分类器进行训练,实现多层次、多算法的融合学习;(4)交叉验证:采用五折交叉验证的方式对模型进行训练,最大程度的减少过拟合;(5)精度评价:将测试集输入到预测模型中得到预测结果,并得到用户年龄和性别征准确率、召回率、f1值和精确度等性能指标;(6)消融实验:对stacking第一层的元分类器逻辑回归、随机森林、极限树和xgboost算法进行随机组合得到14组对比模型,分别将数据集输入到14个模型中进行训练,结合本方法的模型对比15个模型的准确率、召回率、f1值和精确度等性能指标,验证模型预测的效果。技术总结本发明公开了一种基于Stacking多模型融合的用户属性预测方法,包括数据收集、特征工程、模型训练、交叉验证和精度评价;在数据收集中获取用户的广告点击浏览记录并将数据进行清洗以及分割;在特征工程中使用特征相关性热力图显示各特征之间的相关性并使用XGBoost算法得到各特征重要性排名,结合特征的相关性和重要性排名对特征进行筛选;在模型训练过程中使用逻辑回归、随机森林、极限树、XGBoost算法作为Stacking模型的第一层,使用LightGBM作为Stacking模型的第二层对特征进行训练;交叉验证时使用五折交叉验证方式;精度评价过程中使用准确率、召回率、F1值以及精确率对预测结果进行评价;本发明能对广告用户的性别和年龄进行预测。行预测。行预测。技术研发人员:黎才茂 陈秋红 林昊 侯玉权 李浩受保护的技术使用者:海南大学技术研发日:2022.04.12技术公布日:2022/7/29
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种多模型融合的用户属性预测方法
作者:admin
2022-07-30 13:39:52
789
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种低阻抗电解液添加剂及电解液和锂离子二次电池的制作方法
- 上一篇: 一种Mn