计算;推算;计数设备的制造及其应用技术1.本发明属于时序数据处理技术领域,涉及概念漂移学习技术,具体涉及一种基于关联度对齐的时序数据概念漂移适配方法。背景技术:2.随着信息和传感技术的发展,现实世界中充满了各种各样的时序数据。因此,基于数据驱动的人工智能时序数据预测方法蓬勃发展。这些技术的成功取决于一个基本假设,训练数据与测试数据服从相同的分布。不幸的是,数据的统计特性在充满不确定和非平稳环境中随时间动态变化。例如covid-19之后的消费模式数据、复杂工作条件下的机器退化数据、垃圾邮件和金融欺诈检测数据、气候预测和客户对在线购物的偏好数据等。训练样本与测试样本分布存在差异情况下模型的泛化能力无法保证。这种情况导致了时序数据的概念漂移问题,即目标变量的统计特性随着时间以不可预见的方式变化,这是大数据时代的普遍问题,其本质是数据数据分布与统计特征的不确定性。3.当前一种解决策略是通过探索变量之间的相关性和未来数据分布差距的不确定性来学习自适应数据预测与决策系统。概念漂移下的这种策略研究可以分为三个部分:漂移检测、漂移理解和漂移适应。具体来说,漂移检测可以通过识别变化点或变化时间区间的技术和机制来对概念漂移进行表征和量化,漂移理解是描述漂移的严重程度,漂移适应是根据漂移对现有的学习模型进行更新。尽管概念漂移的解决上取得了明显的成功,但现有的大多数研究很少关注存在虚假相关性的概念漂移场景,这实际上在时序数据中更为常见。例如背景噪音的干扰,风场数据中障碍物对采集数据的影响,多数情况下数据中存在潜在的背景变量伪相关性,当其对模型影响度越高,模型性能的稳定性越低。因此,对于时序数据通过建模不确定性来缓解虚假相关性所造成的偏差,以应对概念漂移,尚没有形成快速稳定的预测方法,因此亟待将智能化技术与时序数据分析有效结合一起,针对概念漂移问题,形成完备的序列预测方法。技术实现要素:4.针对上述现有技术的不足,本发明提供一种基于关联度对齐的时序数据概念漂移预测方法,对分布不同的时序数据进行分析并快速建立量化模型,从数据分布对齐角度构建基于关联度匹配的时序预测,从损失函数可微分角度设计蒙特卡洛求解参数。本发明可对不同工况下的不确定时序信号精准地预测,算法复杂度低,计算周期短以及可移植性高。5.本发明的技术方案是:6.一种基于关联度对齐的时序数据概念漂移适配方法,包括如下步骤:7.步骤1:对原始时序数据按照维度进行预处理为tx为维度,t为时刻,即第m维,xm={xm,1,…,xm,t}。与x对应的待预测的目标序列ty为维度,即第n维,yn={yn,1,...,yn,u}。8.步骤1.1:将原始时序数据进行归一化处理得到进行归一化处理得到进行归一化处理得到是按维度取最小值,是按维度取最大值;9.步骤1.2:将进行标准化处理得到x,其中为按维度的平均值,为按维度计算的标准差。10.步骤2:对于x与y构成的历史数据按固定滑窗大小m服从概率参数θ采样,得到包含n个样本的训练样本集到包含n个样本的训练样本集其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集为测试样本集的网络输入样本,为测试标签。11.步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2。12.步骤3.1:构造网络损失函数中训练样本集上的有监督损失为,即计算测试集上网络的预测值与标签yt的偏差。13.步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成。具体求解如下:14.步骤3.2.1:对于的估计:15.(1)定义训练样本集与测试样本集的参数θ′coup下条件分布等于参数θcoup下的联合分布,下角标“a”,“e”代表“train”,“test”。[0016][0017](2)假设测试样本集服从的分布为,[0018][0019]依赖于上一时刻的训练数据与上一时刻的测试数据即为耦合项,∈n是随机扰动项,其中为均值为0,方差为的正态分布。因此条件分布可以更新为:[0020][0021](3)对于的求解,建立隐式方程求解,即对其条件分布建立对数最大似然函数进行参数估计,通过最大化下面的式子,找到对应于的最优参数[0022][0023]步骤3.2.2:对于的估计,通过一个特征提取器提前训练数据集的映射,建模训练样本集映射后的条件分布为然后建模测试样本集映射后的条件分布为其中为均值,为相应的方差,和都是扰动项,服从标准正态分布。可以得到的一个闭式解:[0024][0025]步骤4:将步骤1到步骤3记为对于任务时刻t的一次任务taskt,在时刻t∈[1,...,t]上循环记录t个任务,总的损失为各个任务损失的累加,即网络总最优参数θ*可以通过求得。[0026]步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复k次随机采样,则最优参数表达为:[0027][0028]步骤6:采用梯度下降方法迭代更新参数,τ为迭代次数,其中表示第t次任务的损失函数,为求导数操作,当迭代参数θτ-θτ+1小于一个阈值后,停止迭代,此时参数为最优参数,网络输出为最优预测结果。[0029]与现有技术相比,本发明的有益效果是:[0030]1全面分析时序信号所含信息,为不确定环境下存在概念漂移下系统的安全和维护提供科学分析依据,提高网络对未来复杂时刻的预测能力。[0031]2通过动态参数寻优网络,弥补专家经验的缺失,鲁棒性强,短时间内实现未来数据的预测,降低概念漂移造成的社会危害。[0032]3采用蒙特卡洛可微方式,通过损失函数步进反馈确定网络结构,实现对不同样本集的自适应性,使网络在时序领域具有普适性和可移植性。附图说明[0033]图1为本发明实施例基于关联度对齐的时序数据概念漂移适配方法的流程框图。[0034]图2为本发明实施例的在风场数据中的不同类别特征间的mmd距离。[0035]图3为本发明实施例的在两个样本集下特征间平均mmd距离t-sne可视化图。具体实施方式[0036]下面结合附图和具体实施例对本发明做进一步说明,但不以任何方式限制本发明的范围。[0037]如图1所示,本发明提供的基于关联度对齐的时序数据概念漂移适配方法具体分为如下步骤:对时序信号进行归一化与标准化预处理,将数据按照概率参数重采样构造训练样本集与测试样本集,构建网络损失函数,采用蒙特卡洛积分获得损失函数的近似估计,梯度下降方法迭代更新最优参数,确定最终网络,对未来时序信号进行预测。[0038]本发明实施时,构建时序数据概念漂移适配网络模型具体是:tx=20000,ty=120,m=4,u=1,m=2000,k=95,学习率为0.001,迭代阈值theta=0.1,最大训练迭代次数为80。[0039]具体步骤如下:[0040]步骤1:对原始时序数据按照维度进行预处理为tx为维度,t为时刻,即第m维,xm={xm,1,…,xm,t}。与x对应的待预测的目标序列ty为维度,即第n维,yn={yn,1,...,yn,u}。[0041]步骤1.1:将原始时序数据进行归一化处理得到进行归一化处理得到进行归一化处理得到是按维度取最小值,是按维度取最大值;[0042]步骤1.2:将进行标准化处理得到x,其中为按维度的平均值,为按维度计算的标准差。[0043]步骤2:对于x与y构成的历史数据按固定滑窗大小m服从概率参数θ采样,得到包含n个样本的训练样本集到包含n个样本的训练样本集其中为训练样本集的网络输入样本,为训练标签。相应的,把接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集接下来的n个采样值,即t到t+n,作为测试样本集为测试样本集的网络输入样本,为测试标签。[0044]步骤3:构造网络损失函数,包含两个部分,一部分是训练样本集上的有监督损失l1,一部分是衡量训练样本集和测试样本集的分布差异l2。[0045]步骤3.1:构造网络损失函数中训练样本集上的有监督损失为,即计算测试集上网络的预测值与标签yt的偏差。[0046]步骤3.2:构造网络损失函数中训练样本集与测试样本集的分布差异,用wasserstein距离来度量,表示为式子计算了训练集样本与测试集样本之间的分布差异,其中代表概率分布。然后l2损失被分解为考虑训练集和测试集的耦合关系和不考虑训练集和测试集的耦合关系两部分组成。具体求解如下:[0047]步骤3.2.1:对于的估计:[0048](1)定义训练样本集与测试样本集的参数θ′coup下条件分布等于参数θcoup下的联合分布,下角标“a”,“e”代表“train”,“test”。[0049][0050](2)假设测试样本集服从的分布为,[0051][0052]依赖于上一时刻的训练数据与上一时刻的测试数据即为耦合项,∈n是随机扰动项,其中为均值为0,方差为的正态分布。因此条件分布可以更新为:[0053][0054](3)对于的求解,建立隐式方程求解,即对其条件分布建立对数最大似然函数进行参数估计,通过最大化下面的式子,找到对应于的最优参数[0055][0056]步骤3.2.2:对于的估计,通过一个特征提取器提前训练数据集的映射,建模训练样本集映射后的条件分布为然后建模测试样本集映射后的条件分布为其中为均值,为相应的方差,和都是扰动项,服从标准正态分布。可以得到的一个闭式解:[0057][0058]步骤4:将步骤1到步骤3记为对于任务时刻t的一次任务taskt,在时刻t∈[1,...,t]上循环记录t个任务,总的损失为各个任务损失的累加,即网络总最优参数θ*可以通过求得。[0059]步骤5:由于原损失函数积分很难求解,采用蒙特卡洛积分获得损失函数近似估计,具体的,重复k次随机采样,则最优参数表达为:[0060][0061]步骤6:采用梯度下降方法迭代更新参数,τ为迭代次数,其中表示第t次任务的损失函数,为求导数操作,当迭代参数θτ-θτ+1小于一个阈值后,停止迭代,此时参数为最优参数,网络输出为最优预测结果。[0062]采用本发明算法与现有传统非适配方法,分别在mfl数据集和轴承数据集上进行仿真试验,仿真结果如表1:[0063]表1:本发明算法与传统线性回归方法在风场数据集上仿真结果对比[0064][0065]表1反映了本发明算法在风场数据预测平均误差。其中本专利算法结果精度高,鲁棒性强。[0066]图2、图3分别反映了本发明算法在风场数据集中,风速和风向数据预测精度。[0067]以上实验结果验证了本发明算法泛化能力和鲁棒性较好,能够针对时序数据概念漂移完成关联度对齐,方法复杂度低,计算周期短以及可移植性高,预测故障类型精准。[0068]需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于关联度对齐的时序数据概念漂移适配方法
作者:admin
2022-08-31 11:03:44
930
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种乳腺外科手术治疗辅助定位穿刺装置的制作方法
- 上一篇: 一种高频电流局放在线监测系统及方法与流程