发布信息

一种基于局部离群因子的自适应SHM数据清洗方法

作者:admin      2022-10-26 06:16:31     738



计算;推算;计数设备的制造及其应用技术一种基于局部离群因子的自适应shm数据清洗方法技术领域1.本发明涉及机械结构健康监测技术领域,涉及一种基于局部离群因子的自适应shm数据清洗方法,具体地说,涉及一种基于自适应滑动窗(asw)与加权多尺度局部离群因子(wmlof)的异常数据清洗方法。背景技术:2.近二十年来,从机械装备大系统中获取和存储的数据量不断增加,海量数据的获取推动机械装备结构健康监测(shm)进入大数据时代。机械装备监测大数据蕴含了丰富的健康状态信息,为机械装备健康监测带来了新机遇。与此同时,由于数据采集、传输和存储过程中受到的多因素耦合干扰,现代shm数据呈现出以下五个特点:速度快、大规模、低质量、类型杂和低密度,使得机械装备的健康状态信息提取难度显著增大。一方面,传统的信号处理技术已越来越不适用于面对如此庞杂的数据集,在进行数据驱动的机械故障诊断研究时甚至无能为力。而另一方面,基于机器学习技术的智能诊断方法近年来逐渐成为热门研究,众多学者们相继提出了各种基于机器学习的算法模型,并在滚动轴承、风力涡轮机、齿轮箱、电机等故障诊断方面取得了一系列的成就。3.在大数据的驱动下,虽然基于机器学习的方法在机械系统shm方面具有不可比拟的优势,但仍有许多问题需要解决,数据质量便是其关键。基于机器学习与深度学习的算法无法评估数据质量,并呈现出“垃圾进,垃圾出”的缺点。基于此类质量低下shm数据获得的结果可能不正确甚至具有误导性。因此,开展数据质量保证方法研究以实现高效准确的机械shm很有必要。要全面系统地研究数据质量问题,则应首先分析数据的特征。一般来说,数据质量特征可以概括为数据的准确性、时效性、一致性和完整性。在工程实践中,机械装备的服役环境通常十分恶劣,因此,机械设备容易受到诸多随机干扰因素的影响,从而导致shm数据异常并降低数据准确性;时效性是指数据的更新状态是否为最新,网络中断或传输故障会降低shm数据的时效性;一致性则是衡量数据格式与结构的一致性,若来自多个物理源的数据未经任何分类或预处理便直接堆叠进行存储,则会大大降低数据的一致性水平;完整性表示数据的连续性,由于数据采集设备的故障,例如传感器和数采系统cpu故障,可能会产生缺失数据,从而降低数据的完整性。从数据质量的定义来看,缺失数据和飘移数据是数据不完整和不准确的典型代表。毫无疑问,shm数据的异常将直接影响故障诊断的结果。检测和剔除这些异常数据可以大幅提高数据质量并产生更可靠的shm结果。虽然关于shm的模型与算法研究层出不穷,但作为数据驱动故障诊断基础的shm数据质量保证方法研究却很少。因此,需要重点关注与数据质量保证方法有关的研究。技术实现要素:4.本发明的内容是提供一种基于局部离群因子的自适应shm数据清洗方法,其能够克服现有技术的某种或某些缺陷。5.根据本发明的一种基于局部离群因子的自适应shm数据清洗方法,其包括以下步骤:一、使用自适应滑动窗asw技术将待分析机械结构健康监测shm数据最佳地划分为一系列片段;二、提取每个数据片段的时域统计因子、频域统计因子,用于提炼数据信息并形成相应的研究对象;三、基于特征因子,利用加权多尺度局部离群因子wmlof计算每个对象的离群程度;四、通过比较wmlof特征值和预设阈值来检测shm数据中的异常值。6.作为优选,步骤一中,具体步骤如下:1)采用一个长度为w的小滑动窗将待分析的原始shm数据进行分割,w的取值与待分析信号的长度有关;2)计算由长度为w小滑动窗切割后的一系列数据片段的方差;3)将上述方差的平均值v作为参考阈值,其中v =mean (var1, var2, ..., varn),其中mean指平均运算,n是切割后的数据片段数量;4)将每个切割后数据片段的方差值与阈值比较,与阈值相邻的方差值特征,对应于异常数据发展区rin和衰退区rout,作为asw的锚点;5)将得到的锚点两两前后组合用于生成不同尺度的特定asw,rin和rout之外的数据视为具有相同属性的正常数据。7.作为优选,步骤二中,特征因子包括绝对均值、方差、标准差、峰度、偏度、均方根、形状因子、峰值因子、脉冲因子、边缘因子、峰度因子、间隙因子和平均频率,将这些特征重新组合并形成新的低纬度样本对象。8.作为优选,步骤三中,wmlof是为不同最近邻域k参数下的lof值确定适当的权重,利用熵权法ewm进行加权,ewm中计算客观权重的步骤如下:第1步:确定评价对象,下式展示了评价对象矩阵;矩阵的每一行和每一列分别表示一个研究样本对象及其对应的lof原始特征;评价对象矩阵dt,其中[p = 1, 2,ꢀ…, n, k = kmin, kmin+1, ..., kmax-1, kmax];其中,n代表样本的数量;k ∈ [kmin, kmax],kmin和kmax分别设为5和20;第2步:指标的归一化处理,用于异质指标同质化;即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题;利用线性归一化技术使dt数据集无量纲化,操作如下式所示:;第3步:利用下式计算响应prpk的发生概率并计算该指标的熵值:,第4步:利用下式计算各响应的信息熵冗余度divk及其熵权值ewk:,每个样本在不同最近邻域k下的lof结果被视为不同样本的响应,对象p的wmlof值由下式获得:其中ewk是对应最近邻域k的样本权值。[0009]本发明的有益效果如下:1)本发明提出了一种新颖的适用于shm数据的asw方法。asw方法巧妙地解决了传统固定长度滑动窗技术引起的数据泄漏和数据冗余问题。asw可以将整个待分析shm数据最佳地划分为一系列数据片段。[0010]2)针对lof方法的不足,提出了一种基于熵权理论的wmlof方法。将不同尺度下的最近邻域“k”的结果进行智能加权与融合,wmlof方法可以自适应地提取不同尺度上的lof特征。[0011]3)建立了基于asw和wmlof策略的shm异常数据检测方法,拓展了离群检测在shm数据中的实际应用。附图说明[0012]图1为实施例中一种基于局部离群因子的自适应shm数据清洗方法的流程图;图2为实施例中数据泄露与数据冗余的示意图;图3为实施例中对故障滚动轴承产生的缺失振动数据的仿真模拟示意图;图4为实施例中基于asw和wmlof的异常数据检测示意图;图5为实施例中基于小尺度滑动窗的wmlof的异常数据检测示意图;图6为实施例中基于大尺度滑动窗的wmlof的异常数据检测示意图;图7为实施例中基于asw和wmlof的异常漂移数据检测示意图;图8为实施例中基于asw和wmlof的异常数据检测示意图。具体实施方式[0013]为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。实施例[0014]如图1所示,本实施例提供了一种基于局部离群因子的自适应shm数据清洗方法,其包括以下步骤:一、使用自适应滑动窗asw技术将待分析机械结构健康监测shm数据最佳地划分为一系列片段;二、提取每个数据片段的时域统计因子、频域统计因子,用于提炼数据信息并形成相应的研究对象;三、基于特征因子,利用加权多尺度局部离群因子wmlof计算每个对象的离群程度;四、通过比较wmlof特征值和预设阈值来检测shm数据中的异常值。[0015]shm数据的自适应滑动切割现代机械装备的shm数据通常规模很大,很难通过直接分析获得有价值的特征。因此,在本实施例中使用了滑动窗口技术。首先,通过滑动窗口将整个数据集划分为一系列数据片段,这有助于针对性分析,并提高计算效率。通常,数据集由固定长度的滑动窗来划分。然而,固定长度的滑动窗技术往往会导致两个不可忽视的问题,即数据泄漏和数据冗余,如图2所示。长度为l1的滑动窗口可以有效地识别区域a,但却不能完全涵盖区域b。区域b中具有相同属性的部分数据未包含在滑动窗口l1中,这意味着数据泄漏。相反,长度为l2的滑动窗口可以准确地识别区域b。然而,在区域a中却发生了过度包含。不属于区域a的一些特征被滑动窗口l2汇总在一起,这意味着数据冗余。因此,数据泄漏和冗余是需要解决的首要问题。为解决上述矛盾,可以考虑具有自适应长度的滑动窗来消除固定长度的滑动窗技术带来的固有缺陷。[0016]asw旨在为不同属性的数据生成对应不同尺度的滑动窗口。在本实施例中,利用数据的属性变化,提出了一种asw策略来确定滑动窗的尺度大小。在shm数据中,当数据属性发生变化时,可观察到两个重要现象。第一,如图2所示,包含一段异常数据的shm数据势必含有两个拐点区域,即正常数据和异常数据连接拐点以及异常数据和正常数据的连接拐点,分别定义为异常数据发展区(rin)和衰退区(rout)。第二,由于异常数据的产生机制不同于正常数据。因此,正常数据和异常数据中的随机变量与其对应数学期望的偏差程度(即方差)是不同的,特别是在rin和rout区域内。基于以上观察和分析,提出了asw策略,其具体步骤如下:1)首先采用一个长度为w的小滑动窗将待分析的原始shm数据进行分割,w的取值与待分析信号的长度(采样频率×采样时间)有关。为保证高效的计算性能,建议w与原始shm数据长度的比例为1/200~1/100。[0017]2)计算由长度为w小滑动窗切割后的一系列数据片段的方差。[0018]3)将上述方差的平均值v作为参考阈值,其中v =mean (var1, var2, ..., varn),其中mean指平均运算,n是切割后的数据片段数量,var为方差。[0019]4)将每个切割后数据片段的方差值与阈值比较,与阈值相邻的方差值特征,对应于rin和rout,作为asw的锚点。[0020]5)将得到的锚点两两前后组合用于生成不同尺度的特定asw,rin和rout之外的数据可视为具有相同属性的正常数据。[0021]切割后片段的特征因子提取提取切割后每个数据片段的时、频域统计因子,有利于提炼数据信息,降低数据维度。上述特征因子包括绝对均值、方差、标准差、峰度、偏度、均方根、形状因子、峰值因子、脉冲因子、边缘因子、峰度因子、间隙因子和平均频率,将这些特征重新组合并形成新的低纬度样本对象。之所以选择这些统计特征,是因为它们在shm研究中被广泛使用,能够从不同层面有效地描述shm数据特征。值得注意的是,这些特征因子并不是选的越多越好。更重要的是选择能够最大限度表示shm数据信息的特征。否则,计算负担将会增加,这可能会造成其他不利影响。[0022]基于wmlof的离群值计算基于局部离群因子(lof)理论,可以计算出每个研究对象的离群程度。[0023]wmlof方法的核心思想是为不同最近邻域“k”参数下的lof值确定适当的权重。与其他加权方法相比,熵权法(ewm)计算简单,不需要考虑主观经验,它只需要客观数据来计算权重。此外,ewm是一种典型的基于多样性的加权方法,它根据待分析数据的多样性属性来计算权重。ewm中计算客观权重的步骤如下:第1步:确定评价对象,下式展示了评价对象矩阵。矩阵的每一行和每一列分别表示一个研究样本对象及其对应的lof原始特征。评价对象矩阵dt,其中[p = 1, 2,ꢀ…, n, k = kmin, kmin+1, ..., kmax-1, kmax]。其中,n代表样本的数量。k ∈ [kmin, kmax],kmin和kmax在这里分别设为5和20。[0024]q代表对象矩阵中的每一个研究样本,众多样本元素组成矩阵dt。[0025]第2步:指标的归一化处理,用于异质指标同质化。由于各项指标的计量单位并不统一,因此在用它们计算综合指标前,先要进行标准化处理,即把指标的绝对值转化为相对值,从而解决各项不同质指标值的同质化问题。利用线性归一化技术使dt数据集无量纲化。这可以有效地减少在分析来自不同样本的不同响应时由维度或幅度引起的误差。该操作如下式所示:ndmpk表示将dt矩阵归一化之后的新矩阵,qk表示ndm矩阵中第k列数据。[0026]第3步:利用下式计算响应prpk的发生概率并计算该指标的熵值:,en表示熵值,e表示自然对数;第4步:利用下式计算各响应的信息熵冗余度divk及其熵权值ewk。[0027],用于权重计算的ewm削弱了一些非典型属性的微弱影响,并产生了较为精确和合理的评估。因此,每个样本在不同最近邻域“k”下的lof结果被视为不同样本的响应,而对象p的wmlof值可由下式获得:其中ewk是对应最近邻域“k”的样本权值,将其乘以100的目的是为了更直观地观察并理解wmlof特性。[0028]仿真验证为了验证asw策略的有效性,对故障滚动轴承产生的缺失振动数据进行了仿真模拟。故障滚动轴承的一个显著特征是周期性脉冲,其表示为其中y0是故障脉冲的幅值(y0=3),ξ是阻尼系数(ξ=0.1),ωn是滚动轴承的固有频率,以及相应的共振频率(fre=3,000 hz)。另外,故障特征频率fo设置为100 hz,采样频率fs为20000 hz,采样点数为20000。图3中的(a)描述了模拟的脉冲信号部分示意。图3中的(b)中所示的数据是通过添加高斯白噪声获得的,并且合成信号的信噪比为零。图3中的(c)显示了两个缺失的数据段,它们是通过用高斯白噪声替换0.322 s~0.372 s和0.689 s~0.789 s的原始数据而创建的。对此,将提出的基于asw和wmlof策略的异常数据检测方法应用于异常检测。结果如图3中的(d)和图4所示。基于asw方法的准则,w被设置为100以获得锚点。获取的锚点1&2、3&4、5&6、7&8以及9&10分别生成了5个不同的滑动窗口。事实上,根据锚点5&6和9&10确定asw就足够了。锚点1&2、3&4和7&8产生的滑动窗口是asw的副产品。实际上,由于基于锚点1&2、3&4以及7&8的滑动窗口数据属性与正常数据的属性一致,因此多出来的这3个asw对后续的计算基本没有影响。[0029]如图4中的(a)所示,由锚点5&6和9&10(在图3中的(d)中)生成的asw的wmlof值较大。相比之下,正常数据的wmlof值较小,其变化也较小。这表明wmlof值可有效区分正常对象和异常对象。相应的检测到的缺失数据用虚线矩形表示,如图4中(b)所示。很明显,基于所提出的asw和wmlof策略成功地检测到了两个具有不同尺度大小缺失数据的片段。此外,对比分析了几个固定长度滑动窗口下的wmlof值,以说明传统滑动窗口的缺点和asw策略的优点。如图5中的(a)、(b)所示,固定长度的滑动窗大小设置为100。除异常缺失段两端的数据外,未检测到主要缺失数据,这表明窗口长度较小会导致数据泄漏,因此无法完全检测到异常数据。因此,只有缺失段数据两端的wmlof值高于阈值,而大部分缺失数据的wmlof值均低于阈值,导致缺失数据的检测不正确。[0030]除了小尺度的固定长度滑动窗不能正常检测到异常数据,大尺度的滑动窗同样也不能取得令人满意的效果。图6中的(a)、(b)、(c)分别展示了长度分别为250、500和1000的滑动窗口下每个研究对象的wmlof值。这三种情况下均无法正确检测到缺失数据,因为该滑动窗的尺度无法根据数据属性而进行自适应变化。滑动窗的尺度不变,就无法针对性分析不同尺度下的异常数据。一个小尺度的滑动窗不能完全包含异常数据,而只能检测到异常数据的两端。相反,较大尺度的滑动窗将异常与正常数据混合在一起,这也不利于有效区分正常和异常shm数据的属性差异。通过比较图4、图5和图6可以直观地看出,所提出的asw策略比传统的固定长度滑动窗技术具有更强大的自适应分析能力。asw在处理多个不同尺度的异常数据时仍能够保持其有效性,这对于高效处理复杂的shm数据非常重要。[0031]工程应用基于地铁车辆齿轮箱数据的异常检测对地铁车辆齿轮箱的实测数据进行了研究,以说明本实施例技术的有效性和普适性。齿轮箱上安装了加速度计,采样频率设为10 000hz。当铁路车辆在线路上实际运行时,会受到诸多轮轨不平顺的激励,从而导致车辆部件的剧烈振动响应。图7中(a)显示了由于传感器故障或连接头损坏而导致数据漂移情况。这种异常现象经常出现在实测shm数据中。为提高数据质量,必须对该异常数据进行检测并剔除,以便准确提取shm数据中的物理信息。将本发明提出的异常数据检测方法用于齿轮箱振动数据处理。其中,w设置为1 000。基于asw策略获得关于齿轮箱振动数据的锚点如图7中的(b)所示。图7中的(c)描绘了基于wmlof方法的每个对象的异常程度。其中一个asw的wmlof值明显大于阈值,这对应于如图7中 (a)的矩形框所示,证明本方法准确地检测到异常漂移段。上述进一步说明本实施例提出的asw策略和wmlof方法不仅适用于shm数据中的异常缺失现象,而且能够有效地检测漂移数据。[0032]基于台架试验数据的异常检测使用台架试验数据进一步验证了所提方法的有效性。使用激光位移传感器测量构件的位移数据。采样频率为5000 hz。图8中的(a)描绘了激光位移的原始测量信号波形。在实验过程中,通过在7~12 s内两次触摸传感器来引入相关干扰,以产生异常数据,可以看出在原始信号中很难直接分辨出该干扰。应用asw和wmlof对异常数据进行检测。asw的w被设置为500,所获得的系列锚点在图8中的(b)中得以展示。图8中的(c)表示基于wmlof值检测到的异常片段。如图8中的(a)所示,异常数据检测结果由矩形指示。可知7.8 s至8.8 s和10.2 s至11.1 s期间的激光位移监测数据为异常数据,这与预期一致。结果表明,所提出的方法可以在检测异常shm数据方面获得良好的性能,即使这些异常数据非常轻微或者甚至肉眼不可见。[0033]结论为提高数据质量,本实施例提出了一种新颖的shm数据异常检测方法,包括asw和wmlof。首先提出一种asw方法来避免由固定长度的滑动窗引起的数据泄漏和冗余,并获得一系列最优切割后的数据片段。然后,得益于wmlof在评估和融合多尺度lof特征方面的优势,wmlof用于提取基于asw切割后的片段的异常特征并评估异常程度。利用故障滚动轴承的仿真数据和从铁路车辆齿轮箱和台架试验中收集的实测数据来评估所提方法的有效性。实验结果表明,提出的基于asw和wmlof策略的异常数据检测方法,即使异常数据十分轻微,也能很好地检测出典型的数据缺失和漂移异常。[0034]以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部