发布信息

用于训练机器学习模型的多模态时间序列数据的增强

作者:admin      2022-08-27 13:52:41     843



计算;推算;计数设备的制造及其应用技术1.本发明涉及训练用于预测工业时间相关过程的预测数据驱动模型。特别地,本发明涉及用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的设备和方法,涉及用于预测工业时间相关过程的装置和方法,以及计算机程序产品和计算机可读介质。背景技术:2.鉴于当前的处理能力,现在可以实现复杂的神经网络来执行各种任务。例如,神经网络已在时间序列的准确预测中实现,这是许多行业决策过程中的重要组成部分,有助于公司内的许多运营流程的优化。近年来,递归神经网络(rnn)模型已成为在广泛应用中对序列数据进行建模的最成功的方法。3.神经网络是通过学习来配置的,该学习可以称为训练阶段。在用于对序列数据建模的训练阶段中,训练数据由神经网络处理。因此,旨在让神经网络通过泛化它在训练阶段中从训练数据中学习到的信息来学习如何执行时间序列的预测。4.在训练特别复杂的神经网络(即具有大量参数的神经网络)时可能出现的一个问题是过拟合。当神经网络简单地记住它提供的训练数据,而不是很好地泛化到新的示例时,就会发生过拟合。通常,随着神经网络的复杂性增加,过拟合问题越来越容易发生。5.通过向神经网络提供更多的训练数据,可以减轻过拟合。然而,训练数据的收集是一项费力且昂贵的任务。例如,来自真实世界工业过程(例如化工厂、负荷预测、电池放电)的时间序列操作数据通常难以大量测量,而且生产非常慢且成本高昂,这对需要大量数据的复杂非线性机器学习模型(诸如rnn)的训练提出了挑战。此外,这种过程可能经常受到过程动态的逐渐或突然变化的影响,这是由真实世界环境中通常不可避免的非平稳性引起的。这可进而导致从过程中收集的时间序列数据基础下的分布发生轻微变化,从而在尝试使用标准机器学习模型进行长期预测时导致进一步的问题。最后,收集和处理新的真实世界数据所涉及的费用和困难可能经常导致无法快速获得新数据,这可能阻碍各种成功的协变量转移和域适应策略的有效实现。技术实现要素:6.可能需要改进用于预测工业时间相关过程的预测数据驱动模型的训练。7.本发明的目的通过独立权利要求的主题来解决,其中进一步的实施例并入从属权利要求中。应当注意,本发明的以下描述的方面也适用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的设备和方法、用于预测工业时间相关过程的装置和方法、计算机程序产品和计算机可读介质。8.根据本发明的第一方面,提供了一种用于生成合成样本的设备,所述合成样本用于扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集。该设备包括输入单元、处理单元和输出单元。输入单元被配置为接收指示工业时间相关过程发生的条件的至少一个条件参数和提供用于量化工业时间相关过程的至少一个kpi的历史数据。处理单元被配置为应用数据驱动生成模型以从历史数据中导出至少一个条件参数和至少一个kpi的合成样本。基于包括至少一个条件参数和至少一个kpi的真实数据示例的训练数据集对数据驱动生成模型进行参数化或训练。输出单元被配置为向预测数据驱动模型的训练数据集提供合成样本。9.换句话说,提出了一种数据驱动生成模型,并且通过学习不同模态的联合时间相关表示来建模和生成具有多种模态的复杂序列数据。数据驱动生成模型不是生成真实值时间序列,而是用于探索数据增强的各个方面,其中数据驱动生成模型学习不同模态的联合时间相关表示,并尝试生成代表新合成训练数据的相似数据样本,以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集。使用在训练集上训练的生成模型,可以从训练分布中生成新样本,并使用这些样本增强预测数据驱动模型的训练数据集。在一些示例中,可以对正在生成的样本的特性应用一些控制措施,以便取决于任务要求指导生成的样本,并且从而在我们采用这些生成的样本增强训练集时增加训练集的跨度。采用更多的训练数据(即除了历史真实世界数据之外的合成训练数据),可以减轻过拟合。因此,用于预测工业时间相关过程的预测数据驱动模型可以很好地泛化到新示例,而不是简单地记住它提供的训练数据。数据增强可有利于增加模型的泛化,并且从而减少在真实世界数据很少可用的情况下的误差。训练集的增加跨度也可能有利于弥合训练集和测试集之间的差距,从而提高模型的泛化性能。10.数据驱动生成模型被配置为再现至少两种模态之间的关系:至少一个条件参数和至少一个kpi。不同的模态由不同的统计特性表征。由于至少一个条件参数和至少一个kpi的不同统计特性,发现至少两种不同模态之间的关系是非常重要的。数据驱动生成模型可用于表示不同模态的联合表示。可选地,数据驱动生成模型可以能够在给定观察模态的情况下填补缺失的模态。11.在一些示例中,生成模型可以被配置为确切地再现两种模态,即一个条件参数(例如温度)和一个kpi之间的关系。12.在一些示例中,生成模型可以被配置为再现多于两个模态之间的关系。例如,一个或多个条件参数(例如温度、压力和流率)可以在第一模态中聚合。可以由多个变量表示的原材料质量可以在第二模态中聚合。第三模态可以是一个kpi。13.在一些情况下,可以使用多于两个的kpi来量化工业时间相关过程。在这种情况下,多个kpi不会以一种模态聚合。相反,每个kpi可以表示为单独的模态。例如,两个kpi可以表示为两种不同的模态,并且三个kpi可以表示为三种不同的模态。14.数据驱动生成模型也用于重现至少两种模态之间的时间相关关系。例如,数据驱动生成模型可尝试产生与作为输入给出的操作参数和kpi非常相似的时间序列,只有很小的差异是由来自联合后验的潜在变量的随机采样引起的。以该方式,可以产生足够的时间序列操作数据,以用于需要大量数据的复杂非线性机器学习模型(诸如rnn)的训练。15.与能够为分类问题生成时间序列的现有生成模型(例如,chung等人,2015年)或能够为分类问题生成多模态数据的生成模型(例如,wu和goodman,2018年)不同,所提出的数据驱动生成模型用于生成多模态时间序列,不仅用于分类,还用于回归问题。数据驱动生成模型还可以通过启用基于所有模态上的无条件联合后验分布或基于任何模态子集的条件分布的生成来提供对所生成样本的控制措施。16.数据驱动生成模型基于历史数据进行参数化或训练。数据驱动生成模型可以包括潜在变量生成模型,例如多模态变分自动编码器(mvae)。在适合处理时间序列的神经网络的帮助下生成潜在表示,即压缩特征向量。例如,rnn可用于生成潜在表示。然后,潜在表示通过使用数据驱动生成模型来生成合成数据。17.两种模态(即至少一个条件参数和至少一个kpi)的合成数据可以通过以各种方式采样来生成。在第一种情况下,合成数据可以从没有模态作为输入的先验分布生成。生成的合成数据集将是完全独立的数据集,其中保持操作参数和kpi之间的函数关系。在第二种情况下,可以以操作参数为条件从后验生成合成数据。生成的操作条件应该与用作输入/条件处理的操作参数非常相似,并且生成模型将尝试生成与用作输入的操作参数在功能上仍然适当相关的kpi。这也适用于第三种情况,其中合成数据以至少一个kpi为条件从后验生成。在第四种情况下,合成数据可以以操作参数和kpi为条件从后验生成。生成模型将尝试产生与作为输入给出的操作参数和kpi非常相似的时间序列,只有很小的差异是由来自联合后验的潜在变量的随机采样引起的。18.诸如通过从给定输入值的缺失模态上的条件分布中采样,例如使用经训练的数据驱动生成模型,可以生成地填充具有缺失值的模态。输入值可以用于另一模态和/或用于与缺失值的模态相同模态的元素。在一些示例中,数据驱动生成模型可以将输入值用于比用于训练生成模型的模态数量更少的数据模态。19.在一些示例中,可以使用现有的操作参数或kpi来对数据驱动生成模型进行条件处理,以取决于任务要求来指导生成的样本。因此,可以创建合成训练数据来模拟尚未遇到或很少遇到的情况,从而克服实际数据使用限制。对数据驱动生成模型进行条件处理可能对过程参数紧密匹配的过程工业有益。例如,如果我们想用条件参数具有极值的数据来训练模型,这可能很难采用真实数据来做,因为在该情况下运行反应器可能非常昂贵且效率低下,并且甚至可能损坏工厂。相反,我们将向我们的生成模型提供这些极值并获得生成的kpi,该kpi将模拟在这些条件下在反应器中发生的情况。同样,如果我们想针对特定类型的kpi周期(例如最优或次优生产)训练我们的模型,可以将这些类型的kpi周期提供给生成模型以生成对应的操作参数。20.历史数据也可以称为真实世界数据。例如,历史数据可以包括从多个生产运行和/或多个工厂中的相似或相同类型的化学物质、组件、装备和/或系统收集的数据。将多个生产运行合并训练可允许覆盖相同或不同工厂的不同操作条件。21.在一些示例中,条件可以包括操作条件,诸如化学工艺装备的反应气体的压力、温度、流率和湿度。条件参数可以包括操作参数,即指示操作状态的量。例如,这种量可与例如在化学生产工厂的生产运行期间收集的测量数据有关,并且可能直接或间接地从该测量数据中导出。例如,测量数据可以包括通过安装在化学生产工厂中的传感器测量的传感器数据、直接或间接从这种传感器数据导出的量。传感器数据可以包括借助于安装的传感器(例如温度传感器、压力传感器、流率传感器等)在化学生产工厂中可用的测量量。在一些示例中,条件可以包括存储条件,诸如酶的存储温度。22.工业时间相关过程可以具有用于量化工业时间相关过程的一个或多个kpi。该一个或多个kpi可以表示数据驱动生成模型中的一个或多个模态。该一个或多个kpi可选自如下参数,其包括:包含在一组测量过程和/或存储条件数据中的参数,和/或表示包含在一组测量过程和/或存储条件数据中的一个或多个参数的函数的导出参数。换句话说,一个或多个kpi可以包括直接使用传感器(例如,温度传感器或压力传感器)测量的参数。一个或多个kpi可替代地或另外地包括通过代理变量间接获得的参数。例如,虽然催化剂活性不是直接在过程数据中测量的,但它本身表现为降低的过程的产率和/或转化率。一个或多个kpi可以由用户(例如过程操作员)或由统计模型(例如在相关过程和/或存储条件数据的多元空间中测量装备“健康”状态距离的异常分数,诸如从主成分分析(pca)导出的hotelling t2分数或dmodx距离)定义。这里,健康状态可以指在历史过程和/或存储条件数据的时段期间通常观察到的大部分状态,该状态被生产过程的专家标记为“正常”/“无问题”/“良好”。23.在一些示例中,工业时间相关过程的预测可用于识别化学物质、组件、装备和/或系统是否偏离或将偏离其典型行为。在一些示例中,工业时间相关过程的预测可用于识别化学物质、组件、装备和/或系统的现成性能。24.根据本发明的实施例,合成样本包括代表至少一个条件参数和至少一个kpi的时间序列的合成序列。25.可以在适合处理时间序列的神经网络(例如rnn)的帮助下生成潜在表示,即压缩特征向量。26.根据本发明的实施例,数据驱动生成模型包括以至少一个条件参数和至少一个kpi作为输入以及以至少一个条件参数和至少一个kpi的合成序列作为输出的rnn-mvae模型。rnn-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个递归神经网络(rnn),该两个递归神经网络(rnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个rnn,该两个rnn充当至少一个kpi的编码器-解码器对。27.换句话说,rnn-mvae模型是一种mvae模型,该mvae模型使用rnn作为序列模态的编码器和解码器网络,为所有模态的整个序列生成单个联合后验。28.rnn具有隐藏状态或“记忆”,允许它们记住输入信号的重要特征,该特征只会影响后续时间的输出。29.根据本发明的实施例,数据驱动生成模型包括以至少一个条件参数和至少一个kpi作为输入以及以至少一个条件参数和至少一个kpi的合成序列作为输出的seq-mvae模型。seq-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个kpi的编码器-解码器对。每个解码器和编码器都耦合到相应的递归神经网络(rnn)。对于每个时间点,seq-mvae的输出被聚合成代表合成序列的向量。30.换句话说,seq-mvae模型使用基本的mvae架构一次生成单个多模态时间样本,同时使用rnn来保持跨越每个序列内在不同时间点生成的样本的时间上下文和相关性。31.seq-mvae可以很容易地合并非序列模态,只需在多个时间步长之后、每个时间步长或在时间序列开始时重复证明它们是当前模态。seq-mvae的另一个优点可以是模型能够从以任何模态组合为条件的联合后验分布中采样的能力。这可以实现基于任何提供的模态来调节模型的后验,无论它们是顺序的还是非顺序的,从而在很大程度上控制为数据增强而生成的多模态序列的特性,并使模型能够对缺失值插补。32.根据本发明的实施例,rnn包括以下至少之一:回声状态网络(esn)、门控递归单元(gru)网络、常微分方程(ode)网络,以及长短期记忆(lstm)网络。33.例如,esn使用非常大的随机初始化权重矩阵,其本质上充当输入的随机特征扩展,结合过去输入的递归映射;统称为“存储库”。由于唯一学习的参数是用于最终预测的线性模型的权重,因此可以在较小的数据集上训练esn,而不会冒太多过拟合的风险。34.用于处理rnn中梯度消失问题的另一个示例性架构是长短期记忆(lstm)架构。lstm像往常一样使用误差反向传播进行训练,但通过使用称为“单元状态”的附加状态向量以及通常的隐藏状态来避免梯度消失的问题。由于对调节单元状态的门进行建模需要多个层,lstm可能需要大量的训练数据以避免过拟合。尽管它很复杂,但lstm梯度的稳定性使其非常适合具有长期相关性的时间序列问题。35.根据本发明的第二方面,提供了一种用于预测工业时间相关过程的装置。该装置包括输入单元、处理单元和输出单元。输入单元被配置为接收指示工业时间相关过程当前发生的当前条件的当前测量的数据。提供至少一个关键性能指标(kpi)用于量化工业时间相关过程。输入单元被配置为接收指示工业时间相关过程将在预测范围内发生的未来条件的至少一个预期条件参数。处理单元被配置为将预测数据驱动模型应用于包括当前测量数据和至少一个预期条件参数的输入数据集,以估计预测范围内的至少一个kpi的未来值,其中预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本。输出单元被配置为提供预测范围内的至少一个kpi的未来值的预测,该预测可用于监视和/或控制工业时间相关过程。36.合成样本是指人工创建的合成数据,而不是由实际事件生成的数据。合成样本可以在不暴露真实数据的情况下复制历史真实世界数据的重要统计特性。构建合成样本的一种方法可能是从分布中提取数字。该方法通过观察真实的统计分布和再现合成数据来工作。该方法还可以包括生成模型的创建,该生成模型可以使用历史真实数据来建立。生成模型的示例是如上面和下面所述的生成数据驱动模型。37.可选地,合成样本可以由根据第一方面和任何相关联示例的设备提供。38.换句话说,工业时间相关过程的预测可用于基于一系列已知条件识别化学物质、组件、装备和/或系统将在未来偏离其典型行为的程度。示例是工业老化过程的预测,这是一种影响,其中诸如电池或化学工艺装备的组件会遭受某种形式的材料劣化,在整个生命周期内出现故障的可能性越来越大。老化装备是指有证据或有可能自新装备以来发生重大劣化和损坏的装备,或者没有足够的信息和知识可用于了解该可能性存在的程度的装备。劣化和损坏的重要性与对装备功能、可用性、可靠性和安全性的潜在影响有关。仅仅因为一件装备是旧的并不一定意味着它显著劣化和损坏。所有类型的装备都可能容易受到老化机制影响。老化机制的示例可包括腐蚀、侵蚀、疲劳、脆化、风化、由于温度变化(过程或环境)或冻结引起的膨胀/收缩、检测器中毒、沉降。总体而言,老化工厂(或装备或化学物质)是指由于其完整性或功能性能劣化或过时而不再被认为或可能不再被认为完全适合用途的工厂(或装备或化学物质)。“老化”与实际年限没有直接关系。存在非常旧的工厂仍然完全适合用途以及例如由于腐蚀、疲劳或侵蚀失效引起最近的工厂示出加速或过早老化的证据的许多示例。39.采用更多的训练数据(包括合成训练数据和历史真实世界数据),可以减轻过拟合。因此,用于预测工业时间相关过程的预测数据驱动模型可以很好地泛化到新示例,而不是简单地记住它提供的训练数据。数据增强可有利于增加模型的泛化,并且从而在真实世界数据很少可用的情况下减少误差。这也可能增加训练集的跨度,可以帮助我们弥合训练集和测试集之间的差距,并且从而提高模型的泛化性能。40.根据本发明的第三方面,提供了一种用于预测工业时间相关过程的装置。该装置包括输入单元、处理单元和输出单元。输入单元被配置为接收指示工业时间相关过程发生的过去条件的先前测量数据,其中提供至少一个关键性能指标(kpi)用于量化工业时间相关过程。输入单元被配置为接收指示工业时间相关过程当前发生的当前条件的至少一个条件参数。处理单元被配置为将预测数据驱动模型应用于包括先前测量的数据和至少一个条件参数的输入数据集以估计至少一个kpi的当前值,其中预测数据驱动模型根据训练数据集进行参数化或者训练,该训练数据集包括至少一个条件参数、至少一个kpi的历史数据以及所提供的至少一个条件参数和至少一个kpi的合成样本。输出单元被配置为提供至少一个kpi的当前值的预测,该预测可用于监视和/或控制工业时间相关过程。41.可选地,合成样本可以由根据第一方面和任何相关联示例的设备提供。换句话说,工业时间相关过程的预测可用于识别化学物质、组件、装备和/或系统的当前性能(例如,现成性能)。进一步的示例可以包括酶的保质期性能的预测,即酶是否在特定的存储条件下失去其活性一段时间。42.同样,采用更多的训练数据(包括合成训练数据和历史真实世界数据),可以减轻过拟合。因此,用于预测工业时间相关过程的预测数据驱动模型可以很好地泛化到新示例,而不是简单地记住它提供的训练数据。数据增强可以有利于增加模型的泛化,并且从而减少在真实世界数据很少可用的场景下的误差。这也可增加训练集的跨度,可以帮助我们弥合训练集和测试集之间的差距,并且从而提高模型的泛化性能。43.根据本发明的第四方面,提供了一种生成合成样本的方法,所述合成样本用于扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集。该方法包括:44.a)经由输入通道接收指示工业时间相关过程发生的条件的至少一个条件参数和提供用于量化工业时间相关过程的至少一个kpi的历史数据;45.b)经由处理器应用数据驱动生成模型以从历史数据中生成至少一个条件参数和至少一个kpi的合成样本,其中基于包括至少一个条件参数和至少一个kpi的真实数据示例的训练数据集对数据驱动生成模型进行参数化或训练;以及46.c)经由输出通道向预测数据驱动模型的训练数据集提供合成样本。47.根据本发明的实施例,合成样本包括代表至少一个条件参数和至少一个kpi的时间序列的合成序列。48.根据本发明的实施例,数据驱动生成模型包括以至少一个条件参数和至少一个kpi作为输入以及以至少一个条件参数和至少一个kpi的合成序列作为输出的rnn-mvae模型。rnn-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个递归神经网络(rnn),该两个递归神经网络(rnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个rnn,该两个rnn充当至少一个kpi的编码器-解码器对。49.根据本发明的实施例,数据驱动生成模型包括以至少一个条件参数和至少一个kpi作为初始输入以及以至少一个条件参数和至少一个kpi的合成样本作为输出的seq-mvae模型。seq-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个kpi的编码器-解码器对。每个解码器和编码器都耦合到相应的递归神经网络(rnn)。对于每个时间点,seq-mvae的输出被聚合成代表合成序列的向量。50.seq-mvae的输出被聚合成一个向量的事实与解码器与rnn的耦合方式无关。这两个步骤可以并行发生。51.根据本发明的第五方面,提供了一种用于预测工业时间相关过程的方法。该方法包括:52.a)经由输入通道接收指示工业时间相关过程当前发生的当前条件的当前测量数据,其中提供至少一个关键性能指标(kpi)用于量化工业时间相关过程;53.b)经由输入通道接收指示工业时间相关过程将在预测范围内发生的未来条件的至少一个预期条件参数;54.c)经由处理器将预测数据驱动模型应用于包括当前测量数据和至少一个预期条件参数的输入数据集,以估计预测范围内的至少一个kpi的未来值,其中预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本;以及55.d)经由输出通道提供预测范围内至少一个kpi的未来值的预测,该预测可用于监视和/或控制工业时间相关过程。56.可选地,可以通过根据第四方面和任何相关联示例的方法来提供合成样本。57.根据本发明的第六方面,提供了一种用于预测工业时间相关过程的方法,包括:58.a)经由输入通道接收指示工业时间相关过程发生的过去条件的先前测量数据,其中提供至少一个关键性能指标kpi用于量化工业时间相关过程;59.b)经由输入通道接收指示工业时间相关过程当前发生的当前条件的至少一个条件参数;60.c)经由处理器将预测数据驱动模型应用于包括先前测量的数据和至少一个条件参数的输入数据集,以估计至少一个kpi的当前值,其中预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数、至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本;以及61.d)经由输出通道提供至少一个kpi的当前值的预测,该预测可用于监视和/或控制工业时间相关过程。62.可选地,可以通过根据第四方面和任何相关联示例的方法来提供合成样本。63.根据本发明的另一方面,提供一种计算机程序产品,该计算机程序产品包括具有用于执行上述方法的程序代码的计算机程序。64.根据本发明的另一方面,提供根据第四方面和任何相关联示例生成的合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的用途。65.根据本发明的另一方面,提供了一种存储有上述程序元素的计算机可读介质。66.有利地,任何上述方面和示例所提供的益处同样适用于所有其它方面和示例,反之亦然。67.如在此所使用的,术语“预测数据驱动模型”可以指根据训练数据集参数化以反映工业时间相关过程的动态的经训练的数学模型。在一些示例中,预测数据驱动模型可以包括数据驱动机器学习模型。如在此所使用的,术语“机器学习”可以指一种统计方法,该方法使机器能够从数据中“学习”任务而无需显式编程,而是依赖于数据中的模式。机器学习技术可包括“传统机器学习”——人工选择特征并且然后训练模型的工作流程。传统机器学习技术的示例可包括决策树、支持向量机和集成方法。在一些示例中,数据驱动模型可以包括数据驱动深度学习模型。深度学习是以人脑的神经通路松散地建模的机器学习的子集。深度是指输入层和输出层之间的多层。在深度学习中,算法会自动学习哪些特征是有用的。深度学习技术的示例可包括卷积神经网络(cnn)、递归神经网络(例如长短期记忆或lstm)和深度q网络。机器学习和相应软件框架的一般介绍在“machine learning and deep learning frameworks and libraries for large-scale data mining:a survey”;artificial intelligence review;giang nguyen等,2019年6月,volume 52,issue 1,pp 77–124中描述。预测数据驱动模型可以包括有状态模型,其是具有隐藏状态的机器学习模型,该隐藏状态随着新的时间步长持续更新并且包含关于整个过去时间序列的信息。可替代地,预测数据驱动模型可以包括无状态模型,该模型是机器学习模型,其预测仅基于当前操作之前的固定时间窗口内的输入。换句话说,无状态模型还依赖于过去的劣化kpi值和输入端的操作参数。可替代地,数据驱动模型可以包括混合模型,即有状态模型和无状态模型的组合,其中,有状态模型可以包括关于由具有预定义结构的函数表示的过程的机械预信息和估计该函数的参数的有状态模型的组合。68.如在此所使用的,术语“当前”是指最近的测量,因为某些装备的测量可能不是实时执行的。69.如在此所使用的,术语“未来”是指预测范围内的某个时间点。装备劣化的有用预测范围可能在数小时和数月之间。应用的预测范围由两个因素确定。首先,预测必须足够准确以用作决策的基础。为了达到准确性,未来生产计划的输入数据必须可用,这仅适用于未来有限的几天或几周的情况。此外,由于潜在的预测模型结构或定义不明确的参数,预测模型本身可能缺乏准确性,这是用于模型识别的历史数据集的噪声和有限性质的结果。其次,预测范围必须足够长以解决相关的操作问题,诸如采取维护行动、制定计划决策。70.如在此所使用的,术语“单元”或“通道”可以指代、作为其一部分或包括执行一个或多个软件或固件程序、组合逻辑电路和/或提供所述功能的其它合适组件的专用集成电路(asic)、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用或组)。71.如在此所使用的,术语“算法”可以指训练模型做你想让它做的事情的一组规则或指令。72.如在此所使用的,术语“模型”可以指预测给定一组输入的输出的训练程序。73.如在此所使用的,术语“分类”可以指使用模型从为训练给出的输入值中得出一些结论。它将预测新数据的类标签/类别。分类中的输出变量是分类的(或离散的)。74.如在此所使用的,术语“回归”可以指使用模型来基于模型输入与其输出之间的函数相关性来预测输出变量的值。回归中的输出变量是数值的(或连续的)。75.本发明的这些和其它方面将从下面描述的实施例中变得明显并且参考下面描述的实施例来阐明。附图说明76.本发明的这些和其它方面将从以下描述中通过示例描述的实施例并参考附图将变得明显并进一步阐明,在附图中77.图1示意性地示出根据本公开的一些实施例的用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的设备。78.图2a至2c示出mvae模型的示例,其示出在缺失模态的不同组合下如何生成所有模态。79.图3示出工业动态过程中常见场景的seq-mvae架构的可视化。80.图4示出rnn-mvae、seq-mvae和lstm预测模型的预测性能比较。81.图5示出lstm模型从由rnn-mvae模型生成的条件参数(pc)预测的kpi,并将它们与相应生成的kpi进行比较。82.图6示出lstm模型从由seq-mvae模型生成的pc预测的kpi,并将它们与相应生成的kpi进行比较。83.图7示出seq-mvae模型与lstm预测模型对真实数据集的预测性能的比较。84.图8示出在训练集上训练的预测lstm的性能,该训练集由使用不同类型的条件处理生成的不同量的样本增强。85.图9示意性地示出根据本公开的一些实施例的用于预测工业时间相关过程的装置。86.图10示意性地示出根据本公开的一些其它实施例的用于预测工业时间相关过程的装置。87.图11示出图示根据本公开的一些实施例的用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的方法的流程图。88.图12示出根据本公开的一些实施例的用于预测工业时间相关过程的方法的流程图。89.图13示出根据本公开的一些其它实施例的用于预测工业时间相关过程的方法的流程图。90.应当注意,这些附图纯粹是示意性的而不是按比例绘制的。在附图中,与已经描述的元件对应的元件可以具有相同的附图标记。示例、实施例或可选特征,无论是否指示为非限制性的,都不应被理解为限制所要求保护的本发明。具体实施方式91.机器学习越来越多地应用于工业应用。机器学习需要大量的训练数据,覆盖足够多的变化以及足够大的测试数据集来测试经训练的模型的质量。这可能是工业应用中的主要挑战,因为数据是在生产运行期间生成的。这可能限制收集更多数据的可用性。取决于生产周期的长度(例如,月、年),收集训练数据可能变得更具挑战性。92.例如,在化工行业过程行为的预测中,一些问题可能限制非线性机器学习模型在真实世界数据集上的性能。第一问题可能是真实世界数据的训练集的整体较小的大小,而第二问题可能是由于过程和/或存储条件数据分布的变化引起的训练集和测试集之间的微小动态差异。93.过程数据分布的变化可能例如由以下原因引起:反应器中的催化剂床交换、工厂装备的变化、进料浓度的变化等。94.训练数据集和测试数据集之间的差异问题可能难以克服,因为与训练集不同的学习和建模模式和/或动态超出了机器学习的范围,并且因此任何机器学习模型都无法在没有关于测试数据的任何进一步信息的情况下实现。95.出于该原因,提出了经由数据驱动生成模型进行数据增强,以减少训练集的较小大小和/或训练集和测试集之间的微小动态差异的负面影响。96.图1示意性地示出用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的设备10的示例。在一些示例中,工业时间相关过程的预测可用于识别化学物质、组件、装备和/或系统是否正在偏离或将偏离其未来的典型行为。在一些示例中,工业时间相关过程的预测可用于识别化学物质、组件、装备和/或系统的现成性能。97.设备10包括输入单元12、处理单元14和输出单元16。输入单元12、处理单元14和输出单元16可以是软件或专用于运行所述软件的硬件,用于传递相应的功能或服务。每个单元可以是如下的一部分或包括如下:执行一个或多个软件或固件程序的asic、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供所述功能的其它合适组件。98.输入单元12被配置为接收指示工业时间相关过程发生的条件的至少一个条件参数和提供用于量化工业时间相关过程的至少一个kpi的历史数据。条件的示例可以包括操作条件和存储条件。条件参数可以包括操作参数和/或存储参数。99.该至少一个kpi可以选自包括如下的参数:包含在一组测量过程和/或存储条件数据中的参数,和/或表示包含在一组测量过程和/或存储条件数据中的一个或多个参数的函数的导出参数。该至少一个kpi可以由用户(例如过程操作员)或由统计模型(例如在相关过程和/或存储条件数据的多元空间中测量化学物质、组件、装备和/或系统到“健康”状态的距离的异常分数,诸如从主成分分析(pca)导出的hotelling t2分数或dmodx距离)定义。这里,健康状态可以指在历史过程和/或存储条件数据的时段期间通常观察到的大部分状态,该状态被生产过程的专家标记为“正常”/“无问题”/“良好”。100.历史数据可以包括从相似或相同类型的化学物质、组件、装备和/或系统收集的数据。101.处理单元14被配置为应用数据驱动生成模型以从历史数据中导出至少一个条件参数和至少一个kpi的合成样本。基于包括至少一个条件参数和至少一个kpi的真实数据示例的训练数据集对数据驱动生成模型进行参数化或训练。102.数据驱动生成模型的示例是潜在变量生成模型,例如多模态变分自动编码器(mvae)。在适用于处理时间序列的神经网络(诸如rnn)的帮助下生成潜在表示,即压缩特征向量。然后,潜在表示通过使用数据驱动生成模型来生成合成数据。103.在示例中,数据驱动生成模型可以包括以至少一个条件参数和至少一个kpi作为输入以及以至少一个条件参数和至少一个kpi的合成序列作为输出的rnn-mvae模型。rnn-mvae模型可以包括多模态变分自动编码器(mvae)。mvae可以包括两个递归神经网络(rnn),该两个递归神经网络(rnn)充当至少一个条件参数的编码器-解码器对。mvae可以包括两个rnn,该两个rnn充当至少一个kpi的编码器-解码器对。rnn可以包括以下至少之一:回声状态网络(esn)、门控递归单元(gru)网络、常微分方程(ode)网络以及长短期记忆(lstm)网络。104.在示例中,数据驱动生成模型可以包括以至少一个条件参数和至少一个kpi作为初始输入以及以至少一个条件参数和至少一个kpi的合成样本作为输出的seq-mvae模型。seq-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个kpi的编码器-解码器对。每个解码器和编码器都耦合到相应的递归神经网络(rnn)。对于每个时间点,seq-mvae的输出被聚合成代表合成序列的向量。rnn可以包括以下至少之一:回声状态网络(esn)、门控递归单元(gru)网络、常微分方程(ode)网络以及长短期记忆(lstm)网络。105.输出单元16被配置为向预测数据驱动模型的训练数据集提供合成样本。106.在下文中,我们关注工业老化过程(iap)预测的场景,特别是需要基于由条件参数表示的一系列已知过程条件来预测目标kpi的时间演变。我们从能够建模和生成由多种模态组成的数据的一系列变分自动编码器中汲取见解,以引入能够在任何缺失值组合下学习和生成真正多模态时间序列的模型。我们使用两个iap数据集评估我们的生成模型的有效性。第一个是人工数据集,其中将过程条件与kpi关联的微分方程是已知的。该数据集通过将由我们的新颖生成模型生成的kpi与应用基础微分方程获得的kpi直接进行比较,为明确评估我们的生成模型捕获基础过程动态的能力有多好提供了条件。第二数据集是具有少量序列的真实数据集,它也表现出训练集和测试集之间的轻微动态变化。通过观察当训练集被不同数量的生成序列增强时,测试集上的简单预测模型的预测性能如何变化(这也已经使用不同模态进行调节),使用该数据集再次获得明确评估我们的生成模型有效性的方法。107.1.背景108.变分自动编码器是生成模型,其使用变分推理方案来近似数据的边际似然,这是难以处理的。为了绕过该问题,证据下界(elbo)被最小化:[0109][0110]这里kl(p,q)是两个分布之间的kl-散度,参数λ和β是平衡项,并且分布p和q被参数化为编码和解码神经网络,允许我们使用梯度下降来最小化elbo。在变分自动编码器的上下文中,elbo(方程1)中的第一项表示重建误差,而第二项用于对近似后验进行正则化,确保其表现良好并基于先验实现有效采样p(z)。多模态vae(mvae)的框架是在一系列模型中开发的,该模型试图学习多模态的联合概率分布。[0111]首先,我们将多模态数据定义为n个不同模态x1,x2,...,xn的集合x。中心假设是,给定共同的潜在变量z,各个模态是条件独立的,这意味着可以将联合分布分解为:[0112]pθ(xi,...,xn,z)=pθ(x1|z)...pθ(xn|z)p(z).[0113]具有该形式的联合分布意味着我们可以在评估边际似然时忽略缺失的模态,从而可以仅基于当前存在的模态集来计算elbo,由x={xi|第i个模态存在}给定:[0114][0115]为了处理缺失的模态,单纯的实现方式必须定义2n个推理网络,一个用于缺失模态和当前模态的每种组合。由于模态的条件独立性假设,可以避免该问题,这允许联合后验的以下近似:[0116][0117]这为我们提供了专家产品(poe),包括先验的专家,这通常被视为标准正态分布。poe用于将n个单个模态的分布组合成近似的联合后验。鉴于单个模态的分布都是高斯分布,我们可以基于由n个单模态网络给出的分布替换由有效计算所需的2n个多模态推理网络。例如,图2a至图2c示出mvae模型的示例,示出如何在缺失模态的不同组合下生成所有模态。最后,潜在表示从联合分布中采样,并传递给n个独立的解码器网络,该解码器网络然后生成它们指定的模态。[0118]2.顺序多模态变分自动编码器[0119]上一节介绍的mvae模型只能生成单个样本,并且需要进行调整才能生成顺序数据。首先,我们提出了通过使用rnn作为编码器和解码器来采用mvae模型生成序列数据的直接方法,并论证为什么这种方法是次优的。接下来,我们将介绍我们的seq-mvae模型,其是能够一次生成一个时间点的多模态时间序列的mvae的扩展。[0120]2.1.使用rnn作为编码器和解码器[0121]mvae对序列数据的一种可能扩展将是使用rnn作为序列模态的编码器和解码器网络,为所有模态的整个序列生成单个联合后验。该架构类似于(wu和goodman,2018年)中使用的架构,该架构用于处理序列生成的其它工作。我们将该模型称为rnn-mvae。[0122]2.1.1.rnn-mvae架构[0123]我们通过使用rnn后跟全连接层来参数化每个顺序模态的变分近似后验来开始,如下:[0124]μi,σi=fi,φ(rnni,φ(xi(≤t))),[0125][0126]这意味着我们获得表示给定模态的整个序列的近似后验,因此在使用poe组合特定于模态的分布后,结果是整个多模态序列的一个联合后验分布。[0127][0128]最后,同样是rnn的各个解码器网络使用从联合后验采样的潜在状态z作为初始条件处理,或者将其作为初始隐藏状态包含在内,或者在每个时间步长将其包含在输入中,之后它们尝试重构相应的模态:[0129][0130]2.2.2.模型和训练超参数详细信息[0131]对于seq-mvae模型,编码器和解码器由具有两个隐藏层的全连接网络组成,维度为128,而我们案例中的rnn是lstm,其中一层也具有128的维度。潜在表示的大小为64,我们还通过为每种模态和潜在表示使用大小为128的特征提取器层在网络中共享权重。[0132]对于rnn-mvae,我们为编码器、解码器和潜在表示使用了512维度的lstm,以便允许将更多信息编码到隐藏和潜在状态中,在该情况下,需要描述整个序列的动态。[0133]最后,作为从给定pc预测kpi的预测模型,我们分别对人工和真实世界数据集使用维度为512和128的lstm。生成模型采用adam以10-3的学习率进行训练,在平台期将其降低0.2倍,并使用基于验证集的提前停止。人工数据集使用128的批大小,而真实数据集使用32的批大小。预测模型采用带有nesterov动量的随机梯度下降进行训练,再次以10-3的学习率和0.95的动量进行训练,人工和真实数据集的批大小分别为32和16。以与生成模型相同的方式采用学习率适应和提前停止。[0134]rnn-mvae可具有一定的局限性,因为许多时间序列的动态可能过于复杂,无法仅在rnn-mvae的单个潜在变量中捕获,并且从后验作为单一可变性来源的采样将可能使rnn-mvae努力重建原始时间序列中的时间可变性,特别是对于较长的序列。[0135]2.2以时间相关的方式生成单个多模态序列[0136]为了使生成模型能够更准确地再现任何多模态序列的时间动态,seq-mvae模型使用基本的mvae架构一次生成单个多模态时间样本,同时使用rnn来保持时间上下文以及在每个序列内不同时间点生成的样本之间的相关性。图3给出了工业动态过程中常见场景的整体架构的可视化,它基于简单的示例,相关时间序列作为单独的模态给出,其中一个是单变量而另一个是多变量的。[0137]为了保持符号更统一,我们假设所有模态都是长度为t的时间序列,然而由于模态的独立处理,很容易看出每个模态可以是任意长度的序列,其还包括作为特例的非顺序数据。我们首先描述如何获得时间相关的联合后验。对于每个模态,给定模态xi(t)的当前时间样本以及来自前一个时间点hi(t-1)的隐藏状态,这由用于维护给定模态的时间上下文的rnn产生,模态特定的时间相关后验如下获得:[0138]μi(t),σi(t)=fi,φ(xi(t),hi(t-1))[0139][0140]为了对每种模态的时间上下文进行编码,我们不使用标准的正态先验专家,而是使用取决于先前隐藏状态的神经网络来获得先验(prior)均值和方差:[0141][0142]最后,通过使用poe结合单个模态的近似后验获得当前时间点的联合后验:[0143][0144]解码过程也需要修改,以便确保生成的序列保持适当的时间动态。我们再次使用n个解码网络fi,θ,,每个模态一个,其使用从联合后验采样的潜在表示zi(t)以及隐藏状态hi(t-1)生成新的时间样本:[0145][0146]z(t)~qφ(z(t)|x(≤t),z(<t)).[0147]对于我们的实现方式,我们通过简单地取不同的隐藏状态的平均值来组合它们,从而保持独立于模态数量的先验网络的大小。使用生成的时间样本我们使用rnn更新时间上下文并计算新的隐藏状态集hi(t),这将用于后续时间样本的生成:[0148]hi(t)=rnni(xi(t),z(t)).[0149]最后,方程式(2)中的多模态elbo被修改为时间相关的elbo,其中计算所有存在的模态的损失,如方程式3中所示:elbo的该公式允许直接处理缺失和不同的采样率,只需在值缺失或未被采样的任何时间点省略模态即可。此外,seq-mvae可以很容易地合并非顺序模态,只需在已经经过多个时间步长后重复证明它们是当前模态即可。在极端情况下,它们只会在序列的开头或每个时间点被包含一次。对于训练,我们建议使用(wu和goodman,2018)中讨论的子采样范式,另外还可以选择在每个序列一次或在序列中的每个时间点排除哪些模态。[0150][0151]2.3对不同模态的条件处理[0152]seq-mvae的另一个主要优势是模型从以任何模态组合为条件的联合后验分布中采样的能力。这使我们能够基于任何提供的模态来调节模型的后验,无论它们是顺序的还是非顺序的,从而使我们能够在很大程度上控制我们想要为数据增强生成的多模态序列的特性,以及使我们的模型能够进行缺失值插补。可以通过以下方式采样生成新的合成样本:从没有模态作为输入的先验分布(1)、从以条件参数(pc)(2)、kpi(3)或两者兼有(4)为条件的后验分布。在第一种情况下,所得的合成样本将是一个完全独立的样本,其中保持pc和kpi之间的功能关系。在第二种情况下,生成的pc应该与用作输入/条件处理的pc非常相似,并且生成模型将尝试生成在功能上仍与用作输入的pc正确相关的kpi。这类似地适用于第三种情况,而在第四种和最后一种情况下,生成模型将尝试产生与作为输入的pc和kpi非常相似的合成样本,只有很小的差异是由来自联合后验的潜在变量的随机采样引起的。[0153]取决于任务要求,采用现有pc或kpi对生成模型进行条件处理可用于指导生成的样本。例如,如果我们想在现实中很少观察到的操作范围内提高模型精度,例如工厂中的低进料负荷(这里,它表示条件参数)。这种情况主要在工厂启动期间观察到,因为大部分时间工厂以最大进料负荷操作。这意味着我们经常没有足够的真实数据来训练具有这种条件参数值的模型。[0154]相反,我们将这些条件参数值提供给生成模型,并获得生成的kpi,该kpi将模拟工厂在这些条件下发生的情况。同样,如果我们想针对特定类型的kpi周期(例如最佳或次优生产)训练我们的模型,可以将这些类型的kpi周期提供给生成模型以生成相应的pc。[0155]3.实验[0156]为了评估我们提出的生成模型,我们分析了来自化学工业的两个示例。这里,我们专注于工业老化过程(iap)的一个特殊情况,即由于焦化导致的非均相催化剂失活,例如石墨形式的元素碳的表面沉积。这种劣化过程最重要的特征之一是明显的记忆效应,其中工厂中的输入值x(t)(我们将其称为条件参数(cp))影响如由一些关键性能指标(kpi)在更晚的时间点t'》t处测量的输出y(t′)。因此,催化剂失活只能在长期时间尺度上观察到,这使得使用机械模型(即描述劣化过程的微分方程组)对这种过程进行建模非常具有挑战性。给定足够的历史数据,我们可以代替地使用机器学习以数据驱动的方式对劣化过程进行建模。然而,真实世界化工厂的数据采集成本非常高,导致缺乏用于训练的历史数据。此外,由于工厂本身的敏感和不断变化的条件,协变量变化经常发生,这使得这是使用生成建模测试数据增强有效性的绝佳场景。在这项工作中,我们考虑两个数据集。第一数据集表示人工数据,该人工数据使用旨在模拟劣化过程的机械模型生成。第二数据集包含来自巴斯夫的一家大型工厂的真实数据。[0157]3.1人工数据集[0158]采用基于确定性机械模型的人工数据的原因是,我们可以知道pc x(t)与其kpi y(t)之间的确切函数关系。由于我们希望我们的生成模型能够学习该关系,我们可以使用我们的机械模型作为基础事实来评估生成模型的性能。[0159]对于我们的人工用例,我们分析了连续操作的固定床反应器中催化剂失活的示例。催化剂随时间推移的失活导致反应过程中的转化率不可接受,这需要催化剂再生或更换。该工艺步骤表征一个周期的结束。[0160]基于过程的当前操作条件和系统不可观察的状态变量(这里为催化剂活性),我们使用机械模型生成大约1000个劣化周期的多变量时间序列[x(t),y(t)],代表25年的历史数据。最终的人工数据集由6个pc x(t)和一个kpi y(t)组成,在该情况下是转换率。催化剂活性a(t)是不可观察的状态变量,并且因此不是数据集的一部分。值得注意的是,系统输出y(t)不仅受当前过程参数x(t)影响,而且还受催化剂活性a(t)影响,其在每个周期中非线性下降。[0161]3.2.真实世界数据集[0162]该数据集比完整的人工数据集小五倍,并且包含巴斯夫的连续大规模生产工厂中醛(ald)生产的过程和/或存储条件数据。这里,我们将只为您简要描述该过程。也在该情况下,反应器中的催化剂遭受结焦,从而导致催化剂活性的降低并增加流体阻力。后者可以通过反应器上增加的压降(δp)来测量。真实世界数据集由12个pc x(t)和一个kpi y(t)组成,并且包含7年的过程和/或存储条件数据,具有属于三个不同催化剂批次的336个劣化周期。由于每个批次催化剂之间的微小差异,每批催化剂的动态略有不同。输入数据集包含四个直接测量的变量,另外八个变量表示工程特征。[0163]3.3.模型和训练[0164]对于这两个化工厂数据集,我们将数据分为两种顺序模态,一种模态包含一个周期的所有pc,而另一种包含kpi。我们不能将pc拆分为单独的模态的原因是模态之间的条件独立性假设。尽管pc本身是独立的,但考虑到控制过程动态和隐藏催化剂活性的微分方程,它们并不是条件独立的,其表示我们的潜在变量z。已知微分方程和催化剂活性状态,具有有关一些pc的信息的情况下,我们可以推断缺失值的可能值。[0165]我们在所有实验中使用相同的seq-mvae和rnn-mvae模型,并保持模型大小相对较小,以降低由于小数据集大小而导致过拟合的风险。此外,作为从给定pc预测kpi的预测模型,我们使用单层lstm。[0166]对于训练,数据集拆分为训练集、验证集和测试集,对于人工数据集的比率为0.8、0.1、0.1,并且对于真实世界数据集的比率为0.68、0.7、0.25。在真实世界的数据集中,来自三个催化剂批次中的两个催化剂批次的数据被洗牌到训练集和验证集中,而测试集仅包含来自第三批次的数据,产生上述协变量偏移。[0167]如前所述,对于生成模型,我们使用半监督程序,其中对于半监督情况,模态作为整个序列被删除而不是一次一个时间点。[0168]4.评估[0169]4.1人工数据集[0170]预测。首先,我们将检查生成模型在第3节中描述的劣化预测场景中如何执行,其中描述催化剂随时间推移劣化的kpi曲线是基于用于控制工厂的pc序列预测的。seq-mvae和rnn-mvae模型二者都没有针对预测进行训练,因为在半监督训练程序期间,未计算缺失模态的损失,因此该模型从未经过明确训练以基于当前的模态完美预测缺失的模态。尽管如此,生成模型应该准确地捕获pc和kpi之间的关系,并且与专用预测模型相比相当好地执行。在图4中,我们可以看到简单rnn-mvae、seq-mvae和lstm预测模型的预测性能比较。如所预期的,rnn-mvae未能捕获序列内动态,并且仅预测平均劣化曲线,rmse为3.44。另一方面,lstm和seq-mvae模型二者都准确地预测了kpi的过程,seq-mvae的误差为1.12,略高于专用预测模型的误差。seq-mvae和预测lstm之间的差异不准确可能是由于没有优先考虑准确的预测的训练程序。修改训练程序以计算排除模态的损失可能会提高性能,但该程序不适用于具有实际缺失值的数据集。[0171]对微分方程建模。人工数据集的主要优点是pc和kpi之间的关系是准确已知的,因此我们可以利用该事实来检查生成模型如何再现这两种模态之间的关系。我们通过使用生成模型来这么做以产生两个顺序模态,然后将生成的pc作为机械模型的输入,以获得与这些生成的pc对应的真实kpi,并且最后计算真实kpi与生成的kpi之间的rmse以获得建模误差,它捕获了生成的模型如何很好地再现机械模型的动态。该设置使我们能够比预测场景更详细地评估模型,因为我们还可以评估采用不同类型条件处理生成的多模态序列(包括没有条件处理生成的全新序列)捕获由机制模型定义的潜在动态的准确度。[0172]rnn-mvae和seq-mvae的结果分别在图5和图6上示出。结果清楚地示出,seq-mvae模型的生成样本质量远高于rnn-mvae的生成样本质量。我们看到rnn-mvae序列几乎没有显示超出长期劣化趋势的内部动态,而seq-mae样本示出接近真实人工数据集的动态的动态,seq-mvae的建模误差在除了模型以kpi为条件的情况外的所有情况中显著更小。[0173]正是这种在kpi上条件处理模型的情况很有趣,因为在该类型的条件处理中发现了两个模型的最大差异建模误差。其原因是,一个特定的kpi周期可以由许多不同的pc组合产生,从而使该情况劣化。由于没有与给定kpi对应的单一pc集,因此预计该类型的任何模型在生成pc时都可能会遇到困难,因此出现更大的误差也就不足为奇了。尽管如此,我们可以看到,对于许多序列,seq-mvae的建模误差很小,较大的平均误差是由其中动态被特别差地捕获的样本子集驱动的。同样有趣的是,看到seq-mvae在没有任何条件处理的情况下生成序列时非常准确地捕获模型动态,建模误差几乎与在kpi和pc二者上条件处理时一样小。[0174]这些结果清楚地示出在高动态序列数据的情况下,seq-mvae架构相对于rnn-mvae的优势。除了劣化的情况外,建模误差都显著更低,并且序列内动态以接近人工数据集本身的动态的方式再现。[0175]4.2.真实世界数据集[0176]预测。与人工数据集一样,我们首先评估seq-mvae模型与预测lstm模型相比如何对iap预测任务执行。结果如图7中所示,与人工数据集不同,我们可以看到seq-mvae优于lstm模型。在小数据和协变量偏移的情况下,seq-mvae的半监督训练程序被证明是一个优势。由于seq-mvae没有被直接训练来预测来自pc的kpi,因此它不会像lstm模型那样过拟合训练集,从而在测试集上导致更好的性能。[0177]数据增强。开发seq-mvae的主要目标是将生成的数据用于小型数据集的数据增强,这就是为什么我们选择通过测量基线预测lstm模型的回归性能在采用来自seq-mvae的数据增强训练数据集时改进了多少来评估生成模型的原因。我们将不同量的生成样本添加到训练数据集中,使用所有四种类型的条件处理生成,并针对每种设置对预测模型进行20次重新训练和重新评估,以获得对由于数据增强导致的性能变化的更稳定估计。在图8中,我们看到了这些评估的结果。我们看到,在添加100个生成的样本后,所有类型的条件处理性能都显著提高,并且在添加350到500个样本后达到最大值。这清楚地表明,在面对少量数据以及训练集和测试集之间的差异时,使用我们的seq-mvae模型进行数据增强可以显著提高预测性能。进一步增加生成的数据量似乎再次开始劣化性能,这意味着需要在真实样本和生成样本之间的某种平衡以实现最优性能。[0178]从基于kpi和无条件模型的后验生成时,可以实现最优整体性能,与仅在原始训练数据上训练的lstm模型的rmse为5.98相比,rmse达到5.19,性能提高了13%。这两种类型的条件处理性能提高的合理原因是它们产生具有更高可变性的数据,kpi条件处理模型具有弱条件处理,允许为相同的kpi生成不同的pc集,而另一个模型完全没有条件处理,并且自由生成全新的样本。采用来自kpi条件模型的样本提高性能的另一个原因是,如图6中所示,lstm预测模型难以正确预测每个周期结束时kpi值的快速上升。当以kpi为条件时,seq-mvae生成与用于条件处理的kpi非常相似的kpi,这导致模型看到kpi值随着不同的附带pc急剧上升的更多示例,使其学会泛化并更准确地预测kpi的指数增长。另一个观察结果是,两种最优执行的条件处理类型在原始训练数据集上也表现出最小的误差减少,再次示出它们产生的样本更加多样化,但差异不会太大以至于它们也会导致误差增加。[0179]最后,我们还检查了预测lstm在仅对由seq-mvae生成的数据进行训练时如何对测试集执行。为了进行公平比较,对于每种类型的条件处理,我们生成了256个样本,数量与训练集相同,并采用与原始训练集相同的超参数来训练lstm。我们重复该程序20次,每次都生成一组新的序列来获得对误差的稳定估计。结果呈现在表1中。有趣的是,这里我们在很大程度上看到了与数据增强相同的模式,其中对以kpi为条件的生成样本进行训练导致最优性能,甚至优于原始训练数据集。没有条件处理生成的数据再次在测试集上具有第二低的误差,其性能与原始训练集相似,而在pc或两种模态上进行条件处理再次导致数据多样性较少,原始训练集上的误差较低,但测试集上的误差较高。该实验再次证实了我们从数据增强实验中得出的结论,即控制生成数据的特性使我们能够产生仍然保持模态之间关系的多样化数据,这对于在具有小数据集和/或协变量变化的场景中提高性能至关重要。[0180][0181]表1[0182]因此,多模态时间序列的seq-mvae生成模型也与缺失数据和非序列模态兼容。该模型还能够生成以已知模式为条件的数据,从而对正在生成的数据类型提供高度控制。我们使用该模型来解决在真实世界过程中的许多数据集中遇到的具有挑战性的机器学习场景,其中数据稀缺并且受协变量变化影响。以预测工业老化过程的问题为例来研究,我们示出我们的生成模型能够学习和重建不同模态内部和之间的时间动态,并示出控制正在生成的数据的特性对于通过数据增强实现最优性能改进至关重要。[0183]图9示意性地示出用于预测工业时间相关过程,特别是用于预测kpi的未来值的装置100a。[0184]装置100a包括输入单元110a、处理单元120a和输出单元130a。输入单元110a、处理单元120a和输出单元130a可以是软件或专用于运行所述软件的硬件,用于传递相应的功能或服务。每个单元可以是如下的一部分或包括如下:执行一个或多个软件或固件程序的asic、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供所述功能的其它合适组件。[0185]输入单元110a被配置为接收指示工业时间相关过程当前发生的当前条件的当前测量的数据。提供至少一个关键性能指标(kpi)用于量化工业时间相关过程。[0186]可以取决于用例选择至少一个kpi。以工业老化过程为例,尽管化工生产厂中受影响的资产类型种类繁多,并且其背后的物理或化学劣化过程完全不同,但表示一个或多个劣化kpi的所选参数可具有下列特征中的至少一个:[0187]在比典型生产时间尺度更长的时间尺度上,例如不连续过程的批处理时间或连续过程的设定点变化之间的典型时间,所选参数基本上单调地变化为更高或更低的值,从而指示不可逆劣化现象的发生。术语“单调的”或“单调地”是指表示劣化kpi的所选参数在较长时间尺度(例如劣化周期的时间尺度)上增加或减少,而在较短时间尺度上的波动不会影响该趋势。在较短的时间尺度上,所选参数可表现出波动,该波动并非由劣化过程本身驱动,而是由变化的条件参数或背景变量(诸如环境温度)驱动。换句话说,一个或多个劣化kpi在很大程度上由条件参数而不是由不受控制的外部因素(诸如有缺陷的管道爆裂、变化的外部温度或变化的原材料质量)确定。[0188]在再生阶段之后,所选参数可返回到它们的基线。如在此所使用的,术语“再生”可指逆转劣化的任何事件/程序,包括工艺装备或催化剂的更换、工艺装备的清洁、催化剂的原位再活化、焦炭层的烧掉等。[0189]输入单元110a被配置为接收指示工业时间相关过程将在预测范围内发生的未来条件的至少一个预期条件参数。[0190]条件参数可以包括例如操作参数和/或存储参数。该至少一个预期条件参数在预测范围内是已知的和/或可控的,而不是不受控制的外部因素。不受控制的外部因素的示例可能包括灾难性事件,诸如有缺陷的管道破裂。不受控制的外部因素的其它示例可包括灾难性较小但更频繁的外部干扰,诸如变化的外部温度或变化的原材料质量。换句话说,可以在预测范围内计划或预期一个或多个预期条件参数。[0191]处理单元120a被配置为将预测数据驱动模型应用于包括当前测量数据和至少一个预期条件参数的输入数据集,以估计预测范围内的至少一个kpi的未来值。预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本,它们可选地由如上所述的设备提供。[0192]换句话说,提出了一种用于基于数据驱动模型来预测工业时间相关过程(诸如化学生产工厂中的时间相关过程)的装置。数据驱动模型使用真实世界数据和合成数据进行训练。合成数据从历史数据信息导出,并且表示历史数据中的相关性。合成数据是在神经网络(诸如rnn-mvae或seq-mvae)的帮助下生成的。因此,合成数据增加了训练集的跨度。训练集的增加跨度有助于弥合训练集和测试集之间的差距,并且从而提高预测数据驱动模型的泛化性能。[0193]输出单元130a被配置为提供预测范围内的至少一个kpi的未来值的预测,该预测可用于监视和/或控制工业时间相关过程。[0194]作为应用示例,该方法可用于预测和预报化学生产工厂中的以下劣化过程中的至少一种:由于焦化、烧结和/或中毒导致的非均相催化剂失活;由于焦炭层的形成和/或聚合而堵塞工艺侧的化学工艺装备;由于微生物和/或结晶沉积物而导致热交换器在水侧结垢;以及流化床反应器中安装装备的腐蚀。其它应用示例可包括负载预测和电池放电预测。[0195]图10示意性地示出用于预测工业时间相关过程,特别是用于预测kpi的当前值的装置100b。[0196]装置100b包括输入单元110b、处理单元120b和输出单元130b。输入单元110b、处理单元120b和输出单元130b可以是软件或专用于运行所述软件的硬件,用于传递相应的功能或服务。每个单元可以是如下的一部分或包括如下:执行一个或多个软件或固件程序的asic、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供所述功能的其它合适组件。[0197]输入单元110b被配置为接收指示工业时间相关过程发生的过去条件的先前测量数据。提供至少一个关键性能指标kpi以用于量化工业时间相关过程。[0198]输入单元110b被配置为接收指示工业时间相关过程当前发生的当前条件的至少一个条件参数。[0199]处理单元120b被配置为将预测数据驱动模型应用于包括先前测量的数据和至少一个条件参数的输入数据集,以估计至少一个kpi的当前值。预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本,其可选地由如上所述的设备提供。[0200]换句话说,提出了一种基于数据驱动模型来预测工业时间相关过程(诸如酶的现成性能)的装置。数据驱动模型使用真实世界数据和合成数据进行训练。合成数据从历史数据信息导出,并表示历史数据中的相关性。合成数据是在神经网络(诸如rnn-mvae或seq-mvae)的帮助下生成的。因此,合成数据增加了训练集的跨度。训练集的增加跨度可以帮助我们弥合训练集和测试集之间的差距,并且从而提高预测数据驱动模型的泛化性能。[0201]输出单元130b被配置为提供至少一个kpi的当前值的预测,该预测可用于监视和/或控制工业时间相关过程。[0202]作为应用示例,该方法可用于预测化学物质(例如酶)、组件(例如电池)、装备和/或系统的现成性能。[0203]图11示出图示用于生成合成样本以扩展用于预测工业时间相关过程的预测数据驱动模型的训练数据集的方法200的流程图。[0204]在步骤210中,经由输入通道接收指示工业时间相关过程发生的条件的至少一个条件参数和提供用于量化工业时间相关过程的至少一个kpi的历史数据。在步骤220,即步骤b)中,经由处理器应用数据驱动生成模型,以从历史数据中生成至少一个条件参数和至少一个kpi的合成样本。基于包括至少一个条件参数和至少一个kpi的真实数据示例的训练数据集对数据驱动生成模型进行参数化或训练。[0205]在一些示例中,合成样本可以包括代表至少一个条件参数和至少一个kpi的时间序列的合成序列。[0206]在一些示例中,数据驱动生成模型可以包括以至少一个条件参数和至少一个kpi作为初始输入以及以至少一个条件参数和至少一个kpi的合成样本作为输出的seq-mvae模型。seq-mvae模型包括多模态变分自动编码器(mvae)。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个前馈神经网络(ffnn),该两个前馈神经网络(ffnn)充当至少一个kpi的编码器-解码器对。每个解码器和编码器都耦合到相应的递归神经网络(rnn)。对于每个时间点,seq-mvae的输出被聚合成代表合成序列的向量。[0207]在一些示例中,数据驱动生成模型可以包括以至少一个条件参数和至少一个kpi作为输入以及以至少一个条件参数和至少一个kpi的合成序列作为输出的rnn-mvae模型。rnn-mvae模型包含多模态变分自动编码器(mvae)。mvae包括两个递归神经网络(rnn),该两个递归神经网络(rnn)充当至少一个条件参数的编码器-解码器对。mvae包括两个rnn,该两个rnn充当至少一个kpi的编码器-解码器对。[0208]在步骤230中,合成样本经由输出通道被提供给预测数据驱动模型的训练数据集。[0209]图12示出用于预测工业时间相关过程的方法300a的流程图。[0210]在步骤310a,即步骤a1)中,经由输入通道接收指示工业时间相关过程当前发生的当前条件的当前测量数据。提供至少一个关键性能指标(kpi)用于量化工业时间相关过程。[0211]在步骤320a,即步骤b1)中,经由输入通道接收指示工业时间相关过程将在预测范围内发生的未来条件的至少一个预期条件参数。[0212]在步骤330a,即步骤c1)中,由处理器将预测数据驱动模型应用于包括当前测量的数据和至少一个预期条件参数的输入数据集,以估计在该预测范围内至少一个kpi的未来值。预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本,其可选地由如上所述的方法提供。[0213]在步骤340a,即步骤d1)中,经由输出通道提供可用于监视和/或控制工业时间相关过程的预测范围内的至少一个kpi的未来值的预测。[0214]图13示出用于预测工业时间相关过程的方法300b的流程图。[0215]在步骤310b,即步骤a2)中,经由输入通道接收指示工业时间相关过程发生的过去条件的先前测量数据。提供至少一个关键性能指标(kpi)用于量化工业时间相关过程。[0216]在步骤320b,即步骤b2)中,经由输入通道接收指示工业时间相关过程当前发生的当前条件的至少一个条件参数。[0217]在步骤330b,即步骤c2)中,由处理器将预测数据驱动模型应用于包括先前测量的数据和至少一个条件参数的输入数据集,以估计至少一个kpi的当前值。预测数据驱动模型根据训练数据集进行参数化或训练,该训练数据集包括至少一个条件参数和至少一个kpi的历史数据以及至少一个条件参数和至少一个kpi的合成样本,其可选地由根据上述方法的方法提供。[0218]在步骤340b,即步骤d2)中,经由可用于监视和/或控制工业时间相关过程的输出通道提供至少一个kpi的当前值的预测。[0219]应当理解,上述操作可以任何合适的顺序执行,例如,连续的、同时的或其组合,在适用的情况下受制于例如通过输入/输出关系需要的特定顺序。[0220]本技术可以实现为系统、方法和/或计算机程序产品。计算机程序产品可以包括一种计算机可读存储介质(或多种介质),其上具有计算机可读程序指令,用于使处理器执行本公开的各方面。[0221]计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容:便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能磁盘(dvd)、记忆棒、软盘、机械编码设备,诸如穿孔卡或凹槽中的凸起结构,其上记录有指令,以及前述的任何适当组合。如在此所使用的,计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其它自由传播的电磁波、传播通过波导或其它传输介质的电磁波(例如,通过光纤电缆的光脉冲)或通过电线传输的电信号。[0222]在此描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并且转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。[0223]用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言的任意组合编写的源代码或对象代码,包括面向对象的编程语言,诸如smalltalk、c++等,以及传统的过程编程语言,诸如“c”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上和部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种场景中,远程计算机可以通过任何类型的网络(包括局域网(lan)或广域网(wan))连接到用户的计算机,或者可以连接到外部计算机(例如通过互联网使用互联网服务提供商)。在一些示例中,包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令,以执行本公开的各个方面。[0224]在此参考根据本公开的各方面的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本公开的各方面。应当理解,流程图和/或框图的每个框,以及流程图和/或框图中的框的组合,可以通过计算机可读程序指令来实现。[0225]这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器以产生机器,使得经由计算机的处理器或其它可编程数据处理装置执行的指令创建用于实现流程图和/或框图的一个框或多个框中指定的功能/动作的部件。这些计算机可读程序指令也可以存储在计算机可读存储介质中,该计算机可读存储介质可以引导计算机、可编程数据处理装置和/或其它设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括实现流程图和/或框图的一个框多个框中指定的功能/动作的方面的指令的制品。[0226]计算机可读程序指令也可以加载到计算机、其它可编程数据处理装置或其它设备上,以使一系列操作步骤在计算机、其它可编程装置或其它设备上执行以产生计算机实现的过程,使得在计算机、其它可编程装置或其它设备上执行的指令实现流程图和/或框图的一个框多个框中指定的功能/动作。[0227]附图中的流程图和框图示出根据本公开的各个方面的系统、方法和计算机程序产品的可能实现的架构、功能和操作。就这一点而言,流程图或框图中的每个框可表示模块、段或指令的一部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些替代实现方式中,框中标注的功能可能不按附图中标注的顺序出现。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还应注意,框图和/或流程图说明的每个框,以及框图和/或流程图说明中的框的组合,可以由执行特定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。[0228]必须注意,本发明的实施例是参考不同的主题来描述的。特别地,参考方法类型权利要求描述了一些实施例,而参考设备类型权利要求描述了其它实施例。然而,本领域技术人员将从以上和以下描述中得知,除非另有说明,除了属于一种类型的主题的特征的任何组合之外,还认为与不同主题相关的特征之间的任何组合与本技术一起公开。然而,所有特征都可以组合起来,提供不仅仅是特征的简单总和的协同效应。[0229]尽管本发明已在附图和前述说明中详细说明和描述,但此类说明和描述应被认为是说明性的或示例性的而不是限制性的。本发明不限于所公开的实施例。通过研究附图、公开内容和从属权利要求,本领域技术人员在实践要求保护的发明时可以理解和实现对所公开实施例的其它变体。在权利要求中,“包括”一词不排除其它元件或步骤,并且不定冠词“一”或“一个”不排除多个。单个处理器或其它单元可以实现权利要求中引用的若干项的功能。在相互不同的从属权利要求中引用了某些措施这一事实并不表明这些措施的组合不能有利地使用。权利要求中的任何参考符号不应被解释为限制范围。[0230]参考文献[0231]junyoung chung,kyle kastner,laurent dinh,kratarthgoel,aaron c courville,and yoshua bengio.a recurrent latent variable model for sequential data.in advances inneural information processing systems,pages 2980–2988,2015.[0232]mike wu and noah goodman.multimodal generative models for scalable weakly-supervised learning.in advances in neural information processing systems,pages 5575–5585,2018.









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部