发布信息

用于查询训练的方法和系统与流程

作者:admin      2022-11-02 07:35:46     790



计算;推算;计数设备的制造及其应用技术用于查询训练的方法和系统1.相关申请的交叉引用2.本技术要求于2019年10月25日提交的序列号为62/925,930的美国临时申请和于2020年3月9日提交的序列号为62/986,903的美国临时申请的权益,这两个美国临时申请通过本引用以其整体并入。技术领域3.本发明总体上涉及人工智能领域,并且更具体地,涉及一种用于人工智能领域中的查询训练的新的和有用的方法。4.背景5.概率图形模型(pgm)提供了一种紧凑的知识表示,该知识表示可以以灵活的方式进行查询:在学习图形模型的参数后,可以在测试时回答新的概率查询,而无需重新训练。然而,由于配分函数(partition function)计算和对隐变量积分的困难性,学习无向图形模型具有挑战性。对于定向模型,一种流行的方法是使用变分自动编码器,但在给定pgm的情况下,没有系统的方法来选择编码器架构,而编码器只对单个概率查询进行摊销推理(amortize inference)(即,新的查询需要单独的训练)。6.因此,需要一种新的和有用的系统和方法来近似概率图形模型,从而实现灵活的查询。7.附图简述8.图1是方法的示意性表示。9.图2是系统的示意性表示。10.图3是该方法的实施例。11.图4描绘了该方法的示例。12.图5描绘了该方法的示例。13.图6描绘了该方法的示例。14.图7是示例未训练的推理网络的示意性表示。15.优选实施例的描述16.下面的对本发明的优选实施例的描述并不意欲将本发明限制到这些优选实施例,而是使本领域中的任何技术人员能够实行并且使用本发明。17.1.概述18.如图1所示,方法10优选地包括确定图形表示s100,基于图形表示确定推理网络s200,确定查询分布s300,从查询分布中对训练查询进行采样s400,以及可选地通过使用训练查询来训练未训练的推理网络来确定训练后的推理网络s500。该方法可以可选地包括确定推理查询和使用训练后的推理网络为该推理查询确定推理查询结果s600。然而,该方法可以附加地或可替代地包括任何其他元素。19.如图2所示,用于查询训练的系统20可以包括一个或更多个处理系统100、一个或更多个数据储存器200、和/或任何其他合适的部件。20.2.示例21.在第一示例中,方法和系统可以包括确定图形表示,确定针对图形表示的推理方程(例如,信念传播方程、变分推理方程等;例如,通过从相应的概率图形模型(pgm)的势函数导出推理方程形式的方程),将推理方程展开到单个推理网络(例如,神经网络)的多个层中,该推理网络可以用于回答任意查询,使用从查询分布中采样的不同类型的查询训练推理网络的参数,并使用训练后的推理网络进行灵活的查询,就好像它是概率图形模型一样。pgm最好是未训练的,但可以被训练。图3中描绘了示例。22.在第二示例中,给定训练样本的一组变量x={x1,…,xn}的pgm,系统和方法可以计算以下形式的条件边际概率查询:[0023][0024]其中xtarget是单个输出变量,而“evidence(证据)”是证据可用的其余输入变量的子集。证据可以是硬的(例如,已知的)或软的(例如,证据可以是有噪声的)。在上述查询中,任何不对应于输入或输出的变量都会被忽略(marginalized out)。不直接符合方程(1)的查询(例如,两个输出变量的联合分布)可以通过利用概率链式规则分解到条件边际查询的组合中。[0025]在推理网络训练期间,查询可以从查询分布中采样,也就是说,推理网络是在输出变量的多个不同的组合上训练的,而不是在一组单一的输出变量上训练的。例如,一个训练查询的输出变量可以包括另一个训练查询的输入变量,其中推理网络学习用于两个查询的一组单一的权重(例如,图形参数值)。[0026]在训练期间,描述来自查询分布的训练查询420的掩码可用于掩蔽(mask out)采样的训练数据样本410的值(例如,掩码可将训练数据样本分成输入变量和输出变量),以确定一元表示430(例如,其包括输入变量的基本真实值(ground truth value)和输出变量的掩蔽值),该一元表示430可作为输入馈送到推理网络440中。可以从数据集400中采样训练数据样本。训练数据样本的被掩蔽部分可用作输出变量470的基本真实值。推理网络的输出450可以包括输出变量的估计值(输出表示460),该估计值可以与输出变量470的基本真实值进行比较(例如,通过用反向查询掩码掩蔽训练数据样本410来确定)。推理网络450还可以输出输入变量的估计值;在该变体中,还可以使用反向查询掩码来掩蔽输出450以确定输出表示460。可替代地,可以不提供掩码,其中只提供训练数据和基本真值(ground truth)(例如,对于分割用例)。该比较可以用于通过生成损失480和在反向传播期间使用损失来训练推理网络(例如,确定图形参数490和/或温度参数495和/或推理网络的任何其他合适参数的一组值)。图4中描绘了示例。[0027]该系统和方法可以用于各种用例(例如,pgm将适合的任何用例)。[0028]在第一示例用例中,该系统和方法可用于修复图像。每个训练样本可以是一个图像,并且每个训练查询可以指定图像的被遮挡区域(例如,被遮挡的像素是输出变量,而未被遮挡的像素是输入变量)。给定未被遮挡的像素,每个被遮挡的输出像素可以被单独估计。因此,推理网络可以学习适当的权重来确定被遮挡区域的像素值。图5描绘了用于图像修复的方法的示例。[0029]在第二示例用例中,该系统和方法可用于图像分割。每个训练样本可以是一个图像,并且训练查询可以指定可能包括噪声(例如,不包括在边缘或边界中的像素)的边界和/或一组边缘。可替代地,训练样本可以包括噪声输入及其相应的基本真值的训练对(例如,基本真值分割)。训练后的推理网络可以将背景像素与前景像素、边缘、边界和/或任何其他合适的图像特征进行区分。训练后的推理网络还可以对训练样本进行去噪。图6中描绘了用于图像分割的方法的示例。[0030]在第三示例用例中,该系统和方法可用于自然语言处理。每个训练样本可以是一个句子,并且训练查询可以掩蔽训练样本的一个或更多个单词。训练后的推理网络可以推理出被训练查询掩蔽的单词。[0031]然而,该系统和方法可用于任何其他合适的用例中。[0032]3.益处[0033]与传统系统相比,该方法可以赋予一些益处。[0034]首先,该系统和方法可以使用不随尺度变化的近似推理算法来近似概率图形模型。由于近似推理算法不随尺度变化,所以没有必要计算配分函数。此外,近似推理算法可以转化为一个可迭代求解的优化问题(例如,展开为单个推理网络)。[0035]第二,该系统和方法可以通过确定从中采样训练查询和推理查询的查询分布来实现推理网络的灵活查询。训练查询可以定义不同的输入和输出变量。例如,第一训练查询的输入变量可以是第二查询的输出变量。从查询分布中进行采样来训练推理网络,从而使得能够在推理时灵活地查询而不需要重新训练网络。也就是说,针对从查询分布中采样的多个不同查询学习一组单一的参数,使得在推理时可以确定新的推理查询结果,而无需重新训练推理网络。换句话说,该系统和方法根据查询分布使学习适应于推理,该查询分布可以被调整以提供泛化能力。[0036]第三,推理网络的每一层共享同一组参数,从而减少存储模型所需的内存。[0037]第四,该系统和方法可以学习近似任何pgm(例如,甚至具有隐变量的无向pgm)的神经网络,其中神经网络包括表示pgm的参数(例如,可观察变量、隐变量、参数θ等)的权重,并且每一层表示pgm的一次迭代。然而,在变体中,从训练后的相应神经网络(例如,通过将权重映射回相应参数θ)确定的所得pgm是一个较差的数据模型(如通过似然度来衡量的),但它被调整,从而为给定的推理算法产生更好的边际。该所得的pgm可以保留原始pgm的查询灵活性;在测试时,可以估计给定任何部分证据的任何变量的边际。[0038]第五,基于pgm的推理网络可以比传统的pgm训练更易于实现。在示例中,该系统和方法可以利用推理方法进行训练和/或推理。[0039]然而,该方法和系统可以赋予任何其他合适的益处。[0040]4.方法[0041]该方法优选地包括确定图形表示s100,基于图形表示确定推理网络s200,确定查询分布s300,从查询分布中对多个训练查询进行采样s400,以及可选地通过使用多个训练查询来训练未训练的推理网络来确定训练后的推理网络s500。该方法可以可选地包括:确定推理查询和使用训练后的推理网络确定该推理查询的推理查询结果s600。然而,该方法可以附加地或可替代地包括任何其他元素。[0042]该方法优选地使用系统20来执行,但是可以由任何其他合适的系统来执行。系统20(图2所示的示例)可以包括:一个或更多个处理系统(例如,远程计算系统,例如服务器系统、分布式计算系统等)、接口(例如,与处理系统相接)、一个或更多个数据储存器(例如,存储数据集、查询分布、训练查询、训练数据、推理网络等)和/或任何其他合适的部件。训练和推理优选地由不同的计算系统执行,但是可以可替代地由相同的计算系统执行。[0043]确定图形表示s100用于选择与被建模的底层现象(例如,用例)相关联的结构,其中图形表示可用于对数据集建模。图形表示可以手动确定,基于数据集或用例(例如,使用规则、启发法等)自动地确定,和/或以其他方式确定。图形表示优选地是可用于对数据集建模的知识表示。该图形表示优选地是概率图形模型(pgm),但是可以附加地或可替代地是任何其他合适的图形模型。图形表示可以是定向的、无向的和/或以其他方式定义的。图形表示可以包括隐变量,或者可以不包括隐变量。图形表示和/或势函数110优选地是未归一化的,但可以可替代地被归一化。图形表示可以是马尔可夫随机场(mrf)、网格mrf、成对mrf、rbm、dbm、grbm、rcn和/或任何其他合适的pgm。[0044]在特定示例中,上面列出的rcn可以是2013年5月15日提交的第13/895,225号美国申请中描述的rcn,该美国申请通过本引用以其整体并入。[0045]图形表示可以使用势函数110(例如,图形表示的变元的列联(contingency)函数,其分配变元的联合配置的“预概率”分数)和可选的配分函数(例如,指定归一化常数)来表示,但可以以其他方式表示。[0046]该图形表示可以由一组图形参数来参数化(例如,确定图形表示中的节点连接)。图形参数可以是向量、矩阵和/或任何其他合适的数据结构。图形参数可以与值相关联,该值可以是二进制数、实数和/或任何其他合适的数。[0047]该图形表示优选地是未训练的,但可以可替代地被训练或以其他方式准备。[0048]在特定示例中,图形表示可以是图形模型其中v是数据集中的可见变量,h是数据集中的隐变量,并且θ是图形参数。图形模型可以可替代地表示为其中x包括v和h两者。[0049]然而,图形表示可以以其他方式确定。[0050]基于图形表示确定推理网络s200用于将图形表示表示为可训练的推理网络,该可训练的推理网络可用于估计条件边际概率变量(例如,由训练查询定义的)。推理网络优选地是由图形参数(例如θ)参数化的神经网络。推理网络可以是未训练的、训练后的和/或以其他方式表征的(例如,图形参数可以是未学习的、学习的或以其他方式指定的)。推理网络优选地包括n个层,该n个层对应于近似推理算法(例如,循环信念传播、信念传播、变分推理等)的n次迭代,但可以具有任何其他合适数量的层。图7示出了推理网络的示例。[0051]推理网络的权重优选地对应于图形参数(例如,其中每个权重表示一个图形参数;一个图形参数由多个权重表示,等等),但是可以以其它方式与图形表示相关。推理网络的权重优选地在所有层之间共享(例如,每一层具有相同的一组权重;每一层具有相同的一组权重值,等等),但是这些层可以可替代地共享权重的子集或以其他方式相关。在特定的示例中,每一层的权重具有相同的值(例如,θ1=θ2;其中n和m表示层,并且i、j、k、x、y以及z表示节点)。初始化的推理网络优选地是“空白的”,其中权重不具有值,或者被初始化为预定的初始化值。可替代地,权重可以被初始化为图形表示的图形参数的值,或者以其他方式初始化。推理网络的层可以具有相同的一组节点(例如,xn=xm),但可以可替代地具有不同组的节点。推理网络的节点优选地表示势函数变量(例如,可见变量和/或隐变量),但可以以其他方式确定。[0052]推理网络优选地为多个输出变量中的每一个确定输出估计,其中每个输出估计是使用一组输入变量(例如,来自训练样本)来确定的。[0053]推理网络优选地接收被表示为一元表示的训练输入(例如,未被训练查询掩蔽的训练样本的输入变量的值),并且输出估计优选地确定训练样本的输出变量的估计值。一元表示可以包括一个或更多个一元因子(例如,作为向量、作为一个组,等)。推理网络的每一层优选地接收一元表示作为输入,但是附加地或可替代地,只有第一层可以接收一元表示作为输入。然而,可以附加地或可替代地以其他方式定义推理网络。[0054]s200可以包括:确定具有推理方程形式的推理算法,将导出的推理算法展开为推理网络,以及从图形表示方程导出具有推理方程形式的推理方程。然而,s200可以以其他方式执行。[0055]确定推理算法用于选择推理算法来构建所得的推理网络。推理算法优选地被配置为在存在未观察到的变量的情况下执行边际推理,但可以可替代地以其它方式配置。该推理算法优选地是与预定训练和/或推理方法相关联的预先存在的推理算法,但可以可替代地是新颖的推理算法或其他推理算法。可使用的推理算法的示例包括:信念传播(例如,循环信念传播(lbp))、变分推理、规则、启发法和/或其他推理算法。推理算法可以是:预定的(例如,总是用于查询训练)、基于用例(例如,查询类型、数据类型、硬件等)确定的、基于图形表示确定的、手动选择的或以其他方式确定的。[0056]展开推理方程以生成未训练的推理网络可以包括在预定的迭代次数n(例如,5,10,25,50,150,200等)内展开推理方程,其中每次迭代是推理网络的一层。展开推理方程可以由处理系统自动执行、手动执行和/或以其他方式执行。[0057]导出推理方程用于将图形表示转换为推理算法格式,使得图形表示与推理算法的训练和推理方法兼容。推理方程优选地使用图形表示的势函数110来确定,但是可以附加地或可替代地使用图形表示的传递函数和/或任何其他合适的函数来确定。[0058]推理方程优选地与时间步长相关联(例如,推理方程可用于表示特定时间步长的图形表示)。推理方程优选地包括图形参数、温度参数和/或任何其他合适的参数。推理方程优选地使用循环信念传播来确定,但是可以附加地或可替代地使用信念传播、变分推理、规则、启发法和/或任何其他合适的算法来确定。确定推理方程可以由处理系统自动执行、手动执行和/或以其他方式确定。[0059]导出推理方程可以包括:从图形表示的势函数110(φ(x,θ))提取图形参数(θ);确定消息传递的温度(t);确定n次迭代;以及从θ和t导出一组前馈函数,其中前馈函数具有推理算法方程的形式。n和t可以是预定的、自动确定的、基于传播类型确定的(例如,t=1以检索标准和积信念传播或t=0以检索最大积信念修正),或者以其他方式确定。[0060]在第一示例中,导出推理方程包括:将可用证据v和查询q以一元表示u进行编码;在n次迭代中展开推理算法作为具有n个层的神经网络;以及从图形参数(例如θ)和t导出消息函数(用于n个层之间的消息传递)。[0061]将可用证据v和查询q以一元表示u进行编码可以包括将可用证据v和查询q组合成一组一元因子。一元因子优选地指定变量(ui)上的概率密度函数。对于q标记为“输入”的v内的每个维度,都会提供以该维度值为中心的增量(例如dirac、kronecker等)。对于“输出”维度(例如,q掩蔽的变量)和隐变量,一元因子可以被设置为无信息的均匀密度。任何软证据都可以可选地通过单独的密度函数进行合并。在特定的示例中,因子u的所得的一元表示(例如,向量)只包含关于输入的信息密度,并且其维数是v和h的维数之和。u的每个维度对于二进制变量将是实数(可以在logit空间中编码),并且在一般情况下是完整的分布。然而,一元表示可以以其他方式确定。[0062]导出消息函数以将图形表示的图形参数编码为推理网络。消息函数优选地从图形参数(因此继承势函数的参数)和温度确定,但可以以其他方式确定。[0063]在只有成对因子和消息(m)被映射到对数空间的pgm的特定示例中,推理网络(qt-nn)的预测和从每一层到下一层的消息可以写成:[0064][0065][0066]或者,以向量化格式:[0067][0068]其中mij是从变量i传递到变量j的消息,以及其中是变量i的信念。在这里,m(n)可以收集所有退出前一层(n-1)并进入层n的消息。但是,消息函数可以以其他方式导出。[0069]在第二变体中,确定推理网络可以包括确定具有训练的图形参数的推理方程,以及展开推理方程以生成训练后的推理网络。训练的图形参数可以使用和积算法、最大积算法、蒙特卡罗(monte carlo)技术、马尔可夫链蒙特卡罗(markov chain monte carlo)算法和/或任何其他合适的算法来确定。[0070]在第三变体中,推理网络可以如lazaro-gredilla,m.等人在2020年在association for the advancement of artificial intelligence中提交的query training:learning a worse model to infer better marginals in undirected graphical models with hidden variables中讨论的那样进行确定;和/或如l和zaro gredilla,m.等人在2020年的query training:learning and inference for directed and undirected graphical models(arxiv:2006.06803v2[stat.ml])中讨论的那样确定;这些文章中每一个都通过本引用以其整体并入。[0071]然而,推理网络可以以其他方式确定。[0072]确定查询分布s300可用于定义分布,从该分布对可用于训练推理网络、评估推理网络的性能和/或回答推理查询的训练查询进行采样。可替代地,可以使用单个查询来代替查询分布。查询分布优选地描述在推理期间将发生的可能的推理查询的分布(例如,遵循在测试时对训练后的推理网络的预期使用),但可以是任何其他合适的分布。[0073]推理查询优选地是在推理期间要回答的问题。推理查询的示例包括:填充、分割(segmentation)、模式识别、分类、分段(segmentation)、语义分割和/或其他查询。[0074]查询分布可以与s200同时确定,在s200之前确定,和/或在任何其他合适的时间确定。查询分布可以是统计分布(例如,均匀、高斯、泊松、二项式等)和/或任何其他分布。查询分布可以由处理系统自动确定、手动确定、从一个或更多个推理查询确定、从训练数据和相应的基本真值确定、和/或以其他方式确定。可以基于规则、启发法和/或任何其他合适的信息来确定查询分布。可以基于数据集、预期用途和/或任何其他合适的信息来确定查询分布。[0075]查询分布可以是多维的、单维的或具有任何其他合适数量的维度。该维度可以对应于查询参数,例如查询类型、格式、位置、大小、形状、透明度、准确度、精度、噪声、数量、图像特征(例如,边缘、拐角等)和/或其他参数。可以为每个维度(例如,参数)确定不同的分布;可替代地,每个维度(例如,参数)可以具有相同的分布。用于修复的查询参数的示例包括:缺失块的各种数量、大小、形状、空间分布、透明度和/或其他参数。用于图像分割的查询参数的示例可以包括:背景、前景、图像特征(例如,边缘、拐角、线条等)中的各种噪声水平、目标对象参数(例如,大小、位置、姿势等)和/或其他查询。[0076]在第一变型中,s300包括:从用户接收查询分布。在该变型中,用户可以指定:查询参数(例如,变量、因子等)、每个参数的分布和/或任何其他合适的信息。在特定示例中,用户可以指定查询分布是均匀的。[0077]在第二变型中,s300包括:接收一组潜在或样本推理查询,并将推理查询的分布确定为查询分布。在第一示例中,从训练数据(例如,从缺失训练数据的内容)直接确定推理查询。在第二示例中,可以从用户接收推理查询(例如,作为任务)。然而,可以以其他方式确定推理查询。[0078]在第三变型中,s300包括接收输入和相应的基本真值(例如,期望输出)的训练数据对,其中查询分布从训练数据对的分布来确定。然而,s300可以从数据库检索或以其他方式确定。[0079]在s300的示例中,当用例正是修复时,查询包括图像中要估计的像素块,并且剩余的图像像素是证据。因此,查询分布被定义为对缺失一个像素块而其余像素是证据的所有查询给予相等的概率,而对所有其他查询给予零概率。[0080]然而,查询分布可以以其他方式确定。[0081]从查询分布中对训练查询进行采样s400可用于确定可用于训练推理网络的训练查询。训练查询可以用于描述或模拟推理查询。s400可以包括对一个或更多个训练查询进行采样。每个采样的查询可以用于划分训练数据样本中的输入变量和输出变量(例如,通过使用训练查询掩蔽训练数据样本的输出变量的基本真实值)。在s500中,输出变量的掩蔽的基本真实值可以用作标签表示,以与估计的输出值进行比较。该比较可用于训练推理网络。训练查询可以在s500中使用以训练推理网络(例如,学习图形参数的权重)。[0082]训练查询优选地用于将训练数据样本划分成输入变量和输出变量,其中每个变量具有相关联的基本真实值。输入变量的基本真实值可以在s500中用作推理网络的输入。输出变量的基本真实值可以在s500中用作标签表示,以与输出变量的估计值进行比较。[0083]训练查询优选地与训练数据样本具有相同的维度。训练查询可以是二进制掩码、多值掩码、测试数据与相应的基本真值之间的差异或关系、和/或任何其他合适的值。每个训练查询可以是向量、矩阵和/或优选地与在s500中用于训练推理网络的数据样本具有相同维度的任何其他合适的数据结构。每个查询可以是二进制值、具有来自连续体的值、概率值(例如,0-1.0中的任何值,例如以合并软证据)和/或任何其他合适的值。[0084]训练查询优选地独立于训练数据(例如,训练查询定义具有特定大小、形状和位置的图像掩码,其中训练数据可以是任何完整的图像),但是可以通用于训练数据(例如,查询可以是对训练数据进行分类),从训练数据确定,或者以其他方式与训练数据相关。[0085]对训练查询进行采样可以与s500同时执行、在s500之前执行、和/或在任何其他合适的时间执行。在第一示例中,训练查询可以在s500之前从查询分布中进行采样并且被存储在数据储存器中,其中训练查询可以在s500中在训练推理网络期间进行检索。在第二示例中,在s500中训练推理网络期间,训练查询可以被采样和/或每次训练迭代可以对一批训练查询进行采样。[0086]训练查询可以:从由训练对(例如,包括输入和相应的基本真值)固有地定义的查询分布中进行采样,和/或可以以其他方式确定。训练查询可以使用祖先采样(ancestral sampling)、吉布斯(gibbs)采样、蒙特卡罗方法、马尔可夫链蒙特卡罗(mcmc)进行采样,被随机采样,使用低差异序列进行采样,被均匀采样和/或使用其他合适的采样算法进行任何采样。[0087]在第一示例中,对训练查询进行采样包括从查询分布中对训练查询(例如,可选地具有一组查询参数值)进行随机采样。在第二示例中,对训练查询进行采样包括根据采样算法从相应分布中对每个查询参数的查询参数值进行采样。然而,可以以其他方式对训练查询进行采样。[0088]在特定示例中,s400包括确定描述查询的图像掩码。特别地,训练掩码是从查询分布中提取的,随机地将变量归因于证据或目标的角色,并且表示在测试时间期间由查询给出的掩码。[0089]然而,对多个训练查询和推理查询进行采样可以以其他方式执行。[0090]该方法可以可选地包括确定训练数据样本,训练数据样本用于确定训练输入。训练数据可以与s400和/或s500并发地(concurrently)、同时地(contemporaneously)、在s400和/或s500之前或之后进行采样;但是可以可替代地在任何其他合适的时间进行采样。[0091]训练数据优选地是训练输入,但是可以附加地或可替代地是训练对的一部分,或者以其他方式使用。训练对可以包括训练数据(例如,输入;用训练查询修改的数据;具有已知值的输入变量;等)、基本真值(例如,预先相关联的标签;训练查询的逆;输出变量的值;具有先前未知值的输入变量的值;等)和/或其他数据。[0092]训练数据(和/或训练对)优选地从数据集中采样,但可以是合成的(例如,通过变换、噪声添加等从种子数据生成)、从推理数据分布中采样(例如,以与查询采样类似的方法获得和/或采样)和/或以其他方式确定。[0093]该数据集可以包括用于训练推理网络的训练数据样本,并且优选地表示将在推理期间使用的潜在推理数据(例如,类型、分布等)。该数据集可以可选地包括推理数据样本和/或任何其他合适的样本。[0094]数据样本可以从数据集中采样:随机地、使用祖先采样和/或任何其他采样算法;可以从用户接收;或者可以以其他方式确定。数据样本可以基于用例进行采样和/或以其他方式进行采样。数据样本可以是具有预定维度的向量、矩阵和/或任何其他合适的数据结构。数据样本可以包括图像、文本、音频、视频、财务数据、掩码和/或任何其他合适的数据。每个数据样本可以包括一个或更多个变量(例如,连续、离散、二进制等)和相关联的值。每个变量(例如,连续变量)可以通过具有已知统计量的统计分布(例如,具有已知均值和方差的高斯分布,具有已知参数λ(lambda)的泊松分布等)来近似。变量的示例包括:图像的像素、文本中的单词、每时间段的分布和/或任何其他合适的变量。然而,数据集可以附加地或可替代地包括任何其他元素。[0095]然而,可以以其他方式确定训练数据样本。[0096]确定训练后的推理网络s500可以用于确定广义的基于pgm的推理网络,该推理网络能够在不进行重新训练的情况下回答多个查询。推理网络优选地包括一组神经网络层,其中每一层共享同一组网络权重(例如,每个权重的相同值;每个图形参数的相同值)。然而,推理网络可以以其他方式构建。[0097]优选地,通过使用多个训练查询(和可选的多个训练数据样本)训练未训练的推理网络来确定训练后的推理网络,从而学习图形参数的值。特别地,s500可以确定查询分布下使推理算法准确度最大化的参数。推理网络可以在预定次数的训练迭代(例如,m,其可以与pgm迭代的次数n相同或不同)内进行训练,直到推理网络的参数达到收敛和/或满足任何其他合适的停止准则。训练后的推理网络优选地包括图形参数、温度和/或推理网络的任何其他合适参数的学习值。附加地或可替代地,温度参数可以是预定的(例如,在s500期间不学习,例如被设置为0、被设置为1和/或被设置为0-1之间、大于1、小于0的任何值和/或任何其他合适的值)。可替代地,训练后的推理网络可以从训练的图形表示的权重(例如,来自训练的pgm的势函数的权重或常数)确定,或者以其他方式确定。[0098]在第一示例中,s500可以包括:确定一元表示;使用给定一元表示(以及可选的来自先前迭代的图形参数)的未训练的推理网络确定输出(预测);针对训练数据评估输出;以及基于评估更新(例如,重新计算)图形参数。这可以重复,直到满足预定条件(例如,满足m次迭代、收敛等)。[0099]在本示例中,一元表示可以通过以下方式来确定:从数据储存器中确定训练数据样本,确定训练查询(例如,从查询分布中采样),并通过用训练查询掩蔽训练数据样本以将证据(例如,输入变量和相关联的基本真实值)与输出变量(例如,具有待由推理网络估计的相关联值的变量)隔离开来,从而确定一元表示,其中训练推理网络以估计给定证据的输出变量的值(例如,对输入变量的所有基本真实值进行调节以预测每个输出变量值的每个值)。可以使用相同的数据样本和多个训练查询来确定一个或更多个一元表示;附加地或可替代地,可以使用相同的训练查询和多个数据样本、单个训练查询和数据样本对和/或其他数据集来确定一个或更多个一元表示。一元表示可以作为输入(例如,在推理网络的每一层,在第一层,等等)馈送到推理网络中。推理网络可以确定输出变量的估计值,该估计值可以与输出变量的基本真实值进行比较(例如,通过用训练查询反向掩蔽训练数据样本)。该比较可以是交叉熵、均方误差、铰链损失和/或任何其他合适的损失函数。该比较可用于使用训练方法来训练网络。可以使用的训练方法的示例包括:反向传播、随机梯度下降(sgd)梯度方法、梯度下降、差分目标传播、hilbert-schmidt独立性准则(hsic)瓶颈、带有辅助变量的在线交替最小化、合成梯度和/或用于确定图形参数值的任何其他合适的训练方法。在特定的示例中,图形参数值可以通过最小化数据和估计的输出(预测)之间的交叉熵来学习,该交叉熵在查询分布上平均。然而,参数可以以其他方式学习。图4中描绘了示例。[0100]可替代地,一元表示可以通过各自使用多个中的一个训练查询掩蔽多个训练数据样本并将一元表示和标签(例如,使用训练数据样本掩蔽的反向查询)存储在数据储存器中来预先生成。可以从数据储存器中检索一元表示和标签来训练推理网络。[0101]在第二示例中,s500可以包括接收包括训练数据和相应的基本真值的训练对;在给定训练数据的情况下,使用未训练的推理网络确定输出(预测);将输出与相应的基本真值进行比较;以及基于评估(例如,如在第一示例中所讨论的)更新(例如,重新计算)图形参数。这可以重复,直到满足预定条件(例如,满足m次迭代、收敛等)。[0102]然而,训练后的推理网络可以以其它方式确定。[0103]该方法可以可选地包括确定推理查询,确定推理查询用于确定一个或更多个查询以评估推理网络和/或回答与图形表示有关的查询。推理查询可以:作为s400的一部分确定,与s400分开确定,在s500之前或之后确定,在s600之前或之后确定,或者在任何其他合适的时间确定。可以确定和评估一个或更多个推理查询。[0104]推理查询优选地在查询分布内(用于对训练查询进行采样以用于推理网络训练),但可以可替代地在查询分布之外或部分地在查询分布内。推理查询优选地不同于训练查询(例如,在一个或更多个参数上不同),但可以可替代地与训练查询相同。推理查询优选地与推理数据样本具有相同的维度。推理查询可以与训练查询具有相同的格式,或者具有不同于训练查询的格式。[0105]推理查询可以:从用户或其他端点(例如,机器人、客户端、api等)接收、从查询分布中采样(例如,以与s400中的测试查询采样相同或相似的方式采样)、从推理输入确定或是推理输入中固有的(例如,是图像的从推理输入中缺失的部分)、和/或以其他方式确定。[0106]在一个示例中,用于填充用例的推理查询可以包括具有缺失片段的图像,其中推理网络确定缺失片段。在第二示例中,用于分割用例的推理查询可以包括环境中的对象的噪声图像,其中推理网络确定对象的边界(例如,边缘)。但是,可以以其他方式定义推理查询。[0107]该方法可以可选地包括使用训练后的推理网络来确定针对该推理查询的推理查询结果s600,s600可用于使用该推理查询和可选地从数据集中采样的推理数据样本来确定推理查询结果。推理查询结果优选地是由推理查询定义的输出变量的估计。推理查询可以不同于训练查询(例如,定义一个或更多个输出变量,该输出变量不同于s500中用于训练推理网络的输出变量)。在运算中,推理查询(例如,推理数据、推理输入)被馈送到训练后的推理网络,并且训练后的推理网络输出预测。然而,可以以其他方式确定推理查询结果。[0108]系统和/或方法的实施例可以包括各种系统部件和各种方法过程的每种组合和置换,其中本文描述的方法和/或过程的一个或更多个实例可以通过和/或使用本文描述的系统、元件和/或实体的一个或更多个实例异步地(例如顺序地)、同时地(例如并行地)或以任何其他合适的顺序来执行。[0109]如本领域中的技术人员将从先前的详细描述以及从附图和权利要求中认识到的,可以对本发明的优选实施例做出修改和改变而不偏离在随附权利要求中限定的本发明的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部