发布信息

一种基于强化学习的烟草物流调度方法

作者:admin      2022-08-23 19:58:40     323



计算;推算;计数设备的制造及其应用技术1.本发明涉及物流调度运输技术领域,尤其是涉及一种基于强化学习的烟草物流调度方法。背景技术:2.目前,工业类企业的物流运输调度水平是提高核心竞争力的主要因素。现如今还有许多烟草物流运输公司使用人工调度的方法来进行物流运输,耗费了大量的人力,同时这种原始的调度方式在面临大量订单的情况下有着极低的效率,导致了烟草物流运输公司服务水平低下。虽然部分烟草物流运输公司使用人工设计的传统启发式方法来进行物流调度,但是这类方法无法在线实时给出物流调度方案,无法满足物流运输调度的快速性的要求。3.烟草物流调度属于车辆路径优化问题的范畴,这类问题是是世界顶级物流公司关注的核心问题,在运筹学领域中,车辆路径优化问题被定义为车辆路径问题,即vrp(vehicle routing problem)。vrp并不是特指一个问题,而是一类组合优化问题的统称。一般情况下,vrp是指根据客户的需求和现有车辆,根据物流运输方案,在满足客户需求的前提下使得总共的运输成本最低。4.如今大部分的烟草物流运输公司正在探讨新的物流调度方法。将相关领域的方法与烟草物流调度相结合,发明一种操作简单、效率较高的方法来满足和优化烟草物流运输公司的物流调度水平,是烟草物流运输公司急需解决的核心问题之一。技术实现要素:5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的烟草物流调度方法,以在线实时地快速得到物流运输调度方案,提高物流运输效率,节约人工成本。6.本发明的目的可以通过以下技术方案来实现:7.一种基于强化学习的烟草物流调度方法,使用随机生成的训练数据通过强化学习算法来训练网络模型,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终的物流运输调度方案,具体包括以下步骤:8.s1、随机生成二维欧式图上物流配送的仓库和各个节点的物流信息;9.s2、基于编码-聚合-解码的架构构建深度注意力卷积网络,将仓库和各个节点的物流信息输入深度注意力卷积网络,得到仓库和各个节点的调度排序概率矩阵;10.s3、根据调度排序概率矩阵设置强化学习参数,根据强化学习参数对深度注意力卷积网络进行训练;11.s4、获取仓库和各个节点的实时的订单需求信息,并输入到完成训练的深度注意力卷积网络中,得到仓库和各个节点的实时调度排序概率矩阵;12.s5、对仓库和各个节点的实时调度排序概率矩阵进行波束搜索,得到物流运输调度方案。13.所述仓库和各个节点的物流信息包括仓库和各个节点的坐标数据以及各个节点的订单需求信息。14.所述深度注意力卷积网络包括编码网络、聚合网络和解码网络。15.进一步地,所述深度注意力卷积网络中编码网络的运行过程包括以下步骤:16.s11、对仓库和各个节点的坐标数据分别进行初始化处理,得到仓库和各个节点的初始嵌入信息;17.s12、对初始嵌入信息进行卷积降维,获得各个节点的深层次特征;18.s13、根据深层次特征对仓库和各个节点的邻居节点进行采样,获得图上的结构化信息并进行传播;19.s14、对传播后的信息进行线性降维,得到仓库和各个节点的最终嵌入信息。20.进一步地,所述深度注意力卷积网络中聚合网络的运行过程为对仓库和各个节点的最终嵌入信息进行聚合,得到图嵌入信息。21.进一步地,所述深度注意力卷积网络中解码网络的运行过程包括以下步骤:22.s21、对特定节点的最终嵌入信息、车辆剩余容量和图嵌入信息进行拼接操作,得到上下文节点嵌入信息;23.s22、根据上下文节点嵌入信息对各个节点进行采样,汇集各个节点的采样结果,得到中间节点嵌入信息;24.s23、将中间节点嵌入信息与各个节点的最终嵌入信息进行比较,得到各个节点的输出概率,继而得到仓库和各个节点的调度排序概率矩阵。25.所述步骤s3中强化学习参数包括初始嵌入信息的维数、最终嵌入信息的维数、卷积降维后的维数、各个节点的邻居节点采样后的维数、第一次特征传播后的维数、第二次特征传播后的维数、各个节点的邻居节点的采样次数和特征循环提取的次数。26.所述步骤s3中深度注意力卷积网络的训练过程包括以下步骤:27.s31、获取深度注意力卷积网络的损失函数,输入仓库和各个节点的坐标数据以及各个节点的订单需求信息,由深度注意力卷积网络得到的调度排序概率矩阵计算的物流调度方案中总共的路径长度;28.s32、根据物流调度方案中总共的路径长度,对深度注意力卷积网络的参数进行更新,并记录更新的次数;29.s33、判断更新的次数是否达到预设的次数阈值,若是则深度注意力卷积网络训练完成,否则转至步骤s32继续更新参数。30.进一步地,所述步骤s31中深度注意力卷积网络的损失函数的公式如下所示:[0031][0032][0033]其中,s是一个样例,解为π,i是深度注意力卷积网络输出节点的时刻,πi是在i时刻深度注意力卷积网络输出的节点,即输出概率最大的节点,θ是深度注意力卷积网络的可训练参数,pθ(π|s)是定义的随机策略,j(θ|s)为根据深度注意力卷积网络对样例s求出的调度排序概率矩阵贪婪解码后的路径长度。[0034]进一步地,所述步骤s32中通过梯度反向传播算法更新深度注意力卷积网络的参数。[0035]与现有技术相比,本发明具有以下有益效果:[0036]本发明使用随机生成的仓库和各个节点的物流信息,通过强化学习算法来训练深度注意力卷积网络,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终的物流运输调度方案,能够在线实时给出物流调度方案,满足物流运输调度的快速性的要求,与现有技术中使用的传统启发式方法相比,有效提高了物流运输效率。附图说明[0037]图1为本发明的流程示意图;[0038]图2为本发明深度注意力卷积网络的结构示意图;[0039]图3为本发明强化学习训练的流程示意图。具体实施方式[0040]下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。[0041]实施例[0042]如图1所示,一种基于强化学习的烟草物流调度方法,使用随机生成的训练数据通过强化学习算法来训练网络模型,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终的物流运输调度方案,具体包括以下步骤:[0043]s1、随机生成二维欧式图上物流配送的仓库和各个节点的物流信息;[0044]s2、基于编码-聚合-解码的架构构建深度注意力卷积网络,将仓库和各个节点的物流信息输入深度注意力卷积网络,得到仓库和各个节点的调度排序概率矩阵;[0045]s3、根据调度排序概率矩阵设置强化学习参数,根据强化学习参数对深度注意力卷积网络进行训练;[0046]s4、获取仓库和各个节点的实时的订单需求信息,并输入到完成训练的深度注意力卷积网络中,得到仓库和各个节点的实时调度排序概率矩阵;[0047]s5、对仓库和各个节点的实时调度排序概率矩阵进行波束搜索,得到物流运输调度方案。[0048]仓库和各个节点的物流信息包括仓库和各个节点的坐标数据以及各个节点的订单需求信息。[0049]本实施例中,仓库和各个节点的物流信息对应的训练数据包括训练集、验证集和评估数据集,其中训练集中的数据随机生成;验证集中的数据通过随机数种子生成;评估数据集中的数据随机生成。[0050]如图2所示,深度注意力卷积网络包括编码网络、聚合网络和解码网络。[0051]深度注意力卷积网络中编码网络的运行过程包括以下步骤:[0052]s11、对仓库和各个节点的坐标数据分别进行初始化处理,得到仓库和各个节点的初始嵌入信息;[0053]s12、对初始嵌入信息进行卷积降维,获得各个节点的深层次特征;[0054]s13、根据深层次特征对仓库和各个节点的邻居节点进行采样,获得图上的结构化信息并进行传播;[0055]s14、对传播后的信息进行线性降维,得到仓库和各个节点的最终嵌入信息。[0056]初始嵌入信息的计算公式如下所示:[0057][0058]其中,xi是仓库和各个节点的坐标数据且仓库的索引是0,是仓库和各个节点的初始嵌入信息,δi是各个节点的订单需求信息,w0、b0、w和b是可学习的参数。[0059]在本实施例中,在步骤s12中分别对仓库和各个节点的初始嵌入进行一维卷积运算,提取到仓库和各个节点的深层次特征,卷积核的大小是3×1。[0060]步骤s13中信息传播的公式如下所示:[0061][0062][0063][0064][0065]其中,qa=wqha,ka=wkha,va=wvha,分别用来表示ha的查询值、键值和需要传递的信息,ha是各个节点的初始嵌入卷积降维后的节点嵌入,并且和是可以训练的参数,dh=128是初始嵌入信息卷积降维后的维数,softmax(·)是将输入归一化到[0,1]的函数,relu(·)是非线性斜坡函数。本实施例中使用的采样次数是m=8次,设置每次采样的参数不相同,每一次使用参数矩阵将映射到dh维,是各个节点对邻居节点采样一次的值,是各个节点对邻居节点采样完成后的值,是第一次特征传播后的值,是第二次特征传播后的值。wf,0、bf,0、wf,1、bf,1、w2和b2都是可以学习的参数。本实施例中,对各个节点的邻居节点进行采样和第一特征传播添加了残差连接和批归一化,第二次特征传播仅添加了批归一化。[0066]步骤s14中线性降维的计算公式如下:[0067][0068]其中,是仓库和各个节点的最终嵌入,w3和b3是可以学习的参数。[0069]深度注意力卷积网络中聚合网络的运行过程为对仓库和各个节点的最终嵌入信息进行聚合,得到图嵌入信息。[0070]本实施例中,对仓库和各个节点的最终嵌入进行一维卷积运算,而不是单独的节点嵌入,从而得到图嵌入,用到的卷积核大小是节点数量×3,进行卷积运算前对仓库和全部节点的最终嵌入进行步幅为1的零填充。[0071]深度注意力卷积网络中解码网络的运行过程包括以下步骤:[0072]s21、对特定节点的最终嵌入信息、车辆剩余容量和图嵌入信息进行拼接操作,得到上下文节点嵌入信息;[0073]s22、根据上下文节点嵌入信息对各个节点进行采样,汇集各个节点的采样结果,得到中间节点嵌入信息;[0074]s23、将中间节点嵌入信息与各个节点的最终嵌入信息进行比较,得到各个节点的输出概率,继而得到仓库和各个节点的调度排序概率矩阵。[0075]步骤s21中,上下文节点嵌入由图嵌入、当前时刻的车辆剩余容量和前一时刻输出的节点的最终嵌入拼接而成,维度是3×dh。在初始时刻,仓库为输出的第一个节点。[0076]本实施例中,使用注意力机制对仓库和各个节点进行采样,计算公式如下:[0077][0078]其中,vi是仓库和各个节点被采样的信息,umi是上下文节点与各个节点的兼容度,n是节点总数,hm′是对仓库和各个节点被采样后的嵌入,采样8次后得到中间节点的嵌入。[0079]步骤s23中,参考注意力机制计算了各个节点与中间节点的兼容度,根据兼容度计算各个节点的输出概率,计算公式如下:[0080][0081]其中,qm是中间节点嵌入的查询值,ki是各个节点嵌入的键值,参数c=10,用于将的值归一化到[-10,10],umi是中间节点与各个节点的兼容度,每一时刻输出概率最大的节点和各个节点中订单需求大于当前时刻车辆剩余容量会被掩码,将其与中间节点的兼容度置为-∞,计算每一时刻各个节点的输出概率pi:[0082][0083]步骤s3中强化学习参数包括初始嵌入信息的维数、最终嵌入信息的维数、卷积降维后的维数、各个节点的邻居节点采样后的维数、第一次特征传播后的维数、第二次特征传播后的维数、各个节点的邻居节点的采样次数和特征循环提取的次数。[0084]本实施例中,初始嵌入信息的维数df=512、最终嵌入信息的维数dh=128、卷积降维后的维数dh=128、仓库和各个节点的邻居节点采样后的维数dh=128、第一次特征传播后的维数dh=128、第二次特征传播后的维数df=512、各个节点的邻居节点的采样次数m=8以及特征循环提取的次数n=3;其中,在深度注意力卷积网络的编码网络中,从卷积降维到完成两次特征传播是一次特征循环提取。[0085]步骤s3中深度注意力卷积网络的训练过程包括以下步骤:[0086]s31、获取深度注意力卷积网络的损失函数,输入仓库和各个节点的坐标数据以及各个节点的订单需求信息,由深度注意力卷积网络得到的调度排序概率矩阵计算的物流调度方案中总共的路径长度;[0087]s32、根据物流调度方案中总共的路径长度,对深度注意力卷积网络的参数进行更新,并记录更新的次数;[0088]s33、判断更新的次数是否达到预设的次数阈值,若是则深度注意力卷积网络训练完成,否则转至步骤s32继续更新参数。[0089]步骤s31中深度注意力卷积网络的损失函数的公式如下所示:[0090][0091][0092]其中,s是一个样例,解为π,i是深度注意力卷积网络输出节点的时刻,πi是在i时刻深度注意力卷积网络输出的节点,即输出概率最大的节点,θ是深度注意力卷积网络的可训练参数,pθ(π|s)是定义的随机策略,j(θ|s)为根据深度注意力卷积网络对样例s求出的调度排序概率矩阵贪婪解码后的路径长度。[0093]步骤s32中通过梯度反向传播算法更新深度注意力卷积网络的参数。[0094]本实施例中,波束搜索的宽度参数为3,对调度排序概率矩阵进行波束搜索,得到物流调度方案的集合,从中选取最优的物流调度方案作为最终的物流调度方案。[0095]具体实施时,如图3所示,强化学习训练包括以下步骤:[0096]采用深度注意力卷积网络的结构,定义一个当前网络和基准网络;[0097]每个回合训练前随机生成评估数据集,用于更新当前网络的参数。基准网络设置贪婪解码(解码的每一时刻选择输出概率最大的节点)来得到解,当前网络通过波束搜索获得解;[0098]更新当前网络的梯度,公式如下所示:[0099][0100]其中,基线b(s)是基准网络得到的解的代价(每个批次生成的训练数据的平均路径长度),梯度确定之后,通过adam算法对网络参数进行优化;[0101]完成一个回合的训练之后判断是否将当前网络的参数更新到基准网络,计算两个网络在评估数据集上贪婪解码后的平均代价(评估数据集上的平均路径长度),若当前网络的平均代价小于基准网络的平均代价时,则计算它们的差值,如果大于增益α=0.01,将当前网络的参数更新到基准网络,开始下一个回合的训练。[0102]此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部