发布信息

一种基于DDPG强化学习的PID动态整定电机控制系统

作者:admin      2022-08-31 09:08:02     472



控制;调节装置的制造及其应用技术一种基于ddpg强化学习的pid动态整定电机控制系统技术领域1.本发明属于电机pid控制技术领域,具体涉及一种基于ddpg强化学习的pid动态整定电机控制系统。背景技术:2.有刷电机具有转矩大、调速控制简单、低速扭力性能优异的特点,因此在很多应用场景中拥有着无可替代的地位。在对有刷直流电机输出力矩、速度和位置的控制中,稳定性是衡量控制效果的重要指标。在很多使用场合下,对于电机转速、转角的控制不但具有精度上的要求,而且还要求上述控制在外界存在各种干扰情况下能够快速收敛,以使电机的转速和转角始终贴合目标指令,需要尽可能减小偏差或波动。3.有刷直流电机的输出控制通常采用反馈加偏差纠错算法,其中常见的偏差纠错算法包括pid控制、模糊控制、神经网络控制等。但是上述这些控制算法往往需要进行参数整定、规则优化或人工训练,以使控制性能在精度和动态性方面达到最优。然而上述调优,对于技术人员的能力和经验都有着较高的要求。同时对于常规pid控制系统,系统中的参数kp、ki和kd被设置为常数,因而在设置时必须进行折中,以兼顾正反两面的影响,由此导致电机实际运行工况超出了调优时预设的范围时,将极大可能造成控制性能的下降。技术实现要素:4.针对现有技术中存在的不足,本发明提供了一种基于ddpg强化学习的pid动态整定电机控制系统(简称ddpg-pid控制系统),通过根据工况动态整定pid系统参数,解决pid控制系统的调优问题。5.本发明通过以下技术手段实现上述技术目的。6.一种基于ddpg强化学习的pid动态整定电机控制系统,包括ddpg控制器和pid控制器,所述ddpg控制器的输入为目标值、实际值和偏差值,ddpg控制器输出动作信号给pid控制器,所述pid控制器设有两个信号输入端,分别输入动作信号和偏差值,pid控制器输出端与电机相连,控制电机运转;其中目标值由外部给定、实际值由电机反馈、偏差值为目标值与实际值的差值。7.进一步地,所述ddpg控制器包括智能模块、观察模块、奖励模块和终止模块,所述观察模块、奖励模块和终止模块分别用于生成观察信号、奖励信号和终止信号并输出给智能模块,所述智能模块用于生成动作信号并输出给所述pid控制器。8.进一步地,所述观察模块设有两个输入端,分别输入实际值和偏差值,所述观察信号包括三个分量,分别为实际值、偏差值和偏差的累加值。9.进一步地,在智能模块的深度学习神经网络每回合训练开始时,或者在ddpg控制器输入的目标值发生更改时,所述累加值清零重新开始累加。10.进一步地,所述奖励模块设有三个信号输入端,分别输入偏差值、目标值和终止信号,所述奖励信号的生成过程包括三步:11.步骤1,根据偏差值与目标值计算偏差范围,当偏差范围《1%时给予奖励,奖励值为10;偏差范围≥1%时给予惩罚,惩罚值为-1;12.步骤2,当终止信号为“真”时给予惩罚,惩罚值为-100;13.步骤3,将步骤1和步骤2的结果相加,得到奖励信号。14.进一步地,所述终止模块的输入为实际值,终止模块根据实际值是否超限输出相应的终止信号,其中当实际值超限时,终止信号为“真”,当实际值未超限时,终止信号为“假”。15.进一步地,所述智能模块内配置有actor网络和critic网络。16.进一步地,所述actor网络由上至下依次为输入层、全连接层a、线性整流函数层和全连接层b,其中输入层的输入尺寸为3,全连接层a的输出尺寸为10,全连接层b的输出尺寸为3,线性整流函数层中采用tanh激活函数。17.进一步地,所述critic网络包括状态子图、动作子图和公共子图,所述状态子图由上至下依次包括输入尺寸为3的输入层、输出尺寸为25的全连接层、线性整流函数层和输出尺寸为50的全连接层,所述动作子图由上至下依次包括输入尺寸为3的输入层和输出尺寸为50的全连接层,所述公共子图对接状态子图和动作子图的输出,所述公共子图由上至下依次包括加法层、线性整流函数层和全连接层。18.进一步地,状态子图中线性整流函数层采用leakyrelu激活函数,公共子图中线性整流函数层采用relu激活函数。19.本发明的有益效果为:20.(1)本发明提供了一种ddpg-pid控制系统,能够用于有刷直流电机控制,其中利用ddpg控制器对动作参数进行动态整定,也即kp、ki和kd可随着系统状态进行动态变化,其中在偏离目标时尽可能地加大kp和ki,并尽可能减小kd,以让系统尽快向目标收敛,快速消除电机实际值与目标值之间的控制误差;而在接近目标后,及时降低kp和ki,并增大kd,以此避免出现超调,增强系统的稳定性。本发明基于上述方式有效改善了pid控制器的控制效果。此外由于各台直流有刷电机最终实际应用场景和驱动载荷存在差异,并且加上电机本身所具有一定的非线性、时变不确定性和惯性滞后的特点,因而传统的pid控制系统较难满足精密控制要求。而本发明ddpg-pid控制系统则可以根据每个不同的应用场景分别进行有针对性的强化学习训练,因此有着较强的环境适应能力。21.(2)在有监督学习的深度神经网络控制系统中,训练过程通常需要大量的人工参与。而本发明ddpg-pid控制系统采用强化学习技术,训练时通过获取电机运行状态的观察信号和评判自己输出动作好坏的奖励信号,进行自我试错和探索,因而试错和探索的过程无需人工干预,可以大大降低训练过程的人工成本。附图说明22.图1为本发明ddpg-pid电机控制系统结构图;23.图2为本发明ddpg控制器中actor网络结构图;24.图3为本发明ddpg控制器中critic网络结构图;25.图4为本发明ddpg-pid控制器系统训练测试结果图;26.图5为采用不同观察信号的对比例训练测试结果图;27.图6为采用不同网络结构的对比例训练测试结果图。具体实施方式28.下面详细描述本发明的实施例,所示实施例的示例在附图中示出,其中自始至终相通或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。29.一、方案30.如图1所示的ddpg-pid控制系统,包括ddpg控制器和pid控制器,其中ddpg控制器包括智能模块、观察模块、奖励模块和终止模块。所述“ddpg”全称为深度确定性策略梯度算法(deep deterministic policy gradient),是强化学习算法中的一种。31.当前直流电机的控制量包括电机的位置、转速和电流,因而本发明控制系统的输入也对应为外部给定的电机位置、电机转速或电机电流的目标值(以下简称目标值),同时将电机位置、电机转速或电机电流的实际测量值(以下简称实际值)作为反馈信号输入给控制系统,所述实际值由电机及其驱动电路完成采集并反馈,而目标值与实际值之间的差即为偏差值(以下简称偏差值)。因此本发明控制系统的输入信号包括目标值、实际值和偏差值这三个量。例如当控制目标为电机的电流大小时,则输入为电流目标值、电流实际值和电流偏差值。32.所述观察模块设有两个信号输入端,分别输入实际值和偏差值,观察模块根据输入信号生成相应的观察信号,并输出给智能模块。所述观察模块首先对偏差值进行累加运算,并基于多路复用技术,将实际值、偏差值、偏差的累加值,复合为一路观察信号输出,也即一个观察信号内包含有实际值、偏差值和偏差的累加值这三个分量。33.对于上述偏差值的累加运算可表示为dt=dt-1+pt,其中dt为第t次的偏差累加值,dt-1为t-1次的偏差累加值,pt为第t次输入的偏差值。观察模块中设有相应的存储单元,用于存储记录偏差累加值dt-1。初始的偏差累加值d0为0;其中在训练深度学习神经网络过程中,在每回合训练开始时,存储单元记录的累加值清零;而在深度学习神经网络训练完成后的实际应用过程中,则根据输入的目标值是否更改而定,其中目标值不变则一直进行累加,而当目标值发生变化后,则将存储单元记录的累加值清零后重新进行累加。34.所述奖励模块设有三个信号输入端,分别输入偏差值、目标值和终止信号,奖励模块根据上述三个输入信号生成相应的奖励信号,并输出给智能模块。奖励信号的具体生成逻辑如下:35.1)根据偏差值与目标值相比,当偏差范围《1%时则给予奖励,奖励值为10;偏差范围≥1%时则给予惩罚,惩罚值为-1。36.2)当终止信号为“真”时给予惩罚,惩罚值为-100。37.3)将1)和2)的结果相加,得到奖励信号。38.所述终止模块的输入为实际值,并根据实际值输出相应的终止信号,所述终止信号分别发送给奖励模块和智能模块。所述终止信号有“真”和“假”两个值,根据实际值是否超限进行选定,其中当实际值超出极限(人为进行设定的)时,例如测得的电机转速超出电机转速上限或低于转速下限时,则终止信号为“真”,反之实际值在限额范围内时,终止信号为“假”。39.所述智能模块根据输入的观察信号、奖励信号和终止信号,生成相应的动作信号给pid控制器,所述动作信号即为pid控制器的三个参数,具体为比例系数kp、积分时间常数ki、微分时间常数kd。当然所述智能模块在实际用于生产环境前,需要利用训练集进行训练。40.所述智能模块内配置有critic网络和actor网络;详细可参见2016年iclr(international conference on learning representations)会议论文《continuous control with deep reinforcement learining》。41.如图2所示的actor网络,由上至下依次为输入层(输入尺寸为3)、全连接层(输出尺寸为10)、线性整流函数层(采用tanh激活函数)和全连接层(输出尺寸为3)。该网络的输入观察信号,即实际值、偏差值和偏差的累加值构成的三元素向量,输出动作信号kp、ki和kd。42.如图3所示的critic网络,包括状态子图、动作子图和公共子图共3个子图,其中状态子图由上至下依次为输入层(输入尺寸为3)、全连接层(输出尺寸为25)、线性整流函数层(采用leakyrelu激活函数)和全连接层(输出尺寸为50);动作子图由上至下依次为输入层(输入尺寸为3)和全连接层(输出尺寸为50);公共子图则由加法层、线性整流函数层(采用relu激活函数)和全连接层(输出尺寸为1)共三层神经网络组成。其中状态子图对接观察信号生成模块输出的3元素向量(即实际值、偏差值和偏差的累加值构成的三元素向量),动作子图对接actor网络输出的3元素向量(即kp、ki和kd构成的三元素向量),加法层对接状态子图和动作子图的输出,再由公共子图输出对动作的价值评价q。所述价值评价q用来带入相应的损失函数以优化神经网络;智能模块中损失函数的设置以及具体如何进行网络优化均属于现有技术,可参见《continuous control with deep reinforcement learining》,因而在此不多做赘述。43.所述pid控制器即为现有pid控制器,其设有两个信号输入端,分别输入动作信号和偏差值。相比现有pid控制器中参数kp、ki和kd为定值,本发明中pid控制器的参数由ddpg控制器进行动态调整给定,并在给定的kp、ki、kd参数基础上,pid控制器根据输入的偏差值生成相应的电机控制策略,并最终以占比信号的形式输出给电机(及其驱动电路),从而实现对电机的精准控制。44.二、测试45.搭建模拟有刷直流电机的训练环境对上述ddpg-pid控制系统进行训练。以每回合训练200步为例,根据奖励模块的奖励生成逻辑可知,每一步的最大奖励值为10,而每回合训练所获奖励值即为该回合中每一步所获奖励值的累加和,因此每一回合训练的最大奖励值为2000;为减小ddpg控制器动作输出噪声所产生的影响,因而每20回合取一次平均奖励值作为评价指标。此外智能模块中当前网络部分的critic网络,在训练中每一步也会给出一次价值评价q,控制系统每回合所获价值即为该回合中每一步所获价值的累加和,训练中每回合所获价值也是重要的评价指标。46.如图4所示为本发明ddpg-pid控制系统的训练测试结果,如图所示,在约800个训练回合后,系统所获的平均奖励值已能够稳定接近在2000,也即能够达到最大奖励值的99%,满足训练要求。47.三、对比例48.如图5和图6所示为对照组训练测试结果,其中图5中所采用的控制系统与本发明相比,其观察信号选定为实际值、偏差值、偏差的微分这三个量,在超过900个训练回合后,其所获奖励值和价值仍看不出有收敛趋势;图6中所采用的控制系统与本发明相比,其智能模块中critic网络的状态子图中线性整流函数层采用sigmoid作为激活函数,同样在超过900个训练回合后,其所获奖励值和价值仍看不出有收敛趋势;因而对比例的两个控制系统均达不到训练要求。49.由于可采用的观察信号以及相应信号的数学处理方法有很多,并且常用的人工神经网络的结构、激活函数也各有很多种,同时即使同一神经网络在深度和宽度上的差异,也会对函数拟合效果造成巨大差异。因此在ddpg-pid这一大框架下还有着很多很多种具体的设置方案,而如图5、图6所列举的对比测试可知,绝大部分方案都无法达到控制要求,相关测试结果表明要么根本无法收敛,要么即使能够收敛,但在最终所获奖励值也只有最大奖励值的30%~80%,因此不能达到快速性、高精度和低超调方面的控制要求。50.在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。51.本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变形均属于本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部