计算;推算;计数设备的制造及其应用技术1.本发明涉及生命周期投资管理规划方法,尤其是一种基于深度强化学习的生命周期投资管理规划方法。背景技术:2.生命周期投资管理规划主要通过规划投资和消费来实现用户在生命周期内的效用回报最大化。现有的生命周期投资管理规划方法一般是将连续空间离散化后采用网格形式来进行财富和投资包的选择,然后利用时间序列进行动态规划方法(dynamic programming,dp)的反向填表,然而把财富波动和投资包离散化后,无法处理连续决策空间的问题,导致解空间变小,从而导致一些生命周期投资管理规划的解丢失,并且由于dp的建模技术本身缺失泛化性,其无法适应环境的变化。技术实现要素:3.本发明所要解决的技术问题是提供一种基于深度强化学习的生命周期投资管理规划方法,不但能处理连续决策空间的问题,而且增强了泛化性,能适应环境的变化。4.本发明解决上述技术问题所采用的技术方案为:一种基于深度强化学习的生命周期投资管理规划方法,包括以下步骤:5.①构建hppo(hybrid proximal policy optimization,混合空间的近端优化)模型,所述的hppo模型包括环境、智能体和多层感知机,所述的智能体包括两个actor(演员)网络和一个critic(评论家)网络,其中一个actor网络的采样方法为学生t分布采样方法,另一个actor网络的采样方法为均匀分布采样方法;6.②获取用户输入的参数;7.③根据用户输入的参数初始化hppo模型中的环境、智能体和多层感知机;8.④对初始化后的hppo模型进行训练,得到训练后的hppo模型;9.⑤根据预设的运行次数运行训练后的hppo模型并输出所有轨迹策略;10.⑥如果用户满意当前输出的所有轨迹策略,则用户接收当前输出的所有轨迹策略,并将该训练后的hppo模型确定为适合该用户生命周期投资管理规划的个性化模型,完成生命周期投资管理规划;如果用户不满意当前输出的所有轨迹策略,则用户修改输入的参数,再执行步骤③,直至用户满意当前输出的所有轨迹策略,并接收当前输出的所有轨迹策略,并将该训练后的hppo模型确定为适合该用户生命周期投资管理规划的个性化模型,完成生命周期投资管理规划。11.所述的步骤②中,所述的用户输入的参数包括规划的生命周期长度t、初始用于投资的资金w0、t时刻需要完成的人生目标列表ct,t时刻需要完成的目标效用列表ut,每个需要完成的人生目标可被推迟实现的时间20岁至80岁的成年人死亡率每年可注入的最大资金max(infusion)、每个可投资资产包一年内的均值meanz、每个可投资资产包一年内的方差variancez以及随机两个可投资资产包一年内的协方差covariancez,j;其中,t∈[0,t],i∈[1,k],k表示t时刻需要实现的人生目标总数,表示第i个在t时刻需要完成的人生目标,表示第i个在t时刻需要完成的目标效用,z∈[0,a],j∈[0,a],a表示可投资资产包的总数。[0012]所述的步骤③中,初始化hppo模型中的环境、智能体和多层感知机的具体过程如下:[0013]③‑1先通过非线性最小二乘法拟合得到最符合第i个在t时刻需要完成的人生目标和第i个在t时刻需要完成的目标效用的crra(coefficient of relative risk aversion,常相对风险规避效用函数)曲线;然后根据每个可投资资产包一年内的均值meanz、每个可投资资产包一年内的方差variancez和随机两个可投资资产包一年内的协方差covariancez,j计算并得到有效前沿线所需要的参数,所述的有效前沿线所需要的参数包括均值、方差和协方差;最后根据crra曲线、规划的生命周期长度t、初始用于投资的资金w0、第i个在t时刻需要完成的人生目标第i个在t时刻需要完成的目标效用每个需要完成的人生目标可被推迟实现的时间20岁至80岁的成年人死亡率每年可注入的最大资金max(infusion)和有效前沿线所需要的参数初始化环境;[0014]③‑2定义环境给出的t时刻需要完成的人生目标列表ct、剩余资产wt以及时刻t为状态空间,定义环境需要输出的第i个在t时刻需要完成的人生目标在t时刻所有可投资资产包一年内的均值meant以及在t时刻可注入的资金infusiont为动作空间,将状态空间和动作空间输入至多层感知机中初始化多层感知机的输入维度和输出维度,并以高斯初始化方法初始化智能体中两个actor网络和critic网络的每一层的参数,其中wt-1表示在t-1时刻用于投资的资金,表示第i个在第t-1时刻需要完成的人生目标,z表示从高斯分布中采样得到的随机数,variance表示可投资资产包一年内的均值为meant情况下,资产包组合所能达到的最小方差。[0015]所述的步骤④中,对初始化后的hppo模型进行训练,得到训练后的hppo模型具体包括:智能体和环境进行交互,将状态空间作为初始化后的hppo模型中两个actor网络的输入,每个actor网络对状态空间进行处理,输出符合环境的动作空间;环境接收每个actor网络输出的动作空间,输出对应的奖励,将奖励作为初始化后的hppo模型中critic网络的输入,通过奖励对critic网络进行训练,critic网络输出此时状态空间对应的状态值,通过状态值对每个actor网络进行训练,最终获得训练后的hppo模型。[0016]所述的步骤④的具体训练过程如下:[0017]s1:环境构建当前状态集s并开始训练,其中,s={t,w,c},t表示时刻,且t∈[0,t],w表示用于投资的资金,c表示需要完成的人生目标列表;[0018]s2:将当前状态集s输入到初始化后的hppo模型的一个actor网络中,经过多层感知机,得到在当前状态下选择的资产包的预期收益均值选择的资产包的预期收益方差选择的资产包的预期收益自由度选择输入的资金均值选择输入的资金方差以及选择输入的资金自由度并采用学生t分布采样方法得到在当前状态选择的资产预期收益在当前状态选择的资产预期收益概率在当前状态需要注入的资金infusiont、在当前状态需要注入的资金概率[0019]s3:将当前状态集s输入到初始化后的hppo模型的另一个actor网络中,经过多层感知机,获得另一个actor网络的对每个人生目标组合实现的价值估计,再通过softmax(归一化指数函数)计算得到在当前状态下实现每个人生目标组合的概率,并采用均匀分布采样方法得到当前状态选择实现的人生目标组合kt和当前状态选择实现的人生目标组合概率[0020]s4:将在当前状态需要注入的资金infusiont、在当前状态选择的资产预期收益当前状态选择实现的人生目标组合kt输入到环境中,得到奖励r和下一状态集s_;[0021]s5:将在当前状态需要注入的资金infusiont、在当前状态选择的资产预期收益当前状态选择实现的人生目标组合kt、在当前状态需要注入的资金概率在当前状态选择的资产预期收益概率以及当前状态选择实现的人生目标组合概率记为动作a,并将动作a、当前状态集s、奖励r和下一状态集s_存储至记忆库中;[0022]s6:重复执行步骤s1~s5,直至记忆库中存储有至少10万条的数据;[0023]s7:从记忆库中随机选取并构建记忆组m,m={s,a,r,s_};[0024]s8:将记忆组m中当前状态集s、下一状态集s_输入至初始化后的hppo模型的critic网络中,经过多层感知机,获取每个状态集的状态值v;[0025]s9:根据状态值v通过gae(generalized advantage estimation,广义优势估计)算法计算得到gae值;[0026]s10:根据记忆组m中动作a和当前状态集s计算得到策略熵hp;[0027]s11:将记忆组m中当前状态集s输入到两个actor网络中,得到新动作anew;[0028]s12:根据新动作anew和记忆组中的动作a通过clip(gradient clip,梯度裁剪)算法计算得到策略概率比值lclip(θb);[0029]s13:根据策略概率比值lclip(θb)、策略熵hp、gae值计算得到连续动作网络的损失函数值loss1和离散动作网络的损失函数值loss2,通过连续动作网络的损失函数值loss1更新初始化后的hppo模型的一个actor网络的参数,通过离散动作网络的损失函数值loss2更新初始化后的hppo模型的另一个actor网络的参数;[0030]s14:根据gae值和状态值v,通过公式计算得到均方误差mse,并通过均方误差mse更新初始化后的hppo模型的critic网络的参数,其中,yi=gae+v,xi=vnew,gae表示gae值,vnew表示critic网络新生成的状态值,n表示从记忆库中选取的记忆组的总数;[0031]s15:重复执行步骤s1~s14至少1000次,直到所有轨迹策略获得的效用回报的平均波动小于10%并且每条轨迹策略获得的效用回报均高于预设的用户预期效用回报,结束训练并输出训练后的hppo模型。[0032]所述的轨迹策略由规划的生命周期长度t内所有动作a组成,所述的效用回报为规划的生命周期长度t内所有奖励r的总和,所述的所有轨迹策略获得的效用回报的平均波动为所有轨迹策略获得的效用回报的总和与轨迹策略的总数的比值,所述的轨迹策略的总数为重复执行步骤s1~s14的总次数与规划的生命周期长度t的比值。[0033]所述的步骤⑤和⑥之间还包括:根据输出的所有轨迹策略,统计每条轨迹策略中所实现的人生目标以及每条轨迹策略获得的效用回报,并输出每个实现的人生目标的概率和平均每条轨迹策略能获得的效用回报;[0034]用户对当前输出的每个实现的人生目标的概率和平均每条轨迹策略能获得的效用回报进行评估,并做出是否接收当前输出的所有轨迹策略的选择。[0035]所述的步骤⑤中,所述的预设的运行次数为10000次。[0036]与现有技术相比,本发明的优点在于采用多层感知机和概率采样处理连续空间的决策问题,避免连续空间离散化带来的解空间变小的问题,减少了生命周期投资管理规划的解丢失,并且可以通过修改用户输入的参数对hppo模型中的环境、智能体和多层感知机进行初始化,使hppo模型能适应真实问题的变化,增强了泛化性,本发明3m次训练后平均效用回报为4109,与传统hppo方法相比提高了9.6%,本发明3m次训练后最大效用回报为4212,与传统hppo方法相比提高了8.8%,效用回报显著提高。附图说明[0037]图1为本发明的整体流程示意图;[0038]图2为本发明的训练过程示意图;[0039]图3为本发明的效果对比示意图。具体实施方式[0040]以下结合附图实施例对本发明作进一步详细描述。[0041]一种基于深度强化学习的生命周期投资管理规划方法,包括以下步骤:[0042]①构建hppo模型,hppo模型包括环境、智能体和多层感知机,智能体包括两个actor网络和一个critic网络,其中一个actor网络的采样方法为学生t分布采样方法,另一个actor网络的采样方法为均匀分布采样方法;其中一个actor网络为包含连续动作的神经网络,另一个actor网络为包含离散动作的神经网络;[0043]②获取用户输入的参数;[0044]用户输入的参数包括规划的生命周期长度t、初始用于投资的资金w0、t时刻需要完成的人生目标列表ct,t时刻需要完成的目标效用列表ut,每个需要完成的人生目标可被推迟实现的时间20岁至80岁的成年人死亡率每年可注入的最大资金max(infusion)、每个可投资资产包一年内的均值(即平均收益)meanz、每个可投资资产包一年内的方差(即单个资产包元素的波动)variancez以及随机两个可投资资产包一年内的协方差(即随机两个资产包元素之间的相关性)covariancez,j;其中,t∈[0,t],i∈[1,k],k表示t时刻需要实现的人生目标总数,表示第i个在t时刻需要完成的人生目标,表示第i个在t时刻需要完成的目标效用,z∈[0,a],j∈[0,a],a表示可投资资产包的总数;可投资资产包包括各类债券,各类股票,各类期货等;[0045]③根据用户输入的参数以及hppo模型中的多层感知机初始化hppo模型中的环境、智能体和多层感知机;[0046]初始化hppo模型中的环境、智能体和多层感知机的具体过程如下:[0047]③‑1先通过非线性最小二乘法拟合得到最符合第i个在t时刻需要完成的人生目标和第i个在t时刻需要完成的目标效用的crra曲线;然后根据每个可投资资产包一年内的均值meanz、每个可投资资产包一年内的方差variancez和随机两个可投资资产包一年内的协方差covariancez,j计算并得到有效前沿线所需要的参数,有效前沿线所需要的参数包括均值、方差和协方差;最后根据crra曲线、规划的生命周期长度t、初始用于投资的资金w0、第i个在t时刻需要完成的人生目标第i个在t时刻需要完成的目标效用每个需要完成的人生目标可被推迟实现的时间20岁至80岁的成年人死亡率每年可注入的最大资金max(infusion)和有效前沿线所需要的参数初始化环境;[0048]③‑2定义环境给出的t时刻需要完成的人生目标列表ct、剩余资产wt以及时刻t为状态空间,定义环境需要输出的第i个在t时刻需要完成的人生目标在t时刻所有可投资资产包一年内的均值meant以及在t时刻可注入的资金infusiont为动作空间,将状态空间和动作空间输入至多层感知机中初始化多层感知机的输入维度和输出维度,并以高斯初始化方法初始化智能体中两个actor网络和critic网络的每一层的参数,其中wt-1表示在t-1时刻用于投资的资金,表示第i个在第t-1时刻需要完成的人生目标,z表示从高斯分布中采样得到的随机数,variance表示可投资资产包一年内的均值为meant情况下,资产包组合所能达到的最小方差;[0049]④对初始化后的hppo模型进行训练,得到训练后的hppo模型:智能体和环境进行交互,将状态空间作为初始化后的hppo模型中两个actor网络的输入,每个acer网络对状态空间进行处理,输出符合环境的动作空间;环境接收每个actor网络输出的动作空间,输出对应的奖励,将奖励作为初始化后的hppo模型中critic网络的输入,通过奖励对critic网络进行训练,critic网络输出此时状态空间对应的状态值,通过状态值对每个actor网络进行训练,最终获得训练后的hppo模型;[0050]其中具体训练过程如下:[0051]s1:环境构建当前状态集s并开始训练,其中,s={t,w,c},t表示时刻,且t∈[0,t],w表示用于投资的资金,c表示需要完成的人生目标列表;[0052]s2:将当前状态集s输入到初始化后的hppo模型的一个actor网络中,经过多层感知机,得到在当前状态下选择的资产包的预期收益均值选择的资产包的预期收益方差选择的资产包的预期收益自由度选择输入的资金均值选择输入的资金方差以及选择输入的资金自由度并采用学生t分布采样方法得到在当前状态选择的资产预期收益在当前状态选择的资产预期收益概率在当前状态需要注入的资金infusiont、在当前状态需要注入的资金概率[0053]s3:将当前状态集s输入到初始化后的hppo模型的另一个actor网络中,经过多层感知机,获得另一个actor网络的对每个人生目标组合实现的价值估计,再通过softmax计算得到在当前状态下实现每个人生目标组合的概率,并采用均匀分布采样方法得到当前状态选择实现的人生目标组合kt和当前状态选择实现的人生目标组合概率[0054]s4:将在当前状态需要注入的资金infusiont、在当前状态选择的资产预期收益当前状态选择实现的人生目标组合kt输入到环境中,得到奖励r和下一状态集s_;[0055]s5:将在当前状态需要注入的资金infusiont、在当前状态选择的资产预期收益当前状态选择实现的人生目标组合kt、在当前状态需要注入的资金概率在当前状态选择的资产预期收益概率以及当前状态选择实现的人生目标组合概率记为动作a,并将动作a、当前状态集s、奖励r和下一状态集s_存储至记忆库中;[0056]s6:重复执行步骤s1~s5,直至记忆库中存储有至少10万条的数据;[0057]s7:从记忆库中随机选取并构建记忆组m,m={s,a,r,s_};[0058]s8:将记忆组m中当前状态集s、下一状态集s_输入至初始化后的hppo模型的critic网络中,经过多层感知机,获取每个状态集的状态值v;[0059]s9:根据状态值v通过gae算法计算得到gae值;[0060]s10:根据记忆组m中动作a和当前状态集s计算得到策略熵hp;[0061]s11:将记忆组m中当前状态集s输入到两个actor网络中,得到新动作anew;[0062]s12:根据新动作anew和记忆组中的动作a通过clip算法计算得到策略概率比值lclip(θb);[0063]s13:根据策略概率比值lclip(θb)、策略熵hp、gae值计算得到连续动作网络的损失函数值loss1和离散动作网络的损失函数值loss2,通过连续动作网络的损失函数值loss1更新初始化后的hppo模型的一个actor网络的参数,通过离散动作网络的损失函数值loss2更新初始化后的hppo模型的另一个actor网络的参数;[0064]s14:根据gae值和状态值v,通过公式计算得到均方误差mse,并通过均方误差mse更新初始化后的hppo模型的critic网络的参数,其中,yi=gae+v,xi=vnew,gae表示gae值,vnew表示critic网络新生成的状态值,n表示从记忆库中选取的记忆组的总数;[0065]s15:重复执行步骤s1~s14至少1000次,直到所有轨迹策略获得的效用回报的平均波动小于10%并且每条轨迹策略获得的效用回报均高于预设的用户预期效用回报,结束训练并输出训练后的hppo模型;[0066]⑤根据预设的运行次数运行训练后的hppo模型并输出所有轨迹策略;预设的运行次数为10000次;[0067]⑥如果用户满意当前输出的所有轨迹策略,则用户接收当前输出的所有轨迹策略,并将该训练后的hppo模型确定为适合该用户生命周期投资管理规划的个性化模型,完成生命周期投资管理规划;如果用户不满意当前输出的所有轨迹策略,则用户修改输入的参数,再执行步骤③,直至用户满意当前输出的所有轨迹策略,并接收当前输出的所有轨迹策略,并将该训练后的hppo模型确定为适合该用户生命周期投资管理规划的个性化模型,完成生命周期投资管理规划;[0068]在本实施例中,轨迹策略由规划的生命周期长度t内所有动作a组成,效用回报为规划的生命周期长度t内所有奖励r的总和,所有轨迹策略获得的效用回报的平均波动为所有轨迹策略获得的效用回报的总和与轨迹策略的总数的比值,轨迹策略的总数为重复执行步骤s1~s14的总次数与规划的生命周期长度t的比值;[0069]例如:轨迹策略1获得的效用回报为1000,轨迹策略2获得的效用回报为2000,则平均波动为(1000+2000)/2=1500;[0070]若重复执行步骤s1~s14的总次数为1001次,则轨迹策略的总数为1001/t;[0071]在本实施例中,步骤⑤和⑥之间还包括:根据输出的所有轨迹策略,统计每条轨迹策略中所实现的人生目标以及每条轨迹策略获得的效用回报,并输出每个实现的人生目标的概率和平均每条轨迹策略能获得的效用回报;[0072]用户对当前输出的每个实现的人生目标的概率和平均每条轨迹策略能获得的效用回报进行评估,并做出是否接收当前输出的所有轨迹策略的选择;[0073]在本实施例中,crra用于计算在风险规避系数下,消费能带来的效用:其中,u(costt)表示消费所带来的效用,costt表示消费,θ表示风险规避系数,θ∈[0,1];[0074]在本实施例中,有效前沿线的定义为:假定投资者都是风险厌恶型,那么在同等收益水平下,他们会选择风险更小的资产,同理,当风险水平相同,投资者们会倾向于选择高收益资产,遵循这个逻辑,有效前沿代表了所有最有效的风险资产组合,其中,有效前沿左侧边界上的点称为全局最小方差组合;[0075]在本实施例中,通过公式在本实施例中,通过公式计算策略熵hp,其中,hp表示策略熵,π表示轨迹策略,at表示t时刻动作,st表示t时刻状态,at~π表示属于轨迹π的动作,e表示期望,此公式用于计算某一轨迹策略的不确定性;[0076]在本实施例中,通过公式lclip(θb)=et[min(rt(θb),clip(rt(θb),1-∈,1+∈))]计算策略概率比值lclip(θb),其中,et表示t时刻的期望,当b=1时,θ1代表一个actor网络的参数,当b=2时,θ2代表另一个actor网络的参数,at表示t时刻动作,st表示t时刻状态,表示在actor网络参数为θb、状态为st时,采取动作at的概率,表示在新的actor网络参数为状态为st时,采取动作at的概率,当rt(θb)>1+∈时,clip(rt(θb),1-∈,1+∈)=1+∈,当rt(θb)<1-∈时,clip(rt(θb),1-∈,1+∈)=1-∈,当rt(θb)=1+∈时,clip(rt(θb),1-∈,1+∈)=rt(θb);[0077]从表1中可以看出,使用本发明进行3m次训练后最大效用回报和平均效用回报均明显优于现有技术,表明了本发明的优越性;[0078]表1 本发明与现有技术关于效用回报的结果对比[0079]方法名称3m次训练后最大效用回报3m次训练后平均效用回报本发明42124109传统hppo方法38713748传统动态规划方法20842083[0080]图3为使用本发明、使用现有hppo方法和使用现有dp方法的效果对比示意图,图中纵坐标表示一条轨迹策略的效用回报,横坐标表示训练次数,从图中可以看出本发明明显优于现有的hppo和现有的dp。[0081]本专利的词语解释:[0082]原有的hppo模型的参考文献:fan,z.,su,r.,zhang,w.,&yu,y.(2019).hybrid actor-critic reinforcement learning in parameterized action space.arxiv preprint arxiv:1903.01344.[0083]crra的参考文献:https://wiki.mbalib.com/zh-tw/crra;[0084]有效前沿线的参考文献:markowitz,h.m.(march 1952).″portfolio selection″.the journal of finance.7(1):77-91.[0085]多层感知机(multilayer perceptron,mlp)也叫人工神经网络,用于对输入数据进行分类并提取特征;[0086]多层感知机的参考文献:ramchoun,h.,ghanou,y,ettaouil,m.,&janati idrissi,m.a.(2016).multilayer perceptron:architecture optimization and training.[0087]variance的计算方法的参考文献:dasa s r,varmaa s.dynamic goals-based wealth management using reinforcement learning[j].journal of investment management,2020,18(2):1-20.[0088]人生目标组合的参考文献:das s r,ostrov d,radhakrishnan a,et al.dynamic optimization for multi-goals wealth management[j].journal of banking&finance,2022,140:106192.[0089]gae算法的参考文献:schulman j,moritz p,levine s,et al.high-dimensional continuous control using generalized advantage estimation[j].arxiv preprint arxiv:1506.02438,2015.[0090]计算策略熵的参考文献:peters j,mulling k,altun y.relative entropy policy search[c]//twenty-fourth aaai conference on artificial intelligence.2010.[0091]clip算法的参考文献:schulman j,wolski f,dhariwal p,et al.proximal policy optimization algorithms[j].arxiv preprint arxiv:1707.06347,2017.
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于深度强化学习的生命周期投资管理规划方法 专利技术说明
作者:admin
2023-07-07 12:04:18
677
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术