专利技术

一种基于深度强化学习的频谱接入方法

 作者：admin  2022-08-31 07:23:07  557

电子通信装置的制造及其应用技术1.本发明涉及一种认知无线电技术，尤其是涉及一种基于深度强化学习的频谱接入方法，其通过深度强化学习来学习一种动态频谱接入策略。背景技术：2.随着5g和物联网的快速发展，无线用户的数量急剧增加，人们对无线通信的需求越来越多，频谱资源变得越来越重要。无线频谱资源的短缺和人们对无线频谱资源需求的大幅度提升，构成了当今无线通信发展的一大矛盾。虽然有越来越多关于毫米波通信的研究，但是毫米波通信存在着易受阻挡和覆盖范围小等缺点，使用毫米波通信需要建立大量的基站，成本很高，短时间内很难普及。因此，提高中低频段的频谱利用率对于5g和物联网的发展至关重要。认知无线电技术允许次级用户接入未被使用的授权频段，以支持更高的数据率和接入更多的用户，可以极大地提高频谱的利用率，因此一经提出便被广泛关注。在认知无线电背景下，次级用户在接入信道之前需要先对信道进行感知，在感知到信道空闲之后才会接入，以避免对授权用户造成干扰。3.为了尽可能地提高频谱利用率，增大系统的吞吐量，一个好的频谱接入策略是很重要的。由于次级用户接入信道之前的信道感知也是需要耗费时间、能量等资源的，感知的次数越多，则用于接入的时间就会相应地减少，合理地减少感知的次数可以有效增加次级用户的接入时长，从而提高频谱利用率。因此，一个好的频谱接入策略不光要考虑每个时隙接入哪个信道，还应该考虑感知的频率即多少个时隙进行一次感知以及感知的顺序。传统的随机感知策略在每个时隙按照随机顺序对多个信道进行感知，直到发现空闲信道便进行接入。现有的基于贝叶斯的方法、现有的基于汤普森采样的策略、现有的基于深度强化学习的策略主要集中于考虑选择哪个信道进行接入，而没有考虑感知的频率。此外，还有方法考虑在检测概率约束下为了最大化吞吐量而优化固定时隙长度下的感知时长或者优化固定感知时长下的时隙大小，这类方法虽然都研究了感知的频率问题，但是它们针对的都是单信道的场景，并且它们都需要知道授权用户繁忙/空闲的参数。技术实现要素：4.本发明所要解决的技术问题是提供一种基于深度强化学习的频谱接入方法，其不仅能够选择接入哪个信道，而且能够决定多少个时隙进行一次感知，从而降低了花费在感知上的资源，能够有效提高频谱利用率。5.本发明解决上述技术问题所采用的技术方案为：一种基于深度强化学习的频谱接入方法，其特征在于包括以下步骤：6.步骤1：在认知无线电系统中，设定时隙的总个数为t个、信道的总个数为k个；设定历史时隙的长度即历史时隙的总个数为l个；令t表示时隙的序号，时隙的序号从0开始到t-1为止按序编号，即t的初始值为0；设定只存在一个次级用户，次级用户按时隙的序号先后顺序选择性的在部分时隙内感知信道；令nrenew表示用于记录更新次数的参数，nrenew的初始值为0；设定神经网络的参数的更新频率数为nrenew，nrenew∈[50,200]；其中，t＞10，k≥1，l≥10，l＜t；[0007]步骤2：按时隙的序号先后顺序依次遍历每个时隙，当前遍历的时隙的序号为t，比较t与l的大小，若t＜l，则执行步骤3；若t＝l，则执行步骤4；[0008]步骤3：次级用户在序号为t的时隙内为每个信道设置一个beta分布；然后根据每个信道的beta分布生成一个随机数，将根据第i个信道的beta分布生成的随机数记为di；接着按降序的顺序对k个随机数进行排序，将排序结果作为感知顺序，即若di在排序结果中位于第k位，则第i个信道便是第k个感知；之后按感知顺序依次对信道进行感知，在结束感知过程后得到所有信道各自的状态标记，并按信道的序号先后顺序将k个信道的状态标记排列构成一个维度为k×1的向量作为在序号为t的时隙内所有信道的状态标记向量，记为st；最后令t＝t+1，再返回步骤2继续执行；其中，第i个信道的beta分布的两个参数分别为αi和βi，组成的参数组记为(αi,βi)，αi和βi的初始值均为1，1≤i≤k，1≤k≤k，若k个随机数中存在两个及以上的随机数相同，那么这些相同的随机数按信道的序号先后顺序进行排序，信道的状态标记为0或1或2，信道的状态标记为0时代表感知到该信道空闲，信道的状态标记为1时代表感知到该信道繁忙，信道的状态标记为2时代表该信道未被感知，t＝t+1中的“＝”为赋值符号；[0009]步骤4：构建用于深度强化学习的初始状态，记为st-1，st-1＝[st-1,st-2,…,s0]；并构建神经网络，其包括三个全连接层，第1个全连接层的输入端为该神经网络的输入端，第1个全连接层的输出端输出的数据经过tanh激活函数后输入到第2个全连接层的输入端，第2个全连接层的输出端输出的数据经过tanh激活函数后输入到第3个全连接层的输入端，第3个全连接层的输出端输出的数据作为该神经网络的输出端输出的数据；然后执行步骤5；其中，st-1的维度为k×l，符号“[]”为向量或矩阵的表示符号，st-1表示在序号为t-1的时隙内所有信道的状态标记向量，st-2表示在序号为t-2的时隙内所有信道的状态标记向量，s0表示在序号为0的时隙内所有信道的状态标记向量，第1个全连接层的神经元个数为64，第2个全连接层的神经元个数为64，第3个全连接层的神经元个数为k×m+1，m表示次级用户每次接入一个信道最多可接入的时隙数，m∈[2,50]；[0010]步骤5：将st-1输入到构建的神经网络中，得到神经网络的输出，记为at，at∈{0,1,2,…,k×m}；其中，at≠k×m时at代表次级用户能够从序号为t的时隙开始接入第个信道且可接入的时隙数n等于n＝at％m+1，c∈[1,k]，符号为向下取整运算符号，符号“％”为取余数运算符号，at＝k×m时at代表次级用户在序号为t的时隙内不接入任何信道；[0011]步骤6：判断at的值是否等于k×m，如果是，则确定次级用户在序号为t的时隙内不接入任何信道，将所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，接着令st＝[st,st-1,…,st-l+1]、t＝t+1、nrenew＝nrenew+1，然后令rt-1＝0，再将st-1、at-n、rt-1、st-2构成一个集合{st-1,at-n,rt-1,st-2}并保存用于神经网络的训练，之后执行步骤12；否则，确定次级用户能够从序号为t的时隙开始接入第个信道且可接入的时隙数n等于n＝at％m+1，接着令n0＝n，令q表示接入过程中次级用户与主用户是否发生碰撞，q的初始值为0，再执行步骤7；其中，st表示用于深度强化学习的t时隙状态，st的维度为k×l，st-l+1表示在序号为t-l+1的时隙内所有信道的状态标记向量，rt-1表示次级用户在序号为t-1的时隙内的奖励值，st-1表示用于深度强化学习的t-1时隙状态，当at-1的值等于k×m时at-n中的n＝1，即at-n为at-1，st-2表示用于深度强化学习的t-2时隙状态，nrenew＝nrenew+1和t＝t+1中的“＝”为赋值符号，n0为引入的中间变量；[0012]步骤7：次级用户在序号为t的时隙内接入第ct个信道；然后判断接入过程中次级用户与主用户是否发生碰撞，如果未发生碰撞，则计算次级用户在序号为t的时隙内的吞吐量，记为rt，rt＝log2(1+snr)，同时将第ct个信道的状态标记设为0，将其余所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，再令st＝[st,st-1,…,st-l+1]、q＝0、n＝n-1、t＝t+1，而后执行步骤8；如果发生碰撞，则将次级用户在序号为t的时隙内的吞吐量记为rt，令rt＝0，同时将第ct个信道的状态标记设为1，将其余所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，再令st＝[st,st-1,…,st-l+1]、q＝1、n＝n-1、t＝t+1，而后执行步骤8；其中，ct＝c，snr表示次级用户的接收端的信噪比，st表示用于深度强化学习的t时隙状态，st-l+1表示在序号为t-l+1的时隙内所有信道的状态标记向量，表示第ct个信道的beta分布的两个参数组成的参数组，q表示接入过程中次级用户与主用户是否发生碰撞，q＝0代表接入过程中次级用户与主用户未发生碰撞，q＝1代表接入过程中次级用户与主用户发生碰撞，n＝n-1、t＝t+1、中的“＝”为赋值符号；[0013]步骤8：若t＜t、n＞0且q＝0，则返回步骤7继续执行；若t＜t、n＞0且q＝1，则直接执行步骤9；若t＜t且n＝0，则直接执行步骤11；若t＝t，则直接执行步骤13；[0014]步骤9：次级用户在序号为t的时隙内为每个信道设置一个beta分布；然后根据每个信道的beta分布生成一个随机数，将根据第i个信道的beta分布生成的随机数记为di；接着按降序的顺序对k个随机数进行排序，将排序结果作为感知顺序，即若di在排序结果中位于第k位，则第i个信道便是第k个感知；之后按感知顺序依次对信道进行感知，在结束感知过程后得到所有信道各自的状态标记，并按信道的序号先后顺序将k个信道的状态标记排列构成一个维度为k×1的向量作为在序号为t的时隙内所有信道的状态标记向量，记为st，同时记录在序号为t的时隙内感知的总次数，记为ηt；再令st＝[st,st-1,…,st-l+1]；最后判断次级用户在序号为t的时隙内是否感知到空闲信道，如果感知到第ct个信道为空闲信道，那么次级用户接入该信道，并当ct＝c且接入过程中次级用户与主用户未发生碰撞时，计算次级用户在序号为t的时隙内的吞吐量，记为rt，令q＝0、n＝n-1、t＝t+1，再执行步骤10；当ct＝c且接入过程中次级用户与主用户发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝1、n＝n-1、t＝t+1，再执行步骤10；当ct≠c且接入过程中次级用户与主用户未发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝0、n＝n-1、t＝t+1，再执行步骤10；当ct≠c且接入过程中次级用户与主用户发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝1、n＝n-1、t＝t+1，再执行步骤10；如果没有感知到空闲信道，那么令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令n＝n-1、t＝t+1，重复执行步骤9；其中，tf表示每个时隙的长度，τ表示每次感知需要的时长；[0015]步骤10：若t＜t、n＞0且q＝0，则返回步骤7继续执行；若t＜t、n＞0且q＝1，则返回步骤9继续执行；若t＜t且n＝0，则直接执行步骤11；若t＝t，则直接执行步骤13；[0016]步骤11：令nrenew＝nrenew+1；然后计算次级用户在序号为t-1的时隙内的奖励值，记为rt-1，再将st-1、at-n、rt-1、st-2构成一个集合{st-1,at-n,rt-1,st-2}并保存用于神经网络的训练，之后执行步骤12；其中，rj表示次级用户在序号为j的时隙内的吞吐量，st-1表示用于深度强化学习的t-1时隙状态，st-2表示用于深度强化学习的t-2时隙状态，当at-1的值不等于k×m时at-n中的n＝at％m+1；[0017]步骤12：判断nrenew％nrenew＝0是否成立，如果成立，则用{st,at-n+1,rt,st-1}对神经网络进行训练，训练的batch size设置为大于或等于100，训练的优化器采用adam，训练的损失函数采用交叉熵函数，更新神经网络的参数，并令nrenew＝0，然后返回步骤5继续执行；否则，则直接返回步骤5继续执行；[0018]步骤13：频谱接入结束。[0019]所述的步骤3和所述的步骤9中，st的获取过程为：[0020]步骤a1：按感知顺序依次对信道进行感知，将当前感知的信道定义为当前信道；[0021]步骤a2：若感知到当前信道空闲，则将当前信道的状态标记设为0，然后执行步骤a3；若感知到当前信道繁忙，则将当前信道的状态标记设为1，然后执行步骤a4；[0022]步骤a3：判断是否还存在未被感知的信道，如果是，则将未被感知的所有信道的状态标记设为2，并结束感知过程，再执行步骤a5；否则，直接结束感知过程，再执行步骤a5；[0023]步骤a4：判断序号为t的时隙的时间是否已全部用完，如果序号为t的时隙的时间已全部用完，则再判断是否还存在未被感知的信道，如果是，则将未被感知的所有信道的状态标记设为2，并结束感知过程，再执行步骤a5；否则，直接结束感知过程，再执行步骤a5；如果序号为t的时隙的时间未用完，则再判断当前信道是否为需要感知的最后一个信道，若是，则重新按感知顺序依次对信道进行感知，将当前感知的信道定义为当前信道，然后返回步骤a2继续执行；若不是，则将下一个待感知的信道作为当前信道，然后返回步骤a2继续执行；[0024]步骤a5：按信道的序号先后顺序将k个信道的状态标记排列构成st。[0025]与现有技术相比，本发明的优点在于：[0026]1)本发明方法的深度强化学习每次的动作既选择了接入的信道，又选择了在该信道中可连续接入的时隙数，这极大地减少了感知所需要的时间，增加了次级用户的接入时长，从而提高了频谱利用率，增大了次级用户的吞吐量。[0027]2)本发明方法只需要知道是否存在授权用户即主用户，而不需要知道授权用户即主用户的繁忙/空闲的参数，更符合实际场景，应用范围更广阔。[0028]3)本发明方法不局限于单次级用户的信道接入，可以将每个次级用户都看作是一个智能体，从而扩展到解决多次级用户的信道接入问题。附图说明[0029]图1为本发明方法的总体实现流程框图；[0030]图2为分别利用本发明方法和现有的基于贝叶斯的方法得到的每个时隙的平均归一化吞吐量随时间变化的曲线对比图；[0031]图3为分别利用本发明方法和现有的基于贝叶斯的方法得到的每个时隙的平均碰撞次数随时间变化的曲线对比图。具体实施方式[0032]以下结合附图实施例对本发明作进一步详细描述。[0033]本发明提出的一种基于深度强化学习的频谱接入方法，其总体实现流程框图如图1所示，其包括以下步骤：[0034]步骤1：在认知无线电系统中，设定时隙的总个数为t个、信道的总个数为k个；设定历史时隙的长度即历史时隙的总个数为l个；令t表示时隙的序号，时隙的序号从0开始到t-1为止按序编号，即t的初始值为0；设定只存在一个次级用户，次级用户按时隙的序号先后顺序选择性的在部分时隙内感知信道；令nrenew表示用于记录更新次数的参数，nrenew的初始值为0；设定神经网络的参数的更新频率数为nrenew，nrenew∈[50,200]，在本实施例中取nrenew＝100；其中，t＞10，如取t＝50，k≥1，在本实施例中取k＝5，l≥10，l＜t，在本实施例中取l＝40。[0035]步骤2：按时隙的序号先后顺序依次遍历每个时隙，当前遍历的时隙的序号为t，比较t与l的大小，若t＜l，则执行步骤3；若t＝l，则执行步骤4。[0036]步骤3：次级用户在序号为t的时隙内为每个信道设置一个beta分布；然后根据每个信道的beta分布生成一个随机数，将根据第i个信道的beta分布生成的随机数记为di；接着按降序的顺序对k个随机数进行排序，将排序结果作为感知顺序，即若di在排序结果中位于第k位，则第i个信道便是第k个感知；之后按感知顺序依次对信道进行感知，在结束感知过程后得到所有信道各自的状态标记，并按信道的序号先后顺序将k个信道的状态标记排列构成一个维度为k×1的向量作为在序号为t的时隙内所有信道的状态标记向量，记为st；最后令t＝t+1，再返回步骤2继续执行；其中，第i个信道的beta分布的两个参数分别为αi和βi，组成的参数组记为(αi,βi)，αi和βi的初始值均为1，1≤i≤k，1≤k≤k，若k个随机数中存在两个及以上的随机数相同，那么这些相同的随机数按信道的序号先后顺序进行排序，信道的状态标记为0或1或2，信道的状态标记为0时代表感知到该信道空闲，信道的状态标记为1时代表感知到该信道繁忙，信道的状态标记为2时代表该信道未被感知，t＝t+1中的“＝”为赋值符号。[0037]步骤4：构建用于深度强化学习的初始状态，记为st-1，st-1＝[st-1,st-2,…,s0]；并构建神经网络，其包括三个全连接层，第1个全连接层的输入端为该神经网络的输入端，第1个全连接层的输出端输出的数据经过tanh激活函数后输入到第2个全连接层的输入端，第2个全连接层的输出端输出的数据经过tanh激活函数后输入到第3个全连接层的输入端，第3个全连接层的输出端输出的数据作为该神经网络的输出端输出的数据；然后执行步骤5；其中，st-1的维度为k×l，符号“[]”为向量或矩阵的表示符号，st-1表示在序号为t-1的时隙内所有信道的状态标记向量，st-2表示在序号为t-2的时隙内所有信道的状态标记向量，s0表示在序号为0的时隙内所有信道的状态标记向量，第1个全连接层的神经元个数为64，第2个全连接层的神经元个数为64，第3个全连接层的神经元个数为k×m+1，m表示次级用户每次接入一个信道最多可接入的时隙数，m∈[2,50]，m的具体值人为设定。[0038]步骤5：将st-1输入到构建的神经网络中，得到神经网络的输出，记为at，at∈{0,1,2,…,k×m}；其中，at≠k×m时at代表次级用户能够从序号为t的时隙开始接入第个信道且可接入的时隙数n等于n＝at％m+1，c∈[1,k]，符号为向下取整运算符号，符号“％”为取余数运算符号，at＝k×m时at代表次级用户在序号为t的时隙内不接入任何信道。[0039]步骤6：判断at的值是否等于k×m，如果是，则确定次级用户在序号为t的时隙内不接入任何信道，将所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，接着令st＝[st,st-1,…,st-l+1]、t＝t+1、nrenew＝nrenew+1，然后令rt-1＝0，再将st-1、at-n、rt-1、st-2构成一个集合{st-1,at-n,rt-1,st-2}并保存用于神经网络的训练，之后执行步骤12；否则，确定次级用户能够从序号为t的时隙开始接入第个信道且可接入的时隙数n等于n＝at％m+1，接着令n0＝n，令q表示接入过程中次级用户与主用户是否发生碰撞，q的初始值为0，再执行步骤7；其中，st表示用于深度强化学习的t时隙状态，st的维度为k×l，st-l+1表示在序号为t-l+1的时隙内所有信道的状态标记向量，rt-1表示次级用户在序号为t-1的时隙内的奖励值，st-1表示用于深度强化学习的t-1时隙状态，当at-1的值等于k×m时at-n中的n＝1，即at-n为at-1，st-2表示用于深度强化学习的t-2时隙状态，nrenew＝nrenew+1和t＝t+1中的“＝”为赋值符号，n0为引入的中间变量。[0040]步骤7：次级用户在序号为t的时隙内接入第ct个信道；然后判断接入过程中次级用户与主用户是否发生碰撞，如果未发生碰撞，则计算次级用户在序号为t的时隙内的吞吐量，记为rt，rt＝log2(1+snr)，同时将第ct个信道的状态标记设为0，将其余所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，再令st＝[st,st-1,…,st-l+1]、q＝0、n＝n-1、t＝t+1，而后执行步骤8；如果发生碰撞，则将次级用户在序号为t的时隙内的吞吐量记为rt，令rt＝0，同时将第ct个信道的状态标记设为1，将其余所有信道的状态标记设为2，按信道的序号先后顺序将k个信道的状态标记排列构成维度为k×1的在序号为t的时隙内所有信道的状态标记向量st，再令st＝[st,st-1,…,st-l+1]、q＝1、n＝n-1、t＝t+1，而后执行步骤8；其中，ct＝c，snr表示次级用户的接收端的信噪比，st表示用于深度强化学习的t时隙状态，st-l+1表示在序号为t-l+1的时隙内所有信道的状态标记向量，表示第ct个信道的beta分布的两个参数组成的参数组，q表示接入过程中次级用户与主用户是否发生碰撞，q＝0代表接入过程中次级用户与主用户未发生碰撞，q＝1代表接入过程中次级用户与主用户发生碰撞，n＝n-1、t＝t+1、中的“＝”为赋值符号。[0041]步骤8：若t＜t、n＞0且q＝0，则返回步骤7继续执行；若t＜t、n＞0且q＝1，则直接执行步骤9；若t＜t且n＝0，则直接执行步骤11；若t＝t，则直接执行步骤13。[0042]步骤9：次级用户在序号为t的时隙内为每个信道设置一个beta分布；然后根据每个信道的beta分布生成一个随机数，将根据第i个信道的beta分布生成的随机数记为di；接着按降序的顺序对k个随机数进行排序，将排序结果作为感知顺序，即若di在排序结果中位于第k位，则第i个信道便是第k个感知；之后按感知顺序依次对信道进行感知，在结束感知过程后得到所有信道各自的状态标记，并按信道的序号先后顺序将k个信道的状态标记排列构成一个维度为k×1的向量作为在序号为t的时隙内所有信道的状态标记向量，记为st，同时记录在序号为t的时隙内感知的总次数，记为ηt，比如：di在排序结果中位于第5位，即第i个信道便是第5个感知，感知到第i个信道空闲，感知过程结束，那么ηt＝5；再令st＝[st,st-1,…,st-l+1]；最后判断次级用户在序号为t的时隙内是否感知到空闲信道，如果感知到第ct个信道为空闲信道，那么次级用户接入该信道，并当ct＝c且接入过程中次级用户与主用户未发生碰撞时，计算次级用户在序号为t的时隙内的吞吐量，记为rt，令q＝0、n＝n-1、t＝t+1，再执行步骤10；当ct＝c且接入过程中次级用户与主用户发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝1、n＝n-1、t＝t+1，再执行步骤10；当ct≠c且接入过程中次级用户与主用户未发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝0、n＝n-1、t＝t+1，再执行步骤10；当ct≠c且接入过程中次级用户与主用户发生碰撞时，令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令q＝1、n＝n-1、t＝t+1，再执行步骤10；如果没有感知到空闲信道，那么令次级用户在序号为t的时隙内的吞吐量rt为rt＝0，令n＝n-1、t＝t+1，重复执行步骤9；其中，tf表示每个时隙的长度，τ表示每次感知需要的时长。[0043]步骤10：若t＜t、n＞0且q＝0，则返回步骤7继续执行；若t＜t、n＞0且q＝1，则返回步骤9继续执行；若t＜t且n＝0，则直接执行步骤11；若t＝t，则直接执行步骤13。[0044]步骤11：令nrenew＝nrenew+1；然后计算次级用户在序号为t-1的时隙内的奖励值，记为rt-1，再将st-1、at-n、rt-1、st-2构成一个集合{st-1,at-n,rt-1,st-2}并保存用于神经网络的训练，之后执行步骤12；其中，rj表示次级用户在序号为j的时隙内的吞吐量，st-1表示用于深度强化学习的t-1时隙状态，st-2表示用于深度强化学习的t-2时隙状态，当at-1的值不等于k×m时at-n中的n＝at％m+1。[0045]步骤12：判断nrenew％nrenew＝0是否成立，如果成立，则用{st,at-n+1,rt,st-1}对神经网络进行训练，训练的batch size设置为大于或等于100，训练的优化器采用adam，训练的损失函数采用交叉熵函数，更新神经网络的参数，并令nrenew＝0，然后返回步骤5继续执行；否则，则直接返回步骤5继续执行。[0046]步骤13：频谱接入结束。[0047]在此具体实施例中，步骤3和步骤9中，st的获取过程为：[0048]步骤a1：按感知顺序依次对信道进行感知，将当前感知的信道定义为当前信道。[0049]步骤a2：若感知到当前信道空闲，则将当前信道的状态标记设为0，然后执行步骤a3；若感知到当前信道繁忙，则将当前信道的状态标记设为1，然后执行步骤a4。[0050]步骤a3：判断是否还存在未被感知的信道，如果是，则将未被感知的所有信道的状态标记设为2，并结束感知过程，再执行步骤a5；否则，直接结束感知过程，再执行步骤a5。[0051]步骤a4：判断序号为t的时隙的时间是否已全部用完，如果序号为t的时隙的时间已全部用完，则再判断是否还存在未被感知的信道，如果是，则将未被感知的所有信道的状态标记设为2，并结束感知过程，再执行步骤a5；否则，直接结束感知过程，再执行步骤a5；如果序号为t的时隙的时间未用完，则再判断当前信道是否为需要感知的最后一个信道，若是，则重新按感知顺序依次对信道进行感知，将当前感知的信道定义为当前信道，然后返回步骤a2继续执行；若不是，则将下一个待感知的信道作为当前信道，然后返回步骤a2继续执行。[0052]步骤a5：按信道的序号先后顺序将k个信道的状态标记排列构成st。[0053]通过以下仿真来进一步说明本发明的频谱接入方法的可行性和有效性。[0054]图2为分别利用本发明方法和现有的基于贝叶斯的方法得到的每个时隙的平均归一化吞吐量随时间变化的曲线对比图。在仿真中，取信道数k＝5，历史时隙长度l＝40。从图2中可以看出，两种方法的平均归一化吞吐量都随着时间的增加而不断增加，并且本发明方法的吞吐量要始终高于基于贝叶斯的方法的吞吐量。[0055]图3为分别利用本发明方法和现有的基于贝叶斯的方法得到的每个时隙的平均碰撞次数随时间变化的曲线对比图。在仿真中，取信道数k＝5，历史时隙长度l＝40。从图3中可以看出，两种方法的平均碰撞次数都随着时间的增加而不断减少，并且本发明方法的碰撞次数要始终低于基于贝叶斯的方法的碰撞次数；同时也可以发现，本发明方法的碰撞率一直都很低，结合图2可以看出正因为碰撞率很低本发明方法的吞吐量要远高于基于贝叶斯的方法。综上所述，本发明方法的接入性能优于现有的基于贝叶斯的方法。

图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!

关键词：电子通信装置的制造及其应用技术专利技术

下一篇： 一种用于超声电机超高性能指标输出的方法
上一篇： 一种抗生素菌渣处理方法、系统

专利技术

一种基于深度强化学习的频谱接入方法

相关内容查看全部 

一种低温环境下的

仿生高黏附沥青改

一种汽车安全气囊

机床以及诊断方法

元器件料带计数装

一种折叠式多层线

一种矫形套装的制

一种旋转开合的庭

瓦楞纸用箱纸板的

一种电石块重型链

一种基于深度强化学习的频谱接入方法

相关内容 查看全部 

相关内容查看全部 