电子通信装置的制造及其应用技术带宽感知的归约处理方法以及ai模型的训练方法技术领域1.本发明涉及数据通信的技术领域,具体而言,涉及带宽感知的归约处理方法以及ai模型的训练方法。背景技术:2.在大数据的环境下,训练大规模神经网络模型成为推动人工智能进一步发展的关键。大量的数据存储在全球各地的数据中心之中,这些数据中心之间由广域网连接。为了从所有数据中学习模型,传统的做法是集中式训练,即将分散的原始数据通过网络传输汇集到一个数据中心,然后在这个数据中心上运行现有的机器学习算法。然而这种方式存在2个问题:(1)为复制原始数据,需要耗费大量跨数据中心的网络带宽,这些带宽资源不仅稀缺昂贵,而且增长速度较慢;(2)对数据隐私和安全性的日益关注,限制了这种集中式训练的开展。为此,分布式机器学习成为解决上述问题的关键,它通过在多个数据中心之间同步模型来完成合作训练。3.实际应用中,分布式机器学习可以采用完全同步或者部分同步的方式,即全局归约(all reduce)和部分归约(partial reduce)。作为全局归约的变种,部分归约以降低收敛速度的代价,能够有效容忍异构环境,在真实的训练环境中更具实用性。4.目前已有的部分归约方案主要采用基于控制器的方式。具体而言,由控制器挑选出前p个完成本地训练的节点,然后让这p个节点展开一轮模型同步。现有方案主要关注p个节点的选取问题,为了加速收敛,不同方案对节点的选取还设置了额外要求。5.但总的来说,现有的这些方案缺少对网络异构性的考虑,不能根据实时网络情况调整模型传输量,导致整体的网络链路利用率不足,存在空闲的链路资源,仍有优化的空间。技术实现要素:6.本发明的主要目的在于提供带宽感知的归约处理方法以及其相关的ai模型的训练方法、计算机设备和计算机可读存储介质,以解决现有技术中网络链路利用率不足的技术问题。7.为了实现上述目的,根据本发明的第一个方面,提供了带宽感知的归约处理方法,技术方案如下:8.带宽感知的归约处理方法,用于加速分布式场景中ai模型的训练,包括以下步骤:9.step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;10.step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对ai模型进行切分,将切分得到的模型分块发送给其它节点;11.step130,在每个节点完成训练后,按照预定义的模型切分方案对ai模型进行切分,然后将切分得到的模型分块发送给其它节点;12.step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;13.其中,所述模型切分方案为带宽感知的切分方案。14.作为上述的带宽感知的归约处理方法的进一步改进,模型切分方案的获取包括以下步骤:15.step210,输入:节点间的带宽bi,j,ai模型参数w,ai模型参数w的大小记为v,参与聚合的p个节点集合p={v1,…,vk,…,vp};16.step220,对负责聚合模型分块i的节点i,计算其中j∈p;17.step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈p;18.step240,计算scatter(指节点将本地训练完成的模型切分后发给其他所有节点的过程)的通信时间上限tscatter=maxisi,计算broadcast(指节点聚合p个分块后向分块发送者广播聚合结果的过程)的通信时间上限tbroadcast=maxibi;19.step250,根据求解得到每个模型分块的大小为x1,…,xj,…,xn,即将ai模型切分为w1,…,wj,…,wn。20.作为上述的带宽感知的归约处理方法的进一步改进,在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,…,xj,…,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,…,xj,…,xn,并将模型切分方案向所有节点广播。21.作为上述的带宽感知的归约处理方法的进一步改进,step120包括以下步骤:22.step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;23.step122,当有p个节点完成训练时,根据p个节点的网络带宽计算新的模型切分方案;24.step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;25.step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块。26.作为上述的带宽感知的归约处理方法的进一步改进,step122中,通过维护一个就绪队列,根据前p个就绪节点确定p个节点。27.作为上述的带宽感知的归约处理方法的进一步改进,step130包括以下步骤:28.step131,检查本地模型分块的接收情况;29.step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;30.step133,向所有节点公布这p个节点组成的集合。31.作为上述的带宽感知的归约处理方法的进一步改进,所有节点一并对p个模型分块进行聚合,并将聚合后的结果返回给模型分块的发送者。32.为了实现上述目的,根据本发明的第二个方面,提供了ai模型的训练方法,技术方案如下:33.ai模型的训练方法,包括以下步骤:34.step100,节点随机取样进行训练,并对ai模型进行更新;35.step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;36.step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对ai模型进行切分,将切分得到的模型分块发送给其它节点;37.step130,在每个节点完成训练后,按照预定义的模型切分方案对ai模型进行切分,然后将切分得到的模型分块发送给其它节点;38.step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;39.step150,根据聚合结果与精度要求或运行时间的关系,判断是否继续训练迭代;40.其中,所述模型切分方案为带宽感知的切分方案。41.为了实现上述目的,根据本发明的第三个方面,提供了计算机设备,技术方案如下:42.计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现上述ai模型的训练方法。43.为了实现上述目的,根据本发明的第四个方面,提供了计算机可读存储介质,技术方案如下:44.计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时实现上述ai模型的训练方法。本发明存在以下特点及优点:45.(1)采用线性规划的带宽感知(network-aware)的切分方案,让所有节点参与每次归约操作,提高系统的负载均衡,能够适应更多复杂情况;46.(2)根据网络带宽划分阻塞模式下各节点的任务,充分利用了网络带宽,保证系统的有效运行;47.(3)将部分归约的通信从p个节点扩展到n个节点,充分利用了网络中的空闲链路和多余带宽;48.(4)根据当前的模型分块的接收情况或者节点的训练完成情况,确定每一轮中参与同步的节点,因此,同时支持阻塞(blocking)和非阻塞(non-blocking)两种的工作模式,保证了一致的部分规约操作:49.由此可见,本发明充分考虑了网络异构性,能够根据实时网络情况调整模型传输量,有效提升网络中冗余链路和空闲链路的带宽利用率,提升了系统的负载均衡,适应更多复杂情况,从而能够加快归约操作的完成,让训练更快地迭代,最终提升分布式训练的效率。50.下面结合附图和具体实施方式对本发明做进一步的说明。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明51.构成本发明的一部分的附图用来辅助对本发明的理解,附图中所提供的内容及其在本发明中有关的说明可用于解释本发明,但不构成对本发明的不当限定。在附图中:52.图1为本发明的带宽感知的归约处理方法的第一实施方式的流程图。53.图2为本发明的带宽感知的归约处理方法的第二实施方式的流程图。54.图3为本发明的带宽感知的归约处理方法的第一实施方式和第二实施方式中step140的流程图。55.图4为本发明的ai模型的训练方法的一种实施方式的流程图。具体实施方式56.下面结合附图对本发明进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。在结合附图对本发明进行说明前,需要特别指出的是:57.本发明中在包括下述说明在内的各部分中所提供的技术方案和技术特征,在不冲突的情况下,这些技术方案和技术特征可以相互组合。58.此外,下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。59.关于本发明中术语和单位。本发明的说明书和权利要求书及有关的部分中的术语“包括”、“具有”以及它们的任何变形,意图在于覆盖不排他的包含。60.图1为本发明的带宽感知的归约处理方法的第一实施方式的流程图。61.如图1所示,带宽感知的归约处理方法在阻塞模式下进行,包括以下步骤:62.step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对ai模型进行切分,将切分得到的模型分块发送给其它节点;63.step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;64.其中,step120包括以下步骤:65.step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;66.step122,通过维护一个就绪队列,根据前p个就绪节点确定p个节点;当有p个节点完成训练时,根据p个节点的网络带宽计算新的模型切分方案;67.step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;68.step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块。69.图2为本发明的带宽感知的归约处理方法的第二实施方式的流程图。70.如图2所示,带宽感知的归约处理方法在非阻塞模式下进行,包括以下步骤:71.step130,在每个节点完成训练后,按照预定义的模型切分方案对ai模型进行切分,然后将切分得到的模型分块发送给其它节点;72.step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;73.其中,step130包括以下步骤:74.step131,检查本地模型分块的接收情况;75.step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;76.step133,向所有节点公布这p个节点组成的集合。77.上述两个实施方式中,所述模型切分方案为带宽感知的切分方案,模型切分方案的获取包括以下步骤:78.step210,输入:节点间的带宽bi,j,ai模型参数w,ai模型参数w的大小记为v,参与聚合的p个节点集合p={v1,…,vk,…,vp};79.step220,对负责聚合模型分块i的节点i,计算其中j∈p;80.step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈p;81.step240,计算scatter的通信时间上限tscatter=maxisi,计算broadcast的通信时间上限tbroadcast=maxibi;82.step250,根据求解得到每个模型分块的大小为x1,…,xj,…,xn,即将ai模型切分为w1,…,wj,…,wn。83.其中,在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,…,xj,…,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,…,xj,…,xn,并将模型切分方案向所有节点广播。84.上述两个实施方式中,步骤step140的流程图如图3所示,其中,所有节点一并对p个模型分块进行聚合,并将聚合后的结果返回给模型分块的发送者,以解除这些发送者的等待。每个节点收到模型分块后,首先对模型分块进行缓存,同时等待控制信息,即聚合哪p个模型分块,如果收到了指定的p个模型分块的聚合信息,且已经收到了这p个模型分块,节点就可以对这p个模型分块进行聚合。85.图4为本发明的ai模型的训练方法的一种实施方式的流程图。86.如图4所示,ai模型的训练方法采用了上述的任意一种带宽感知的归约处理方法,具体包括以下步骤:87.step100,节点随机取样进行训练,并对ai模型进行更新;88.step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;89.step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对ai模型进行切分,将切分得到的模型分块发送给其它节点;90.step130,在每个节点完成训练后,按照预定义的模型切分方案对ai模型进行切分,然后将切分得到的模型分块发送给其它节点;91.step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;92.step150,根据聚合结果与精度要求或运行时间的关系,判断是否继续训练迭代。93.在本发明的ai模型的训练方法中,ai模型的训练在广域网多节点分布式训练的场景中进行;所述的ai模型既可以是神经网络模型,也可以是没有神经网络的机器学习模型;其中,目前申请人已知的神经网络模型均可采用上述的训练方法进行训练,而没有神经网络的机器学习模型优选为但是不限于为向量机、进化(遗传)算法、决策树、矩阵分解(matrix factorization)、主题模型(topic modeling)等中的任意一种。94.本发明的计算机设备的第一种实施方式为包括处理器和存储器,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现本发明提供的上述实施方式的ai模型的训练方法,处理器和存储器通过总线连接。95.所述处理器可以但是不限于是mcu(微控制单元)、cpu(中央处理单元)、dsp(数字信号处理器)中的任意一种。96.所述存储器可以但是不限于是flash芯片、rom(只读存储器)磁盘、光盘、u盘或移动硬盘中的任意一种。97.所述总线例如可以是i2c(inter-integrated circuit)总线。98.本发明的计算机设备的第一种实施方式为:在第一实施方式的基础上,计算机设备进一步包括服务器。99.本发明的计算机可读存储介质的实施方式为存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现上述实施方式所述的ai模型的训练方法的步骤。100.所述计算机可读存储介质既可以是服务器的内部存储单元,例如服务器的硬盘或内存,也可以是服务器的外部存储设备,例如服务器上配备的插接式硬盘、smc(智能存储卡)、sd(安全数字)卡、闪存卡中的任意一种。101.本发明的目的在于让训练更快地迭代以提升训练效率,以下通过具体的实施例来说明本发明的有益效果:102.首先,在非阻塞模式下,采用相同的ai模型,进行了以下四组仿真试验,测试了在相同时长下的迭代次数,每组重复测试20次。测试结果如表1所示。103.四组试验的区别仅在于:第一组使用先到先服务(fcfs)和均分(evenly-divided)方案,第二组使用fcfs和带宽感知的切分方案,第三组使用公平带宽分配方式(fs)和均分方案,第四组使用fs和带宽感知的切分方案,其余的输入参数相同。104.表1105.迭代次数第一组第二组第三组第四组最大值72816676中值68785873最小值67775670106.从表1可以看出,无论是fcfs,还是fs,与均分方案相比,引入带宽感知的切分方案的迭代次数均提升了10%以上,说明带宽感知的切分方案不仅能够显著提升迭代次数,而且能够适应多种网络设定,具有极强的实用性。107.其次,在阻塞模式下,采用相同的ai模型,进行了以下四组试验,测试了在相同时长下的迭代次数,测试结果如表2所示。108.四组试验的区别仅在于:第一组使用fcfs和均分(evenly-divided)方案,第二组使用fcfs和带宽感知的切分方案,第三组使用fs和均分方案,第四组使用fs和带宽感知的切分方案,其余的输入参数相同。109.表2110.迭代次数第一组第二组第三组第四组最大值68835978中值65805375最小值63785272111.从表2可以看出,在阻塞模式下,本发明的带宽感知的切分方案同样适应fcfs和fs,均能显著提升迭代效率。112.在不同网络情况下,两种模式可能展现不同效果,需要依据真实情况选择非阻塞或阻塞模式。但是,本发明在两种模式下均能显著提升训练效率,因此值得推广使用。113.应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。114.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。115.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。116.以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
带宽感知的归约处理方法以及AI模型的训练方法
作者:admin
2022-10-28 20:50:24
610
关键词:
电子通信装置的制造及其应用技术
专利技术
- 下一篇: 一种开孔式桥墩防冲刷装置
- 上一篇: 微推力测量装置及方法