专利技术

并行异构平台计算MOE的训练方法与流程

 作者：admin  2022-08-31 11:48:37  269

计算;推算;计数设备的制造及其应用技术并行异构平台计算moe的训练方法技术领域1.本发明涉及计算机技术领域，尤其涉及并行异构平台计算moe的训练方法。背景技术：2.针对目前巨大的算力缺口，google的ai研究者提出了将moe融入transformer模型的算法，创造了基于moe的稀疏模型。不同于以往的密集模型，单个输入数据只需要与稀疏模型中的部分参数进行运算，而不是像密集模型一样与所有参数进行运算。这大大降低了运算量，从而使得模型在增大的同时计算量保持不变，进而满足在训练时间不变的情况下提升网络性能的需求，引入moe创造的稀疏模型已经大大提高了计算速度，提升了神经网络的性能。但是这样的创新带来的性能优势仅限于科技巨头之间，它们使用大量的大容量显存gpu来预训练moe模型，这也是moe发挥其强扩展性优势的必要条件，即数量足够多的gpu以及高带宽的互联网络，所以充分发挥moe模型高性能的巨大资金投入将普通的企业隔绝在享受革新之外，为了解决在调优moe模型时带来的巨大内存开销，实现在gpu资源较少、质量较低时训练moe模型；为此，我们提出并行异构平台计算moe的训练方法。技术实现要素：3.本发明的目的是为了解决现有技术中存在的缺陷，而提出的并行异构平台计算moe的训练方法。4.为了实现上述目的，本发明采用了如下技术方案：5.并行异构平台计算moe的训练方法，该训练方法具体步骤如下：6.(1)获取分布张量并进行分发；7.(2)对各参数信息进行阶段混合并进行数据处理；8.(3)对gpu参数移动进行训练优化。9.作为本发明的进一步方案，步骤(1)中所述分布张量分发具体步骤如下：10.步骤一：混合专家系统接收外部输入数据以及门的权重数据，并将两组数据通过门计算函数进行运算以获取分布张量；11.步骤二：通过top-k路由函数为分布张量中的每组字段选出最大的k个专家，同时将每一组字段的目标写入目的地张量中，并实时监测各组目标专家字段接收情况；12.步骤三：当存在目标专家接收字段数量超出上限时，禁止相对应字段继续传输给目标专家，同时将各组字段是否发送在掩码张量中进行记录。13.作为本发明的进一步方案，步骤(2)中所述阶段混合具体步骤如下：14.第一步：zero并行优化器接收各组参数信息，同时将接收到的各组参数信息按照不共享专家参数、共享切分参数以及共享不切分参数进行分类；15.第二步：当参数类型为不共享专家参数时，zero并行优化器将所有的该参数均匀地分配给每一个进程，每个进程上的专家各不相同，且不对该类参数进行累加操作；16.第三步：当参数类型为共享切分参数时，zero并行优化器对该参数的梯度进行reduce-scatter通信操作，并对该参数进行求和处理，再通过第三阶段的并行方式对该参数进行均匀切分，让每个进程拥有一部分该参数以消去原本的冗余；17.第四步：当参数类型为共享不切分参数时，zero并行优化器对该参数的梯度进行reduce-scatter通信操作，并对该参数进行求和处理，再通过第二阶段的并行方式将该参数在优化器中的状态和梯度均匀切分在各个进程。18.作为本发明的进一步方案，第一步中所述不共享专家参数具体为moe模组每个专家模型的参数，所述共享切分参数以及共享不切分参数在原本的数据并行中，并且每个进程都拥有一个该参数的拷贝副本。19.作为本发明的进一步方案，步骤(2)中所述数据处理具体步骤如下：20.s1：并行异构平台收集计算得到的目的地张量、掩码张量以及输入数据，并通过分发函数将输入的每一个字段最多发送给k个专家以得到每个专家需要的字段，再在所有进程之间交换字段；21.s2：交换完成后，每个进程内的专家处理收到的字段，之后再恢复原顺序，得到专家输出；22.s3：并行异构平台通过组合函数将目的地张量、掩码张量以及输入数据进行线性组合以得到与原字段相对应的处理后字段；23.s4：将专家输出字段与输入字段进行一一对应以得到moe输出，同时通过输入计算生成经过mlp处理的残余输出与组合权重，之后将残余输出与moe输出按组合权重进行线性组合，之后将组合结果作为最终结果输出。24.作为本发明的进一步方案，步骤(3)中所述训练优化具体步骤如下：25.p1：将目前计算必要的参数移动到gpu，当计算完成后，将所有gpu上参数移动回cpu，同时记录每个参数参与计算的顺序以及未来激活数据所占空间大小；26.p2：当需要将必要的参数移动到gpu时，依据未来激活数据所占空间大小判断是否需要通过驱逐gpu上的参数为将要移动的参数腾出空间；27.p3：若判断结果为不需要，则直接将该参数移动到gpu上，若判断结果为需要，则检查当前在gpu上的所有参数，通过每个参数参与计算的顺序，驱逐最晚被使用的参数。28.相比于现有技术，本发明的有益效果在于：29.该并行异构平台计算moe的训练方法相较于以往训练方法，本发明通过混合专家系统接收外部输入数据以及门的权重数据，并计算相关分布张量、目的地张量以及掩码张量，zero并行优化器接收各组参数信息，同时将接收到的各组参数信息按照不共享专家参数、共享切分参数以及共享不切分参数进行分类，同时通过相对应处理流程队不同类的参数进行处理，再通过分发函数将输入的每一个字段最多发送给k个专家，组合函数将分发后的字段通过线性组合，得到与原字段相对应的处理后字段，通过输入计算生成经过mlp处理的残余输出与组合权重，之后将残余输出与moe输出按组合权重进行线性组合，之后将组合结果作为最终结果输出，同时在计算过程中，将目前计算必要的参数移动到gpu，当计算完成后，将所有gpu上参数移动回cpu，并记录相关数据，当需要通过驱逐gpu上的参数为将要移动的参数腾出空间时，则检查当前在gpu上的所有参数，通过每个参数参与计算的顺序，驱逐最晚被使用的参数，能够减少无意义的计算与数据读取开销以及减小读入数据的载入时间，同时通过对参数进行分类，能够减少不必要的通信以及通信次数，且减少通信次数增多带来的固定的通信建立时间，能够实现在gpu资源较少、质量较低时训练moe模型。附图说明30.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。31.图1为本发明提出的并行异构平台计算moe的训练方法的流程框图；32.图2为本发明提出的并行异构平台计算moe的训练方法的算法流程图。具体实施方式33.参照图1-2，并行异构平台计算moe的训练方法，该训练方法具体步骤如下：34.获取分布张量并进行分发。35.具体的，由图2可知，混合专家系统接收外部输入数据以及门的权重数据，并将两组数据通过门计算函数进行运算以获取分布张量，之后通过top-k路由函数为分布张量中的每组字段选出最大的k个专家，同时将每一组字段的目标写入目的地张量中，并实时监测各组目标专家字段接收情况，当存在目标专家接收字段数量超出上限时，禁止相对应字段继续传输给目标专家，同时将各组字段是否发送在掩码张量中进行记录。36.对各参数信息进行阶段混合并进行数据处理。37.具体的，zero并行优化器接收各组参数信息，同时将接收到的各组参数信息按照不共享专家参数、共享切分参数以及共享不切分参数进行分类，当参数类型为不共享专家参数时，zero并行优化器将所有的该参数均匀地分配给每一个进程，每个进程上的专家各不相同，且不对该类参数进行累加操作；当参数类型为共享切分参数时，zero并行优化器对该参数的梯度进行reduce-scatter通信操作，并对该参数进行求和处理，再通过第三阶段的并行方式对该参数进行均匀切分，让每个进程拥有一部分该参数以消去原本的冗余；当参数类型为共享不切分参数时，zero并行优化器对该参数的梯度进行reduce-scatter通信操作，并对该参数进行求和处理，再通过第二阶段的并行方式将该参数在优化器中的状态和梯度均匀切分在各个进程。38.具体的，由图2可知，并行异构平台收集计算得到的目的地张量、掩码张量以及输入数据，并通过分发函数将输入的每一个字段最多发送给k个专家以得到每个专家需要的字段，再在所有进程之间交换字段，当交换完成后，每个进程内的专家处理收到的字段，之后再恢复原顺序，得到专家输出，再通过组合函数将目的地张量、掩码张量以及输入数据进行线性组合以得到与原字段相对应的处理后字段，之后将专家输出字段与输入字段进行一一对应以得到moe输出，同时通过输入计算生成经过mlp处理的残余输出与组合权重，之后将残余输出与moe输出按组合权重进行线性组合，之后将组合结果作为最终结果输出。39.需要进一步说明的是，不共享专家参数具体为moe模组每个专家模型的参数，共享切分参数以及共享不切分参数在原本的数据并行中，并且每个进程都拥有一个该参数的拷贝副本。40.此外，需要进一步说明的是，参数进行分类原因具体为减少不必要的通信以及减少通信次数，减少通信次数增多带来的固定的通信建立时间。41.对gpu参数移动进行训练优化。42.具体的，将目前计算必要的参数移动到gpu，当计算完成后，将所有gpu上参数移动回cpu，同时记录每个参数参与计算的顺序以及未来激活数据所占空间大小，当需要将必要的参数移动到gpu时，依据未来激活数据所占空间大小判断是否需要通过驱逐gpu上的参数为将要移动的参数腾出空间，若判断结果为不需要，则直接将该参数移动到gpu上，若判断结果为需要，则检查当前在gpu上的所有参数，通过每个参数参与计算的顺序，驱逐最晚被使用的参数。43.需要进一步说明的是，将所有gpu上参数移动回cpu目的是为了保障gpu的显存中的参数处于占用最少的空间，同时为计算过程中产生的激活数据腾出gpu上的显存。

图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!

关键词：计算;推算;计数设备的制造及其应用技术专利技术

下一篇： 电力系统谐波振荡的检测方法、装置和计算机设备与流程
上一篇： 裂纹尖端塑性区监测装置及方法

专利技术

并行异构平台计算MOE的训练方法与流程

相关内容查看全部 

一种低温环境下的

仿生高黏附沥青改

一种汽车安全气囊

机床以及诊断方法

元器件料带计数装

一种折叠式多层线

一种矫形套装的制

一种旋转开合的庭

瓦楞纸用箱纸板的

一种电石块重型链

并行异构平台计算MOE的训练方法与流程

相关内容 查看全部 

相关内容查看全部 