计算;推算;计数设备的制造及其应用技术1.本技术涉及服务器技术领域,尤其涉及一种基于内存故障的服务器管理方法、装置以及系统。背景技术:2.服务器是一种为客户端计算机提供各种服务的高可用性计算机,它在网络操作系统的控制下,将与其相连的硬盘、磁带、打印机以及各种专用通讯设备提供给网络上的客户站点共享,也能为网络用户提供集中计算、信息发表及数据管理等服务。它的高性能主要体现在高速度的运算能力、长时间的可靠运行、强大的外部数据吞吐能力等方面。3.由于服务器需要实时地对服务请求作出响应,因此服务器运行的连续性就显得尤为重要,而服务器在持续运行的过程中会受运行时长的影响而不可避免地发生内存故障。目前服务器对内存故障进行检测和维修的方法为:在基本输入输出系统(bios,basic input output system)阶段,由中央处理器(cpu,central processing unit)对内存进行训练,若训练失败,则会跳到错误警告代码,通过蜂鸣器发出内存错误警告信号以提醒维保人员进行故障排除。4.但是,在维保人员进行故障排除的过程中,服务器会进入停止状态,直到运维人员把故障排除并重新开机后,服务器才能投入使用。而由于维保人员进行故障排除的时间是无法确定的,这就会导致在故障排除的过程中,服务器无法对服务请求作出响应,从而造成网络资源浪费。技术实现要素:5.本技术提供了一种基于内存故障的服务器管理方法、装置以及系统,能够减少网络资源浪费。6.本技术第一方面提供了一种基于内存故障的服务器管理方法,包括:7.当bios根据内存训练结果确定存在目标内存条发生故障时,接收所述bios发送的目标内存条信息,并且cpu根据停机指令停止工作,所述内存训练结果为所述cpu对内存条进行训练后向所述bios发送的训练结果,所述目标内存条信息为发生故障的目标内存条的信息,所述停机指令为所述bios向所述cpu发送的停止工作的指令;8.根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽;9.当确定所述目标内存槽已关闭时,向所述cpu发送重启指令,以使得所述cpu根据所述重启指令重新启动。10.可选的,所述根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽包括:11.对所述目标内存条信息进行解析;12.根据已解析的所述目标内存条信息确定所述目标内存条对应的目标内存槽;13.关闭所述目标内存槽。14.可选的,所述关闭所述目标内存槽包括:15.降低与所述目标内存槽连接的通用输入输出引脚(gpio,general purpose input output)的输出电平,以使得所述目标内存槽的输出缓存工作电压vddq断路,当所述目标内存槽的vddq断路时,表示所述目标内存槽已关闭。16.可选的,所述向所述cpu发送重启指令包括:17.通过智能平台接口(ipmi,intelligent platform management interface)命令向所述cpu发送重启指令。18.可选的,所述接收所述bios发送的目标内存条信息包括:19.接收所述bios通过串口重定向发送的目标内存条信息。20.本技术第二方面提供了一种基于内存故障的服务器管理装置,其包括:21.接收单元,用于当bios根据内存训练结果确定存在目标内存条发生故障时,接收所述bios发送的目标内存条信息,并且cpu根据停机指令停止工作,所述内存训练结果为所述cpu对内存条进行训练后向所述bios发送的训练结果,所述目标内存条信息为发生故障的目标内存条的信息,所述停机指令为所述bios向所述cpu发送的停止工作的指令;22.关闭单元,用于根据所述目标内存条信息关闭所述目标内存条所对应的目标内存槽;23.发送单元,用于当确定所述目标内存槽已关闭时,向所述cpu发送重启指令,以使得所述cpu根据所述重启指令重新启动。24.可选的,所述关闭单元具体用于:25.对所述目标内存条信息进行解析;26.根据已解析的所述目标内存条信息确定所述目标内存条对应的目标内存槽;27.关闭所述目标内存槽。28.可选的,所述关闭单元具体用于:29.对所述目标内存条信息进行解析;30.根据已解析的所述目标内存条信息确定所述目标内存条对应的目标内存槽;31.降低与所述目标内存槽连接的通用输入输出引脚gpio的输出电平,以使得所述目标内存槽的vddq断路,当所述目标内存槽的vddq断路时,表示所述目标内存槽已关闭。32.可选的,所述发送单元具体用于:33.当确定所述目标内存槽已关闭时,通过ipmi命令向所述cpu发送重启指令,以使得所述cpu根据所述重启指令重新启动。34.可选的,所述接收单元具体用于:35.当bios根据内存训练结果确定存在目标内存条发生故障时,接收所述bios通过串口重定向发送的目标内存条信息,并且cpu根据停机指令停止工作,所述内存训练结果为所述cpu对内存条进行训练后向所述bios发送的训练结果,所述目标内存条信息为发生故障的目标内存条的信息,所述停机指令为所述bios向所述cpu发送的停止工作的指令。36.本技术第三方面提供了一种基于内存故障的服务器管理系统,包括:37.中央处理器,存储器,输入输出接口,有线或无线网络接口以及电源;38.所述存储器为短暂存储存储器或持久存储存储器;39.所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行第一方面以及第一方面的可选方式中的任意一种所述的方式。40.本技术第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行第一方面以及第一方面的可选方式中的任意一种所述的方式。41.从以上技术方案可以看出,本技术具有以下效果:42.当基本输入输出系统bios根据内存训练结果确定存在目标内存条发生故障时,接收bios发送的目标内存条信息,并且中央处理器cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;根据目标内存条信息关闭目标内存条所对应的目标内存槽;当确定目标内存槽已关闭时,向cpu发送重启指令,以使得cpu根据重启指令重新启动。通过这样,可以在内存发生故障时,对发生故障的目标内存条所对应的目标内存槽进行屏蔽,并向cpu发送重启指令。而由于发生故障的内存条被隔离,因此cpu重启后只对正常运行的内存条进行内存训练,此时服务器可以正常启动,从而可以在故障排除的过程中,减少因服务器无法正常运行而造成的网络资源浪费。附图说明43.图1为本技术中基于内存故障的服务器管理方法的一个实施例示意图;44.图2为本技术中基于内存故障的服务器管理方法的另一个实施例示意图;45.图3为本技术中基于内存故障的服务器管理装置的一个实施例示意图;46.图4为本技术中基于内存故障的服务器管理装置的另一个实施例示意图;47.图5为本技术中基于内存故障的服务器管理系统的一个实施例示意图。具体实施方式48.本技术提供了一种基于内存故障的服务器管理方法、装置以及系统,用于减少网络资源浪费。49.本技术描述的一种基于内存故障的服务器管理方法应用于服务器的运行管理中,当内存发生故障时,对发生故障的内存进行屏蔽后再重启cpu,使得在维保人员在进行故障排除的过程中服务器可以继续运行。50.本技术描述的基于内存故障的服务器管理方法应用于基板管理控制器(bmc,baseboard management controller)上执行实现。51.请参阅图1所示,本技术中基于内存故障的服务器管理方法的一个实施例包括:52.101、当bios根据内存训练结果确定存在目标内存条发生故障时,bmc接收bios发送的目标内存条信息,并且中央处理器cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;53.本实施例,服务器在运行时,会先进入bios进行开机自检,bios是一种非易失性固件,用于在开机启动过程中执行硬件初始化,并为操作系统和程序提供运行时服务,bios可以实现中断服务程序、系统设置程序、上电自检、系统启动自举程序等功能。在bios自检的过程中由cpu对内存进行训练以检测当前所有内存是否可用,在cup训练完成后,cpu将内存训练结果发送至bios。当bios接收到该内存训练结果时,bios对该内存训练结果进行分析,判断其是否存在目标内存条发生故障,若否,则对内存控制器进行内存参数配置,此时开机自检成功,服务器启动;若是,则bios向bmc发送已发生故障的目标内存条信息,bmc接收该目标内存条信息,与此同时,bios向cpu发送停机指令以使得cpu停止工作。在bios向cpu发送停机指令的同时,bios通过蜂鸣器发送内存故障报警信号,以使得维保人员可以根据该内存故障报警信号进行内存故障排除。54.102、bmc根据目标内存条信息关闭目标内存条所对应的目标内存槽;55.本实施例中,当bmc接收到bios发送的目标内存条信息时,bmc根据该目标内存条信息确定目标内存条所对应的目标内存槽,并将该目标内存槽关闭,使得发生故障的目标内存条在内存训练过程中无法被识别。例如:a内存条插在a内存槽上,当a内存条发生故障时,bmc停止向a内存槽供电,从而使得a内存槽关闭。56.103、当确定目标内存槽已关闭时,bmc向cpu发送重启指令,以使得cpu根据重启指令重新启动。57.本实施例中,在bmc关闭目标内存槽后,bmc向cpu发送重启指令,cpu在接收到该重启指令后重新启动开机自检流程。在重新启动开机自检的过程中,首先对内存控制器寄存器进行初始化,然后扫描可用的内存槽,由于目标内存槽被关闭,因此cpu无法识别目标内存槽上已发生故障的目标内存条,此时扫描到的所有内存槽上的内存条均为可用的。在内存槽扫描完成后,通过系统管理总线(smbus,system management bus)读取内存配置串行检测(spd,serial presence detect)信息,spd是一组关于内存模组的配置信息,例如:电压、位宽以及操作时序等信息。最后cpu根据该spd信息对除目标内存条外的所有可以内存条进行内存训练,内存训练成功后,对内存控制器进行内存参数配置,内存初始化完成,此时开机自检成功,服务器在目标内存条故障期间可以正常运行。58.本实施例中,当bios根据内存训练结果确定存在目标内存条发生故障时,bmc接收bios发送的目标内存条信息,并且cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;bmc根据目标内存条信息关闭目标内存条所对应的目标内存槽;当确定目标内存槽已关闭时,bmc向cpu发送重启指令,以使得cpu根据重启指令重新启动。通过这样,可以在内存发生故障时,由bmc对发生故障的目标内存条所对应的目标内存槽进行屏蔽,并向cpu发送重启指令。而由于发生故障的内存条被隔离,因此cpu重启后只对正常运行的内存条进行内存训练,此时服务器可以正常启动,从而可以在故障排除的过程中,减少因服务器无法正常运行而造成的网络资源浪费。59.请参阅图2所示,本技术中基于内存故障的服务器管理方法的另一个实施例包括:60.201、当基本输入输出系统bios根据内存训练结果确定存在目标内存条发生故障时,bmc接收bios通过串口重定向发送的目标内存条信息,并且中央处理器cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;61.可选的,本实施例中,bios可以将调试端口重定向至bmc的串行端口中,bios的调试端口通过复杂可编程逻辑器件(cpld,complex programmable logic device)与bmc的串行端口连接。cpu在完成内存训练后将内存训练结果发送至bios,若内存训练结果中存在目标内存条,该目标内存条为发生故障的内存条,则bios将该目标内存条的目标内存条信息通过调试端口发送出去,在经过cpld提供的数据传输路径后,由bmc的串行端口接收该目标内存条信息。通过这样,可以为目标内存条信息的传输提供安全和方便的通道。62.202、bmc对目标内存条信息进行解析;63.203、bmc根据已解析的目标内存条信息确定目标内存条对应的目标内存槽;64.204、bmc降低与目标内存槽连接的gpio的输出电平,以使得目标内存槽的vddq断路,当目标内存槽的vddq断路时,表示目标内存槽已关闭;65.可选的,本实施例中,当bmc接收到目标内存条信息时,可以对该目标内存条信息进行解析,得到与目标内存条关联的标识身份信息,该标识身份信息包含有:目标内存条的工作频率、工作电压、容量或者列地址带宽,具体此处不做限定。bmc根据解析得到的标识身份信息确定目标内存条对应的目标内存槽以及与该目标内存槽连接的gpio,该目标内存槽为与目标内存条连接的内存插槽。bmc可以通过降低该gpio的输出电平以使得目标内存槽的vddq断路,从而使目标内存槽断电。当目标内存槽断电时,与目标内存槽连接的目标内存条无法重新被cpu检测到,从而可以在内存训练过程中实现故障内存条的隔离。通过这样,可以实现目标内存槽的精准识别以及快速关闭。66.205、当确定目标内存槽已关闭时,bmc通过ipmi命令向cpu发送重启指令,以使得cpu根据重启指令重新启动。67.可选的,本实施例中,当确定目标内存槽已关闭时,bmc可以通过ipmi命令向cpu发送重启指令。ipmi是一种开放标准的硬件管理接口规格,它定义了嵌入式管理子系统进行通信的特定方法。ipmi的核心是一个专用控制器,其并不依赖于服务器的处理器、bios或操作系统来工作,独立性强,是一个单独在系统内运行的无代理管理子系统,只要有bmc与ipmi固件其便可开始工作,其在工作时,所有的ipmi功能都是向bmc发送命令来完成的。68.本实施例中,可以在内存发生故障时,由bmc对发生故障的目标内存条所对应的目标内存槽进行屏蔽,并向cpu发送重启指令。而由于发生故障的内存条被隔离,因此cpu重启后只对正常运行的内存条进行内存训练,此时服务器可以正常启动,从而可以在故障排除的过程中,减少因服务器无法正常运行而造成的网络资源浪费。bmc接收bios通过串口重定向发送的目标内存条信息,可以为目标内存条信息的传输提供安全和方便的通道。bmc通过解析接收到的目标内存条信息来确定目标内存槽,并通过降低该gpio的输出电平以使得目标内存槽的vddq断路,从而使目标内存槽断电,可以实现目标内存槽的精准识别以及快速关闭。bmc通过ipmi命令向cpu发送重启指令,可以使cpu安全、稳定地接收到bmc发送的重启指令。69.请参阅图3所示,本技术中基于内存故障的服务器管理装置的一个实施例包括:70.接收单元301,用于当bios根据内存训练结果确定存在目标内存条发生故障时,接收bios发送的目标内存条信息,并且cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;71.关闭单元302,用于根据目标内存条信息关闭目标内存条所对应的目标内存槽;72.发送单元303,用于当确定目标内存槽已关闭时,向cpu发送重启指令,以使得cpu根据重启指令重新启动。73.本实施例中,当bios根据内存训练结果确定存在目标内存条发生故障时,接收单元301接收bios发送的目标内存条信息,并且cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;关闭单元302根据目标内存条信息关闭目标内存条所对应的目标内存槽;当确定目标内存槽已关闭时,发送单元303向cpu发送重启指令,以使得cpu根据重启指令重新启动。通过这样,可以在内存发生故障时,由bmc对发生故障的目标内存条所对应的目标内存槽进行屏蔽,并向cpu发送重启指令。而由于发生故障的内存条被隔离,因此cpu重启后只对正常运行的内存条进行内存训练,此时服务器可以正常启动,从而可以在故障排除的过程中,减少因服务器无法正常运行而造成的网络资源浪费。74.请参阅图4所示,本技术中基于内存故障的服务器管理装置的另一个实施例包括:75.接收单元401,具体用于当bios根据内存训练结果确定存在目标内存条发生故障时,接收bios通过串口重定向发送的目标内存条信息,并且cpu根据停机指令停止工作,该内存训练结果为cpu对内存条进行训练后向bios发送的训练结果,该目标内存条信息为发生故障的目标内存条的信息,该停机指令为bios向cpu发送的停止工作的指令;76.关闭单元402,具体用于对目标内存条信息进行解析;根据已解析的目标内存条信息确定目标内存条对应的目标内存槽;关闭目标内存槽;77.该关闭单元402,还可以具体用于对目标内存条信息进行解析;根据已解析的目标内存条信息确定目标内存条对应的目标内存槽;降低与目标内存槽连接的通用输入输出引脚gpio的输出电平,以使得目标内存槽的vddq断路,当目标内存槽的vddq断路时,表示目标内存槽已关闭;78.发送单元403,具体用于当确定目标内存槽已关闭时,通过ipmi命令向cpu发送重启指令,以使得cpu根据重启指令重新启动。79.本实施例中,各单元的功能与前述图2所示实施例中的步骤201至205的功能类似,此处不再进行赘述。80.请参阅图5所示,本技术中基于内存故障的服务器管理系统的一个实施例包括:81.中央处理器502,存储器501,输入输出接口503,有线或无线网络接口504以及电源505;82.存储器501为短暂存储存储器或持久存储存储器;83.中央处理器502配置为与存储器501通信,并执行存储器501中的指令操作以执行前述图1至图2所示实施例中的步骤。84.本技术提供了一种计算机可读存储介质,包括指令,当该指令在计算机上运行时,使得计算机执行前述图1至图2所示实施例中的步骤。85.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。86.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。87.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。88.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。89.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于内存故障的服务器管理方法、装置以及系统与流程
作者:admin
2022-07-30 13:39:32
776
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 含有γ-氨基丁酸的压片糖果及其制备方法与流程
- 上一篇: 一种光栅尺加工运行信号误差补偿系统的制作方法