在上一个帖子分享GAP网闸实施的时候,在客户现象也对超融合系统做了一次工具巡检,并对巡检当中发现的一台服务器的CPU降频问题进行了业务迁移后,关机整改。 一:首先介绍一下客户这边超融合环境: 客户是去年10月开始在两台HPDL380的服务器上测试深信服企业云aCloud,并于今年7月再次构买3台HP DL580服务器,总共五台HP服务器搭建的企业云。 整个集群采用两台信锐万兆交换机RS6300搭建分布式万兆存储网络实现两副本的建立,两台RS5300千兆交换机作为管理网络 业务网络 通信网络VXLAN的建立,然后又用了一台RS5300作为核心在网络机柜和该超融合服务器机柜之间通过光纤建立连接: 下图是具体的拓扑: 二:使用深信服企业级云智能交付工具aDeploy3.0进行巡检 因为之前的巡检都是使用设备自身的一键检测进行巡检,本地体验一下深信服智能交付工具aDeploy进行一次巡检 社区下载工具:
下载该工具并解压使用,输入集群IP地址 用户 密码 开始全面巡检:
同意相关协议
开始进入巡检:
自动输出巡检报告 为word形式:
、
巡检报告检查发现集群中一台虚拟机出现了降频告警,因为HP服务器经常会遇到降频问题:
三:查看具体的主机运行情况,确认是否可以进行修复: 因为客户超融合搭建时候用的是平台一键检测,当时降频问题已经处理过了,此次再次出现,小编怀疑是自己之前忽略了什么,在实体机页面查看192.168.50.156主机,目前只有两台业务主机,于是决定采用开机迁移运行位置到其他物理主机,将该台物理主机进行关机检查BIOS配置:
于是和客户说明后,开始进行开机迁移:
迁移运行位置:到155主机上,提前确认155主机资源足够迁移: 在更多其他操作中选择迁移:
迁移杀毒服务器_内网比较顺利,但是迁移叫号服务的时候遇到问题了,一直卡在94%的状态,等了一个小时任然没有迁移成功,担心影响业务,再次确认操作无误时候,赶紧找专家协助: 30分钟后专家组联系,再确认虚拟机内存是32GB基本已经判定,内存过大的虚拟机再开机迁移的时候成功率并不高,需要后台使用KVM的qm命令进行迁移:使用的有虚拟机的UUID信息,渠道同事只需要了解内存过大开机迁移可能会卡住的,命令和后台由专家组协助完成。 操作后迁移马上完成,业务无影响: 四:界面关闭192.168.150.156主机,开始进入BIOS配置: 服务器再次手工开机,F9进入BIOS:
在RBSU中检查,最早检查忽略了一个设置: 关闭CPU节能模式: Power Management--HP Power Profile--Custom Advanced Power Options--Collaborative PowerControl--Enable Advanced Power Options--Intel QPI LinkPower Management--Enable 五:开机再次检查,等待存储自动同步:等待数据重建完成,将虚拟机迁移回去
六:经验总结: 超融合在搭建过程中,集群搭建完成后,一定要使用一键检测确认一切正常,一定要确保配置没有疏忽,小编此次搭建了五台服务器都有检查,但是不知道什么原因再二次巡检的时候发现了疏忽了一台服务器的BIOS配置: 希望给为小伙伴日后实施中一定按照操作步骤,检查好各项参数,以免客户上业务后,整改比较麻烦。 |