背景:黄河2280V2服务器,华为鲲鹏ARM 920 5251K处理器,安装HCI681的ARM版本以后,地址能ping通,能打开登陆页面,但是输入用户名密码后会转圈,而且当前看是会周期性自动重启 进入BIOS使用delete按键,硬件排查配合可以找黄河服务器400:400-096-7667
1、 无法使用软碟通刻盘,要通过linux系统DD命令完成刻盘,可以使用Vmware部署linux,然后将镜像通过U盘拷贝至linux中,再刻盘 dd if=HCI-6.8.1-20220801-aarch64-dvd.iso of=/dev/sdi bs=1Moflag=direct blkid /dev/sdi 确认LABEL字段为HCI-6.8.1 2、 基于正常U盘启动方式安装系统,基于IPMI安装,出现乱码为正常现象,等待即可 3、 安装系统盘时,如果出现磁盘识别极少的情况,大多数情况下都是服务器厂家做了单盘RAID0或者其他RAID模式导致的,raid0会导致我们磁盘故障后无法热插拔,一定沟通服务器厂家进行单盘直通模式 需要保证所有SSD和HDD磁盘都被读取到,如果部分客户缓存盘的大小和系统盘大小相同,在黄河服务器上系统盘与数据盘都在服务器面部12个槽位中,在选择磁盘时会出现三个相同的SDD大小盘,建议服务器关机将两块数据盘拔出,开机重装,如果是系统盘做了RAID1,则只会看见一块SSD磁盘,则没问题 如果前期出现错误选择磁盘导致存在多个系统盘情况,可能出现网卡配置不识别,建议可以通过lsblk查看磁盘分区确认;此情况因客户系统盘和缓存盘大小一致导致 建议关闭服务器,将除系统以外缓存盘拔出,系统正常启动后插回缓存盘,后出现磁盘为错误系统盘 然后通过mkfs.etx4 /dev/sdk进行磁盘格式化后正常 4、 第三方服务器安装681系统后,必然出现网口乱序情况,提前准备光转电模块,避免无法eth0乱到光口情况 5、 本次黄河服务器安装好681后,连接网口默认地址能ping通,能打开登陆页面,但是输入用户名密码后会转圈,基本后台开机5分钟左右重启 查看BMC卡系统日志,其中出现hard reset日志,此信息一般为硬件侧触发服务器重启,沟通硬件工程师 6、 硬件厂家最后选择升级BMC版本, 升级前版本为3.03.00.35
升级总共需要进行三个包,升级期间BMC会重启,在升级第3个 cpld的时候,升级完毕,设备需要下电再上电,才会自动加载更新 最后升级后版本为3.03.00.35,升级后解决服务器科技五分钟后自动重启问题 7、 BMC升级后,超融合五分钟重启问题消失;出现操作系统卡顿问题,web界面以及后台可以正常登陆,但是没操作几分钟就会卡死,卡死时间不等,可能一会恢复也可能直接卡宕机 8、 排查RAID卡型号及版本 RAID卡型号为raid卡都是9460-8i,当前固件版本是51.13.0-3223,建议升级至51.20.0-4342再看是否卡顿 RAID卡升级完成后,操作系统卡顿问题解决 建议找服务器厂家配合升级,需要软件如截图,从服务器厂家获取; 本次raid卡升级后,重装系统正常; 9、因为HCI681版本是建立在麒麟V10 SP2系统上,所以只要能在硬件服务器上完成麒麟系统安装,就代表硬件兼容性无问题; 安装麒麟可能出现问题,因为我们HCI681版本都会需要购买配套的麒麟授权,所以可以找麒麟技术支持,麒麟400:400-089-1870 麒麟系统使用软碟通刻盘,写入方式选择RAW,否则会报认证文件损坏 9、 麒麟 V10 SP2系统运行正常,BMC、RAID卡都已达到上述版本,代表硬件兼容性无问题,可以沟通研发排查我们自身问题; 10、本次是在HCI681基础上安装安全资源池 HCI681组建集群以后,要先开681测试授权,激活集群;可以基于销售key开除测试HCI授权 选择HCI-HCI6.8.1-UKEYARM 10、 因为硬件问题可能导致服务器多次宕机重启,在新建集群时报服务器错误,建议直接重装,速度较快 11、 创建存储时,磁盘默认存在热备盘情况,但是磁盘配比符合我司配置,编辑硬盘组将热备盘修改为数据盘 12、 CSSP初始化时,出现初始化失败:开机超时,上传至HCI的CSSP和VDC虚拟机之间存在网络不通,大概率VXLAN网络存在问题;可以先整改VXLAN网络或者迁移至相同主机完成初始化 13、 CSSP 4015 kunpeng版本,当前不支持SSLVPN、edr组件,存在等保欠缺,DAS是昂楷数据库审计(鲲鹏生态指定数据库审计); |