某省级单位超融合问题紧急处理案例分享!
  

刘小龙 14941人觉得有帮助

{{ttag.title}}
一、客户问题描述(已经发飙投诉)
1、为什么不能将所有服务器做成1个集群,现有2个超融合集群,客户方担心业务负载有影响,可扩展性和可用性不高,对此意见非常大,认为之前没有规划好,需要我司安排限期处理;
2、多个集群之间无法资源灵活调度,可扩展性差,问题多;
3、容器部署问题,之前有答复支持容器才购买的企业云,现在还是一直不能用,现在客户方继续搭建警务云平台;
4、商务与技术多次上门无果,问题一直解决不了,客户意见非常大。

二、问题分析过程
1、拉着市场和技术详细梳理现有问题,反复去客户现场沟通确认,经过详细分析,现有超融合集群内的主机硬件配置(CPU、内存、磁盘)不等,所以才没有部署到多个集群,后续扩容也不太好弄,但是发现强制设置成1个集群会存在如下问题:
1)内存差异太大,造成部分主机运行虚拟机数量较少,在负载均衡方面造成很多误解;
2)磁盘数量配比不一样,务必造成类似业务系统同在一个集群却性能不一的情况,增加了运维难度;
3)磁盘数量不一致,造成虚拟存储ASAN运算开销倍增,降低集群性能;
4)主机间磁盘性能一样,虚拟机副本会取性能最低原则;
5)不同物理机(配置差异大)组成集群,案例相对较少,可能存在许多未知问题;
6)虚拟机开启HOST CPU配置时,如果CPU类型指令不一样,可能出现虚拟机无法迁移的故障;

2、集群之间的资源调度,可扩展性差的问题
  经详细分析梳理,该问题确实是业界难题,在存储没有共享的情况下,基本做不到到资源灵活调度。可扩展性差的问题应该不存在。

3、容器部署问题
     经分析,某公司超融合前期支持容器,但正在优化,当前版本是不支持容器的,后续支持容器的版本预计到2020年8月才会出来,如当前需要容器,已经和市场达成一致,购买第三方的容器管理平台方案来解决。
   

  解决思路:
根据以往经验,详细梳理业务系统,将业务系统进行分类,比如:分为重要业务系统和非重要业务系统。在超融合平台方案,组合建设成1个集群(但是当前版本集群数量不超过24台),1个高性能集卷和1个普通集卷,高性能卷组建的原则是:CPU、内存、磁盘性能数量类似的主机,特别是磁盘数量是否一致,缓存盘和机械盘容量数量配比是否合理;普通卷可以考虑将利旧服务器和性能较底的服务器组建在一起,充分提升利用率。容器云通过虚拟机的形式部署在该集群上面。

三、解决方案
1、整改目标
1)、提升业务稳定性,高可用性;
2)、增强业务系统性能;
3)、可扩展性强,思路明确;
4)、运维简单。

         2、底层平台重新规划设计
        注:通过调整主机和硬盘,将集群按照规划做了大调整,确保后续可扩展性强及满足当前业务承载目标。

3、高性能卷描述
CPU、内存、磁盘类型数量配比类似的高性能服务器组成一个集群,将分类好的重要业务系统迁移至该集群,经详细梳理,如下图所示;
注:12台类型相似的服务器组成一个卷,保障重要业务系统稳定高效运行。

  4、普通卷描述
将其他类型的低性能物理主机,组建成一个集群,非重要业务系统迁移至该卷上面。
       5、容器云部署方案
          采用9个容器云计算节点,在超融合云平台上启动虚拟机的形式来配合时速云搭建。
四、问题处理分析(为啥多次上门处理无果?)
  1、售前阶段没有梳理清楚客户需求;
  2、技术在实施过程中,缺乏总体考虑规划,导致每次上门实施都为了完成任务,多次加点就是采用多个集群,完全不考虑业务需求;
  3、风险意识不够,无法识别到该项目给客户方带来真正的风险;
  4、问题处理过程中,缺乏站在客户立场的思维,不善于总结根本原因;
  5、沟通有效性太差,特别是容器云这一块,没有找到关键干系人协助。

五、经验总结
  1、详细梳理客户实际业务需求,反复和客户确认相关需求;
  2、分析问题根本原因,找到对应方案,并且让干系人认可确认;
  3、沟通需找到关键干系人,确保沟通有效性;
  4、站在全局角度思考和解决问题,不局限我司产品,需要全面的综合能力。

298115ed60dc91164f.png (143.19 KB, 下载次数: 30)

298115ed60dc91164f.png

XXX 公安局企业级云平台改造扩容规划设计方案_20200602173427.pdf

1.01 MB, 下载次数: 44

打赏鼓励作者,期待更多好文!

打赏
1人已打赏

不懂就问 发表于 2020-6-18 17:54
  

缤纷618,福利送大家! +6 S豆 详情>

龙哥威武,解决思路清晰,充分展现一位合格项目经理人的风采,技术厉害,沟通协调能力更强,向龙哥学习。
卢冰 发表于 2020-6-2 17:55
  
学习学习
maoxs 发表于 2020-6-4 08:43
  
这会让用户对某公司产品失去信心
新手548437 发表于 2020-6-5 12:01
  
感谢分享。
sxfusr 发表于 2020-6-6 14:05
  
打赏学习,感谢分享
新手517842 发表于 2020-6-8 11:22
  
感谢分享
丰之汇罗云辉 发表于 2022-6-28 08:13
  
学习了,学习了,好奇容器云自己拿linux搭建一个主机集群跑在hci不就可以了?小白不是很懂
发表新帖
热门标签
全部标签>
每日一问
技术笔记
新版本体验
功能体验
技术咨询
2023技术争霸赛专题
技术盲盒
干货满满
标准化排查
GIF动图学习
产品连连看
安装部署配置
秒懂零信任
自助服务平台操作指引
信服课堂视频
技术晨报
运维工具
深信服技术支持平台
通用技术
安全攻防
每日一记
答题榜单公布
卧龙计划
畅聊IT
答题自测
云计算知识
sangfor周刊
资源访问
排障笔记本
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
上网策略
测试报告
日志审计
问题分析处理
流量管理
用户认证
原创分享
解决方案
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
迁移
地址转换
虚拟机
存储
加速技术
产品预警公告
玩转零信任
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
社区帮助指南
纪元平台
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选

本版版主

217
274
151

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人