一、客户问题描述(已经发飙投诉) 1、为什么不能将所有服务器做成1个集群,现有2个超融合集群,客户方担心业务负载有影响,可扩展性和可用性不高,对此意见非常大,认为之前没有规划好,需要我司安排限期处理; 2、多个集群之间无法资源灵活调度,可扩展性差,问题多; 3、容器部署问题,之前有答复支持容器才购买的企业云,现在还是一直不能用,现在客户方继续搭建警务云平台; 4、商务与技术多次上门无果,问题一直解决不了,客户意见非常大。
二、问题分析过程 1、拉着市场和技术详细梳理现有问题,反复去客户现场沟通确认,经过详细分析,现有超融合集群内的主机硬件配置(CPU、内存、磁盘)不等,所以才没有部署到多个集群,后续扩容也不太好弄,但是发现强制设置成1个集群会存在如下问题: 1)内存差异太大,造成部分主机运行虚拟机数量较少,在负载均衡方面造成很多误解; 2)磁盘数量配比不一样,务必造成类似业务系统同在一个集群却性能不一的情况,增加了运维难度; 3)磁盘数量不一致,造成虚拟存储ASAN运算开销倍增,降低集群性能; 4)主机间磁盘性能一样,虚拟机副本会取性能最低原则; 5)不同物理机(配置差异大)组成集群,案例相对较少,可能存在许多未知问题; 6)虚拟机开启HOST CPU配置时,如果CPU类型指令不一样,可能出现虚拟机无法迁移的故障;
2、集群之间的资源调度,可扩展性差的问题 经详细分析梳理,该问题确实是业界难题,在存储没有共享的情况下,基本做不到到资源灵活调度。可扩展性差的问题应该不存在。
3、容器部署问题 经分析,某公司超融合前期支持容器,但正在优化,当前版本是不支持容器的,后续支持容器的版本预计到2020年8月才会出来,如当前需要容器,已经和市场达成一致,购买第三方的容器管理平台方案来解决。
解决思路: 根据以往经验,详细梳理业务系统,将业务系统进行分类,比如:分为重要业务系统和非重要业务系统。在超融合平台方案,组合建设成1个集群(但是当前版本集群数量不超过24台),1个高性能集卷和1个普通集卷,高性能卷组建的原则是:CPU、内存、磁盘性能数量类似的主机,特别是磁盘数量是否一致,缓存盘和机械盘容量数量配比是否合理;普通卷可以考虑将利旧服务器和性能较底的服务器组建在一起,充分提升利用率。容器云通过虚拟机的形式部署在该集群上面。
三、解决方案 1、整改目标 1)、提升业务稳定性,高可用性; 2)、增强业务系统性能; 3)、可扩展性强,思路明确; 4)、运维简单。
2、底层平台重新规划设计 注:通过调整主机和硬盘,将集群按照规划做了大调整,确保后续可扩展性强及满足当前业务承载目标。
3、高性能卷描述 将CPU、内存、磁盘类型数量配比类似的高性能服务器组成一个集群,将分类好的重要业务系统迁移至该集群,经详细梳理,如下图所示; 注:12台类型相似的服务器组成一个卷,保障重要业务系统稳定高效运行。
4、普通卷描述 将其他类型的低性能物理主机,组建成一个集群,非重要业务系统迁移至该卷上面。 5、容器云部署方案 采用9个容器云计算节点,在超融合云平台上启动虚拟机的形式来配合时速云搭建。 四、问题处理分析(为啥多次上门处理无果?) 1、售前阶段没有梳理清楚客户需求; 2、技术在实施过程中,缺乏总体考虑规划,导致每次上门实施都为了完成任务,多次加点就是采用多个集群,完全不考虑业务需求; 3、风险意识不够,无法识别到该项目给客户方带来真正的风险; 4、问题处理过程中,缺乏站在客户立场的思维,不善于总结根本原因; 5、沟通有效性太差,特别是容器云这一块,没有找到关键干系人协助。
五、经验总结 1、详细梳理客户实际业务需求,反复和客户确认相关需求; 2、分析问题根本原因,找到对应方案,并且让干系人认可确认; 3、沟通需找到关键干系人,确保沟通有效性; 4、站在全局角度思考和解决问题,不局限我司产品,需要全面的综合能力。 |