新手612152 发表于 2024-3-8 11:53
  
一起学习 一起学习!
新手741261 发表于 2024-3-9 10:41
  
沙发,收藏,点赞加关注
新手078326 发表于 2024-5-16 10:27
  
一起来学习 一起来学习
FuJun 发表于 2024-8-21 10:02
  
打卡学习,感谢大佬分享!
阿威十八式 发表于 2024-10-26 09:43
  
感谢分享,学习一下~
私有云数据中心优化方案
  

张尔祥12189 105183人觉得有帮助

{{ttag.title}}
第1章  项目概述
1.1 项目背景
目前私有云数据中心架构错综复杂,私有云数据中心多套集群异构情况比较严重,整体资源利用率较低,集群资源分配不合理,VLAN规划不清晰,运维难度较大。目前存在以下问题需要优化解决。

  • 服务端层面问题


1.实体服务器新旧混用,过于老旧设备挂载核心业务风险较高;
2.缺少必要的设备及服务监控,问题发现及处理不及时,影响业务后才会被发现,影响用户体验;
3.服务器资源/权限申请缺少管控,核心及非核心业务、甚至是个人测试需求都可以直接要求开放服务器资源;
4.服务器系统缺少必要的加固/漏洞扫描,安全风险较高;
5.OA等大存储需求系统缺少存储扩展空间,私有云分布式存储不适合提供大量存储给单一系统使用,备份存储资源不足,无异地备份;

  • 网络方面问题


1.私有云上技术中心服务器偶有大量数据传输,造成总部核心网络堵塞,影响其他业务(如OA)网络使用;
2.主干网络无冗余配置,无容错、容灾能力;
3.物理网络和私有云虚拟网络VLAN划分及使用混乱,不便于安全隔离及路由优化,造成管理困难;
4.内部无DNS服务,办公及业务应用全部通过IP地址访问,不便于应用迁移,安全风险较高;
5.无无线网络,移动办公缺少便利,无网络接入认证,外部设备可随意接入,安全风险较高;
6.IDC机房网络设备分布存储、虚拟组网跟服务器接入混用,业务流量相互影响,增加设备额外负载,可用性风险增加;
7.IDC机房VPN直接通过internet接入总部VPN,无任何安全措施,安全风险较高;

  • 终端层面问题


1.终端缺少必要的认证,应用权限管控以及用户行为审计;
2.终端缺少安全防护;

1.2项目目标
通过私有云系统平台的优化,为最终用户提供安全可靠的资源平台。
在私有云数据中心现状下,对私有云数据中心平台优化解决目前存在的问题,提高私有云数据中心资源利用率,规划集群资源分配合理性,合理规划VLAN,清晰整体虚拟网络结构,合理整合集群资源,按业务需求规划不同集群,不同科室使用不同集群资源,实现服务器资源申请有效管控,通过安全防护,增加整体网络安全建设,对终端用户进行安全防护与权限管控等,简化管理员运维难度。

1.3 项目范围
     统筹利用已有的计算资源、存储资源、网络资源等资源和条件,根据业务需求,新增资源池建设,统一建设并为贵公司、各科室部门、提供基础设施、支撑软件、应用功能、信息资源、运行保障和信息安全等服务的基于某公司云计算的服务平台,实现服务资源集中管理,健全现有的技术服务管理模式与队伍。
建设业务系统所需的统一的IT资源池
     基础设施资源包括机房资源、网络资源、计算和存储资源、灾备资源等,基于云计算的高弹性、高可靠性、高冗余的特点,采用可行的云计算模式。
     在网络资源建设方面,基于现有的信息网络平台,加强网络安全防护,完善网络管理体系。
在计算资源方面,应采用虚拟化技术设计高弹性的计算资源池,并满足科室部门用户对计算资源不断增长的需求。
     在存储资源方面,利用存储虚拟化技术,实现异构存储统一整合和分级共享,提高存储资源利用率,能够快速为用户部署存储空间;降低存储成本(存储共享、重复数据删除、数据压缩);实现弹性扩展;系统管理简单。
     建设统一的管理运营运维支撑平台在平台运营运维服务方面,建立统一的运营运维服务体系,制定服务标准和规范,提供满足需求、响应及时、安全可靠的运维保障服务,包括为保障业务应用的顺利部署、开通,以及网络、硬件、软件、数据、机房环境等安全、稳定、高效运行而进行的一系列策划、实施、检查与改进过程。

第2章  私有云
2.1 集群计算资源优化思路
整体网络拓扑分区四个区域:总部办公网区,总部生产网区,电信私有云和XX私有云区。
注:虚拟机分配及运行集群归属见附件虚拟机报表。

2.1.1 可用一区-集群1【测试中心+产品管理】

2.1.1.1 适配场景
用于少量计算密集型业务/大容量存储业务等场景。计算节点异构,允许阶梯式业务分布。

2.1.1.2 计算资源
     (1)现状
     1) 该集群具有多款CPU型号,具体型号如下:
8 核 16 线程 X 2 (Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz)
10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHz)
10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz)
12 核 24 线程 X 2 (Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz)
10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz)
     (2)优化建议
     1)建议将8 核 16 线程 X 2 (Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz)替换为CPU建议E5-2640v4以上的主机;将10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz)主机迁移至可用二区集群1。建议将型号H3C R4900-G3型号主机新建可用一区集群2。
     2)建议将128G内存扩容至256G。

2.1.1.3 网络资源
     (1)现状
1)业务网口为千兆网口,当虚拟交换机下的虚拟机占用网络带宽超过200M时,集群业务网络访问卡慢。
2)所有服务器主机的数据通信口为单网口(ETH3口),且未开启网口高性能模式,影响虚拟机东西向流量通信。
3)所有服务器主机管理通信口为单网口,且每台服务器主机管理网口都不一致。
     (2)优化建议
1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题。
2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合。
3)将每台服务器主机管理网口调整为使用一致的网口。

2.1.1.4 存储资源
     (1) 现状
     1) 服务器主机磁盘组配置为:磁盘组1:480G SSD /2Tx3 HDD
磁盘组2:480G SSD/2Tx2 HDD。
     (2)优化建议
     1) 建议将服务器主机磁盘组1/2 SSD扩容为960G*2,HDD扩容为2T*5。提高缓存盘容量,提升缓存命中率提升虚拟存储性能

2.1.2 可用一区-集群2【方案研究室-计算】

2.1.2.1 适配场景
        用于风资源计算业务系统运行
2.1.22.2 计算资源
     (1)现状
该集群具有一款CPU型号,具体型号如下:
  • 16 核 32 线程 X 2 (Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz)
  • 主机内存为256G


2.1.2.3 存储资源
     (1)现状
服务器主机磁盘组配置为:
磁盘组1:480G SSD /2Tx3 HDD
磁盘组2:480G SSD/2Tx2 HDD。
     (1) 优化建议
四台节点组建虚拟存储

2.1.3 可用二区-集群1【电气设计室】
2.1.3.1 适配场景
     用于企业ERP、OA等普通业务场景。计算节点性能适中,满足基础业务需求。
2.1.3.2 计算资源
     (1)现状
     1) 该集群具有多款CPU型号,具体型号如下:
10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz)
12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz)
     2) 大部分服务器主机内存为128G,有两台服务器主机内存为256G,有一台服务器主机内存为80G。“风资源虚拟机“运行所在服务器主机192.168.100.30内存超过90%
     (2)优化方案
  •      建议将18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机(主机地址为192.168.100.19)、8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机(主机地址为192.168.100.31)迁移至可用二区集群2;建议将12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz)主机(主机地址为192.168.100.28)替换为CPU建议E5-2640v4以上的主机;
  •      建议将所有内存为80G、128G的主机内存扩容至256G。
  •     建议详细处理“风资源虚拟机“运行所在服务器主机内存超过90%的问题。



2.1.3.3 网络资源
     (1)现状
        1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。
        2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。
        3) 所有服务器主机的虚拟通信口为单万兆网口。
     (2)优化方案
        1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。
        2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。
        3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。

2.1.4 可用二区-集群2【电控信息室】
2.1.4.1 适配场景
         用于计算密集型业务

2.1.4.2 计算资源
     (1)现状该集群具有多款CPU型号,具体型号如下:
8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)
18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)
18 核 36 线程 X 2 (Intel(R) Xeon(R) CPU E5-2697 v4 @ 2.30GHz)
20 核20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz)
     (2)优化方案
        1)建议将18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机、8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机(主机地址为192.168.100.31)迁移至可用二区集群2;建议将12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz)主机替换为CPU建议E5-2640v4以上的主机;
        2)建议将所有内存为80G、128G的主机内存扩容至256G。
        3)建议详细处理“风资源虚拟机“运行所在服务器主机内存超过90%的问题。
        4)两台主机内存为128GB,建议扩容至256GB

2.1.4.3网络资源
(1)现状
        1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。
        2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。
        3) 所有服务器主机的虚拟通信口为单万兆网口。
(2)优化方案
        1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。
        2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。
        3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。
2.1.4.4 存储资源
(1) 现状
        1) 服务器主机磁盘组配置为:磁盘组1:480G SSD/1Tx1 HDD 磁盘组2:480G SSD/1Tx2 HDD。
(2)优化建议
        1) 建议将服务器主机磁盘组1/2  HDD扩容1T*2。

2.1.5 可用二区-集群3【仿真计算室】
2.1.5.1 适配场景
         用于载荷计算业务场景

2.1.5.2 计算资源
     (1)现状
        1)该集群具有多款CPU型号,具体型号如下:10 核20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz)
        2) 大部分服务器主机内存为128GB,建议服务器内存扩容至256GB
     (2)优化方案
        1)新建集群
        2)建议将所有内存为128G的主机内存扩容至256G。

2.1.5.3网络资源
     (1)现状
        1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。
        2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。
       3) 所有服务器主机的虚拟通信口为单万兆网口。
     (2)优化方案
        1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。
        2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。
        3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。

2.1.5.4存储资源
     (1)现状
     1) 服务器型号lenovo X3650磁盘组1:480G SSD/1Tx1 HDD 磁盘组2:480G SSD/1Tx2 HDD。
     (2)优化建议
      2)建议将服务器主机磁盘组1/2  HDD扩容1T*2,保持同构一致。

2.1.6 可用三区-集群1【机械设计室-计算】

2.1.6.1 适配场景

        用于强度分析业务系统运行

2.1.6.2 计算资源

     (1)现状

     1)该集群计算节点CPU型号较高,具体型号均为16 核 32 线程 X 2 (Intel(R) Xeon(R) Gold 6242 CPU @ 2.80GHz)

     2)主机内存均为960G

     (2)优化建议
      1)建议将以下CPU型号节点迁移至可用三区,如8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机内存扩容至256G,SSD盘替换为960G,磁盘组扩容为3个,数据盘配比为2Tx3然后迁移至可用三区,18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机SSD盘替换为960G,迁移至可用三区。

1.1.6.3 网络资源
     (1)现状
      1)所有服务器主机的数据通信口未开启网口高性能模式,影响虚拟机东西向流量通信。

     (2)优化建议

     1)建议数据通信口开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合。


1.1.6.4 存储资源
     (1)现状
     1) 集群所有主机磁盘组配置为:
磁盘组1:960G SSD /4Tx3 HDD
磁盘组2:960G SSD/4Tx3 HDD     
磁盘组3:960G SSD/4Tx3 HDD

     (2)优化建议

         1) 建议将可用分区二移动过来的主机添加到可用分区三集群内,对内存及虚拟存储进行扩容,提升整个集群的可用资源及整体性能。


2.2 迁移方案
2.2.1场景一
描述:当虚拟机存储位置为虚拟存储,可通过跨集群迁移方式进行业务迁移。
条件:需要网络可达
具体操作见附件2某公司企业云虚拟机迁移方案。

2.2.2场景二
描述:当虚拟机运行位置为ISCSI存储,将不同集群挂载ISCSI存储。
条件:保证HCI平台和ISCSI存储网络可达
具体操作见附件2某公司企业云虚拟机迁移方案。

2.2.3场景三
描述:运行位置为FC存储,虚拟机可借助sangfor convert迁移工具进行迁移。
条件:保证待迁移虚拟机网络和目标集群网络可达
具体操作见附件2某公司企业云虚拟机迁移方案。

2.2.4应急预案
采用“在原有主机上运行某公司 Converter迁移”的紧急恢复方式:
1.Windows迁移使用exe程序安装时,添加了HCI的启动项。在开机时可以看到选择启动项的界面,此时通过键盘方向键(↑和↓)可以选择启动的操作系统。例如原来的系统是Windows 7,可选择从原来的操作系统进行启动。
2.从原来的操作系统启动完成后,进入控制面板卸载迁移工具即可。
采用“ISO镜像引导迁移”的紧急恢复方式:
由于该方式是使用安装光盘进行引导启动的,对原主机操作系统未做任何修改,如需放弃迁移,可以直接弹出安装光盘,重启主机即可恢复原状。
采用“跨集群迁移方式”的紧急恢复方式:
由于该方式对源虚拟机不做任何改动,只是对虚拟机数据进行拷贝,因此若出现任何问题,只需要在任务列表中将该任务取消,若迁移完成只需要在目的集群中将虚拟机删除即可。

2.3管理与维护
2.3.1虚拟机管理
现状:
部分计算密集型业务系统CPU分配不当,例如虚拟机分配逻辑核心数40核心,计算节点逻辑核心数少于40核心,此时无法发挥计算资源最大算力;内存分配存在一定超配情况。
优化建议:
虚拟机CPU若要发挥最大算力,如果一台主机只运行一台虚拟机,想把这台虚拟机的性能配置到最高,把物理CPU核数减8作为虚拟机vCPU核数,比如上面16核 x 2的主机,虚拟机配置为 2 x 12核。

2.3.2平台管理
现状:
无明确权限划分
优化方案:
给不同科室分配不同管理权限,一个科室负责运维某一个集群,且在acmp云管平台通过不同管理员账号进行权限划分。

2.3.3监控中心
现状:
业务系统服务状态无法直接获取感知,网络状态不能直观呈现。出现异常无人告知,运维工作完全人工化。
优化方案:
建议部署多套监控中心,每个集群部署一台监控中心,用于内部核心业务系统状态监控,且有异常时会进行邮件告警。

2.4业务网
2.4.1VLAN
现状:
1、集群内物理出口无VLAN隔离,默认放通所有VLAN,存在访问关系安全隐患。如下图所示:
2、内部使用路由器设备,大大增加了网络维护成本。
优化方案:
1)重新梳理VLAN规划,严格进行VLAN隔离,保障不同业务部门之前无网络越权可能性。
2)内部去掉虚拟路由器设备,将路由器下原有虚拟机修改为规划IP地址。

2.5办公网
2.5.1终端用户管控
(1)现状
        1)终端缺少必要的认证,网络接入及应用权限和数据安全无保障;
        2)终端用户权限过大,对公司数据安全造成很大的风险;
        3)终端上网行为缺少管控,网络资源浪费及安全风险增大;
(2)优化方案
        3)建议使用全网行为管理做上网认证,认证失败,无法访问互联网;
        4)建议使用全网行为管理做应用控制,管控用户权限,合理分配用户权限;
        5)建议使用全网行为管理做流量控制,保证业务带宽优先传输;
2.5.2终端用户安全防护
(1)现状
        1)终端用户无任何安全防护措施;
(2)优化方案
         1)建议部署终端杀毒软件,终端用户安装EDR杀毒客户端;
2.5.3终端用户审计
(1)现状
        1)终端用户存在对公司内部资料泄密的风险,泄漏方式,如邮件,QQ,微信等途径;
(2)优化方案
        1)建议使用全网行为管理做准入审计策略,结合内部威胁分析(ITM)分析;

打赏鼓励作者,期待更多好文!

打赏
21人已打赏

发表新帖
热门标签
全部标签>
西北区每日一问
技术盲盒
安全效果
技术笔记
【 社区to talk】
每日一问
干货满满
新版本体验
产品连连看
GIF动图学习
2023技术争霸赛专题
技术咨询
功能体验
通用技术
秒懂零信任
安装部署配置
原创分享
技术晨报
自助服务平台操作指引
每周精选
标准化排查
排障笔记本
玩转零信任
深信服技术支持平台
社区新周刊
POC测试案例
信服课堂视频
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
排障那些事
高手请过招
升级&主动服务
高频问题集锦
全能先锋系列
云化安全能力

本版版主

189
299
979

发帖

粉丝

关注

217
288
151

发帖

粉丝

关注

25
13
5

发帖

粉丝

关注

7
11
24

发帖

粉丝

关注

5
7
7

发帖

粉丝

关注

31
34
45

发帖

粉丝

关注

本版达人

皮皮虾·真

本周建议达人

郑州网络

本周分享达人

二进制网络

本周提问达人