第1章 项目概述 1.1 项目背景 目前私有云数据中心架构错综复杂,私有云数据中心多套集群异构情况比较严重,整体资源利用率较低,集群资源分配不合理,VLAN规划不清晰,运维难度较大。目前存在以下问题需要优化解决。
1.实体服务器新旧混用,过于老旧设备挂载核心业务风险较高; 2.缺少必要的设备及服务监控,问题发现及处理不及时,影响业务后才会被发现,影响用户体验; 3.服务器资源/权限申请缺少管控,核心及非核心业务、甚至是个人测试需求都可以直接要求开放服务器资源; 4.服务器系统缺少必要的加固/漏洞扫描,安全风险较高; 5.OA等大存储需求系统缺少存储扩展空间,私有云分布式存储不适合提供大量存储给单一系统使用,备份存储资源不足,无异地备份;
1.私有云上技术中心服务器偶有大量数据传输,造成总部核心网络堵塞,影响其他业务(如OA)网络使用; 2.主干网络无冗余配置,无容错、容灾能力; 3.物理网络和私有云虚拟网络VLAN划分及使用混乱,不便于安全隔离及路由优化,造成管理困难; 4.内部无DNS服务,办公及业务应用全部通过IP地址访问,不便于应用迁移,安全风险较高; 5.无无线网络,移动办公缺少便利,无网络接入认证,外部设备可随意接入,安全风险较高; 6.IDC机房网络设备分布存储、虚拟组网跟服务器接入混用,业务流量相互影响,增加设备额外负载,可用性风险增加; 7.IDC机房VPN直接通过internet接入总部VPN,无任何安全措施,安全风险较高;
1.终端缺少必要的认证,应用权限管控以及用户行为审计; 2.终端缺少安全防护;
1.2项目目标 通过私有云系统平台的优化,为最终用户提供安全可靠的资源平台。 在私有云数据中心现状下,对私有云数据中心平台优化解决目前存在的问题,提高私有云数据中心资源利用率,规划集群资源分配合理性,合理规划VLAN,清晰整体虚拟网络结构,合理整合集群资源,按业务需求规划不同集群,不同科室使用不同集群资源,实现服务器资源申请有效管控,通过安全防护,增加整体网络安全建设,对终端用户进行安全防护与权限管控等,简化管理员运维难度。
1.3 项目范围 统筹利用已有的计算资源、存储资源、网络资源等资源和条件,根据业务需求,新增资源池建设,统一建设并为贵公司、各科室部门、提供基础设施、支撑软件、应用功能、信息资源、运行保障和信息安全等服务的基于某公司云计算的服务平台,实现服务资源集中管理,健全现有的技术服务管理模式与队伍。 建设业务系统所需的统一的IT资源池 基础设施资源包括机房资源、网络资源、计算和存储资源、灾备资源等,基于云计算的高弹性、高可靠性、高冗余的特点,采用可行的云计算模式。 在网络资源建设方面,基于现有的信息网络平台,加强网络安全防护,完善网络管理体系。 在计算资源方面,应采用虚拟化技术设计高弹性的计算资源池,并满足科室部门用户对计算资源不断增长的需求。 在存储资源方面,利用存储虚拟化技术,实现异构存储统一整合和分级共享,提高存储资源利用率,能够快速为用户部署存储空间;降低存储成本(存储共享、重复数据删除、数据压缩);实现弹性扩展;系统管理简单。 建设统一的管理运营运维支撑平台在平台运营运维服务方面,建立统一的运营运维服务体系,制定服务标准和规范,提供满足需求、响应及时、安全可靠的运维保障服务,包括为保障业务应用的顺利部署、开通,以及网络、硬件、软件、数据、机房环境等安全、稳定、高效运行而进行的一系列策划、实施、检查与改进过程。
第2章 私有云 2.1 集群计算资源优化思路 整体网络拓扑分区四个区域:总部办公网区,总部生产网区,电信私有云和XX私有云区。 注:虚拟机分配及运行集群归属见附件虚拟机报表。
2.1.1 可用一区-集群1【测试中心+产品管理】
2.1.1.1 适配场景 用于少量计算密集型业务/大容量存储业务等场景。计算节点异构,允许阶梯式业务分布。
2.1.1.2 计算资源 (1)现状 1) 该集群具有多款CPU型号,具体型号如下: 8 核 16 线程 X 2 (Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz) 10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2690 v2 @ 3.00GHz) 10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz) 12 核 24 线程 X 2 (Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz) 10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHz) (2)优化建议 1)建议将8 核 16 线程 X 2 (Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz)替换为CPU建议E5-2640v4以上的主机;将10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz)主机迁移至可用二区集群1。建议将型号H3C R4900-G3型号主机新建可用一区集群2。 2)建议将128G内存扩容至256G。
2.1.1.3 网络资源 (1)现状 1)业务网口为千兆网口,当虚拟交换机下的虚拟机占用网络带宽超过200M时,集群业务网络访问卡慢。 2)所有服务器主机的数据通信口为单网口(ETH3口),且未开启网口高性能模式,影响虚拟机东西向流量通信。 3)所有服务器主机管理通信口为单网口,且每台服务器主机管理网口都不一致。 (2)优化建议 1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题。 2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合。 3)将每台服务器主机管理网口调整为使用一致的网口。
2.1.1.4 存储资源 (1) 现状 1) 服务器主机磁盘组配置为:磁盘组1:480G SSD /2Tx3 HDD 磁盘组2:480G SSD/2Tx2 HDD。 (2)优化建议 1) 建议将服务器主机磁盘组1/2 SSD扩容为960G*2,HDD扩容为2T*5。提高缓存盘容量,提升缓存命中率提升虚拟存储性能
2.1.2 可用一区-集群2【方案研究室-计算】
2.1.2.1 适配场景 用于风资源计算业务系统运行 2.1.22.2 计算资源 (1)现状 该集群具有一款CPU型号,具体型号如下: 16 核 32 线程 X 2 (Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz)
2.1.2.3 存储资源 (1)现状 服务器主机磁盘组配置为: 磁盘组1:480G SSD /2Tx3 HDD 磁盘组2:480G SSD/2Tx2 HDD。 (1) 优化建议 四台节点组建虚拟存储
2.1.3 可用二区-集群1【电气设计室】 2.1.3.1 适配场景 用于企业ERP、OA等普通业务场景。计算节点性能适中,满足基础业务需求。 2.1.3.2 计算资源 (1)现状 1) 该集群具有多款CPU型号,具体型号如下: 10 核 20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz) 12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz) 2) 大部分服务器主机内存为128G,有两台服务器主机内存为256G,有一台服务器主机内存为80G。“风资源虚拟机“运行所在服务器主机192.168.100.30内存超过90% (2)优化方案 建议将18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机(主机地址为192.168.100.19)、8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机(主机地址为192.168.100.31)迁移至可用二区集群2;建议将12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz)主机(主机地址为192.168.100.28)替换为CPU建议E5-2640v4以上的主机; 建议将所有内存为80G、128G的主机内存扩容至256G。 建议详细处理“风资源虚拟机“运行所在服务器主机内存超过90%的问题。
2.1.3.3 网络资源 (1)现状 1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。 2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。 3) 所有服务器主机的虚拟通信口为单万兆网口。 (2)优化方案 1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。 2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。 3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。
2.1.4 可用二区-集群2【电控信息室】 2.1.4.1 适配场景 用于计算密集型业务
2.1.4.2 计算资源 (1)现状该集群具有多款CPU型号,具体型号如下: 8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz) 18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz) 18 核 36 线程 X 2 (Intel(R) Xeon(R) CPU E5-2697 v4 @ 2.30GHz) 20 核20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz) (2)优化方案 1)建议将18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机、8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机(主机地址为192.168.100.31)迁移至可用二区集群2;建议将12 核 24 线程 X 2 (Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz)主机替换为CPU建议E5-2640v4以上的主机; 2)建议将所有内存为80G、128G的主机内存扩容至256G。 3)建议详细处理“风资源虚拟机“运行所在服务器主机内存超过90%的问题。 4)两台主机内存为128GB,建议扩容至256GB
2.1.4.3网络资源 (1)现状 1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。 2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。 3) 所有服务器主机的虚拟通信口为单万兆网口。 (2)优化方案 1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。 2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。 3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。 2.1.4.4 存储资源 (1) 现状 1) 服务器主机磁盘组配置为:磁盘组1:480G SSD/1Tx1 HDD 磁盘组2:480G SSD/1Tx2 HDD。 (2)优化建议 1) 建议将服务器主机磁盘组1/2 HDD扩容1T*2。
2.1.5 可用二区-集群3【仿真计算室】 2.1.5.1 适配场景 用于载荷计算业务场景
2.1.5.2 计算资源 (1)现状 1)该集群具有多款CPU型号,具体型号如下:10 核20 线程 X 2 (Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz) 2) 大部分服务器主机内存为128GB,建议服务器内存扩容至256GB (2)优化方案 1)新建集群 2)建议将所有内存为128G的主机内存扩容至256G。
2.1.5.3网络资源 (1)现状 1)业务网口为千兆网口(ETH1/ETH3口),当虚拟交换机下的虚拟机占用网络带宽超过125-150M时,集群业务网络访问卡慢。 2)所有服务器主机的数据通信口为单万兆网口(ETH1/ETH5口),且未开启网口高性能模式,影响虚拟机东西向流量通信。 3) 所有服务器主机的虚拟通信口为单万兆网口。 (2)优化方案 1)建议业务千兆网口做聚合,解决单网口存在单点故障问题,同时提升业务网口的网络带宽,解决业务网口带宽不足问题;并且所有服务器主机业务网口统一使用相同网口。 2)建议 2*GE服务器网口做聚合,采用 IP 地址方式进行负载,开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合;;并且所有服务器主机vxlan网口统一使用相同网口。 3)建议修改所有服务器主机的虚拟通信口为双万兆网口,且虚拟存储网络为双交换机链路聚合。
2.1.5.4存储资源 (1)现状 1) 服务器型号lenovo X3650磁盘组1:480G SSD/1Tx1 HDD 磁盘组2:480G SSD/1Tx2 HDD。 (2)优化建议 2)建议将服务器主机磁盘组1/2 HDD扩容1T*2,保持同构一致。
2.1.6 可用三区-集群1【机械设计室-计算】
2.1.6.1 适配场景 用于强度分析业务系统运行 2.1.6.2 计算资源 (1)现状 1)该集群计算节点CPU型号较高,具体型号均为16 核 32 线程 X 2 (Intel(R) Xeon(R) Gold 6242 CPU @ 2.80GHz) 2)主机内存均为960G (2)优化建议 1)建议将以下CPU型号节点迁移至可用三区,如8 核 16 线程 X 2 (Intel(R) Xeon(R) Gold 6134 CPU @ 3.20GHz)主机内存扩容至256G,SSD盘替换为960G,磁盘组扩容为3个,数据盘配比为2Tx3然后迁移至可用三区,18 核 36 线程 X 2 (Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz)主机SSD盘替换为960G,迁移至可用三区。
1.1.6.3 网络资源 (1)现状 1)所有服务器主机的数据通信口未开启网口高性能模式,影响虚拟机东西向流量通信。 (2)优化建议 1)建议数据通信口开启高性能模式,连接的交换机需要开启巨帧,设置为 1600 以上,同时需要交换机相应的接口配置静态网口聚合。
1.1.6.4 存储资源 (1)现状 1) 集群所有主机磁盘组配置为: 磁盘组1:960G SSD /4Tx3 HDD 磁盘组2:960G SSD/4Tx3 HDD 磁盘组3:960G SSD/4Tx3 HDD (2)优化建议 1) 建议将可用分区二移动过来的主机添加到可用分区三集群内,对内存及虚拟存储进行扩容,提升整个集群的可用资源及整体性能。
2.2 迁移方案 2.2.1场景一 描述:当虚拟机存储位置为虚拟存储,可通过跨集群迁移方式进行业务迁移。 条件:需要网络可达 具体操作见附件2某公司企业云虚拟机迁移方案。
2.2.2场景二 描述:当虚拟机运行位置为ISCSI存储,将不同集群挂载ISCSI存储。 条件:保证HCI平台和ISCSI存储网络可达 具体操作见附件2某公司企业云虚拟机迁移方案。
2.2.3场景三 描述:运行位置为FC存储,虚拟机可借助sangfor convert迁移工具进行迁移。 条件:保证待迁移虚拟机网络和目标集群网络可达 具体操作见附件2某公司企业云虚拟机迁移方案。
2.2.4应急预案 采用“在原有主机上运行某公司 Converter迁移”的紧急恢复方式: 1.Windows迁移使用exe程序安装时,添加了HCI的启动项。在开机时可以看到选择启动项的界面,此时通过键盘方向键(↑和↓)可以选择启动的操作系统。例如原来的系统是Windows 7,可选择从原来的操作系统进行启动。 2.从原来的操作系统启动完成后,进入控制面板卸载迁移工具即可。 采用“ISO镜像引导迁移”的紧急恢复方式: 由于该方式是使用安装光盘进行引导启动的,对原主机操作系统未做任何修改,如需放弃迁移,可以直接弹出安装光盘,重启主机即可恢复原状。 采用“跨集群迁移方式”的紧急恢复方式: 由于该方式对源虚拟机不做任何改动,只是对虚拟机数据进行拷贝,因此若出现任何问题,只需要在任务列表中将该任务取消,若迁移完成只需要在目的集群中将虚拟机删除即可。
2.3管理与维护 2.3.1虚拟机管理 现状: 部分计算密集型业务系统CPU分配不当,例如虚拟机分配逻辑核心数40核心,计算节点逻辑核心数少于40核心,此时无法发挥计算资源最大算力;内存分配存在一定超配情况。 优化建议: 虚拟机CPU若要发挥最大算力,如果一台主机只运行一台虚拟机,想把这台虚拟机的性能配置到最高,把物理CPU核数减8作为虚拟机vCPU核数,比如上面16核 x 2的主机,虚拟机配置为 2 x 12核。
2.3.2平台管理 现状: 无明确权限划分 优化方案: 给不同科室分配不同管理权限,一个科室负责运维某一个集群,且在acmp云管平台通过不同管理员账号进行权限划分。
2.3.3监控中心 现状: 业务系统服务状态无法直接获取感知,网络状态不能直观呈现。出现异常无人告知,运维工作完全人工化。 优化方案: 建议部署多套监控中心,每个集群部署一台监控中心,用于内部核心业务系统状态监控,且有异常时会进行邮件告警。
2.4业务网 2.4.1VLAN 现状: 1、集群内物理出口无VLAN隔离,默认放通所有VLAN,存在访问关系安全隐患。如下图所示: 2、内部使用路由器设备,大大增加了网络维护成本。 优化方案: 1)重新梳理VLAN规划,严格进行VLAN隔离,保障不同业务部门之前无网络越权可能性。 2)内部去掉虚拟路由器设备,将路由器下原有虚拟机修改为规划IP地址。
2.5办公网 2.5.1终端用户管控 (1)现状 1)终端缺少必要的认证,网络接入及应用权限和数据安全无保障; 2)终端用户权限过大,对公司数据安全造成很大的风险; 3)终端上网行为缺少管控,网络资源浪费及安全风险增大; (2)优化方案 3)建议使用全网行为管理做上网认证,认证失败,无法访问互联网; 4)建议使用全网行为管理做应用控制,管控用户权限,合理分配用户权限; 5)建议使用全网行为管理做流量控制,保证业务带宽优先传输; 2.5.2终端用户安全防护 (1)现状 1)终端用户无任何安全防护措施; (2)优化方案 1)建议部署终端杀毒软件,终端用户安装EDR杀毒客户端; 2.5.3终端用户审计 (1)现状 1)终端用户存在对公司内部资料泄密的风险,泄漏方式,如邮件,QQ,微信等途径; (2)优化方案 1)建议使用全网行为管理做准入审计策略,结合内部威胁分析(ITM)分析; |