本帖最后由 红楼之内梦一场 于 2024-9-11 06:21 编辑
一.DRS2.0
DRS 2.0 更加智能化地解决集群资源调度问题,其中DRS 2.0认为服务器负载要均衡,可靠性要高,影响必须小,性能不下降,这是DRS2.0调度的原则;DRS预测算法可对具有一定变化特征的数据进行预测,如周期性特征、增长趋势等,每次采用最近的五天数据对模型进行训练更新、每次预测未来12个小时数据(界面显示1小时)、时间数据间隔为10分钟。 从主机和虚拟机两个维度来进行调度保证优化效果,DRS 1.0的调度,只关注了主机负载的调度,而忽略了可靠性的调度。同时也没有对虚拟机压力的评估。这会导致: 1、对CPU负载较大的虚拟机,被调度到有空余资源,但压力大的主机上,加剧CPU竞争。 2、虚拟机被调度之后,运行在了亚健康的主机上,导致可靠性下降。
1.性能均衡模式:集群中主机出现资源不平衡时,将高负载主机上的虚拟机迁移到低负载主机上 根据灵敏度阈值选出高负载主机,将其虚拟机迁移到低负载主机上,使各主机间资源负载达到平衡 系统会判断迁移后的性能和可靠性评分,保证可靠性等级不下降,性能(负载)得到提升,若不符合则不发生迁移。 2.成本最优模式:集群存在2个及以上主机负载低于80%时,会通过迁移尽可能空余出某台主机的资源 在迁移之前做一个迁移后的模拟和计算,如果迁移后负载高于80%,则不会进行迁移 按照内存负载对主机进行排序,将低负载主机的虚拟机迁移到高负载主机,空余出主机资源 DRS迁移的网口会自动选择:根据源和目的主机,优先选择网口能互通的,然后再选择网口速率最大的,速率一样,按照vxlan口,vs存储网口,管理口顺序选则。 系统会判断迁移后的可靠性评分,保证可靠性等级不下降,若不符合则不发生迁移。
二.HA2.0 HA1.0的劣势 1.被动式响应,仅在故障时处置无法应对潜在风险 2.暴力处置,仅考虑数据和资源,极限场景导致失败 3.无检测,缺少对HA条件的检测与保障 HA2.0的优势 1.更加全面的检测维度 2.更加主动的处置动作 3.更加智能的调度办法 4.更加可视的运维记录 HA成功的保障机制 正常情况下,目标端的可用内存资源如果小于该虚拟机的配置内存,则会HA失败。RightSize技术则改善了这种情况,即当主机可用内存小于虚拟机配置所需时,允许使用RightSize来判断,即RightSize小于主机剩余可用计算内存时,则允许开机。(RightSize 采集过去100分钟内,每10分钟采集一次,取最大的值)同样的,当集群内剩余的虚拟机都没有足够的资源来让虚拟机HA时,会由系统尝试整理碎片资源,对原有虚拟机进行腾挪。即当RightSize也无法成功时,会使用腾挪(热迁移)其他虚拟机的方式为当前故障虚拟机提供可运行位置。(只会腾挪非重要虚拟机、每个虚拟机最多被腾挪两次、腾挪时会根据评分保证可靠性和性能) |