【畅聊IT 26】预测风险,提前预防!来聊一聊关于磁盘、容量和寿命的那些事儿?
  

Sangfor_闪电回_朱丽 14218

{{ttag.title}}


小时候,大家是不是也曾有过这样的幻想:如果我能预测未来就好了!
但这种幻想,只存在于故事和剧情中。。。

随着社会的发展,各项技术的突飞猛进,尤其是大数据的出现,
预测,似乎已经不是那么遥远的事情了!

超融合HCI最近就推出了几个与预测相关的功能:支持对磁盘的坏道、容量增长以及SSD寿命进行预测,预防和规避磁盘故障风险!

1.坏道预测
可预测出机械硬盘在未来7天内是否会出现坏道预测坏道每日优先扫描预测坏道(用户可自定义定期扫描计划)坏道发现与修复及风险评估并告警可精准地预测出环境中机械硬盘的坏道发生情况,实现坏道早发现早处理,避免单点故障。
2.容量预测
为用户提供自适应性的高准确度的在线容量预测功能,可动态预测未来90天的容量趋势变化并在资源不足时发出告警,提前预警资源扩充。
3.SSD寿命预测
结合实际中固态硬盘的写入量分析计算出SSD的剩余可用时间,根据可用寿命区分SSD的风险状态,对高风险的SSD提前进行更换。



本期话题:
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
......
包括但不限于以上话题,欢迎畅聊!

畅聊时间:2020年12月11日-12月31日



互动奖励:
1、幸运奖:本帖设置1000S豆回帖奖励,每次回复有机会获得20S豆
2、建议采纳奖:凡提出问题或改进建议被采纳的,奖励100S豆/条!
3、最高人气奖:回复的内容被管理员设置为优秀且点赞数最多的可获得价值50元的精美礼品一份!
PS:要求点赞数量至少10个以上


话题回顾:

本期获奖用户:


灵峰气韵 发表于 2020-12-11 16:41
打赏(102)    点赞(11)




1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,物理机当时没做硬盘没做raid,结果恰巧坏盘了,万幸的是没有丢掉很重要的数据,后来重新部署的
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
620版本的预测功能感觉会有参考价值,就跟固定资产管理里的资产启用到估值变零报废似的,但是你说到了寿命的时候没有坏 我也不能就卸下来报废掉对吧?虽然也是自主研发的,通过采集硬件信息,各种底层算法库,对硬盘七天内的状态进行坏道预测,配合坏道扫描,及时发现坏道并修复,保证更高的数据可靠性。
用户可以看到硬盘的坏道预测结果、实际扫描结果与坏道修复情况,同时还会根据硬盘坏道数量对硬盘进行风险评估,针对历史出现坏道数量较多的硬盘进行告警,提示用户尽早更换硬盘,防止因坏道数量过多导致硬盘损坏出现数据丢失。
又根据硬盘IO数据,计算出SSD硬盘的剩余寿命,并结合上层业务压力显示预计SSD剩余可用时长,按照预测结果划分“健康”、“风险”、“高风险”三个寿命等级,提示用户及时更换集群中寿命告急的SSD硬盘。
但是实际过程中,准确率这个如何去判定,官方说法准确率高达95%以上,但我目前还是有点质疑,还是只当参考,不全信!



酒慰风尘 发表于 2020-12-11 20:03
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
经常遇到硬盘故障,主机故障等问题,还好没有数据丢失问题发生
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有价值,可以预计硬盘寿命,提前更换或者提前准备好备件,以防万一,单块磁盘故障不会影响超融合数据,但是长时间不更换,之后可能会造成数据丢失的风险,所以我认为这个功能很有价值,建议增加检测硬盘坏道的功能
暗夜星空 发表于 2020-12-11 21:38
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有发生过,用了将近10年的老实体服务器,既没有做RAID,又没有异地备份,结果硬盘出现坏道,导致部分数据没有办法恢复,后来通过修复找回部分数据,又重新买的新服务器重新部署。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
对于磁盘坏道和SSD寿命的预测功能,在IT运维中,还是有价值的,如果预测的准确率高的话,还是愿意使用的,不过容量预测就没有太大的实用性了感觉,资源的需求有时候会有突发性的,这个预测太容易不准了
万驰 发表于 2020-12-11 21:48
  

回帖奖励 +20

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,前几年有个客户,是开婚纱照店面的。他们后期制作有很多图片,集中放在他们的服务器(一台好点的电脑)里面,里面是有备份raid的,但是因为没有技术人员维护,也没有相关的管理软件,其中有一个硬盘坏了,不知道。用了2年多,另外一个硬盘也坏了,导致里面好多后期制作的图片没有了,损失了30多万。如果当时有超融合HCI,就不会出现这个问题了。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。我肯定会用这个功能。磁盘作为系统中信息资源最重要的存储设备。其所存放的信息资源往往要高于磁盘产品的自身价值。数据的丢失,会造成不可弥补的损失。
zzvc007 发表于 2020-12-12 10:53
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,日常运维当中也是最怕硬盘数据丢失这种情况的出现,我就遇到过几次,有自身人为失误的,也有因为硬盘自身盘片被磨损导致的数据丢失。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有价值,我认为可以起到一定的警示作用,不过前提要是预测功能成功率能够比较高,不然就成了误导功能了,另外做好硬盘raid保护还是更为的实际。
易逝的信仰 发表于 2020-12-12 14:45
  

回帖奖励 +20

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?

服务器和存储还好吧,都有做RAID,区别就是RAID1,RAID2,RAID5的区别,但个人的终端数据就有很多硬盘坏的,一般人员好说,有些财务人员,重要业务人员的损失就大了,人都是有惰性的虽然多次提醒,但有时就是怕麻烦。现在用某公司的云桌面好很多了。

2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
这个预测功能是很有价值的,也是我们运维人员予以肯定和愿意使用的。
但预警完成后,我们是不是要更换硬盘?就像“灵峰气韵”老大说的,这个在单位内是很难实现的,对没有损坏的东西给与报废处理再购置新设备这是很难站住脚的,技术人员当然能理解,但管理技术人员的可不是技术出身。
这个功能实际欠缺的就是“积累”“准确”,当我们把预警进行汇报时,能用大量数据做证据就最好了。
比如汇报时:“根据以往数据显示,提示预警后7天坏道率超过80%,正确判断90%”。
伊利丹·怒风 发表于 2020-12-12 14:49
  

回帖奖励 +20

数据无价,能给出预警就是真是帮了很多运维的大忙了,不管会不会出问题,防范于未然都是对。
至于领导肯不肯听,能不能换硬盘,那是不是技术需要考虑的。
Jean_Zhj 发表于 2020-12-14 10:56
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
遇到过服务器硬盘出现故障,无法识别;做了RAID技术,无数据丢失;
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
超融合中对于磁盘坏道、容量、SSD寿命的预测功能在IT运维中很有价值,愿意使用。
yim 发表于 2020-12-14 11:32
  
在应用中对高性能SSD的风险防范需加强管理避免造成业务损失,HCI为这一问题提供了完美解决方案。
tj_zero 发表于 2020-12-14 12:11
  
本帖最后由 tj_zero 于 2020-12-14 12:13 编辑

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?

     工作十余年期间没有发生过硬盘或存储相关的IT运维事件;

     如果您问我是怎样做到的?那么简单来说,几方面:

     1.强化意识,数据安全和数据可用性是相关的两个侧重面,经常教育新人注意数据备份意识;

     2.重要业务数据不少于三份拷贝,并且运用异地备份机制,多种方式预防风险发生;

     3.规律化备份,定期备份,制定规章制度要求员工遵守,签字确认培训结果;


2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?

     我认为超融合中对于磁盘坏道、容量、SSD寿命预测的功能是有效的运维手段;

     如果您问我这种手段是否有价值,我认为价值是相对的,因为所有预测都是基于大数据分析,而大数据分析只能用于参考,而且应用场景不同可能发生问题的概率也不一样;在此讨论概率论和数理统计有点专业,但注意任何的改善和预防措施离不开成本运营投资;

     如果你的数据中心存储的信息是绝对机密且不可复原的孤本数据,投资是很好的预防风险的手段,但也仅仅如此;

     如果存储集群被外界环境影响,例如地震掩埋,水泡,火灾,雷击电涌等不可抗力都会影响随机设备的性能;

     对于有很多备份可复原的场景,可能这项功能只是增加了投资而没有发挥应有的价值;
     
     当前而言,我可能不会启用此功能,但是会持续关注最新技术动态,相信需求的契机也许会在未来有新功能从而使用;
sdhd_耿建峰 发表于 2020-12-14 14:57
  

回帖奖励 +20

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
硬盘故障经常碰到,基本是客户原有物理服务器,没有虚拟化或者超融合的情况下,硬盘更换后自动重构,存储方面,主要是IBM/浪潮/HP存储多一点,都是更换磁盘后,自动重构,时间长的存储还需要更换电池或者电源。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
我认为有价值,搞技术的难免会有强迫症,增加了磁盘坏道、容量、SSD寿命功能,会提高运维人员应对突发应急事件的预判能力,把故障解决在萌芽之中,假期中再也不用担心设备宕机了
luoxue 发表于 2020-12-14 16:03
  

回帖奖励 +20

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,之前有个客户配置有外置存储,将数据都保存爱外置存储中,但是存储服务里面硬盘单盘RAID0,有一次客户机房装修时多次停电,烧毁了一块硬盘,导致大量文件丢失
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。能防止出现数据丢失等问题

蓝海 发表于 2020-12-16 15:13
  
本帖最后由 蓝海 于 2020-12-16 15:16 编辑

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
曾遇过一次服务器RAID5第一块硬盘故障时没有及时发现并更换,在出现第二块硬盘故障时数据全毁的事故,损失惨重,而后带着整台服务器驱车去北京做的数据恢复。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
非常有价值,且有必要使用该预测功能。服务器的硬盘,一般都是在服务器购买时一并配置齐全的,基本上都会是同品牌、同型号、同批次的硬盘,因此这些硬盘的性能参数(包括寿命)基本一致,在组建RAID之后的读写使用程度也基本一致,这样就很容易导致硬盘会在大致同一时期出现故障。尽管RAID有一定数量的冗余,但稍有维护不及时,就可能出现严重后果。因此,如果对磁盘坏道、容量、SSD寿命等能够进行预测,对于设备维护、避免数据损失会非常有利。
schei 发表于 2020-12-17 11:25
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
遇到过几次重要的数据丢失,一次是共享存储初始化,一次是硬盘坏掉,还没有数据备份,其中一次是sql server 数据库数据丢失,基本没法恢复。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
这项功能很实用,对数据安全防范于未然,结合数据备份,双活技术是数据安全有力的保障
新手479447 发表于 2020-12-17 14:48
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有发生过,用了将近10年的老实体服务器,既没有做RAID,又没有异地备份,结果硬盘出现坏道,导致部分数据没有办法恢复,后来通过修复找回部分数据,又重新买的新服务器重新部署。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
对于磁盘坏道和SSD寿命的预测功能,在IT运维中,还是有价值的,如果预测的准确率高的话,还是愿意使用的,不过容量预测就没有太大的实用性了感觉,资源的需求有时候会有突发性的,这个预测太容易不准了
静静 发表于 2020-12-30 15:32
  
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,前几年有个客户,是开婚纱照店面的。他们后期制作有很多图片,集中放在他们的服务器(一台好点的电脑)里面,里面是有备份raid的,但是因为没有技术人员维护,也没有相关的管理软件,其中有一个硬盘坏了,不知道。用了2年多,另外一个硬盘也坏了,导致里面好多后期制作的图片没有了,损失了30多万。如果当时有超融合HCI,就不会出现这个问题了。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。我肯定会用这个功能。磁盘作为系统中信息资源最重要的存储设备。其所存放的信息资源往往要高于磁盘产品的自身价值。数据的丢失,会造成不可弥补的损失。
zjwshenxian 发表于 2020-12-30 10:03
  
盖楼盖楼
瞭望星空 发表于 2020-12-30 09:45
  
功能很实用,刚需。
笑熬浆糊 发表于 2020-12-29 12:16
  
做好数据备份,硬盘质量好坏听天由命吧。过几年分批更换老旧硬盘
jinkongque 发表于 2020-12-28 16:30
  
传统磁盘存储设备因其固有的机械特性,已不能满足当前的数据密集型应用程序的需求。基于闪存的固态存储设备(solid state drive,SSD)的出现改善了这种情况,并被广泛用作缓存以降低内存与磁盘之间的性能差距。针对由DRAM和SSD构成的多级缓存,提出了一种可配置的历史信息感知的多级缓存替换策略Charm.Charm允许用户配置应用的访问模式、读写模式等多项内容,并且还可以根据应用对文件的历史访问信息来判断访问模式,从而能够适应访问模式的变化.由于NAND闪存的固有限制,写前擦除和擦除粒度较大,基于NAND Flash的固态硬盘(SSD)需要执行垃圾回收以重用失效页。然而垃圾回收带来的高开销会显著降低SSD的性能,也会直接影响SSD的寿命。特别是对于频繁使用的有数据碎片的SSD,垃圾回收带来的性能下降问题将更为严重,现有的垃圾回收(GC)算法各自侧重垃圾回收操作的某个步骤,并没有给出全面考虑各步骤对整体影响的综合方案。
jinkongque 发表于 2020-12-28 16:28
  
容量规划是无线网络规划中必不可少的内容,混合业务下的小区容量仍然是容量规划中的重点和难点。数据中心存储负载率高会引起应用系统性能下降甚至导致系统瘫痪,预测存储未来的负载情况,能有效避免应用系统因出现存储容量耗尽引发的系统故障。
jinkongque 发表于 2020-12-28 16:25
  
硬盘作为用户数据的存储仓库,有时候用“比我们的生命更重要”来形容一点也不为过。但硬盘却不如其名字那么“刚强”,不时地会闹闹“感冒”、“发烧”之类的小毛病———出现一些磁盘碎片,逻辑坏道,但最为可怕的是患上了“癌症”———出现磁盘坏道。一般用户,如果发现硬盘出现坏道,在用Windows自身携带的scandisk或CHKDSK检查修复无效的情况下,只能做低格处理。如果低格无效,恐怕这块硬盘也就寿终正寝了。今天我就给饱受硬盘坏道困扰的朋友介绍一款强大的硬盘检测修复工具,
jinkongque 发表于 2020-12-28 16:22
  
现代存储系统采用纠删码避免因磁盘故障导致的数据丢失,提高系统的可靠性和可用性.因容三盘失效纠删码,如TP编码和STAR编码,可同时容忍系统中任意3个磁盘损坏,可靠性超过RAID6编码,故而受到越来越多的关注.针对发生频率最高的单盘故障实现快速重建恢复数据服务,尚未得到有效实现.重建方案有多种,选择何种重建方案会影响重建性能甚至影响前端服务的响应时间.传统的单盘重建方法不仅耗时良久而且会造成带宽的浪费.针对单盘重建中传统方法的缺点,提出一种均分机制方法
virtualcloud 发表于 2020-12-28 10:21
  
数据是企业生存的关键。重要的数据更是关键中的关键。所以能提前预知硬盘使用情况。那对企业来说是十分重要的。
发表新帖
热门标签
全部标签>
2025年技术争霸赛
每日一问
功能体验
GIF动图学习
标准化排查
产品连连看
新版本体验
纪元平台
高手请过招
【 社区to talk】
2023技术争霸赛专题
每周精选
2024年技术争霸赛
社区新周刊
安全效果
信服课堂视频
畅聊IT
答题自测
专家问答
技术笔记
技术圆桌
在线直播
MVP
网络基础知识
安装部署配置
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
排障笔记本
产品预警公告
玩转零信任
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
卧龙计划
华北区拉练
天逸直播
以战代练
秒懂零信任
技术晨报
平台使用
技术盲盒
山东区技术晨报
文档捉虫
齐鲁TV
华北区交付直播
北京区每日一练
场景专题
故障笔记
排障那些事
西北区每日一问
升级&主动服务
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力
专家说
热门活动
产品动态
行业实践
产品解析
关键解决方案

本版版主

2413
1725
39

发帖

粉丝

关注

本版达人

七嘴八舌bar

本周分享达人