深信服社区»版块 综合类 活动专区 【畅聊IT 26】预测风险,提前预防!来聊一聊关于磁盘、容 ...

【畅聊IT 26】预测风险,提前预防!来聊一聊关于磁盘、容量和寿命的那些事儿?

查看数: 14220 | 评论数: 142 | 收藏 1
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2020-12-11 16:19

正文摘要:

小时候,大家是不是也曾有过这样的幻想:如果我能预测未来就好了!但这种幻想,只存在于故事和剧情中。。。 随着社会的发展,各项技术的突飞猛进,尤其是大数据的出现,预测,似乎已经不是那么遥远的事情了! ...

回复

高级模式
B Color Image Link Quote Code Smilies |上传

本版积分规则

回复 酒慰风尘 发表于 2020-12-11 20:03
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
经常遇到硬盘故障,主机故障等问题,还好没有数据丢失问题发生
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有价值,可以预计硬盘寿命,提前更换或者提前准备好备件,以防万一,单块磁盘故障不会影响超融合数据,但是长时间不更换,之后可能会造成数据丢失的风险,所以我认为这个功能很有价值,建议增加检测硬盘坏道的功能
回复 暗夜星空 发表于 2020-12-11 21:38
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有发生过,用了将近10年的老实体服务器,既没有做RAID,又没有异地备份,结果硬盘出现坏道,导致部分数据没有办法恢复,后来通过修复找回部分数据,又重新买的新服务器重新部署。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
对于磁盘坏道和SSD寿命的预测功能,在IT运维中,还是有价值的,如果预测的准确率高的话,还是愿意使用的,不过容量预测就没有太大的实用性了感觉,资源的需求有时候会有突发性的,这个预测太容易不准了
回复 万驰 发表于 2020-12-11 21:48
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,前几年有个客户,是开婚纱照店面的。他们后期制作有很多图片,集中放在他们的服务器(一台好点的电脑)里面,里面是有备份raid的,但是因为没有技术人员维护,也没有相关的管理软件,其中有一个硬盘坏了,不知道。用了2年多,另外一个硬盘也坏了,导致里面好多后期制作的图片没有了,损失了30多万。如果当时有超融合HCI,就不会出现这个问题了。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。我肯定会用这个功能。磁盘作为系统中信息资源最重要的存储设备。其所存放的信息资源往往要高于磁盘产品的自身价值。数据的丢失,会造成不可弥补的损失。
回复 zzvc007 发表于 2020-12-12 10:53
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,日常运维当中也是最怕硬盘数据丢失这种情况的出现,我就遇到过几次,有自身人为失误的,也有因为硬盘自身盘片被磨损导致的数据丢失。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有价值,我认为可以起到一定的警示作用,不过前提要是预测功能成功率能够比较高,不然就成了误导功能了,另外做好硬盘raid保护还是更为的实际。
回复 易逝的信仰 发表于 2020-12-12 14:45
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?

服务器和存储还好吧,都有做RAID,区别就是RAID1,RAID2,RAID5的区别,但个人的终端数据就有很多硬盘坏的,一般人员好说,有些财务人员,重要业务人员的损失就大了,人都是有惰性的虽然多次提醒,但有时就是怕麻烦。现在用某公司的云桌面好很多了。

2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
这个预测功能是很有价值的,也是我们运维人员予以肯定和愿意使用的。
但预警完成后,我们是不是要更换硬盘?就像“灵峰气韵”老大说的,这个在单位内是很难实现的,对没有损坏的东西给与报废处理再购置新设备这是很难站住脚的,技术人员当然能理解,但管理技术人员的可不是技术出身。
这个功能实际欠缺的就是“积累”“准确”,当我们把预警进行汇报时,能用大量数据做证据就最好了。
比如汇报时:“根据以往数据显示,提示预警后7天坏道率超过80%,正确判断90%”。
回复 伊利丹·怒风 发表于 2020-12-12 14:49
数据无价,能给出预警就是真是帮了很多运维的大忙了,不管会不会出问题,防范于未然都是对。
至于领导肯不肯听,能不能换硬盘,那是不是技术需要考虑的。
回复 Jean_Zhj 发表于 2020-12-14 10:56
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
遇到过服务器硬盘出现故障,无法识别;做了RAID技术,无数据丢失;
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
超融合中对于磁盘坏道、容量、SSD寿命的预测功能在IT运维中很有价值,愿意使用。
回复 yim 发表于 2020-12-14 11:32
在应用中对高性能SSD的风险防范需加强管理避免造成业务损失,HCI为这一问题提供了完美解决方案。
回复 tj_zero 发表于 2020-12-14 12:11
本帖最后由 tj_zero 于 2020-12-14 12:13 编辑

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?

     工作十余年期间没有发生过硬盘或存储相关的IT运维事件;

     如果您问我是怎样做到的?那么简单来说,几方面:

     1.强化意识,数据安全和数据可用性是相关的两个侧重面,经常教育新人注意数据备份意识;

     2.重要业务数据不少于三份拷贝,并且运用异地备份机制,多种方式预防风险发生;

     3.规律化备份,定期备份,制定规章制度要求员工遵守,签字确认培训结果;


2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?

     我认为超融合中对于磁盘坏道、容量、SSD寿命预测的功能是有效的运维手段;

     如果您问我这种手段是否有价值,我认为价值是相对的,因为所有预测都是基于大数据分析,而大数据分析只能用于参考,而且应用场景不同可能发生问题的概率也不一样;在此讨论概率论和数理统计有点专业,但注意任何的改善和预防措施离不开成本运营投资;

     如果你的数据中心存储的信息是绝对机密且不可复原的孤本数据,投资是很好的预防风险的手段,但也仅仅如此;

     如果存储集群被外界环境影响,例如地震掩埋,水泡,火灾,雷击电涌等不可抗力都会影响随机设备的性能;

     对于有很多备份可复原的场景,可能这项功能只是增加了投资而没有发挥应有的价值;
     
     当前而言,我可能不会启用此功能,但是会持续关注最新技术动态,相信需求的契机也许会在未来有新功能从而使用;
回复 sdhd_耿建峰 发表于 2020-12-14 14:57
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
硬盘故障经常碰到,基本是客户原有物理服务器,没有虚拟化或者超融合的情况下,硬盘更换后自动重构,存储方面,主要是IBM/浪潮/HP存储多一点,都是更换磁盘后,自动重构,时间长的存储还需要更换电池或者电源。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
我认为有价值,搞技术的难免会有强迫症,增加了磁盘坏道、容量、SSD寿命功能,会提高运维人员应对突发应急事件的预判能力,把故障解决在萌芽之中,假期中再也不用担心设备宕机了
回复 luoxue 发表于 2020-12-14 16:03
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,之前有个客户配置有外置存储,将数据都保存爱外置存储中,但是存储服务里面硬盘单盘RAID0,有一次客户机房装修时多次停电,烧毁了一块硬盘,导致大量文件丢失
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。能防止出现数据丢失等问题

回复 蓝海 发表于 2020-12-16 15:13
本帖最后由 蓝海 于 2020-12-16 15:16 编辑

1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
曾遇过一次服务器RAID5第一块硬盘故障时没有及时发现并更换,在出现第二块硬盘故障时数据全毁的事故,损失惨重,而后带着整台服务器驱车去北京做的数据恢复。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
非常有价值,且有必要使用该预测功能。服务器的硬盘,一般都是在服务器购买时一并配置齐全的,基本上都会是同品牌、同型号、同批次的硬盘,因此这些硬盘的性能参数(包括寿命)基本一致,在组建RAID之后的读写使用程度也基本一致,这样就很容易导致硬盘会在大致同一时期出现故障。尽管RAID有一定数量的冗余,但稍有维护不及时,就可能出现严重后果。因此,如果对磁盘坏道、容量、SSD寿命等能够进行预测,对于设备维护、避免数据损失会非常有利。
回复 schei 发表于 2020-12-17 11:25
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
遇到过几次重要的数据丢失,一次是共享存储初始化,一次是硬盘坏掉,还没有数据备份,其中一次是sql server 数据库数据丢失,基本没法恢复。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
这项功能很实用,对数据安全防范于未然,结合数据备份,双活技术是数据安全有力的保障
回复 新手479447 发表于 2020-12-17 14:48
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有发生过,用了将近10年的老实体服务器,既没有做RAID,又没有异地备份,结果硬盘出现坏道,导致部分数据没有办法恢复,后来通过修复找回部分数据,又重新买的新服务器重新部署。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
对于磁盘坏道和SSD寿命的预测功能,在IT运维中,还是有价值的,如果预测的准确率高的话,还是愿意使用的,不过容量预测就没有太大的实用性了感觉,资源的需求有时候会有突发性的,这个预测太容易不准了
回复 静静 发表于 2020-12-30 15:32
1、在您的工作中,是否发生过与硬盘、存储相关的IT运维事件(如磁盘故障导致数据丢失)?
有,遇到过,前几年有个客户,是开婚纱照店面的。他们后期制作有很多图片,集中放在他们的服务器(一台好点的电脑)里面,里面是有备份raid的,但是因为没有技术人员维护,也没有相关的管理软件,其中有一个硬盘坏了,不知道。用了2年多,另外一个硬盘也坏了,导致里面好多后期制作的图片没有了,损失了30多万。如果当时有超融合HCI,就不会出现这个问题了。
2、您认为超融合中对于磁盘坏道、容量、SSD寿命的预测功能,于IT运维中,有没有价值?您是否愿意使用该功能?
有,非常实用,机房长期都没人进去,里面的磁盘,一般都是有问题,软件才有提示。就算有备份盘,也会减慢速度。如果有预测功能,就可以提前预防这样的问题发生。我肯定会用这个功能。磁盘作为系统中信息资源最重要的存储设备。其所存放的信息资源往往要高于磁盘产品的自身价值。数据的丢失,会造成不可弥补的损失。
回复 zjwshenxian 发表于 2020-12-30 10:03
盖楼盖楼
回复 瞭望星空 发表于 2020-12-30 09:45
功能很实用,刚需。
回复 笑熬浆糊 发表于 2020-12-29 12:16
做好数据备份,硬盘质量好坏听天由命吧。过几年分批更换老旧硬盘
回复 jinkongque 发表于 2020-12-28 16:30
传统磁盘存储设备因其固有的机械特性,已不能满足当前的数据密集型应用程序的需求。基于闪存的固态存储设备(solid state drive,SSD)的出现改善了这种情况,并被广泛用作缓存以降低内存与磁盘之间的性能差距。针对由DRAM和SSD构成的多级缓存,提出了一种可配置的历史信息感知的多级缓存替换策略Charm.Charm允许用户配置应用的访问模式、读写模式等多项内容,并且还可以根据应用对文件的历史访问信息来判断访问模式,从而能够适应访问模式的变化.由于NAND闪存的固有限制,写前擦除和擦除粒度较大,基于NAND Flash的固态硬盘(SSD)需要执行垃圾回收以重用失效页。然而垃圾回收带来的高开销会显著降低SSD的性能,也会直接影响SSD的寿命。特别是对于频繁使用的有数据碎片的SSD,垃圾回收带来的性能下降问题将更为严重,现有的垃圾回收(GC)算法各自侧重垃圾回收操作的某个步骤,并没有给出全面考虑各步骤对整体影响的综合方案。
回复 jinkongque 发表于 2020-12-28 16:28
容量规划是无线网络规划中必不可少的内容,混合业务下的小区容量仍然是容量规划中的重点和难点。数据中心存储负载率高会引起应用系统性能下降甚至导致系统瘫痪,预测存储未来的负载情况,能有效避免应用系统因出现存储容量耗尽引发的系统故障。
回复 jinkongque 发表于 2020-12-28 16:25
硬盘作为用户数据的存储仓库,有时候用“比我们的生命更重要”来形容一点也不为过。但硬盘却不如其名字那么“刚强”,不时地会闹闹“感冒”、“发烧”之类的小毛病———出现一些磁盘碎片,逻辑坏道,但最为可怕的是患上了“癌症”———出现磁盘坏道。一般用户,如果发现硬盘出现坏道,在用Windows自身携带的scandisk或CHKDSK检查修复无效的情况下,只能做低格处理。如果低格无效,恐怕这块硬盘也就寿终正寝了。今天我就给饱受硬盘坏道困扰的朋友介绍一款强大的硬盘检测修复工具,
回复 jinkongque 发表于 2020-12-28 16:22
现代存储系统采用纠删码避免因磁盘故障导致的数据丢失,提高系统的可靠性和可用性.因容三盘失效纠删码,如TP编码和STAR编码,可同时容忍系统中任意3个磁盘损坏,可靠性超过RAID6编码,故而受到越来越多的关注.针对发生频率最高的单盘故障实现快速重建恢复数据服务,尚未得到有效实现.重建方案有多种,选择何种重建方案会影响重建性能甚至影响前端服务的响应时间.传统的单盘重建方法不仅耗时良久而且会造成带宽的浪费.针对单盘重建中传统方法的缺点,提出一种均分机制方法
回复 virtualcloud 发表于 2020-12-28 10:21
数据是企业生存的关键。重要的数据更是关键中的关键。所以能提前预知硬盘使用情况。那对企业来说是十分重要的。