【技术圆桌】第3期:小黑带你畅聊分布式存储,欢迎回帖交流!
  

SANGFOR_45083 1251711人觉得有帮助

{{ttag.title}}
屏幕快照 2020-01-15 上午9.04.55.png
大家好,我是社区技术顾问“SANGFOR_45083”,深信服基础架构解决方案专家,擅长虚拟化、存储,受管理员所邀参与社区【技术圆桌】话题发起人活动,与大家一起探讨分布式存储及应用相关知识,欢迎对分布式存储感兴趣的朋友关注我,进行回帖交流,一起分享经验和传播新知!

技术圆桌讨论分三个模块,大致流程如下
1模块:   新手扫盲---由我简单讲解下储存基础知识;
2模块:话题讨论---大家可以就相关话题或结合深信服产品实际应用开展话题讨论;
3模块:提问解答---如你想了解更多有关存储方面的技术问题,欢迎回帖提问,我会尽我所知一一回复大家。

上两期【技术圆桌】,大家就路由协议相关知识进行了交流探讨,讨论热烈收到非常多有参考价值的优秀提问与回复,本期讨论主题我们就存储话题进行圆桌讨论,希望大家积极回帖补充,畅所欲言!
我们只聊技术,优秀提问和回帖讨论者,社区管理员说可以获得丰厚的奖励哦~哈哈!下面我们就一起进入主题吧!


进入正题:
从传统存储开始吧。
我们印象中,或者说市场流传着的是把存储分为三类:
1、DAS(Direct-Attached Storage):直连式存储
2、NAS(Network-Attached Storage):网络接入存储,也有人叫网络附加存储
3、SAN(Storage Area Network):存储区域网

但其实最开始不是这么分类的,而且这种分类方法也有问题,也适应不了现如今存储技术的发展,单纯按照原始定义来看,其实NAS也应该包括SAN,但这就涉及到很多问题了,我们就按照市面上的认知先来解释下:

1、DAS强调一个词叫“本地”,服务器本地的磁盘、阵列,本子上的硬盘
2、SAN存储本质上也是块设备,是裸盘,通过存储网络挂载给主机,只不过存储端没有文件系统,所以服务器挂载后,需要将其初始化成服务器的文件系统(或其他文件系统)才可以被服务器使用
3、SAN和NAS本质上强调的是文件系统的位置,NAS的文件系统是在存储本身上的,SAN的文件系统还是在挂载SAN存储的服务器上的,所以计算资源的位置是不同的,可以简单参考下面的图:
809605e1d759b0f6f9.png          
                   SAN(块存储)         

100145e1d75d799eba.png
                   NAS(文件存储)


SAN和NAS的产生就是为了解决传统DAS的痛点,SAN和NAS严格来说都算是“存储网络”,存储网络的特点就是:
1、统一性强,具备统一管理的能力
2、扩容方便,弹性较高
3、存储共享

由于存储网络有多种传统DAS所实现不了的优势,所以现在市面上使用的大多都是这种“存储网络”的形式,只不过根据用处和使用场景的不同,又分为SAN和NAS:
由于SAN和NAS的文件系统的位置不同,所以导致它们的使用场景不同,NAS由于自带文件系统,所以非常利于文件共享(但不是说SAN就无法共享,现在很多虚拟化的集群环境如超融合和桌面云,都可以使用集群本事的一致性机制,来共享使用SAN存储的);目前SAN通常用于大型集群环境和数据库环境(强调裸盘接入,接入后需要初始化化成服务器的文件系统才可使用)

很多人认为SAN的速度较快,但撇开价格不谈,只从技术角度来说,现阶段的SAN和NAS其实在速度上已经没有特别明显的差异了,以前的NAS可能还局限于网络带宽,但如今以太网高速发展,带宽已经远远不是问题了

SAN又可以细分为FC-SAN和IP-SAN,在以太网发展缓慢的年代,FC-SAN是主流,是指以FC交换机来构建存储网络;到后面以太网接口和传输规格不断提升,人们使用scsi协议承载在TCP/IP网络中,也就是“iscsi协议”。

NAS的话比较杂,很多存储都可以称为NAS,典型的就是共享文件夹;在windows上是用的CIFS协议访问的共享文件夹,在Linux/Unix平台使用的是NFS协议;当然也可以在windows上使用NFS协议来访问NAS,但是需要在windows上安装个NFS模块,起个转换的作用,但这种方式使用起来不太稳定,不保证使用效果。


上面说了很多,但感觉还是有很多内容值得一说,不过还是要回到主题:分布式存储。

分布式存储和我们日常用的分布式集群的区别又在哪里呢?其实区别不大,网络发展的趋势如此,避免单点性,硬件逻辑逐渐转换为软件逻辑。

就像我们最初从hub开始,后面有二层交换机,然后三层,再到后来网络中设备的要求越来越高,对处理数据的能力要求也随之提高,于是有了更高层次的交换机,像各个厂商的负载均衡和防火墙设备,那其实本质上就是个7层交换机,因为需要处理7层的数据;对数据处理的能力达到一定程度后,就有了新的想法:冗余,所以开始慢慢有了堆叠技术,像cisco又从堆叠技术开始衍生出了更加高端的私有冗余协议......所以当性能差不多的时候,可靠性就成了需要重点关注的地方。

当分布式存储刚出来时,有一个很严重的问题需要面对,就是客户要测试分布式存储和传统DAS存储的性能来做对比,我在PC或者服务器本地的磁盘上做复制拷贝操作,复制拷贝大文件,很快;但是当我在分布式存储上复制拷贝大文件的时候,速度就不如传统存储;问题就是分布式存储的复制拷贝操作有时需要经过外置的网络,因为你是几台主机组成的分布式集群,数据的同步肯定是需要网络的参与的,这种情况下网络的传输速度肯定是不如传统DAS的直连式传输......所以当可靠性满足的差不多的时候,性能又成为了需要重点关注的地方。

所以性能和可靠性,相互纠缠,不断伴随着存储行业的发展,我们可以不断提升产品的性能,也可以提升可靠性(无论是冷备、热备、主备还是双活)。

严格来看传统存储和分布式存储单从存储类型上没有变化,都是块存储(SAN)、文件存储(NAS)和对象存储(一种新型的存储架构,有兴趣的小伙伴可以评论区留言讨论);只是存储内部的同步交互方式、冗余策略、可靠性策略、可扩展性有了不同(涉及多台服务器之间的存储同步交互),和传统存储不同的是这里面就还涉及到数据一致性的问题,以及对外提供存储服务的不同协议对接、性能组件优化、底层落盘的优化。这些都是需要分布式存储的厂商重点关注的。

想想可以分享交流的内容不是很多......因为分布式存储的关键其实是在交互协议和内部对接组件的设计,以及数据一致性协议的设计和优化,但这都属于内部的私有协议,市面上的也只推荐重点看下gfs,但是也不需要理解的很深。我们可以简单来说下冗余策略,目前深信服的分布式存储产品支持的冗余策略有:二副本、三副本和EC。

副本大家应该比较清楚,在虚拟化的环境中很多厂商都会有副本的存储策略。重点说下EC。

EC是指Erasure Code,纠删码,是一种软件层面的冗余协议,比较常用的是EC4+2,可以简单理解成:一共6块盘,其中任意两块盘故障,都可以保证数据不丢失。

这和RAID5很像,但是区别非常大:
1、首先RAID是需要借助底层硬件的,需要RAID卡,EC不需要
2、RAID的冗余方式不能跨主机,只能做到单台主机内的磁盘冗余,而EC可以针对整个集群做冗余策略算法
3、RAID的方式需要准备热备盘,否则无法在故障发生后进行数据校验恢复,但EC是只要存储还有空间就可以做数据恢复,且不需要指定单独的盘作为热备盘,全局热备
4、EC方式的数据恢复效率较高(同上,全局热备,全局都参与数据恢复)
5、......

篇幅有限,很多内容没有说的很全很详细,
也有很多东西没有提到,大家有任何问题的话欢迎大家在评论区留言,我们交流一波~


【讨论话题】
1、你认为传统的SAN NAS存储的局限性在哪里?
2、分布式存储的优势在哪里?
如您有其他疑问或想了解更多存储知识,欢迎回帖提问补充!
如果你是存储方面的行家里手,亦或是你对存储很感兴趣,欢迎大家从技术的层面上对以上问题进行探讨。
【讨论时间】
2020年1月14日---2020年1月25日 23:59


【奖品设置】
1、基础回帖奖:凡有效回帖者可获得20S豆奖励;(凡有效提问并获得话题发起人回复者可额外获20S豆奖励)
2、参与幸运奖:本帖设置1000S豆回帖奖励,每次回复有机会获得20S豆
3、最佳回复奖:参与本话题讨论,由话题发起人根据回复准确性评选出1位最佳回复者,赠送《大话储存》热门学习书籍一本;

b1fbc6befa1a3e11.jpg

本期优秀回复用户:清风慕竹 ,恭喜获得以上实物奖励!
612025e532c8d21bb9.png


【回帖规则】
1、回帖需主题相关且为个人原创,如回复无实质性或非原创内容,管理员将判定为灌水,进行删除处理。
2、如恶意抄袭,以不良手段获取礼品行为,一经发现取消获奖资格,并对账号进行1月以上禁言警示。
3、以上多重奖励可叠加发放,可盖楼回复但每个帖子回帖仅奖励一次,活动结束后将进行统一发放。

↓↓↓
欢迎大家回帖补充/提问交流

清风慕竹 发表于 2020-1-15 00:37
  

你的19年度榜单已开启 +6 S豆 详情>

看着楼主写了这么多,学习了到了很多很多!感谢楼主的精彩分享!先总结一下楼主的分享:
1、传统的存储主要分为三类:DAS;NAS;SAN。
2、NAS和SAN的区别:SAN采用光纤通道技术,通过光纤通道交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络;NAS采用TCP/IP、ATM等技术,通过网络交换机连接存储系统和服务器主机;其根本不通电是文件管理系统在哪里,NAS有属于自己的文件系统管理。
3、分布式存储----实话实话希望楼主能够更加具体一点。
希望楼主还补充一下存储中经常会提到的相关技术:
1、RAID---独立磁盘冗余阵列,常见的磁盘阵列有RAID0(条带化);RAID1(镜像化);RAID5;RAID6;RAID0+1;RAID10。
2、ISCSI、FC和FCOE的比较:这三种协议工作在不同的网络层,FCOE起步就是10Gb以太网;ISCSI可以工作在1Gb或10Gb以太网;FC则有2GB、4GB或8GB。
3、存储的瓶颈性能:读写速度,带宽、吞吐量等。
4、软件定义存储与备份的区别,虚拟化的相关知识。
讨论一下SAN、NAS的局限性和分布式存储的优势:
1、SAN、NAS我觉得最大的局限性是容错性、可扩展性较差如不同厂商之间的存储如何对接等、瓶颈较多如带宽等。
2、分布式存储的优势我觉得有能够高效地管理读缓存和写缓存,并且支持自动的分级存储;多副本的一致性,最大限度的减少多客户业务的影响;支持弹性扩展计算、存储容量和性能;通过相关的备份容灾技术实现一定时间间隔下的各版本数据的保存。
最后有一个小小的建议:我觉得楼主可以从虚拟化的分布式交换机引入然后讲分布式存储是不是会更容易让人理解;或者通过讲解深信服中云计算的相关产品引入。
再次感谢楼主的精彩分享!

神奇轱辘 发表于 2020-1-15 08:52
  
网上看了下,目前分布式存储主流的为Ceph和Gluster。

Ceph和Gluster是Red Hat旗下的成熟的开源存储产品,Ceph与Gluster在原理上有着本质上的不同。Ceph基于一个名为RADOS的对象存储系统,使用一系列API将数据以块(block)、文件(file)和对象(object)的形式展现。Ceph存储系统的拓扑结构围绕着副本与信息分布,这使得该系统能够有效保障数据的完整性。

Gluster描述为Scale-out NAS和对象存储系统。它使用一个Hash算法来计算数据在存储池中的存放位置,这点跟Ceph很类似。在Gluster中,所有的存储服务器使用Hash算法完成对特定数据实体的定位。于是数据可以很容易的复制,并且没有中心元数据分布式存储无单点故障且不易造成访问瓶颈,这种单点在早期Hadoop上出现,对性能和可靠性造成较大影响。
241055e1e606e83e81.png
————————————————
版权声明:本文为CSDN博主「Hardy晗狄」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/swingwang/article/details/77012500

以前的应用场景其实SAN存储很常见,但是存储上都是sas或者sata磁盘,这个本身i/o就存在很大瓶颈,自从出现SSD固态硬盘之后,我们超融合的架构,分布式解决方案,通过X86的服务器就可以提供对应的解决方案。
我们之前测试在sata硬盘环境和ssd固态硬盘环境下,通过ceph存储测试我们I/O读写速度差距非常大,未来肯定会有很大的市场。
317945e1e6199c5f64.png
我想问下楼主,就是我们在实际应用场景中,我们分布式存储的稳定性如何,比如在医疗或者银行行业,这个对业务要求性非常高的场景下,是否可以保障
QI 发表于 2020-1-14 17:39
  

你的19年度榜单已开启 +6 S豆 详情>

大佬,学到了
新手865541 发表于 2020-1-14 18:29
  
分布式存储的优势:
1、高性能
2、支持分级存储
3、一致性
adds 发表于 2020-1-14 20:44
  
冲你长相,就忍不住点了进来。
IPV6 发表于 2020-1-15 08:37
  

你的19年度榜单已开启 +6 S豆 详情>

给李专点赞,刷个火箭
pony 发表于 2020-1-15 09:07
  

你的19年度榜单已开启 +6 S豆 详情>

为楼主点赞,希望楼主多多分享干货!
新手741682 发表于 2020-1-15 10:16
  

你的19年度榜单已开启 +6 S豆 详情>

DAS很容易理解,就是服务器直连存储设备。在网络架构和拓扑上可以分清SAN和NAS,但楼主又说的服务器挂载就不清楚了,毕竟不是专业搞服务器的。还是希望楼主能多说一些硬件以外的知识。
新手981388 发表于 2020-1-15 13:50
  
1、你认为传统的SAN NAS存储的局限性在哪里?
网络带宽是存储性能的瓶颈,横向扩展性较差,不同厂家传统存储之的管理问题
2、分布式存储的优势在哪里?
高性能,多副本。容灾与备份,弹性扩展,
发表新帖
热门标签
全部标签>
每日一问
技术盲盒
技术笔记
每周精选
干货满满
技术咨询
信服课堂视频
秒懂零信任
自助服务平台操作指引
新版本体验
标准化排查
产品连连看
安装部署配置
功能体验
GIF动图学习
玩转零信任
2023技术争霸赛专题
技术晨报
安全攻防
每日一记
深信服技术支持平台
天逸直播
华北区交付直播
社区帮助指南
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
上网策略
测试报告
日志审计
问题分析处理
流量管理
运维工具
云计算知识
用户认证
原创分享
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
SDP百科
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
排障笔记本
产品预警公告
信服圈儿
S豆商城资讯
技术争霸赛
「智能机器人」
追光者计划
答题榜单公布
纪元平台
通用技术
卧龙计划
华北区拉练
以战代练
山东区技术晨报
文档捉虫活动
齐鲁TV

本版版主

12
185
6

发帖

粉丝

关注

本版达人

LoveTec...

本周分享达人

新手24116...

本周提问达人