Tech Talk · 云技术有话聊 | 深信服混合云容灾技术解析 6月9日,信服云容灾技术负责人XiaSiming 在信服云《Tech Talk · 云技术有话聊》系列直播课上分享了《深信服混合云容灾技术解析》,详细介绍了信服云容灾的价值、混合云容灾技术介绍、容灾场景实践等内容。以下是他分享的内容摘要,想要了解更多可以关注“深信服科技”公众号观看直播回放。 一、容灾价值 随着互联网业务的蓬勃发展,云计算平台承载着用户的更多业务,容灾在很大程度上可以保障用户的业务安全。 容灾包括合规要求、安全事件、灾难故障等,针对运维人员少、技术水平有限、预算有限等问题,信服云容灾技术方案为用户打造了简单、可靠、灵活、高性价比的解决方案。 信服云容灾主要以下四个特点: 简单易用:为用户提供云平台一体化的运维体验,不需要专业的灾备能力也能实现灾备。 安全可靠:确保数据一致性,容灾恢复效果,闲时可验证,及时可恢复。 灵活配置:灵活的灾备策略(CDP、定时备份)、保留策略,满足本异地分级保护需求。 高性价比:相比自建机房,整体成本更优,上限实施更快,且可提供贴身运维式服务,降低用户自身运维压力。 混合云容灾技术介绍 容灾是指虚拟机在生产中心(主站点)保存一份备份,同时在容灾中心(备站点)保存一份副本。随时可以在主站点和备站点根据需要通过备份来恢复虚拟机,当用户虚拟机业务因意外停止工作时,可以通过切换站点使业务继续正常工作的系统。 深信服混合云容灾当前实现的是虚拟机级别的容灾。在容灾过程中,用户虚拟机业务不会受到影响。 根据业务重要程度的不同,可以实现不同RPO(Recovery Point Object)的容灾保护级别。容灾保护可以分为备份保护和CDP保护(持续数据保护)。容灾恢复包括灾难恢复和计划内恢复;恢复后虚拟机运行在备站点。当主站点恢复正常后,可将业务虚拟机从备站点回迁到主站点运行。 容灾流程操作的第一步是创建一个容灾保护策略。将需要保护的虚拟机加入到容灾保护策略中。根据虚拟机业务的重要程度,定义容灾保护的RPO。创建容灾保护策略后,会在备站点同时创建一个对应的容灾备机。容灾保护根据RPO的不同要求,有备份保护和CDP保护。 在备份保护过程中,会通过bitmap来读取虚拟机磁盘上新增的I/O数据,转化成qcow2保存在主站点的备份存储上。同时定时将该备份文件传输到备站点的备份存储上进行保存。 在CDP保护过程中,当受保护的业务有IO操作时,会将所有的IO操作通过日志文件的形式保存到主站点存储块上。同时实时将IO文件传输到备站点的存储块上进行保存。当主站点发生灾难时,需要在备站点恢复虚拟机业务。通过传输到备站点的备份点快速恢复虚拟机,同时对虚拟机进行开机操作。主站点恢复正常后,将运行在备站点的虚拟机回迁到主站点。此外,也会对备站点虚拟机进行一次备份,确保回迁后的虚拟机不丢失数据,然后再将备站点的增量备份传输回主站点,最后在主站点进行覆盖恢复。 备份分为全量备份、增量备份。在全量备份过程中,虚拟机会在BITMAP将磁盘数据的全部数据块都标记为脏,然后将全量数据从虚拟机运行存储中读取出来,写入到qcow2备份文件中。在此期间,虚拟机在备份过程中会监控磁盘数据块的变化情况,并记录在BITMAP中,便于后续进行增量备份。在增量备份中,虚拟机会通过BITMAP读取磁盘上的增量脏数据,将数据写入备份存储的qcow2文件中,同时通过BITMAP记录新的脏数据块。一般情况下,在某个存储首次备份或者某个备份点损坏时,才会进行全量备份,其他情况一般都进行增量备份。 对于CDP备份,虚拟机所有的I/O操作落盘后,复制出一份I/O,写入到指定配置的I/O日志存储中,将I/O操作记录成I/O日志文件保存。 CDP备份过程中,会实时记录I/O日志,定期(最短1s)生成一致性的RP点。CDP只记录用户进行的I/O操作,但并不会去记录原始磁盘的状态。需要依赖虚拟机所做的备份点。IOLOG和备份点相结合,才能真实还原某个时间点磁盘的真实状态。 信服云CDP备份优势体现在这五个方面: 1.同时进行虚拟机IO数据备份 虚拟机启动时,不需要等待CDP数据同步完成,就可以开启业务,同时进行虚拟机IO数据的备份。 2.缓存异步复制 对虚拟机的IO数据采用了缓存异步复制技术,开启CDP功能后,会从qemu的block层复制IO数据到iolog buffer,然后由cdp_worker服务异步写入到iolog系统,整个过程对虚拟机的io性能无任何影响。 3.虚拟机的CDP能够动态开启和关闭 虚拟机的CDP能够动态开启和关闭,在实际使用中会比较灵活。例如,对正在运行的虚拟机,不需要重启或中断业务,就可以开启CDP。 4.虚拟机与CDP在逻辑上进行故障隔离 虚拟机与CDP在逻辑上进行了故障隔离,当CDP模块出现故障时,不会影响虚拟机的业务。当故障消除后,CDP模块会自动恢复运行。 5.快速浏览指定CDP备份内的文件 支持快速浏览指定CDP备份内的文件,方便用户快速从CDP备份中获取数据文件。 由于备份记录的是一段时间磁盘数据的变化量,那么备份点就会存在冗余数据,为了尽量减少冗余量,合理利用存储资源,需要对备份进行定期清理。清理备份是根据备份点的时间,从最早的备份点开始清理。依赖QEMU COMMIT的原理,将前一个备份跟后一个备份进行合并,去掉其中重复的数据。容灾主站点的IOLOG的清理,是直接删除I/O日志。而备站点是通过回放的方式,将IOLOG合并成一个备份。 在数据传输优化上,信服云使用性能更高的lz4来替换原生的zlib压缩算法,将单核的压缩性从100MB/s提升到700MB/s,同时满足万兆带宽场景,QEMU压缩线程的CPU消耗从1000%降低到200%。 三、容灾场景实践 容灾场景实践分为本地数据中心容灾到云上、云上跨区域容灾、云上容灾到本地数据中心。 本地数据中心容灾到云上 该场景主要针对的是用户的业务运行在线下资源池,需要将线下的资源池的业务容灾到线上的信服云上。此时需要在用户线下和线上之间,打通链路后将线下的业务数据备份通过容灾网关传输到线上的数据中心中,然后保存在线上的共享存储中,当用户出现故障时,即可随时从线上的共享存储拉起虚拟机,将业务恢复到线上的数据中心。当需要将线上的数据回迁回线下数据中心时,可将线上数据中心虚拟机产生的脏数据通过容灾网关回迁到线下的数据中心,整个流程即可对用户的线下资源池进行业务保护。 云上跨区域容灾 云上跨区域容灾该场景主要针对的是用户本身的业务虚拟机已经运行在信服云的云平台上。当用户需要将信服云平台上的数据容灾到另外一个资源池,实现异地容灾,以确保数据的安全性。此时需要将线上的两个数据中心之间链路进行打通,打通后线上数据中心A可以将用户的业务数据通过容灾网关容灾到线上数据中心B以达到容灾的效果。 云上容灾到本地数据中心 此场景主要针对的是用户的业务运行已经运行在信服云的云平台上。用户需要将云上的业务容灾到异地的线下的私有云场景,此时用户的业务运行在信服云的云平台上,需要先打通信服云平台跟线下的私有云之间的网络链路,通过信服云容灾网关将线上的业务数据从共享存储中读取出来生成备份,然后将备份传输到线下资源池中,存储到线下资源池的备份存储中。当出现业务故障时,可随时在线下资源池通过恢复拉起的方式将线下虚拟机在线下资源池进行拉起,拉起完成后可随时将线下的数据通过容灾网关回迁到线上的数据中心,以达到故障容灾的效果。 以上是信服云在混合云容灾过程中的技术方案和实践介绍。想要了解更多可以关注“深信服科技”公众号观看直播回放。 |