云集技术学社 | 云运维有哪些注意事项?
  

铁齿铜牙岳晓峰 68681人觉得有帮助

{{ttag.title}}
9月28日,信服云托管云运维专家Jason在信服云《云集技术学社》系列直播课上进行了《云运维概况与注意事项》的分享,详细介绍了在云化大趋势背景下云运维分工、职责和核心点。以下是他的分享内容摘要,想要了解更多可以关注“深信服科技”公众号观看回放。

看点一:云的演进为运维带来了哪些挑战?
随着信息技术的不断发展,云演进经历了硬件化、虚拟化、超融合和云四个历程。数据中心也从传统数据中心、虚拟化数据中心、软件定义数据中心到云化数据中心。企业对信息系统的需求定位也在不断变化,信息系统从成本驱动、成本和效率驱动、管理驱动、管理和效率驱动最后到业务创新驱动。

随着企业业务规模不断扩大,信息系统基础架构也从超融合、多资源池软件定义数据中心、私有云、同架构混合云再到现在的多云中台。信息系统和云服务复杂化的趋势越来越明显,平台的安全和运维可靠性成为了云计算的关注重点之一,对云安全和云运维的要求在不断提高。

云的演进给运维带来了多重挑战:
一是管理复杂。节点数量成千上万,存储、计算、网络、PaaS、SaaS各种类型业务复杂。如何管理这么多的资源、平台和业务对运维而言是一项挑战。

二是自动化要求高。在如此大的业务规模和服务场景下,自动化程度是运维效率的关键。

三是稳定性要求高。云作为一个服务主体,直接承载不同用户业务,对稳定性要求极高。

四是变更频繁。云作为客户服务载体,需要经常根据用户所需开发云产品或新功能,由此带来频繁的升级事项。

五是排查问题难度增加。复杂的技术栈、复杂的业务场景,对于问题排查要求增加。

看点二 云化趋势下运维工作如何分层?职责边界是什么?
关于云运维,信服云对整个运维体系做了梳理,将运维分成了IDC、云平台、云资源、应用层四个层级,每一个层级都会有对应的运维人员进行维护。

应用层包括应用系统和Guest OS的运维;云资源层级运维包括日常响应和专家服务。对于信服云而言,云资源层级是用户服务目录的保障。日常响应包含了PaaS、SaaS等多项服务,专家服务包含了安全服务、DBA服务、迁移服务等。

云平台层级运维包括持续运维、IT设备安装部署、IT设备运维三部分内容;IDC运维主要是基础设施的维护,包括对供配电系统、空调与制冷系统、制冷自控系统、动环监控系统等多方面的维护,日常会对机房进行定期巡检。一般来说,T3及以上的机房都有非常完整的服务保障。

看点三 如何摆脱“救火式运维”的困境?
业界对运维人员一直有个戏称是“背锅侠”,这个戏称也反映了目前运维人员面临的“救火式运维”困境。“救火式运维”困境即当事件已经发生并造成业务影响时,运维人员才能发现和着手处理。如何化被动为主动,突破困境?让主动运维、持续运维成为常态,就需要详细拆解云运维核心体系,厘清运维重点,寻求技术突破,跳出运维管理怪圈。

站在管理的角度,运维的核心主要是人员、流程、技术、数据四个方面。人员是运维操作的执行者,流程是运维操作的既定范围与边界,技术是运维的武器,数据能够更好地赋能运维。

在人员层面,任何公司做好运维的第一步是拥有一个负责运维职责的团队。运维体系组织构成主要有技术支持中心、专家支撑中心、平台运维中心和职能组。以平台运维中心为例,人员组成有IDC物理环境维护、基础设施维护、网络运维工程师、平台运维工程师和工具开发组。这些人员保障着云平台的日常运行。

在流程层面,随着云时代场景下的系统规模不断扩大、目录日趋复杂、运维管理的无序工作状态日益加剧,这对运维管理水平也提出了更高的挑战。运维管理流程建设完备程度成为了运维效率的重要决定因素。运维流程管理设计遵循国际ITIL标准,整体流程从设计、 转换、 运营等角度出发,对日常运维工作中的目录管理、可用性管理、容量管理、变更管理等等进行规范和定义。

在技术层面,包括CMDB、监控指标项及模型、告警平台这几类运维工具和运维自动化、持续运维等技术。他们推动着运维的发展,帮助运维人员从简单重复的运维问题中解放出来,让运维人员能够更快处理重要问题。

在数据层面,数据是运维很关键的部分。它包含的不只是运营的工单流程或者是事件告警,还包含了知识库、平台所有的监控数据。很多公司或者说很多运营人员并不是很重视数据,实际上,数据在发现问题、解决问题和优化方案的时候起了非常大的作用。

看点四 云运维的实际过程中有哪些注意事项?
本次直播课上,Jason根据信服云深耕云计算多年的经验,给出了四点建议:

(1)传统运维的自动化转型
企业数字化转型的前提是企业需要有IT基础信息化建设以及IT基础信息的保障。在云化的大趋势下,中小企业更应该专注自身发展和数字化转型。在运维层面,可以通过服务化采购,托管式云服务的方式将平台运维交由云服务商来做。大型企业则应加强投入,组建高质量运维团队,建立完备流程、分工职责,利用技术和工具实行主动运维,向自动化演进。

(2)落地和执行
在落地的执行阶段,应以人员为根本,流程为基线,CMDB、监控、告警为三大基石,坚定不移走自动化战略。同时给予更多资源让运维有发展的空间。

(3)数据安全
企业要敬畏生产环境,流程设计一定要规避低级错误,而且要保证数据的一致性,数据的防篡改等。

(4)拥抱风险
任何产品都会存在问题,拥抱风险。企业可以跨部门、跨体系建立一条快速解决通道以及自动化高效修复作业程序,保障运维安全。

以上就是本次直播的主要内容,还想学习云计算的更多“门道”吗?敬请锁定云集技术学社

打赏鼓励作者,期待更多好文!

打赏
20人已打赏

发表新帖
热门标签
全部标签>
安全效果
西北区每日一问
技术盲盒
技术笔记
干货满满
【 社区to talk】
每日一问
信服课堂视频
GIF动图学习
新版本体验
技术咨询
2023技术争霸赛专题
功能体验
产品连连看
自助服务平台操作指引
标准化排查
秒懂零信任
技术晨报
安装部署配置
原创分享
排障笔记本
玩转零信任
排障那些事
SDP百科
技术争霸赛
深信服技术支持平台
通用技术
以战代练
升级&主动服务
社区新周刊
畅聊IT
答题自测
专家问答
技术圆桌
在线直播
MVP
网络基础知识
升级
安全攻防
上网策略
测试报告
日志审计
问题分析处理
流量管理
每日一记
运维工具
云计算知识
用户认证
解决方案
sangfor周刊
VPN 对接
项目案例
SANGFOR资讯
专家分享
技术顾问
信服故事
功能咨询
终端接入
授权
设备维护
资源访问
地址转换
虚拟机
存储
迁移
加速技术
产品预警公告
信服圈儿
S豆商城资讯
「智能机器人」
追光者计划
社区帮助指南
答题榜单公布
纪元平台
卧龙计划
华北区拉练
天逸直播
山东区技术晨报
文档捉虫活动
齐鲁TV
华北区交付直播
每周精选
2024年技术争霸赛
北京区每日一练
场景专题
故障笔记
高手请过招
高频问题集锦
POC测试案例
全能先锋系列
云化安全能力

本版达人

新手89785...

本周建议达人

YangZhe...

本周分享达人