这是一本能指导IT运维团队养成数字化思维、掌握数字化运维能力、构建数字化运维体系的著作。它能帮助企业在数字化转型的过程中,让运维团队从成本部门变为价值创造中心,并与企业的战略方向相契合,为企业顺利实现数字化转型提供技术保障。
本书将数据智能、协同网络、员工赋能、一切皆服务4个数字化思维作为运维场景数字化落地的指导思想,创新性地提出组织、流程、平台、场景四位一体的数字化运维体系。不仅为数字化运维提供思想指导、方法论体系,还为数字化运维提供落地思路和实践指导,指出数字化运维的方向是人机协同。
全书的内容围绕运维体系的价值创造和数字化运维体系的构建与落地展开,主要包含如下几个方面。
(1)运维数字化转型的价值与本质
从价值创造角度重点分析数字化转型下的IT运维价值与运维体系,指出运维数字化转型的本质是构建应对复杂环境的适应性系统。
(2)适应性组织
从组织角度重点分析如何从组织架构、专业岗位、人员能力、目标管理、思维模式等方面打造具备成长型、人机协同的适应性组织。
(3)全在线流程
从流程角度重点分析如何用数字化思维重塑故障、变更、服务、架构、服务、知识等流程。
(4)赋能型平台
从平台角度重点分析如何推进赋能型平台的建设,实现具备良好扩展性能力的运维平台。
(5)场景革命
从场景角度重点提出了数字化场景构建方法,帮助运维将组织沉淀下来的知识与机制场景化。
(1)作者背景资深:运维数字化领域领军人物,现任广发证券信息技术部数字化运维研发团队负责人,参与多项行业标准制定。
(2)作者经验丰富:作者从事运维工作近15年,其中在金融领域有超过10年的运维经验,有多项重大运维工程的实战经验。
(3)17位专家推荐:广发证券副总经理兼首席信息官辛治运、广发证券信息技术部副总经理兼董事总经理李立峰、优锘科技CEO 陈傲寒,优维科技CEO王津银等17位专家强烈推荐。
(4)数字化运维标准著作:指导IT运维团队养成数字化思维、掌握数字化运维能力、构建数字化运维体系,为企业顺利实现数字化转型提供技术保障。
数智万物时代
“天下大势,浩浩荡荡,顺之者昌,逆之者亡。”
在全球经济下行、局部战争加剧、单边经济制裁、信息技术架构变革等因素的影响下,数字化转型既是当今企业必须面对的挑战,也是必须把握的机遇。企业将以数字化思维,结合数字化技术,构建一个符合价值创造与价值捕获的数字世界,需要对现有商业模式、运营方式、企业文化进行创新和重塑,以实现业务价值。
转型是一个持续认识自己、畅想未来的过程,做对的事与用对的方法尤为重要。企业虽然已经知道数字化转型的重要性,但是对选择小步试错的局部改良来影响核心商业模式的方式,还是选择从局部扩展到整体,大刀阔斧地对商业模式、业务模式、运营模式、管理模式进行颠覆性变革的方式,仍有困惑。本书涉及的企业是传统金融企业,对于这类企业来说彻底颠覆已有商业模式比较难落实,所以实现数字化转型更容易的办法是用数字化思维将原有业务重新做一遍。不同企业在数字化转型上的实践各有不同,但仍有一些异曲同工之处,比如建立顶层设计的价值创造,聚焦组织外部的客户服务、产品或商业模式创新的数字化业务,聚焦组织内部运营管理的数字化管理,聚焦技术赋能的数字化技术。
价值创造的重点是自上而下围绕企业业务和管理各领域的数字化转型愿景和目标,形成企业核心价值主张。各业务线及运营管理线基于企业核心价值主张,采用数字化思维,逐层分解具体的价值创造活动。分解后的活动是价值创造的生产端,产生的价值将传递到企业,终有效利用数据资产。结合机器算法与算力是价值创造的关键。
数字化业务的重点是将业务与数字技术进行融合,持续提升业务运营效率与客户体验,通常包括业务线上化、数据业务化、业务智能化。业务线上化是以数字思维重塑成熟业务场景,实现业务在线,落地数据资产的有序生成和有效归集;数据业务化是变现在线数据价值,通过在线感知外部政策环境、市场变化、客户体验、内部员工反馈等信息,提升客户体验,让当前业务价值增长,并利用数字技术进行业务创新,重构产品及服务交付方式,发现新的业务增长点;业务智能化是推动人机协同的业务模式,提供实时、可靠的在线业务服务。
数字化管理的重点是结合企业规模建立适合的管理机制、流程。不少大中型企业提出构建敏捷前台与中台管理体系,实现大平台支持一线精兵作战的协同模式。这种中台管理体系是通过共享、沉淀、复用、协同和赋能等机制,实现企业资源总体协调与配置,保障制度有效落地,促进机制传导顺畅,确保各个环节合规,达到支持前台业务敏捷落地的效果。
数字化管理与数字化业务的落地需要敏捷高效的技术架构与科学有效的IT风险管控体系支撑。在技术架构方面,有别于传统封闭式、垂直式技术架构,数字化技术架构需要以平台化思维构建服务化、云化的开放架构,打造可共享、可扩展、可共生的技术平台。在风险管控体系方面,结合当前国际形势、全球经济下行等挑战,构建业务连续性保障、安全保障、质量保障体系。
运维数字世界
运维价值继承于IT价值,IT价值继承于企业核心价值。运维数字世界要如何构建以及构建成什么样子,遵循企业价值创造的整体方向。本书基于金融企业的特点,将运维当前的价值创造总结为“提高业务连续性保障水平”“提升业务交付速度”“辅助提升客户体验”
“提升IT服务质量”4点。其中,业务连续性保障是整个运维,乃至IT领域基础的工作;数字化转型中组织重点需要快速响应客户需求,业务交付是运维关键价值链;以客户为中心并提升客户体验,已成为大部分公司的关键战略目标,运维数据能够为提升客户体验赋能;IT服务质量管理将推动IT服务全面软件化,提升IT服务效能。
数字化思维是运维场景数字化终落地的指导思想。本书提出围绕“协同网络、数据智能、一切皆服务、员工赋能”四个关键词,重新设计运维工作场景。四个关键词的关系是:利用实时在线的运维数字化空间搭建实时互动的多角色协同网络,支持在线远程协作;数据智能对协同网络中众多有效连接进行强化;采用一切皆服务的理念实现所见即所得的服务交付,连接IT服务供需双方;员工不仅是有效连接的核心节点,也是协同网络的设计者与建设者,需要加强为员工赋能,重塑员工生产力,激发运维组织创新。
人机协同是数字化运维的方向。人机协同聚焦在通过机器辅助运维洞察、决策与执行,是在原来运维参与者的协同网络上,增加了机器角色。人机协同运维模式关键的角色仍是人,利用人的创造力,结合机器所提供的数据和算法,辅助人执行运维任务。人机协同将是AIOps的一个发展方向,未来运维组织中将出现各种各样的机器角色。
平台化管理是复杂运维数字世界的管理方法。组织扩大到一定规模,以个人经验、个体责任心、工作习惯为主的方式容易引发操作风险,且无法量化绩效,管理规范无法落地。平台化管理是利用数据、算法、平台承担管理工作,为管理者提供数字化的“洞察、决策、执行”闭环能力,让每个人的工作过程可观测,辅助管理者了解参与人员的能力,并基于数据制定一些方法帮助员工提升能力。
组织、流程、平台、场景组成运维数字世界。其中,组织关注组织结构、岗位设置、人员能力的持续提升,以适应不断变化的环境;流程关注结合实践与组织禀赋,实现在线化、自动化;平台关注“析”层面落地领先的AIOps算法与数据“采、存、算、管、用”的能力,“控”层面落地自动化执行的能力,“管”层面落地流程机制的能力,“监”层面落地对机器世界的感知能力;场景关注运维组织智慧的结晶,利用数字化思维,整合组织、流程、平台,实现运维数字化。
本书组织和结构
相比于其他运维书籍,本书力求从实践经验中梳理数字化运维体系的结构,从体系价值创造、组织、流程、平台、场景5部分进行分析。
部分重点介绍数字化转型下的运维价值与运维体系。行业中有不少运维数字化转型话题与解决方案,但很多未切中数字化转型的本质。部分首先介绍了数字化是什么,企业核心价值创造是什么,以及IT价值创造又是什么;其次将IT价值传递到运维组织,梳理了运维价值创造,以及实现相关价值创造的方法;后归纳了运维数字化转型的本质是构建应对复杂环境的适应性系统。
第二部分关注运维组织,重点介绍数字化运维体系下的适应性组织。适应性组织由组织架构、专业岗位、人员能力、目标管理、思维模式等组成。相比传统职能型组织,适应性组织是成长型、人机协同型组织。
第三部分关注运维流程,重点介绍在线化、数字化流程。相比企业内其他部门,运维组织的故障管理、变更管理、服务、架构、知识管理等流程化水平比较高。数字化转型给运维流程的启发是用数字化思维重塑现有流程。
第四部分关注运维平台,重点介绍赋能型平台。推进平台建设需要规划好平台体系,建设具有良好扩展性的运维平台。该部分主要围绕“监、管、控、析”的监控平台、IT服务管理平台、运维操作平台、运维数据平台展开介绍。
第五部分关注运维场景,重点介绍数字化运维场景。运维场景是每个运维团队沉淀下来的宝贵知识,不同企业的运维场景各有不同,场景融汇了团队在组织、流程、平台方面的智慧。数字化运维需要用“连接、数据、赋能”的数字化思维,重新将运维沉淀下来的智慧场景化。
读者对象
运维工程师面临复杂度越来越高的机器、应用、逻辑、数据、协作关系,并很早就开始应用工具应对该挑战。本书以数字化为切入点,将数字化思维融入运维体系,是对本人运维知识体系的一个总结,内容源于真实运维场景的思考,涉及知识面较广。编写本书的目的是体系化地梳理企业数字化转型下的运维体系建设,希望给运维行业数字化转型提供一些帮助。书中的部分观点在我的微信订阅号“运维之路”中有提到,从订阅号的反馈看,对本书主题感兴趣的对象包括:
一线运维工作者;
运维管理决策者;
运维开发团队;
IT服务产品的产品经理;
IT服务解决方案工程师;
IT服务供应商决策者;
IT服务供应商销售与售前工程师;
希望快速了解运维某个领域的投资经理。
推荐语
推荐序一
推荐序二
推荐序三
推荐序四
前 言
部分 数智万物下的运维
第1章 数智万物时代已至2
1.1 数智万物时代3
1.2 企业价值创造4
1.3 IT价值创造6
第2章 数智万物下的运维价值创造9
2.1 运维价值创造9
2.2 提高业务连续性保障水平11
2.3 提升业务交付速度14
2.4 辅助提升客户体验15
2.5 提升IT服务质量18
第3章 构建应对复杂环境的数字化
运维体系21
3.1 复杂与不确定性22
3.2 运维复杂性因素22
3.3 构建运维适应性系统25
第二部分 适应性组织
第4章 数字化赋能运维管理32
4.1 运维之痛32
4.2 数字化赋能运维组织转型36
第5章?组织架构40
5.1 常规运维组织架构40
5.2 成长型组织43
5.3 人机协同赋能组织架构46
第6章 岗位与能力50
6.1 职能型运维团队岗位50
6.2 横向优化型岗位55
6.3 从SRE到BRE57
第7章 目标管理62
7.1 SLA、SLO、SLI62
7.2 OKR65
7.3 做好运维时间管理68
第8章 数字化运维思维模式71
8.1 主动运营思维71
8.2 事件驱动思维76
8.3 数字化工作空间思维79
8.4 敏捷思维81
第9章 数字化运维研发84
9.1 运维研发团队模式84
9.2 金融企业运维研发协作模式86
9.3 运维平台建设88
第三部分 全在线流程
第10章 流程无处不在96
10.1 运维流程概览96
10.2 运维流程管理实践99
第11章 复杂故障场景下的管理闭环106
11.1 故障的相关定义106
11.2 故障管理闭环周期108
11.3 故障管理能力增长飞轮110
第12章 防微杜渐,未雨绸缪114
12.1 混沌工程114
12.2 应急演练119
第13章 统筹协同,快速恢复122
13.1 故障发现122
13.2 故障响应126
13.3 故障定位130
13.4 故障恢复134
第14章 不浪费任何一个故障137
14.1 复盘137
14.2 故障复盘方法139
第15章 变更管理142
15.1 变更管理概述142
15.2 变更流程144
15.3 变更管理切入点145
第16章 服务目录与服务台149
16.1 从被动运维支持转化为主动建立
服务149
16.2 服务目录153
16.3 服务台156
第17章 架构管理159
17.1 常见的技术架构159
17.2 技术架构稳定性保障162
17.3 架构管理164
第18章 运维知识管理167
18.1 知识管理概述167
18.2 运维知识管理概述169
18.3 运维知识工程172
第19章 流程指标175
19.1 运维流程指标概述175
19.2 流程指标运营178
第四部分 赋能型平台
第20章 数字化运维平台架构186
20.1 一体化平台187
20.2 “监、管、控、析”平台能力191
20.3 运维中台194
第21章 平台落地原则197
21.1 可扩展197
21.2 场景整合198
21.3 自主可控200
21.4 小步快跑200
第22章 运维监控平台202
22.1 从飞机监控示例看监控203
22.2 从分层看源端监控工具206
22.3 统一监控告警208
22.4 统一监控指标数据212
22.5 性能管理213
22.6 观察者视角下的监控215
22.7 可观测218
22.8 监控运营220
第23章 IT服务管理平台225
23.1 ServiceNow225
23.2 ITSM系统建设230
23.3 CMDB235
23.4 CMDB数据治理241
第24章 运维操作平台248
24.1 操作平台能力248
24.2 持续交付251
24.3 RPA256
24.4 低代码259
24.5 作业调度261
第25章 运维数据平台265
25.1 运维数据资产265
25.2 行业数据分析解决方案274
25.3 AIOps运维模式281
25.4 夯实数据底座290
25.5 运维数据治理297
25.6 运维数据可视化307
第五部分 场景革命
第26章 场景驱动314
26.1 场景建设方法论314
26.2 构建场景地图319
26.3 构建敏捷的运维场景平台326
第27章 场景地图全景331
27.1 常规例行工作场景331
27.2 非例行工作场景337
第28章 连接利器ChatOps341
28.1 ChatOps概述341
28.2 ChatOps解决方案343
28.3 ChatOps的应用场景346
第29章 数据赋能场景350
29.1 数字化感知350
29.2 管理运营353
29.3 技术运营356
第30章 场景案例361
30.1 应急管理场景361
30.2 变更管理场景366
30.3 周末测试场景371
30.4 应急演练场景374