SRE进阶实战

SRE进阶实战
    马上咨询

    讲师介绍

    张观石- 《SRE原理(lǐ)与实践:构建高可(kě)靠性互联网应用(yòng)》作者。

    拥有(yǒu)20年软件开发、架构、运维、SRE经验。曾在虎牙直播担任资深运维专家和架构师,历任项目研发负责人、SRE负责人、架构师,事故管理(lǐ)委员会委员、基础保障部架构师委员会委员。

    為(wèi)虎牙基于微服務(wù)架构的直播业務(wù)、音视频业務(wù)、海外直播业務(wù)建立了稳定性保障體(tǐ)系,在混合多(duō)云架构、可(kě)观测性、预案、变更管控、AIOps等SRE领域有(yǒu)深入研究和丰富经验。多(duō)次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。

    同时,他(tā)也是中國(guó)信通院分(fēn)布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能(néng)力建设指南》。《运维前線(xiàn)》一书的联合作者。多(duō)次参与GOPS、MSUP、GDevops技术大会分(fēn)享。

    课程简介

    本课程清晰完整地讲解SRE(系统可(kě)靠性工程)的知识體(tǐ)系、方法體(tǐ)系、工程體(tǐ)系;讲清楚SRE工程的方法,如怎么样设计高可(kě)靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因;如何找到故障规律并建设预案能(néng)力快速修复故障;也会讲到保障能(néng)力、混沌工程、AIOps、可(kě)观测性等最新(xīn)理(lǐ)念方法;从管理(lǐ)上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。

    本课程会讲解和展示大量的实践案例,理(lǐ)论结合工程实践,方便理(lǐ)解和参考;本课程会开展工作坊和研讨环节。

    學(xué)员收益

    指导性强:彻底讲清SRE的工程體(tǐ)系、方法體(tǐ)系、知识體(tǐ)系;

    方法體(tǐ)系完整:讲述整套體(tǐ)系,行业当前热门方法,都能(néng)在这个框架里學(xué)到;

    实践性强:中大互联网企业实践案例总结,属于行业最先进的经验,大部分(fēn)可(kě)直接参考,甚至拿(ná)来用(yòng);结合企业实际开展研讨分(fēn)析。

    1. 學(xué)员清楚理(lǐ)解SRE工程體(tǐ)系,对SRE的认知更加完整;
    2. 掌握理(lǐ)清运维琐事的方法并初步梳理(lǐ);
    3. 掌握通过SLO度量业務(wù)和系统的可(kě)靠性;
    4. 掌握高可(kě)用(yòng)架构设计、故障修复的整體(tǐ)思路和方法、预案平台的建设;
    5. 掌握SRE的工程體(tǐ)系和管理(lǐ)方法,进一步了解如何做好故障治理(lǐ)和故障复盘;
    6. 更加深入理(lǐ)解可(kě)观测性、混沌工程的重要性,和一些创新(xīn)的工作方法。

    培训对象

    企业对象:互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门

    學(xué)员对象:运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师、技术管理(lǐ)者

    时间

    课程内容

    半天


    讲解SRE的思想、理(lǐ)念和方法

    1、方法论及核心理(lǐ)念

    1. 重温Google SRE,SRE愿景与使命、工作职责内容,与传统可(kě)靠性、与传统运维工作方式的區(qū)别
    2. SRE团队从创建到升级、SRE工程项目全貌大图
    3. SRE 工程方法之消减琐事:识别统计、消减方法、案例分(fēn)析


    2、SLO體(tǐ)系建设-黄金指标

    1. 如何度量可(kě)靠性:SLO方法、建设实施SLO
    2. 围绕SLO、黄金指标建立业務(wù)质量體(tǐ)系


    3、可(kě)靠性设计能(néng)力:从SRE的角度如何设计出可(kě)靠的系统

    1. 设计高可(kě)靠性系统4种方法
    2. 如何體(tǐ)系化地发现风险并推进改进、架构准入及架构治理(lǐ)
    3. 案例:架构标准化、3个架构改进项目


    半天


    4、观测能(néng)力:怎样做到比老板/用(yòng)户/产品先发现问题并快速定位

    1. 可(kě)观测性的认识与思考,如何建设可(kě)观测性體(tǐ)系,观测平台架构
    2. 观测能(néng)力应用(yòng):用(yòng)于质量改进、故障分(fēn)析,利用(yòng)故障定界定位能(néng)力,观测能(néng)力帮助快速故障定位
    3. 案例:观测能(néng)力度量

    5、故障修复能(néng)力

    1. 业界案例及故障修复的套路:可(kě)被修复的架构设计,在故障中寻找规律,应对套路,故障修复能(néng)力分(fēn)级;
    2. 预案平台建设:架构、建设思路、预案平台案例,预案方案案例


    6、综合保障能(néng)力:

    1. 管控系统可(kě)靠性:产品坏了找不到修理(lǐ)工具
    2. 与SRE应急相关保障的工具、资源、与人;
    3. 案例:保障过程的1个好案例,一个坏案例


    7、反脆弱能(néng)力:在试验中发现风险,进行风险治理(lǐ)

    1. 混沌工程:故障演练的建设思路,常用(yòng)工具介绍,及消息队列演练案例,案例场景列表
    2. 故障治理(lǐ):如何做到“治未病”,
    3. 反脆弱能(néng)力的运营与推行


    8、可(kě)靠性管理(lǐ)能(néng)力

    1. 故障复盘、故障分(fēn)析
    2. 故障定级新(xīn)方法
    3. 如何规划SRE的工作方向:抓住主要矛盾,找到价值最大点


    工作坊:

    主题:分(fēn)组、為(wèi)企业业務(wù)识别核心服務(wù)、绘制架构图、确定和制定SLI/SLO指标,分(fēn)析核心服務(wù)的当前观测能(néng)力、脆弱性和预案及改进方法