SRE 线下培训

SRE (Site Reliability Engineering )

数人云于2016年11月推出SRE培训


Introduction  

培训详情

particular

培训分为基础篇、原理篇、实践篇、管理篇四个主要部分,通过对 SRE的基础概念、指导思想、技术实践以及团队管理的介绍帮助参加培训的学员系统学习SRE的核心思想和操作实践

基础篇基础概念篇SRE 介绍
Google的内部系统简介
原理篇SRE原理(一)拥抱风险
服务等级目标
消除抵消工作
SRE原理(二)监控分布式系统
自动化的演进
发布工程
简单化
实践篇SRE实践(一)基于时间序列数据的告警实践
值班
高效排错
SRE实践(二)紧急响应
事故处理
事后分析:从故障中吸取教训
SRE实践(三)事故追踪
可靠性测试
SRE实践(四)SRE重的软件工程
前端负载均衡
数据中心内的负载均衡
过载处理
SRE实践(五)处理级联事故
分布式状态一致性管理
SRE实践(六)分布式批处理任务
数据处理流程
数据完整性
大规模发布
管理篇SRE管理(一)提高SRE工作效率
处理突发事务
防止运维事务过多
SRE管理(二)SRE的沟通与写作
SRE新人入职管理
借鉴其他领域的经验
总结

培训周期: 2
培训人数:为保证培训质量,建议培训人数不超过 30

“我们还可以根据具体要求定制专属于您的培训计划”