SRE 线下培训

SRE (Site Reliability Engineering )

数人云于2016年11月推出 SRE 培训


Introduction  

培训详情

particular

培训分为基础篇、原理篇、实践篇、管理篇四个主要部分,通过对 SRE 的基础概念、指导思想、技术实践以及团队管理的介绍帮助参加培训的学员系统学习 SRE 的核心思想和操作实践

基础篇基础概念篇SRE 介绍
Google 的内部系统简介
原理篇SRE 原理(一)拥抱风险
服务等级目标
消除抵消工作
SRE 原理(二)监控分布式系统
自动化的演进
发布工程
简单化
实践篇SRE 实践(一)基于时间序列数据的告警实践
值班
高效排错
SRE 实践(二)紧急响应
事故处理
事后分析:从故障中吸取教训
SRE 实践(三)事故追踪
可靠性测试
SRE 实践(四)SRE 重的软件工程
前端负载均衡
数据中心内的负载均衡
过载处理
SRE 实践(五)处理级联事故
分布式状态一致性管理
SRE 实践(六)分布式批处理任务
数据处理流程
数据完整性
大规模发布
管理篇SRE 管理(一)提高 SRE 工作效率
处理突发事务
防止运维事务过多
SRE 管理(二)SRE 的沟通与写作
SRE 新人入职管理
借鉴其他领域的经验
总结

培训周期: 2
培训人数:为保证培训质量,建议培训人数不超过 30

“我们还可以根据具体要求定制专属于您的培训计划”

线下活动

Offline Activities