深入浅出可观测性 - 理论 + 实战,为系统可靠性保驾护航
作者简介
翁一磊,观测云产品技术总监,负责观测云售前技术和客户服务工作。曾就职于微软、HP、Dell EMC 等外企。负责过多云管理产品,在解决方案架构、售前以及交付大型项目方面有着多年经验,对于云计算、云原生、可观测性、以及企业级应用生命周期管理也有丰富的相关经验。
课程简介
你将获得
- 可观测性痛点概念全析
- 热门规范与平台的深入解读
- 高效搭建可观测平台的方法论
- 可观测性文化全貌与技术前瞻
当下 BAT、美团、字节跳动、快手等一线大厂都在加速推进业务的容器化、云原生化。也正是因此,传统的技术架构面临着巨大的冲击,我们的监控对象也由传统的单体结构,变成了分布式的多个微服务。
在这样的背景之下,很多问题成了开发、测试、运维同学的家常便饭:
- 某个新版本发布上线之后,发现主机的 CPU 使用率持续飙高,但不知道根本原因在哪,只能根据过往的经验一一排查;
- 新版本上线之后,很难判断功能是不是完全正常,只能等着用户找客服投诉之后,才知道哪个模块出现了报错;
- 基础设施方面,通过监控搞了一大堆稀奇古怪的仪表盘,看着花花绿绿一大片,可是又不能反映出业务的真实情况,也不能跟随业务的变化而灵活调整。
局面混乱,效率又不高。可以说,监控,被架到了一个不得不革自己命的位置。而可观测性(Observability)就是解决这些问题的关键。
近几年,可观测性的概念逐渐明晰化,相关产品纷纷涌现,可观测性越来越成为云原生一个绕不开的话题。但是可观测性到底是什么?效果又是否真的能达到预期?[-全网知识付费下载:iquizhi.com-]
为了解答这些困惑,我们请到了观测云的产品技术总监翁一磊老师。他会结合自己在这一领域多年的经验和思考,带你直抵可观测性的内核,合理、高效地部署可观测平台。
课程大纲
- 开篇词 | 可观测性,让开发和维护系统的你每晚都能睡个好觉!
- 以史鉴今:监控是如何一步步发展而来的?
- 基本概念:指标+日志+链路追踪=可观测性?
- 相互对比:可观测性和传统监控有什么区别?
- OpenTelemetry:如何利用OpenTelemetry采集可观测数据?
- 构建可观测平台:应该购买商业产品还是自己搭建?
- 团队合作:不同团队如何高效共建可观测性?
- 软件开发:如何利用可观测性进行驱动?
- 建立 SLO:如何为系统可靠性的量化提供依据?
- 跟踪 SLO:如何基于错误预算采取行动?
- ......