运维监控系统实战笔记

2024年04月25日 418次阅读
运维监控系统实战笔记-网盘-下载

运维监控系统实战笔记 - 从业务场景出发,搭建监控系统

作者简介

秦晓辉,快猫星云联合创始人,Open-Falcon、Nightingale、Categraf 核心研发,拥有 10 余年运维研发经验,先后任职于百度、小米、金山云、滴滴,目前在快猫星云合伙创业,为客户提供监控和稳定性保障类产品,对监控和稳定性保障的方法论及实践路径有着深刻的洞见。同时他也是 Open-Falcon、Nightingale、Categraf 等开源软件的联合创始人和核心研发,多年笔耕不辍,活跃在代码前线。[-全网知识付费下载:iquizhi.com-]

你将获得

  • 理论扫盲:监控领域专业知识一网打尽
  • 选型指导:10 大开源监控方案横评对比
  • 快速上手:搭建、增强、落地监控系统
  • 实战指南:带你搞定 8 大常见监控需求

课程介绍

可被监控和观测是我们开发软件时必须考虑的一环。优秀的软件,一定是考虑了各类故障的发现和应对手段的,因此它们都内置了监控数据的暴露方法,用户可以对其进行观测,了解其健康状况,及时感知系统出现的问题。

随着时代的发展,监控也从最开始的一句话需求——及时感知系统出现的问题,发展到了希望预知问题,并且可以洞察业务经营数据,越来越多的诉求让我们逐渐意识到监控的重要作用。

比如:

  • 通过监控我们可以了解数据趋势,知道系统在未来的某个时刻可能出问题,预知问题。
  • 通过监控我们可以了解系统的水位情况,为服务扩缩容提供数据支撑。
  • 通过监控我们可以给系统把脉,感知到哪里需要优化,比如一些中间件参数的调优。
  • 通过监控我们还可以洞察业务,提供业务决策的数据依据,及时感知业务异常。

因此,优秀的软件,一定会暴露完备的监控指标,或者用现在时髦的话讲,优秀的软件一定是可观测的

就拿我们常见的数据库中间件来说,你会发现虽然大家的指标暴露方式不同,但没有哪个是缺失监控能力的。

监控领域相关的产品很多,监控数据采集器有 Telegraf、Grafana-agent、Datadog-agent、Categraf、Prometheus 生态的各种 Exporters,时序数据库有 M3DB、VictoriaMetrics、Thanos、InfluxDB、TimescaleDB 等,监控系统有 Zabbix、Open-Falcon、Prometheus、Nightingale 等,整个监控技术体系非常庞杂。

不同的监控目标应该选用哪个采集器?机器、中间件、数据库、应用程序分别应该怎么监控?应该着重关注哪些指标?时序数据量很大,应该选用什么样的存储?作为一个公司级的基础设施,需求各异,选用哪一款系统更便于扩展?

为了解答这些困惑,我们请到了快猫星云的联合创始人,同时也是 Open-Falcon、Nightingale、Categraf 的核心研发秦晓辉老师。他会结合自己在这一领域多年的经验和思考,介绍监控领域的产品及优缺点,带你搭建监控系统,实现业务、应用、组件、资源四大场景的监控需求。

课程大纲

  • 开篇词|每个关注高可用的人,都应该了解监控知识
  • 背景信息:监控需求以及开源方案的横评对比
  • 基本概念:监控圈子有哪些行业黑话?
  • 架构概述:一个监控系统的典型架构是什么样的?
  • 如何快速搭建Prometheus系统?
  • Prometheus中有哪些关键设计?
  • PromQL有哪些常见的使用场景?
  • 如何解决Prometheus的存储容量问题?
  • 如何用 Nightingale 解决 Prometheus 的告警管理问题?
  • 监控概论(上):有哪些方法可以指导监控数据采集?
  • ......

运维监控系统实战笔记 下载 

热搜  生财有术第八期 时寒冰·2024 AI写作绘画 ChatGPT 李善友 李笑来 吴军 冯唐 kindle电子书

联系微信:zhizhushou99
全网知识付费平台-课程-原版电子书
热门平台:得到APP喜马拉雅FM混沌大学樊登读书全网知识付费
获取须知 常见问题 电子书目录 课程目录 最新资源