监控系统到底都监控什么?QoS与SLA又将如何得以保障?
目录
2、业务应用监控,简称SSM
3、Kubernetes容器应用监控方案——Prometheus+Grafana监控系统
Prometheus可以做什么
4、基于Pinpoint应用性能监控
5、NPM网络性能监控
6、微服务的全链路监控(Google Dapper)
7、智能监控(AI、人工智能、大数据)
高性能日志分析(DOLA)
业务高速发展,服务质量(QoS)与系统服务等级协议(SLA)指标如何得以保障呢?全方位立体式监控,一站式服务,助力企业快速发现并定位问题,提升服务质量,达到服务高可用指标。
从监控历程看,大概分为一下几部分:
1、传统应用监控
由于开放式平台标准化产品的特点,通过使用IBM tivoli、HP OpenView、Oracle EM等标准化的商用监控产品,数据中心能够方便快捷地实现面向主机、服务器、网络、存储、环境动力、操作系统、数据库、中间件等标准化软硬件产品的监控,并实现了各个专业的监控事件和容量性能数据的集中展现和处理。
以下是中间件监控视图(Redis、Mysql等)
2、业务应用监控,简称 SSM
SSM是指对关键业务应用的监测和优化,提高业务应用的可用性和可靠性指标,在提供更优质服务的前提下,降低运维的投入和工作量,为用户带来更多的商业利益和客户体验。
业务运维,实现业务和ID的双向驱动。从业务视角实时感知业务系统运行状态,确保业务连续性,持续提升业务效能。业务监控的核心价值主要体现在以下几方面:
- 监控业务表现
- 确保业务连续性
- 全渠道业务管控
- 完善数字化KPI
如何实现业务监控,业务监控指标是关键。Four Golden Signals是Google针对大量分布式监控的经验总结,4个黄金指标可以在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题。主要关注与以下四种类型的指标:延迟,通讯量,错误以及饱和度。
延迟:服务请求所需时间。
记录用户所有请求所需的时间,重点是要区分成功请求的延迟时间和失败请求的延迟时间。 例如在数据库或者其他关键祸端服务异常触发HTTP 500的情况下,用户也可能会很快得到请求失败的响应内容,如果不加区分计算这些请求的延迟,可能导致计算结果与实际结果产生巨大的差异。除此以外,在微服务中通常提倡“快速失败”,开发人员需要特别注意这些延迟较大的错误,因为这些缓慢的错误会明显影响系统的性能,因此追踪这些错误的延迟也是非常重要的。
通讯量:监控当前系统的流量,用于衡量服务的容量需求。
流量对于不同类型的系统而言可能代表不同的含义。例如,在HTTP REST API中, 流量通常是每秒HTTP请求数;
错误:监控当前系统所有发生的错误请求,衡量当前系统错误发生的速率。
对于失败而言有些是显式的(比如, HTTP 500错误),而有些是隐式(比如,HTTP响应
下水道里的老鼠。: 大佬你讲得好,也去写一篇吧
coder_rookies: 浪费时间