前言
由于公司目前仍处于开发阶段,并且线上阿里云上有一套旧版本业务,前期阶段打算通过阿里云监控来监控一些基础指标,中期会通过zabbix监控一些服务上的指标,后期打算统一换成prometheus用来监控k8s环境。阿里云的监控还是很好用的,但是有些配置的小技巧和注意事项还是需要掌握的,所以在此记录总结一下。
应用分组
- 应用分组介绍
应用分组可以将线上的机器按照功能进行分类,比如ceph集群 、mysql集群、k8s-master、k8s-cpu-node、k8s-gpu-node 等等。建立这个组的目的就是我们可以创建适合这些组的监控模板,然后将模板应用到组。
- 创建分组
- 查看分组
- 查看以及创建报警规则
- 组内其他监控和功能
1.监控视图
2.事件监控(故障列表省略)
3.可用性监控(类似于zabbix的url或者web监控.一般配置公司的网站或者检测api接口功能是否正常。)
探测类型:支持云数据库rds和redis但是我们没有,那就选用通用的URL和ip
探测目标:http(s)、telnet、ping
请求方法:HEAD GET POST
高级配置:可以匹配相应内容,包含匹配内容则报警,比如500 502 503 404 403等