自动化运维工具链搭建指南

2026年4月16日 13:36:26爪爪

爪爪

编辑

关注

59
文章

0
粉丝

安全运维363,242字数 544阅读1分48秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

---

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

---

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz
# 解压 tar -xzf prometheus-*.tar.gz cd prometheus-*
# 启动 ./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter
# 验证 curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana
# 添加数据源 # http://prometheus-server:9090
# 导入 Dashboard # ID: 1860（Node Exporter Full）

---

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w
# 查看进程 top -c htop
# 查看具体进程 pidstat -u 1
# 查看内核态 vmstat 1

4.2 内存不足

# 查看内存
free -h
# 查看进程 ps aux --sort=-%mem | head
# 查看 Swap vmstat 1
# 清理缓存 sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1
# 查看进程 iotop
# 查看磁盘 df -h du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l
# 查看流量 iftop nethogs
# 查看丢包 ping -c 100 target.com

---

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']
receivers: - name: 'email' email_configs: - to: 'admin@example.com' from: 'alert@example.com' smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

---

六、总结

监控体系核心：指标全面、告警准确、响应及时
---
作者：爪
分类：安全运维
标签：服务器监控、故障排查、Prometheus、Grafana、linux 运维
发布时间：2026-04-16

搭建ss，科学冲浪

资源分享 12,028 11/07 2

云原生日志与告警为什么常常噪音太大：先明确告警分层

信息安全 3,145 05/04

Obfuscapk：一款针对Android应用程序的黑盒混淆工具

资源分享 13,522 03/03 5

Enumy：一款功能强大的Linux后渗透提权枚举工具

资源分享 13,946 06/25

评论 36 访客 36

PensivePanda 0
2026年4月16日 17:59:36 江苏省常州市 1F
回复

Prometheus配Grafana确实香，但Zabbix那个学习曲线是真的陡
白绫吊死鬼 1
2026年4月16日 21:41:48 韩国 2F
回复

之前搞过这个，node_exporter死活起不来，查了半天发现是端口被占
- 果冻超人 0
  2026年4月19日 11:35:13 北京市 B1
  回复
  
  @ 白绫吊死鬼端口被占这坑太熟了，改个端口就完事。
帝尊临尘 1
2026年4月16日 21:52:10 重庆市 3F
回复

这个dashboard ID 1860确实好用，省得自己配了
JungleDrifter 1
2026年4月16日 21:57:28 江苏省淮安市 4F
回复

有个问题，alertmanager的邮件配置在阿里云ECS上能正常发吗？
- 珍珠布丁 0
  2026年4月17日 20:34:51 四川省成都市 B1
  回复
  
  @ JungleDrifter 阿里云ECS发邮件得开安全组+解封25端口，不然直接被拦
暮光贤者 1
2026年4月16日 22:22:51 江苏省常州市 5F
回复

内存那块，echo 3 > /proc/sys/vm/drop_caches 这个操作生产环境敢用？
- 朱砂印记 1
  2026年4月17日 12:44:12 山东省济南市 B1
  回复
  
  @ 暮光贤者生产环境真敢这么清缓存？怕不是想被开除😂
程序员不脱发 1
2026年4月17日 00:32:57 湖北省武汉市 6F
回复

感觉还行，流程挺清晰的
- 漆黑使徒 0
  2026年4月17日 19:43:13 湖南省长沙市 B1
  回复
  
  @ 程序员不脱发流程是清楚，但新手照着做估计得卡半天
- Bamboo Whisper 1
  2026年4月20日 11:53:13 河北省石家庄市 B1
  回复
  
  @ 程序员不脱发流程看着顺，但实战肯定一堆报错。
月影清荷 0
2026年4月17日 00:47:45 福建省福州市 7F
回复

iotop这工具好多系统默认没有啊，得额外装
暗物质诗 1
2026年4月17日 07:35:53 日本 8F
回复

那个啥，商业方案里的听云现在还有人用吗？
- 冰镇西瓜 1
  2026年4月21日 09:04:41 日本 B1
  回复
  
  @ 暗物质诗听云？早过时了吧，现在谁还用那破玩意儿。
霜狼之魂 1
2026年4月17日 10:08:52 北京市 9F
回复

CPU 80%告警阈值是不是有点高？我们这边设的70%
无意识画师 1
2026年4月17日 10:19:19 浙江省台州市 10F
回复

要是集群规模大了，Prometheus单点会不会扛不住？
凤栖 1
2026年4月17日 22:47:55 山东省滨州市 11F
回复

drop_caches这操作我试过，瞬间IO飙到100%，慎用！
深海鲸 1
2026年4月18日 13:41:18 日本 12F
回复

dashboard ID 1860确实省事，不过有些指标得自己调阈值
浪漫的玫瑰 1
2026年4月18日 14:47:37 辽宁省 13F
回复

Zabbix配置复杂是真的，上次配了一整天头都大了
欢快的小溪 1
2026年4月18日 18:30:47 山东省滨州市 14F
回复

CPU告警设80%？高峰期直接炸穿好吧，我们设65%稳点
满足的果实 1
2026年4月19日 00:50:52 越南 15F
回复

node_exporter端口冲突太常见了，建议默认改个高位端口
爱放屁的恐龙 1
2026年4月19日 09:53:52 重庆市 16F
回复

听云早没人提了，现在不都是自建Prometheus或者上云监控？
熊猫不是猫 0
2026年4月19日 11:30:10 韩国 17F
回复

iotop没装的话用pidstat -d也能看进程级IO，勉强替代
药师青岚 1
2026年4月21日 09:38:48 日本 18F
回复

单点确实悬，集群大了得搞联邦或者Thanos。
黄粱一梦 1
2026年4月21日 21:19:52 菲律宾 19F
回复

阈值设80%？高峰期直接炸穿好吧，我们设65%稳点。
MirageSeer 1
2026年4月22日 10:02:55 河北省廊坊市 20F
回复

drop_caches生产环境真不敢乱动，容易把业务搞挂。
漂泊者的梦 1
2026年4月22日 22:47:36 山东省滨州市 21F
回复

iotop好多系统默认没装，还得自己编译，烦人。
寂寞的沙漠 1
2026年4月23日 14:51:56 上海市 22F
回复

那个啥，alertmanager邮件在阿里云ECS上能发出去吗？
云归岫 1
2026年5月5日 12:51:04 广东省东莞市 23F
回复

docker跑grafana别忘了挂卷
长街旧巷 1
2026年5月13日 09:40:05 浙江省宁波市 24F
回复

Prometheus配Grafana这组合用了三年，图表是真好看，就是内存越吃越多
海风谣 1
2026年6月6日 09:30:06 日本 25F
回复

商业方案太贵了，还是开源香
- 爪爪
  2026年6月6日 09:49:23 瑞士 B1
  回复
  
  @ 海风谣开源省钱又灵活，正是我想推荐的
记忆宫殿的盗贼 1
2026年6月18日 17:30:06 山东省滨州市 26F
回复

preface里能加下常见dashboard配置样例吗？
- 爪爪
  2026年6月18日 17:51:22 瑞士 B1
  回复
  
  @ 记忆宫殿的盗贼好主意，后续更新可以补充上
星愿编织者 1
2026年6月18日 20:10:13 四川省德阳市 27F
回复

P99响应时间监控怎么搞，没细说
- 鬼门守夜人 1
  2026年6月18日 20:39:32 日本 B1
  回复
  
  @ 星愿编织者同问，这块展开讲讲就好了

自动化运维工具链搭建指南

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

搭建ss，科学冲浪

云原生日志与告警为什么常常噪音太大：先明确告警分层

Obfuscapk：一款针对Android应用程序的黑盒混淆工具

Enumy：一款功能强大的Linux后渗透提权枚举工具

发表评论

热门搜索

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

搭建ss，科学冲浪

云原生日志与告警为什么常常噪音太大：先明确告警分层

Obfuscapk：一款针对Android应用程序的黑盒混淆工具

Enumy：一款功能强大的Linux后渗透提权枚举工具

发表评论