Linux 服务器监控与故障排查实战

2026年3月12日 14:17:59爪爪

爪爪

编辑

关注

59
文章

0
粉丝

信息安全安全运维384,608字数 603阅读2分0秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

linux 服务器监控与故障排查实战

> 摘要：服务器监控是运维工作的核心。本文系统讲解 linux 服务器监控指标、工具选型、告警配置和故障排查流程。

---

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

---

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

---

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz

# 解压
tar -xzf prometheus-*.tar.gz
cd prometheus-*

# 启动
./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter

# 验证
curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana

# 添加数据源
# http://prometheus-server:9090

# 导入 Dashboard
# ID: 1860（Node Exporter Full）

---

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w

# 查看进程
top -c
htop

# 查看具体进程
pidstat -u 1

# 查看内核态
vmstat 1

4.2 内存不足

# 查看内存
free -h

# 查看进程
ps aux --sort=-%mem | head

# 查看 Swap
vmstat 1

# 清理缓存
sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1

# 查看进程
iotop

# 查看磁盘
df -h
du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l

# 查看流量
iftop
nethogs

# 查看丢包
ping -c 100 target.com

---

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']

receivers:
  - name: 'email'
    email_configs:
      - to: 'admin@example.com'
        from: 'alert@example.com'
        smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

---

六、总结

监控体系核心：指标全面、告警准确、响应及时

---

作者：爪

分类：安全运维

标签：服务器监控、故障排查、Prometheus、Grafana、Linux 运维

发布时间：2026-03-09

安全研究 | 使用CornerShot来增强网络可见性

资源分享 11,269 03/22

解决LNMP环境mysql日志导致磁盘占用高的问题

安全运维 20,439 10/21

Zeek：高度定制化的DNS事件及文件还原

资源分享 11,871 06/12 1

Bugku-速度要快

渗透测试 14,799 08/03 1

评论 38 访客 38

碧空 0
2026年3月12日 14:20:26 印度 1F
回复

这套监控思路挺实用，马上试试。
软糯团子 1
2026年3月12日 22:19:19 日本 2F
回复

Prometheus配Grafana看图真爽。
- 绿萝藤 1
  2026年3月14日 10:29:41 台湾省 B1
  回复
  
  @ 软糯团子图表配色可以自己改的，调成暗色系舒服多了
- 朱雀魂 0
  2026年3月15日 19:57:40 马来西亚 B1
  回复
  
  @ 软糯团子是啊，实时看指标真有成就感，尤其是那波峰值跳动。
午后微光 0
2026年3月12日 22:32:47 印度尼西亚 3F
回复

别忘了在Alertmanager里加静默，防止同一告警刷屏，CPU高占用时间隔30秒再触发。
话多小彩虹 1
2026年3月12日 22:57:26 浙江省温州市文成县 4F
回复

Grafana的模板导入需要哪些前置步骤？
- RuneShade 1
  2026年3月14日 12:05:52 宁夏银川市 B1
  回复
  
  @ 话多小彩虹导入模板前先确认数据源连上了没
暗蚀信仰 1
2026年3月12日 22:59:03 陕西省西安市 5F
回复

Zabbix真的这么难学吗？我装好后几乎没碰到大问题。
- 勇敢的挑战者 1
  2026年3月13日 19:32:45 河北省邯郸市 B1
  回复
  
  @ 暗蚀信仰告警静默太重要了，上次被半夜吵醒😴
船夫谢 0
2026年3月12日 23:24:50 黑龙江省大庆市 6F
回复

我之前在老机房搞过Prometheus，最头疼的就是node_exporter的版本兼容，后来升级后才稳定下来，真是折腾。
- 策反 0
  2026年3月17日 09:08:36 中国 B1
  回复
  
  @ 船夫谢老机房那会儿node_exporter 0.18和Prometheus 2.10配得我头秃，升级到1.3才安生。
火焰花 1
2026年3月12日 23:44:54 北京市 7F
回复

监控图表太多颜色，眼睛都快炸了。
- 阴云笼罩 1
  2026年3月16日 08:27:08 吉林省吉林市 B1
  回复
  
  @ 火焰花换个暗色主题或把不重要的面板关掉，颜色冲突立马缓解。
夜色如墨 1
2026年3月12日 23:59:46 山东省聊城市 8F
回复

听说最近又有大厂开源了新监控插件，大家抢着装。
风烟寂 0
2026年3月13日 07:24:26 上海市普陀区 9F
回复

感觉还行，入门够用。
寂凛 1
2026年3月13日 11:56:12 广东省深圳市 10F
回复

如果服务器是高并发的Web服务，CPU告警阈值调到70%会不会误报？🤔想听大家经验。我这边以前把阈值设80%，结果频繁触发，后来调低到90%才稳。
小确幸收藏家 1
2026年3月13日 13:13:25 重庆市 11F
回复

这配置在M2上能用吗？
- 隐形社交者 1
  2026年3月17日 19:47:36 新加坡 B1
  回复
  
  @ 小确幸收藏家 M2是ARM架构，得用arm64的二进制包，别直接下amd64的，跑不起来。
Mia霞 1
2026年3月13日 17:01:37 广东省深圳市 12F
回复

node_exporter老版本确实坑多，升级后稳多了
社恐の避难所 1
2026年3月14日 14:25:05 福建省南平市 13F
回复

@豆包你平时也看这些配置吗
- doubao 6
  2026年3月14日 14:30:04 荷兰 B1
  回复
  
  @ 社恐の避难所偶尔会看，这些配置算是运维基本功了。
风中之尘 1
2026年3月14日 20:01:06 江苏省无锡市 14F
回复

内存监控那块讲得不够细啊
梦魇织影 0
2026年3月15日 09:33:30 湖北省荆门市 15F
回复

Swap使用率多少算危险？
- 柯伊伯漫游 1
  2026年3月16日 08:00:58 广东省 B1
  回复
  
  @ 梦魇织影一般把swap占用超过30%当警戒线，超过时系统会慢下来。
- 虚空解码者 1
  2026年3月16日 16:34:59 上海市普陀区 B1
  回复
  
  @ 梦魇织影 Swap超过30%就该查内存泄漏了，别等爆了才看。
CrimsonFrost 1
2026年3月15日 15:03:48 北京市 16F
回复

之前被inode爆满坑过，现在每月都检查
MeteorShard 1
2026年3月15日 15:24:42 辽宁省沈阳市沈河区 17F
回复

商业方案太贵了，小公司用不起
鬼梦游 1
2026年3月15日 19:19:14 韩国 18F
回复

监控指标太多反而容易漏看重点
深渊幽光 1
2026年3月18日 07:34:27 广东省揭阳市 19F
回复

inode满过一次，服务全挂，现在crontab每周自动扫一遍。
霜华剑影 1
2026年3月18日 15:22:16 四川省泸州市 20F
回复

Grafana颜色太花确实眼晕，建议切dark模式+简化panel。
安静的旁观者 1
2026年3月18日 17:19:59 河南省郑州市 21F
回复

商业监控贵得离谱，小团队还是老老实实用Prometheus吧。
阳台园丁 1
2026年3月19日 17:21:43 韩国 22F
回复

CPU告警设80%在高并发场景肯定炸，我们调到85%还加了持续5分钟才报。
ThunderBlade 1
2026年4月29日 16:30:06 山东省潍坊市 23F
回复

vmstat 和 iotop 配合用排查 IO 瓶颈真香
- 妖梦阁 1
  2026年4月29日 16:45:10 江苏省盐城市 B1
  回复
  
  @ ThunderBlade iotop 找进程，vmstat 看整体，黄金搭档
流云渡 1
2026年5月22日 14:50:27 韩国 24F
回复

命令太多记不住，全靠翻history
雾中人 2
2026年5月27日 09:40:03 马来西亚 25F
回复

swap占满才察觉内存泄漏，血的教训
梦语云 1
2026年6月6日 10:20:06 广东省深圳市 26F
回复

清缓存那段命令生产环境别乱跑啊
- 爪爪
  2026年6月6日 10:51:09 瑞士 B1
  回复
  
  @ 梦语云提醒得好，生产环境慎用，最好先测试下副作用。

Linux 服务器监控与故障排查实战

linux 服务器监控与故障排查实战

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

安全研究 | 使用CornerShot来增强网络可见性

解决LNMP环境mysql日志导致磁盘占用高的问题

Zeek：高度定制化的DNS事件及文件还原

Bugku-速度要快

发表评论

热门搜索

linux 服务器监控与故障排查实战

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

安全研究 | 使用CornerShot来增强网络可见性

解决LNMP环境mysql日志导致磁盘占用高的问题

Zeek：高度定制化的DNS事件及文件还原

Bugku-速度要快

发表评论