Linux 服务器监控与故障排查实战

2026年4月2日 13:53:24爪爪

爪爪

编辑

关注

59
文章

0
粉丝

安全运维392,964字数 599阅读1分59秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

摘要：服务器监控是运维工作的核心。本文系统讲解 linux 服务器监控指标、工具选型、告警配置和故障排查流程。

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz

# 解压 tar -xzf prometheus-*.tar.gz cd prometheus-*

# 启动 ./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter

# 验证 curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana

# 添加数据源 # http://prometheus-server:9090

# 导入 Dashboard # ID: 1860（Node Exporter Full）

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w

# 查看进程 top -c htop

# 查看具体进程 pidstat -u 1

# 查看内核态 vmstat 1

4.2 内存不足

# 查看内存
free -h

# 查看进程 ps aux --sort=-%mem | head

# 查看 Swap vmstat 1

# 清理缓存 sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1

# 查看进程 iotop

# 查看磁盘 df -h du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l

# 查看流量 iftop nethogs

# 查看丢包 ping -c 100 target.com

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']

receivers: - name: 'email' email_configs: - to: 'admin@example.com' from: 'alert@example.com' smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

六、总结

监控体系核心：指标全面、告警准确、响应及时

---
作者：爪
分类：安全运维
标签：服务器监控、故障排查、Prometheus、Grafana、linux 运维
发布时间：2026-04-02

零信任安全架构落地实践

信息安全 3,147 04/23

为什么说不要用VLAN、VPC解决东西向隔离问题

信息安全 33,903 11/27

WatchBird: 专为AWD而生的新一代纯PHP防火墙

资源分享 17,913 06/12 2

权限提升实战：Windows 与 Linux 提权技巧

渗透测试 3,200 04/21

评论 39 访客 39

NightmareScythe 0
2026年4月2日 22:10:33 江苏省常州市 1F
回复

那个node exporter启动失败咋整啊
- 光耀使徒 1
  2026年4月3日 22:50:00 重庆市 B1
  回复
  
  @ NightmareScythe 检查下9100端口被占用了没？看看防火墙规则是不是没开
竹影斜 1
2026年4月2日 22:19:25 江西省南昌市 2F
回复

Prometheus+Grafana确实是标配了
- 雾夜谜踪 1
  2026年4月4日 09:02:47 日本 B1
  回复
  
  @ 竹影斜确实，比Zabbix那堆模板好配多了
夜阑听雨 1
2026年4月2日 22:46:58 广东省佛山市 3F
回复

之前配Alertmanager邮件告警搞了一下午，端口总不通
颠倒的重力魔术师 1
2026年4月2日 23:46:36 上海市 4F
回复

Zabbix配置太反人类了
星陨之眼 0
2026年4月3日 12:46:43 澳大利亚 5F
回复

又是复制粘贴的教程吧
RuriAzure 0
2026年4月3日 15:02:00 广东省广州市 6F
回复

内存那部分可以加上sar命令，有时候比top直观多了，特别是看历史数据的时候
数据园丁 1
2026年4月3日 18:05:58 北京市 7F
回复

这个IO高的情况，SSD和机械硬盘处理方式一样吗
- 拾瑶 0
  2026年4月4日 07:14:51 日本 B1
  回复
  
  @ 数据园丁不太一样，SSD得看磨损均衡，机械盘才需要盯寻道时间
ZeroSignal 1
2026年4月3日 21:07:49 辽宁省鞍山市 8F
回复

商业方案凭啥放后面？阿里云监控明明更好用
PinUpPete 1
2026年4月3日 21:19:05 日本 9F
回复

监控告警一响，今晚又别想睡了😂
NeuroFlux 1
2026年4月4日 16:14:49 陕西省西安市 10F
回复

又是这种复制粘贴的基础教程
书童子 2
2026年4月4日 17:07:53 湖南省株洲市 11F
回复

截图保存了，告警规则那段
萝卜腿 1
2026年4月5日 14:01:17 北京市 12F
回复

那个drop_caches是干嘛的，能随便清？
外向小火柴 0
2026年4月5日 17:21:11 山东省德州市 13F
回复

运维真麻烦，看着就头大
星烁科技 1
2026年4月5日 18:15:24 湖北省武汉市 14F
回复

Prometheus内存挺坑的，节点多了会炸
云朵绵绵 1
2026年4月5日 18:26:46 北京市 15F
回复

商业方案放后面？懂得都懂
茶时光 1
2026年4月5日 18:45:59 四川省成都市 16F
回复

之前用Zabbix配脚本，配置文件写得想砸键盘，后来换Prometheus真香
西域香料 1
2026年4月6日 08:45:04 广东省深圳市宝安区 17F
回复

Prometheus内存吃紧，节点一多直接崩，坑太深了。
月光咏叹 1
2026年4月6日 10:46:21 上海市 18F
回复

阿里云监控其实挺稳的，放后面有点迷。
小象宝 1
2026年4月7日 00:54:59 辽宁省 19F
回复

node_exporter启动失败？多半是端口被占或者权限问题。
日曜 1
2026年4月7日 16:08:56 贵州省贵阳市 20F
回复

运维这行真累，告警一响就得半夜爬起来。
脑机接口技师 1
2026年4月7日 22:31:10 澳大利亚 21F
回复

drop_caches能随便清吗？怕把系统搞挂。
炽热之翼 1
2026年4月8日 08:43:31 福建省福州市 22F
回复

Zabbix配置反人类，还是Prometheus香一点。
软软桃桃 1
2026年4月8日 23:18:41 江苏省无锡市 23F
回复

IO高的时候，SSD和机械盘排查思路差挺多的吧？
Vortex旋 1
2026年4月9日 09:39:31 浙江省绍兴市 24F
回复

Prometheus配Grafana确实好用
奶昔长颈鹿 1
2026年4月9日 12:09:22 山东省临沂市 25F
回复

sar命令确实比top看历史数据方便多了。
一元服务器 1
2026年4月11日 21:13:51 美国 26F
回复

香港服务器，4G8核18M宽带80G硬盘，只要一元钱！网址：host.993899.com
泡泡吹奏者 1
2026年4月29日 13:20:05 湖北省武汉市 27F
回复

排查流程挺实用，SSD和机械盘区别确实大
- 嘟嘟熊崽 1
  2026年4月29日 13:44:22 广东省广州市 B1
  回复
  
  @ 泡泡吹奏者可不是嘛，IO差距太明显了
333985 0
2026年5月2日 07:27:34 美国 28F
回复

无话可说，只是看看
二进制旅者 1
2026年5月5日 15:30:19 日本 29F
回复

排查IO用iostat加iotop，挺方便
- 爪爪
  2026年5月5日 15:51:18 瑞士 B1
  回复
  
  @ 二进制旅者这两个搭一起排查IO效率蛮高的
茶烟隐 1
2026年5月12日 11:50:03 内蒙古呼和浩特市 30F
回复

排查内存直接用ps aux排序，省时又直观
- 有病晚期 1
  2026年5月12日 12:11:23 北京市 B1
  回复
  
  @ 茶烟隐挺实用的，配合free一起看更全面
流云梦呓 1
2026年5月22日 14:20:25 香港 31F
回复

Prometheus+Grafana组合挺经典
- 泡芙小乖 2
  2026年5月22日 14:57:11 山西省忻州市 B1
  回复
  
  @ 流云梦呓这俩搭配确实稳，用着顺手
花花绿绿侠 2
2026年5月27日 10:20:04 江苏省苏州市 32F
回复

磁盘inode占满也挺坑，容易忽略

Linux 服务器监控与故障排查实战

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

零信任安全架构落地实践

为什么说不要用VLAN、VPC解决东西向隔离问题

WatchBird: 专为AWD而生的新一代纯PHP防火墙

权限提升实战：Windows 与 Linux 提权技巧

发表评论

热门搜索

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

零信任安全架构落地实践

为什么说不要用VLAN、VPC解决东西向隔离问题

WatchBird: 专为AWD而生的新一代纯PHP防火墙

权限提升实战：Windows 与 Linux 提权技巧

发表评论