Linux 服务器监控与故障排查实战

2026年3月19日 14:47:18爪爪

爪爪

编辑

关注

59
文章

0
粉丝

安全运维302,708字数 546阅读1分49秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

---

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

---

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz

# 解压
tar -xzf prometheus-*.tar.gz
cd prometheus-*

# 启动
./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter

# 验证
curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana

# 添加数据源
# http://prometheus-server:9090

# 导入 Dashboard
# ID: 1860（Node Exporter Full）

---

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w

# 查看进程
top -c
htop

# 查看具体进程
pidstat -u 1

# 查看内核态
vmstat 1

4.2 内存不足

# 查看内存
free -h

# 查看进程
ps aux --sort=-%mem | head

# 查看 Swap
vmstat 1

# 清理缓存
sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1

# 查看进程
iotop

# 查看磁盘
df -h
du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l

# 查看流量
iftop
nethogs

# 查看丢包
ping -c 100 target.com

---

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']

receivers:
  - name: 'email'
    email_configs:
      - to: 'admin@example.com'
        from: 'alert@example.com'
        smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

---

六、总结

监控体系核心：指标全面、告警准确、响应及时

---

作者：爪

分类：安全运维

标签：服务器监控、故障排查、Prometheus、Grafana、linux 运维

发布时间：2026-03-19

微软Chromium版Edge浏览器正式稳定版下载泄露

业界资讯 38,727 08/26 1

运维人员必备 Linux 命令速查手册

安全运维 2,890 03/13

Linux 服务器监控与故障排查实战

信息安全 3,403 03/12

CTF-MD5

渗透测试 15,538 08/03 2

评论 30 访客 30

浪漫的玫瑰 1
2026年3月19日 14:50:45 浙江省宁波市 1F
回复

这配置在M1上能跑吗？
浪花嘻嘻 1
2026年3月19日 23:21:03 香港 2F
回复

之前搞过这个，node_exporter折腾了好久
浮生影 1
2026年3月19日 23:24:56 新加坡 3F
回复

Prometheus的配置文件老是写错😂
海上漂泊者 1
2026年3月19日 23:32:05 日本 4F
回复

感觉内存监控那块讲得不够细
浮云过客 1
2026年3月20日 00:16:23 日本 5F
回复

Zabbix确实太难用了，果断换的Prometheus
- 海原美 1
  2026年3月19日 14:51:08 韩国 B1
  回复
  
  @ 浮云过客换就对了，Zabbix 那个配置文件看得我眼晕。
浅笑离愁 1
2026年3月20日 00:21:40 印度 6F
回复

Grafana那个1860面板好用不？
- 清晨故事 0
  2026年3月19日 14:51:08 江苏省扬州市 B1
  回复
  
  @ 浅笑离愁 1860 面板很全，就是默认刷新率太高吃资源。
流浪的诗 1
2026年3月20日 00:43:47 辽宁省朝阳市 7F
回复

为啥不用docker-compose部署呢
海岛漫游者 1
2026年3月20日 19:43:13 辽宁省沈阳市 8F
回复

Swap满了真头疼，上周刚遇到
流浪诗 1
2026年3月21日 23:57:46 中国 9F
回复

这些命令收藏了，下次排查用得上
浪花一朵 1
2026年3月22日 14:14:23 福建省泉州市 10F
回复

监控告警邮件经常收不到咋整
- 流浪时光 2
  2026年3月19日 14:51:08 黑龙江省鸡西市 B1
  回复
  
  @ 浪花一朵检查下 spam 文件夹，还有发件人域名解析配置对不对。
浪里白条 1
2026年3月22日 14:34:22 江西省南昌市 11F
回复

Prometheus 拉取模式在防火墙后面简直噩梦。
海洋之歌 1
2026年3月23日 16:56:50 江西省抚州市 12F
回复

node_exporter 版本不对指标全缺，踩坑了。
算命林 0
2026年3月23日 17:56:10 陕西省宝鸡市 13F
回复

要是半夜告警电话响了，这配置能扛住不？
幽灵絮语 0
2026年3月24日 08:42:15 湖北省荆州市洪湖市 14F
回复

以前用 Zabbix 配个模板花两天，现在真不想回去了。
浅夏微凉 1
2026年3月24日 20:48:30 日本 15F
回复

内存那块只讲 free -h 有点浅，得看 slab 啊。
蓐收秋 0
2026年3月25日 11:16:41 四川省 16F
回复

又是理论派，生产环境谁敢直接 echo 3 清缓存？
会唱歌的沙漠 1
2026年3月26日 07:03:37 广东省佛山市顺德区 17F
回复

看着挺全，实际落地全是坑。
浅音 1
2026年3月26日 09:26:13 陕西省渭南市 18F
回复

P99 延迟突增一般咋快速定位到具体 SQL？
浅野 1
2026年3月26日 09:51:10 美国 19F
回复

之前公司监控报警太多直接麻木了，现在都不敢开声音😂
奶味糖 1
2026年4月28日 15:20:22 辽宁省沈阳市 20F
回复

Node Exporter采集数据挺方便的
- 爪爪
  2026年4月28日 15:33:55 瑞士 B1
  回复
  
  @ 奶味糖顺手吧，后面要是有需求再聊
书房里的沉思 1
2026年5月6日 09:30:24 浙江省杭州市 21F
回复

top和iostat组合挺实用。
- 九宫飞星 1
  2026年5月6日 09:44:44 上海市 B1
  回复
  
  @ 书房里的沉思这俩搭配排查问题很顺手
流云行者 1
2026年5月22日 14:30:08 上海市 22F
回复

CPU过高排查那几步挺清晰的
星辰战甲 1
2026年5月27日 10:10:06 日本 23F
回复

商业方案太贵了，还是Prometheus香
夜深人未归 1
2026年6月5日 14:00:10 马来西亚 24F
回复

安装步骤直接复制就能跑，省事
- 黑妞 2
  2026年6月5日 14:31:24 江西省赣州市 B1
  回复
  
  @ 夜深人未归一键安装真方便

Linux 服务器监控与故障排查实战

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

微软Chromium版Edge浏览器正式稳定版下载泄露

运维人员必备 Linux 命令速查手册

Linux 服务器监控与故障排查实战

CTF-MD5

发表评论

热门搜索

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

微软Chromium版Edge浏览器正式稳定版下载泄露

运维人员必备 Linux 命令速查手册

Linux 服务器监控与故障排查实战

CTF-MD5

发表评论