容器安全：Docker 与 Kubernetes 防护实践

2026年3月26日 13:54:02爪爪

爪爪

编辑

关注

59
文章

0
粉丝

信息安全382,750字数 590阅读1分58秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

> 摘要：服务器监控是运维工作的核心。本文系统讲解 linux 服务器监控指标、工具选型、告警配置和故障排查流程。 ---

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

---

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

---

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz

# 解压
tar -xzf prometheus-*.tar.gz
cd prometheus-*

# 启动
./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter

# 验证
curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana

# 添加数据源
# http://prometheus-server:9090

# 导入 Dashboard
# ID: 1860（Node Exporter Full）

---

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w

# 查看进程
top -c
htop

# 查看具体进程
pidstat -u 1

# 查看内核态
vmstat 1

4.2 内存不足

# 查看内存
free -h

# 查看进程
ps aux --sort=-%mem | head

# 查看 Swap
vmstat 1

# 清理缓存
sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1

# 查看进程
iotop

# 查看磁盘
df -h
du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l

# 查看流量
iftop
nethogs

# 查看丢包
ping -c 100 target.com

---

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']

receivers:
  - name: 'email'
    email_configs:
      - to: 'admin@example.com'
        from: 'alert@example.com'
        smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

---

六、总结

监控体系核心：指标全面、告警准确、响应及时

--- 作者：爪

分类：安全运维

标签：服务器监控、故障排查、Prometheus、Grafana、linux 运维

发布时间：2026-03-26

防守方攻略：四大主流WebShell管理工具分析

资源分享 9,572 04/07 1

红蓝队攻防演练监控声音告警脚本-WAF

渗透测试 11,277 08/03 3

VMware的学习

资源分享 8,111 03/08

可进行Web漏洞扫描和验证的Vulmap

资源分享 9,823 03/13

评论 38 访客 38

Lizzie 0
2026年3月26日 13:55:50 湖北省武汉市 1F
回复

这个监控方案挺实用的。
- 阳朔竹筏 1
  2026年3月30日 23:44:46 吉林省通化市 B1
  回复
  
  @ Lizzie 实用+1，已经按这个搭好了监控
梦回城 1
2026年3月26日 21:55:44 天津市 2F
回复

看着那堆命令，感觉都快炸了。
无常笑 1
2026年3月26日 22:01:18 台湾省 3F
回复

Prometheus的Alert规则怎么写更简洁？
网络探险家 1
2026年3月26日 22:14:13 山东省滨州市 4F
回复

我之前装过Node Exporter，日志里老是卡。
- 翠微隐士 1
  2026年3月30日 22:15:51 韩国 B1
  回复
  
  @ 网络探险家 Node Exporter卡顿+1，后来换了版本才正常
竹匠谢 1
2026年3月26日 22:20:51 陕西省西安市 5F
回复

Grafana的Dashboard导入后，记得手动刷新，否则会空。
迷糊的冰淇淋 0
2026年3月26日 22:29:58 广东省深圳市 6F
回复

这个教程实在太全了，直接照着跑就行。
无敌小钢炮 1
2026年3月27日 14:22:41 湖北省十堰市 7F
回复

看到有人直接docker run搞全套，真是省事儿 😂。
Scarlet Sunset Poet 1
2026年3月27日 16:46:21 河北省唐山市 8F
回复

我觉得把Prometheus和Zabbix一起用有点鸡肋，资源占用太大，根本不值得。
- 醉红妆 1
  2026年3月30日 21:04:48 陕西省咸阳市 B1
  回复
  
  @ Scarlet Sunset Poet 两个都装确实没必要，选一个就够了
忧郁的巧克力 0
2026年3月27日 16:46:29 越南 9F
回复

配置文件里那个alert太敏感了。
浮游意识 1
2026年3月27日 18:53:34 江苏省淮安市 10F
回复

那如果服务器是Windows，能直接用这些工具吗？
阮郎归 1
2026年3月27日 20:37:23 韩国 11F
回复

CPU监控这块写得很细，正好最近服务器老报警
清浅 0
2026年3月28日 09:09:59 浙江省台州市 12F
回复

内存不足时清理缓存那个命令真的管用吗？
青衫 1
2026年3月28日 13:25:29 日本 13F
回复

Prometheus配置起来好麻烦，有没有一键部署的脚本？
紫阳花开 1
2026年3月28日 15:50:30 浙江省温州市 14F
回复

Node Exporter的metrics端口能改吗？9100经常被占用
加密图腾 1
2026年3月28日 19:00:21 重庆市 15F
回复

看到docker run grafana那里突然心累，上次配权限搞了半天
圣洁之光 1
2026年3月29日 00:05:38 广东省广州市 16F
回复

告警规则那个80%阈值是不是设低了？我们生产环境都调到90%了
阳光Ryan 1
2026年3月29日 07:49:11 山东省临沂市 17F
回复

这些命令记不住啊，每次都要翻文档
废土炼金师 1
2026年3月29日 23:47:41 韩国 18F
回复

Windows服务器用不了node_exporter吧？
PebblePaws 1
2026年3月30日 00:01:06 江苏省苏州市 19F
回复

Grafana图表确实好看，就是查询语句写起来头大
丹砂印月 1
2026年3月30日 12:39:01 福建省泉州市 20F
回复

故障排查流程挺实用的，收藏了晚上试试
数字信使 1
2026年3月31日 00:22:09 韩国 21F
回复

这个Prometheus配置文件老是报错，syntax不对有遇到吗？
星川夕颜 0
2026年3月31日 07:44:13 上海市 22F
回复

9100端口冲突的话，启动时加 –web.listen-address=:9101 能解决
清岚 1
2026年3月31日 11:22:52 韩国 23F
回复

Zabbix确实吃资源，但告警逻辑比Alertmanager稳定多了
西瓜皮的逆袭 0
2026年3月31日 19:07:33 湖北省武汉市 24F
回复

感觉还行
何十八 1
2026年4月1日 09:14:51 浙江省宁波市 25F
回复

要是服务器在国外，网络丢包这块咋排查？
鸵鸟奔 1
2026年4月1日 17:36:54 青海省 26F
回复

之前搞过这个，清理缓存那命令实际效果很有限😭
鹰高高 1
2026年4月1日 19:32:30 日本 27F
回复

Grafana查询语句简直反人类，P95写成rate()[5m]就懵了
恐惧的阴影 1
2026年4月1日 20:10:05 韩国 28F
回复

CPU过高用pidstat查确实准，但我更习惯先看htop
月光小奶昔 1
2026年4月2日 07:32:50 辽宁省鞍山市 29F
回复

那个alert规则能不能按服务分组？现在一堆混着烦死了
平行镜像 2
2026年4月28日 16:10:07 安徽省宣城市 30F
回复

Node Exporter 的 ID 1860 太经典了，直接导入就能用
洋葱圈魔法师 1
2026年5月22日 10:50:04 印度尼西亚 31F
回复

Grafana用Docker起确实方便，但数据持久化别忘了挂volume
- 泪眼朦胧 1
  2026年5月22日 10:55:20 上海市虹口区 B1
  回复
  
  @ 洋葱圈魔法师对，volume不挂数据就没了
奶香小猫咪 1
2026年6月5日 11:40:09 江西省南昌市 32F
回复

prometheus配置有点劝退啊
灰烬 1
2026年6月18日 18:20:07 巴基斯坦 33F
回复

Zabbix配置太复杂了，还是Prometheus香
WallflowerVibes 2
2026年6月18日 21:00:10 北京市 34F
回复

cpu告警阈值80%有点高啊

容器安全：Docker 与 Kubernetes 防护实践

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

防守方攻略：四大主流WebShell管理工具分析

红蓝队攻防演练监控声音告警脚本-WAF

VMware的学习

可进行Web漏洞扫描和验证的Vulmap

发表评论

热门搜索

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

防守方攻略：四大主流WebShell管理工具分析

红蓝队攻防演练监控声音告警脚本-WAF

VMware的学习

可进行Web漏洞扫描和验证的Vulmap

发表评论