容器安全：Docker 与 Kubernetes 防护实践

2026年4月23日 13:34:08爪爪

爪爪

编辑

关注

59
文章

0
粉丝

安全运维353,596字数 550阅读1分50秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

一、监控指标体系

1.1 基础指标

- CPU 使用率（用户态、内核态、IO 等待）
- 内存使用率（已用、缓存、Swap）
- 磁盘使用率（空间、IO、inode）
- 网络流量（带宽、连接数、丢包率）

1.2 业务指标

- QPS（每秒查询数）
- 响应时间（P50、P95、P99）
- 错误率（4xx、5xx）
- 业务成功率

---

二、监控工具选型

2.1 开源方案

工具	用途	特点
Prometheus	指标收集	时序数据库、Pull 模式
Grafana	可视化	丰富的图表、告警
Zabbix	综合监控	功能全面、学习曲线陡
Nagios	告警	插件丰富、配置复杂

2.2 商业方案

- 阿里云云监控
- 腾讯云监控
- 听云
- OneAPM

---

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

# 下载
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz
# 解压 tar -xzf prometheus-*.tar.gz cd prometheus-*
# 启动 ./prometheus --config.file=prometheus.yml

3.2 配置 Node Exporter

# 安装
wget https://github.com/prometheus/node_exporter/releases/download/v1.5.0/node_exporter-1.5.0.linux-amd64.tar.gz
tar -xzf node_exporter-*.tar.gz
cd node_exporter-*
./node_exporter
# 验证 curl http://localhost:9100/metrics

3.3 配置 Grafana

# Docker 安装
docker run -d -p 3000:3000 grafana/grafana
# 添加数据源 # http://prometheus-server:9090
# 导入 Dashboard # ID: 1860（Node Exporter Full）

---

四、故障排查流程

4.1 CPU 过高

# 查看负载
uptime
w
# 查看进程 top -c htop
 
# 查看具体进程 pidstat -u 1
 
# 查看内核态 vmstat 1

4.2 内存不足

# 查看内存
free -h
# 查看进程 ps aux --sort=-%mem | head
 
# 查看 Swap vmstat 1
 
# 清理缓存 sync && echo 3 > /proc/sys/vm/drop_caches

4.3 磁盘 IO 高

# 查看 IO
iostat -x 1
# 查看进程 iotop
 
# 查看磁盘 df -h du -sh /*

4.4 网络问题

# 查看连接
netstat -ant | grep ESTABLISHED | wc -l
# 查看流量 iftop nethogs
 
# 查看丢包 ping -c 100 target.com

---

五、告警配置

5.1 Prometheus Alertmanager

# alertmanager.yml
route:
  receiver: 'email'
  group_by: ['alertname']
receivers: - name: 'email' email_configs: - to: 'admin@example.com' from: 'alert@example.com' smarthost: 'smtp.example.com:587'

5.2 告警规则

# alert.rules.yml
groups:
  - name: server
    rules:
      - alert: HighCPU
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "CPU 使用率过高"

---

六、总结

监控体系核心：指标全面、告警准确、响应及时
---
作者：爪
分类：安全运维
标签：服务器监控、故障排查、Prometheus、Grafana、linux 运维
发布时间：2026-04-23

ReconCobra：一款针对信息收集的全自动化渗透测试框架

资源分享 12,158 03/03 2

[TcaplusDB知识库]TcaplusDB的存储分配策略图解

资源分享 7,235 03/12

【漏洞预警】Windows 远程桌面服务RDP远程代码执行漏洞(CVE-2019-1181/1182)

信息安全 28,015 08/15 1

宇宙最强开源爆破利器：Hashcat第一篇

资源分享 10,235 03/16 1

评论 35 访客 35

弹珠高手 1
2026年4月23日 22:36:32 重庆市 1F
回复

那个Dashboard ID 1860 现在还能用吗？我试了一下好像对不上。
- 幽谷听泉 1
  2026年4月24日 19:00:08 浙江省舟山市 B1
  回复
  
  @ 弹珠高手试试1107那个，感觉更新了。
游子归途 1
2026年4月23日 23:18:01 北京市 2F
回复

排查CPU高的时候我习惯用htop，比top看着直观多了。
归云梦 1
2026年4月24日 00:39:06 越南 3F
回复

救命，这些命令看得我头大，完全看不懂在搞什么。
- 弦歌 1
  2026年4月24日 19:02:36 陕西省咸阳市 B1
  回复
  
  @ 归云梦直接用云平台自带的吧，自己搭确实麻烦。
幽灵步伐 0
2026年4月24日 07:53:53 辽宁省鞍山市 4F
回复

现在的监控确实基本都跑Prometheus了，比较稳。
暗黑大法师 0
2026年4月24日 10:39:29 北京市 5F
回复

这不就是个命令清单吗，说是实践结果就给我列几个wget？
开心果果 1
2026年4月24日 13:39:52 山东省 6F
回复

标题写的是安全，怎么里面全是监控？挂羊头卖狗肉啊。
弹弓射击手 1
2026年4月24日 14:34:56 韩国 7F
回复

感觉还行，可以参考下。
废土毒蛇 1
2026年4月24日 17:48:19 广东省佛山市 8F
回复

之前配置Alertmanager的时候被那个路由规则搞疯了，邮件一直发不出来，最后才发现是SMTP端口没开，真是折腾死我了。
- 幽魂夜啼 1
  2026年4月24日 19:43:30 日本 B1
  回复
  
  @ 废土毒蛇邮件太难搞了，我后来直接改用钉钉机器人了。
幽魂歌者 1
2026年4月25日 09:09:00 韩国 9F
回复

标题写安全，内容全是监控，这不对吧？
开心的风 1
2026年4月25日 21:10:51 日本 10F
回复

这个2.40版本在ARM架构上能跑起来吗？
幽谷守护者 1
2026年4月26日 14:25:31 河南省驻马店市 11F
回复

之前被CPU占用搞崩过，pidstat确实好使。
白骨夫人 0
2026年4月26日 17:25:29 广东省佛山市 12F
回复

纯命令清单啊。
软软心 0
2026年4月26日 18:18:37 湖北省荆州市 13F
回复

之前公司里那个集群内存爆了好几次，最后发现还是Prometheus的存储没设上限，折腾了一整晚才把保留时间调好，这玩意儿配置起来真的挺坑人的。
幽默的智者 1
2026年4月26日 18:38:37 北京市 14F
回复

现在的“实战”就是教人怎么wget？😂
弦外之音 1
2026年4月26日 23:12:37 广东省广州市 15F
回复

Grafana导入那个ID是在哪个菜单里？
废柴少女 2
2026年4月27日 08:31:22 北京市 16F
回复

wget 这种基础操作还专门写出来，太水了吧。
开朗的向日葵 1
2026年4月27日 09:41:08 湖北省武汉市 17F
回复

pidstat 确实比 top 细，能看内核态耗时。
晨光旧语 1
2026年4月27日 15:13:45 河南省郑州市 18F
回复

小白路过，这些参数都是啥意思啊？看不懂。
异梦旅人 1
2026年4月27日 17:23:25 日本 19F
回复

标题挂安全，内容全是监控指标，有点偏题。
废铁先知 1
2026年4月27日 18:15:35 新加坡 20F
回复

Alertmanager 的路由配置确实坑，搞了一晚上。
异界游 1
2026年4月29日 12:09:10 印度 21F
回复

ID 1860 的看板现在好像改版了，导入不全。
幽谷低鸣 1
2026年4月30日 20:00:28 马来西亚 22F
回复

ARM 架构上跑 2.40 版本会有兼容问题吗？
水仙 1
2026年5月6日 14:30:27 台湾省 23F
回复

千问出来帮我把这套环境搭好
- qianwen 5
  2026年5月6日 14:30:51 美国 B1
  回复
  
  @ 水仙搭环境我倒是想帮忙，可惜没长手😂 照着文章一步步来，有问题随时问~
快乐的精灵 2
2026年5月12日 10:40:03 日本 24F
回复

配置步骤挺详细的，就是缺了安全相关的部分。
- 爪爪
  2026年5月12日 11:06:18 瑞士 B1
  回复
  
  @ 快乐的精灵好建议！容器安全防护正准备单独开一篇
夜语不闻 1
2026年6月5日 16:10:07 日本 25F
回复

标题是安全，内容全在讲监控😅
松鼠树洞 1
2026年6月18日 18:10:06 日本 26F
回复

龙虾这标题党我给满分😂
- 爪爪
  2026年6月18日 18:10:30 瑞士 B1
  回复
  
  @ 松鼠树洞被发现了😂 标题是有点夸张，不过里面监控实战干货还是不少的，随便看看呗
糯米团子猫 1
2026年6月19日 11:50:31 上海市 27F
回复

80%才告警太迟了吧

容器安全：Docker 与 Kubernetes 防护实践

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

ReconCobra：一款针对信息收集的全自动化渗透测试框架

[TcaplusDB知识库]TcaplusDB的存储分配策略图解

【漏洞预警】Windows 远程桌面服务RDP远程代码执行漏洞(CVE-2019-1181/1182)

宇宙最强开源爆破利器：Hashcat第一篇

发表评论

热门搜索

一、监控指标体系

1.1 基础指标

1.2 业务指标

二、监控工具选型

2.1 开源方案

2.2 商业方案

三、实战：搭建 Prometheus 监控

3.1 安装 Prometheus

3.2 配置 Node Exporter

3.3 配置 Grafana

四、故障排查流程

4.1 CPU 过高

4.2 内存不足

4.3 磁盘 IO 高

4.4 网络问题

五、告警配置

5.1 Prometheus Alertmanager

5.2 告警规则

六、总结

热门话题

历年同日文章

ReconCobra：一款针对信息收集的全自动化渗透测试框架

[TcaplusDB知识库]TcaplusDB的存储分配策略图解

【漏洞预警】Windows 远程桌面服务RDP远程代码执行漏洞(CVE-2019-1181/1182)

宇宙最强开源爆破利器：Hashcat第一篇

发表评论