CTF日志审计常用自动化脚本技巧

10 人参与

TOPIC SOURCE

渗透测试 2019.08

CTF论剑场-web日志审计

在CTF竞赛的Web日志审计场景里，面对动辄数万行、结构复杂甚至暗藏混淆的访问日志，手动翻阅无异于大海捞针。老手和新手的差距，往往就体现在能否快速构建自动化脚本来完成筛选、提取、解码和重组。脚本不是写出来就一劳永逸的，它更像外科医生的手术刀，需要根据“病灶”的形态灵活变换。

正则表达式：你的第一把“解剖刀”

几乎所有日志审计脚本的起点都是正则表达式。但很多人止步于匹配IP和状态码，这远远不够。关键在于构建上下文感知的模式。比如，题目暗示攻击路径隐藏在sqlmap的测试流量中，你不能只匹配“sqlmap”这个User-Agent，还得同时捕获其前后若干行，因为关键的payload或响应码可能就在相邻记录里。

一个进阶技巧是使用Python的re.findall配合命名捕获组。与其写一个晦涩的长表达式，不如拆解目标数据的特征：数字序列、特定分隔符间的字符串、符合某种编码模式的字符。把每个特征用(?P<name>...)命名，后期处理时直接按名索取，脚本的可读性和可维护性会直线上升。

案例：从混乱中提取有序数据

import re

log_line = '192.168.1.1 - - [05/Nov/2023:15:22:01] "GET /test.php?id=1 AND 1=2 UNION SELECT NULL,CONCAT(0x7e,flag,0x7e)-- HTTP/1.1" 200 450 "-" "sqlmap/1.6#dev (http://sqlmap.org)"'

# 初级做法：匹配数字
numbers = re.findall(r'd+', log_line)  # 结果杂乱

# 进阶做法：结构化捕获
pattern = r'.*?id=(?P<params>.*?) HTTP.*?" (?P<status>d{3}) .*?"(?P<tool>.*?)"'
match = re.search(pattern, log_line)
if match:
    print(f"攻击参数: {match.group('params')}")
    print(f"状态码: {match.group('status')}")
    print(f"使用工具: {match.group('tool')}")

流水线处理：让数据流动起来

单行正则匹配只是第一步。真正的效率来自于设计一个处理流水线（Pipeline）。思路很简单：读取日志、过滤无关行、提取关键字段、转换数据格式、输出或进一步分析。每一步都用一个小函数封装，用主流程把它们串起来。

这么做的好处是调试极其方便。你可以在任意一个环节把中间结果打印出来，看看数据是否按预期变形。比如，在提取出疑似flag的编码字符串后，加一个解码环节，尝试Base64、Hex、ASCII、URLDecode等多种常见编码。有时候，出题人还会玩“套娃”，需要你写个循环，直到解码结果呈现可读明文为止。

别忽视时间戳和会话追踪

很多选手只盯着请求参数，却忽略了日志里的时间戳和IP地址。一次完整的攻击链，可能由同一个IP在短时间内发起数十次尝试性请求。用脚本按IP和时间窗口进行聚类分析，能快速还原攻击者的操作序列。Python的itertools.groupby和collections.defaultdict在这里是绝配，能帮你把散落的日志点，连成清晰的攻击路径图。

最后的忠告：保持脚本的“一次性”心态

CTF中的日志审计脚本，绝大多数都是“一次性用品”。这意味着你不必追求完美的架构和异常处理，快速验证猜想才是第一要务。花二十分钟写一个能跑出结果的“脏”脚本，远比花两小时打磨一个健壮但可能思路错误的“美”脚本要划算。脚本跑通，拿到flag后，如果觉得其中某个技巧具有通用性，再把它抽象出来，存入你的个人工具库。久而久之，面对任何日志，你都能在五分钟内组合出趁手的“手术刀组”。

参与讨论

10 条评论

NightshadeMystic 2 月前

要是IP和时间戳不关联分析，根本发现不了那个短时间高频试探的痕迹

回复
AbyssalRunemaster 2 月前

用defaultdict搞聚类是挺方便，但我上次试了groupby结果搞反了顺序，有遇到过的吗？

回复
寂寂无声 1 月前

感觉还行，就是“脏脚本”这说法太真实了，比赛时谁还管代码洁不洁

回复
泡泡软糖 1 月前

流水线解码那段说得轻巧，我套娃解了五层才发现flag被切成三段藏在不同请求里😂

回复
玄铁尸王 1 月前

这个正则命名捕获组技巧真香，之前都写成一团乱麻😅

回复
云裳 4 周前

命名捕获组这个点我记下了，回头试试。

回复
墨池深处 1 周前

时间戳聚类这块点醒我了，之前光死磕参数

回复
1. 冰封孤傲 1 周前
  
  @ 墨池深处我之前也犯过这毛病
  
  回复
奶昔猫 2 天前

流水线处理这块有点启发，可以试试。

回复
1. 黑蛇盘雾 2 天前
  
  @ 奶昔猫我也去试试看
  
  回复

CTF日志审计常用自动化脚本技巧

CTF论剑场-web日志审计

正则表达式：你的第一把“解剖刀”

案例：从混乱中提取有序数据

流水线处理：让数据流动起来

别忽视时间戳和会话追踪

最后的忠告：保持脚本的“一次性”心态

参与讨论

延伸阅读

小IT公司真的不能去吗？

数据库高可用架构如何设计更可靠

服务管理还能阻止自动更新吗？

内存马技术演变与检测方法

反序列化攻击的未来发展趋势

FOFA搜索未授权Redis技巧?

热门搜索

CTF论剑场-web日志审计

正则表达式：你的第一把“解剖刀”

案例：从混乱中提取有序数据

流水线处理：让数据流动起来

别忽视时间戳和会话追踪

最后的忠告：保持脚本的“一次性”心态

参与讨论

延伸阅读

小IT公司真的不能去吗？

数据库高可用架构如何设计更可靠

服务管理还能阻止自动更新吗？

内存马技术演变与检测方法

反序列化攻击的未来发展趋势

FOFA搜索未授权Redis技巧?