如何用yargen提取恶意脚本特征？

7 人参与

TOPIC SOURCE

资源分享 2020.06

使用yarGen提取Linux恶意脚本特征

如果你曾亲手分析过那些在linux服务器间悄悄蔓延的恶意脚本，可能会对一种熟悉的无力感深有体会。成千上百个样本，一眼望去全是wget、curl、chmod +x和crontab，就像在一片由相同乐高积木搭成的迷宫里寻找一只特定颜色的蚂蚁。传统的字符串比对效率低下，而纯人工总结特征又难免挂一漏万。这时候，yargen的价值就凸显出来了——它不是帮你写规则的AI，而是一个思维缜密、不知疲倦的分析助手。

从样本沼泽到特征地图：yargen的炼金术

yargen的核心逻辑，本质上是一种“求同存异”的逆向工程。你把某个恶意家族（比如8220挖矿团伙）历次变种的脚本样本，一股脑儿扔进同一个文件夹。运行python3 yarGen.py -m /path/to/your/malware_samples，这台机器就开始了它的“阅读”工作。

它先像个文本挖掘机，把所有样本里出现的字符串都提取出来，形成一个庞大的词库。然后，它会搬出一个内置的“清白名单”进行第一轮过滤，把那些诸如/bin/bash、echo、grep之类人畜无害的通用字符串剔除掉——这一步至关重要，直接决定了后续规则的质量，避免你的YARA规则变成“linux脚本检测器”。剩下的，就是样本集中反复出现的“可疑分子”了。

别只盯着“超级规则”：过滤的艺术

工具生成的yargen_rules.yar文件里，最吸引人的往往是标记为“Super Rules”的部分。这些规则匹配的样本数量最多，看起来最“泛化”。但这里有个陷阱：自动化工具追求的“共性”，有时恰恰是安全分析师需要警惕的“噪音”。

一个匹配了十个样本的规则，里面可能包含了八个有效特征和两个误报特征。比如，规则里可能同时包含了黑客独特的变量命名f2="*"和攻击者常用的但其他正常脚本也可能有的sleep 10。yargen完成了粗筛，而真正的特征提纯，必须由分析师接手。

从字符串到“指纹”：人工研判的三重维度

1. 语法怪癖：代码的书写习惯

这是最高价值的特征。恶意脚本的作者也是人，是人就有编码习惯。yargen帮你找到了可疑字符串，你需要做的是回到原始样本，看看这个字符串出现的上下文。

黑客是不是总喜欢把echo语句的第一个字母大写，写成Echo “starting...”？
他是不是习惯用case $sum in这种特定结构来做文件完整性校验？
有没有一个叫judge的函数，在每个变种里都雷打不动地出现？

这些习惯就像笔迹，很难伪装，跨越多个版本依然稳定，是家族认定的强证据。

2. 资产复用：硬性IOC的残留

域名、IP地址、特定的URL路径、硬编码的加密密钥。这些是攻击基础设施的一部分，成本高，更换没那么随意。yargen提取出的字符串里，那些看起来像域名或奇怪路径的，需要单独拎出来，扔进威胁情报平台查一下。哪怕在新变种里只出现了一个旧C2，也足以将新旧样本串联起来。在YARA规则的condition部分，这类IOC的权重应该最高，往往设定为“出现任意一个即可判定”。

3. 变量与模式：脚本的骨架

介于语法和资产之间的，是脚本的“结构特征”。比如，攻击者是否固定使用f2、f3这样的变量名来存储下载链接？是否存在一套固定的临时文件命名模式（如/tmp/.X11-unix/目录下的特定名称）？这些模式比通用命令具体，又比单一IOC更泛化，是构成规则主体部分的中坚力量。

规则的编织与验证：让机器理解你的洞察

经过上述三重过滤，你手头剩下的就是精华特征了。接下来是用YARA语法将它们编织成一条高效的规则。这里的技巧在于条件（condition）的权重分配。

一个稳健的规则可能是这样的结构：(2个语法怪癖) or (1个硬IOC) or (3个结构特征)。你需要用干净的样本集（正常系统脚本、其他家族恶意脚本）来测试，反复调整阈值，在检出率和误报率之间找到那个甜蜜点。有时候，为了追求零误报，你甚至需要忍痛放弃一些看起来不错但不够独特的特征。

最终，yargen并没有替代你思考，它只是把你从重复的字符串比对中解放出来，让你能将宝贵的精力投入到更高维度的模式识别和战术研判上。当你看着自己提炼的规则，干净利落地从一堆脚本中精准揪出目标家族的样本时，那种感觉，就像在嘈杂的无线电波中，第一次清晰地听懂了敌人的密语。

参与讨论

7 条评论

霜冻之息 2 月前

其实yargen还能自定义过滤列表。

回复
忧郁星空 2 月前

这个脚本能直接在CentOS7上跑吗，依赖有没有额外的？

回复
核尘暴徒 2 月前

看起来又是新一波蠕虫。

回复
The Salt Merchant 1 月前

这玩意儿真的挺靠谱的。

回复
旧时月色 1 月前

赞一个👍

回复
鬼影踪 3 周前

语法怪癖这块讲得挺细的。

回复
1. 蹦蹦跳跳小松鼠 3 周前
  
  @ 鬼影踪感觉这块最有意思
  
  回复

如何用yargen提取恶意脚本特征？

使用yarGen提取Linux恶意脚本特征

从样本沼泽到特征地图：yargen的炼金术

别只盯着“超级规则”：过滤的艺术

从字符串到“指纹”：人工研判的三重维度

1. 语法怪癖：代码的书写习惯

2. 资产复用：硬性IOC的残留

3. 变量与模式：脚本的骨架

规则的编织与验证：让机器理解你的洞察

参与讨论

延伸阅读

Linux系统监控工具有哪些？

MySQL二进制日志的作用与禁用影响

如何监控服务器磁盘空间使用情况？

weblogic反序列化漏洞如何防护？

反序列化攻击的未来发展趋势

普通人如何利用大数据工具分析自己的消费习惯？

热门搜索

使用yarGen提取Linux恶意脚本特征

从样本沼泽到特征地图：yargen的炼金术

别只盯着“超级规则”：过滤的艺术

从字符串到“指纹”：人工研判的三重维度

1. 语法怪癖：代码的书写习惯

2. 资产复用：硬性IOC的残留

3. 变量与模式：脚本的骨架

规则的编织与验证：让机器理解你的洞察

参与讨论

延伸阅读

Linux系统监控工具有哪些？

MySQL二进制日志的作用与禁用影响

如何监控服务器磁盘空间使用情况？

weblogic反序列化漏洞如何防护？

反序列化攻击的未来发展趋势

普通人如何利用大数据工具分析自己的消费习惯？