FOFA搜索结果提取技术分析

2020年6月23日 10:26:38枫少@KillBoy

枫少@KillBoy

管理员

229
文章

0
粉丝

资源分享3110,0351字数 1540阅读5分8秒阅读模式

AI智能摘要

AI 生成的文章内容摘要

前言：脚本和文档都是老早就写好的，这周发现fofa新版出来了，就把旧版的薅羊毛完整脚本分享给大家。文章主要是介绍这种脚本的编写思路，给编程新手提供一个思路参考，比起 requests+re 我更推荐大家使用 requests+bs4 获取信息。

脚本语言：python2.7

白嫖与付费

付费肯定有更好的服务，但是就是喜欢薅羊毛的快乐。能付费尽量付费吧，如果你付费了这个脚本使用起来更安逸。

非api原因

根据网站vip功能介绍，可以看到“注册用户”和“普通会员”使用api都是亏本买卖，如果想用api就开svip才最安逸

Fofa与BeautifulSoup

Fofa的搜索语法

返回头 header=”200″

国家 country=”CN”

页面内容 body=”phpweb”

网页头 title=”公司”

端口 port=”443″

网站年份 after=”2020-01-01″

BeautifulSoup库

注：一般搭建好网站不会轻易更改网页标签类型，所以使用标签提取比正则匹配能让脚本“活得更久”

定位网页标签

         soup.find(name="input", attrs={"id": "total_entries"})

         soup.find_all(name="div", attrs={"class": "list_mod"})

获取标签值

         yourdiv.attrs['value']

获取ul内的li值

执行搜索操作

打开fofa官网https://fofa.so/，搜索热门关键字，可以看到url请求为

https://fofa.so/result?qbase64=xxx

其中qbase64的值就是搜索字符串“base64编码+url编码”的结果，这里需要注意中文问题，需要将中文先gbk解码，再用base64库编码（我本机是gbk编码，所以输入的中文也是gbk编码，如果你的机器是utf-8编码就改为utf-8，没测）

code = key.decode()  code = urllib.quote(base64.b64encode(code))

这里遇到个问题一直没整明白，上面那种方式可以成功，但是下面这种使用方式却失败了，如果有人知道原因请留言或私信给我。

code = urllib.quote(base64.b64encode(key.decode('gbk')))

代码

获取页面搜索结果

使用浏览器自带调试功能查看html框架，可以看到我们搜索结果都在“<div>”标签下，每一个“<divclass=”list_mod”>”标签是一条信息

一个list_mod标签包含一个目标的全部信息

代码，其中divs就是全部目标列表

定位单条目标信息

选取单个目标的标签点开分析，可以看到标签有list_mod_t和list_mod_c两个子标签

而元素a就是可以直接跳转的链接，从这里提取到目标的url或者IP

FOFA搜索结果提取技术分析-图片17 而目标下面的介绍其实是一个ul列表，这部分信息也比较重要，所以我也提取了

FOFA搜索结果提取技术分析-图片19

代码

其中列表信息没做详细分类提取，也没有把他写入到文件，内存里长这样

关于URL存活状态

在单个目标的右边有他的响应码，我是根据这个来确定的存活，当然你也可以自己请求一下提取的URL来判断存活，如果只需要200的网站就在查询时使用header=”200″；代码中获取的是右侧整个字符串，大家根据需要自行修改代码就行

FOFA搜索结果提取技术分析-图片25 代码

翻页问题

我们知道目标总数除以10后加1就是页数，所以要提取目标总数，依旧是根据网页标签定位提取数据

代码如下

知道总页数怎么翻页呢？

通过api规则知道请求中的page参数决定当前页面（或者看网页【下一页】的链接），测试中发现有请求频率限制，做下防封延时就行

FOFA搜索结果提取技术分析-图片31 代码如下

网站cookie

Fofa现在登陆需要进行验证了，无法直接用户名密码登陆，所以我使用的cookie验证身份。

自定义数据输出

在按页获取函数中修改数据处理方式，解除注册会员限制

脚本中是将链接追加到指定txt文件中，其它信息只是获取了，并没有输出

脚本使用

使用命令参数输入关键字和cookie，会输出总数，提示每页有多少条存活，其他信息输出自行修改脚本

注意titile、app等使用方法，如果网页搜索栏是这样的

app=”BEA-WebLogic-Server”

那么命令行这样输入

“app=/”BEA-WebLogic-Server/”"

输出总数和网页搜索总数一致（没有带国家参数）

Hreffile.txt内容

完整代码

代码已上传 aHR0cHM6Ly9naXRodWIuY29tL21veXV3YS9mb2ZhLXNlYXJjaC1yZXN1bHQtcmVx

注册会员，通过城市枚举和搜索条件定义，能薅200~400条数据吧，足够大家学习完漏洞后做实践了，相关漏洞差不多能有1/15的存在比例。

其实有想过获取页面左侧的城市信息，但是太麻烦了就无脑枚举了，后续大家可以做做”url去重“和”自定义存活确认（有的url访问过去就是网站自定义404页面）“。

https://www.freebuf.com/sectool/238018.html

热门话题

FOFA的qbase64参数如何编码

抓取FOFA数据常见问题？

本文由 枫少@KillBoy 发表于2020年6月23日 10:26:38

FOFA搜索技术
it2021
it2021.com
Python爬虫脚本
网络安全工具

HoneyBot：一款功能强大的网络流量捕捉与分析框架

资源分享 12,781 04/02 2

CTF论剑场-(web21)一道很有质量的web题、反序列化

渗透测试 15,394 08/03 9

微软Chromium版Edge浏览器正式稳定版下载泄露

业界资讯 40,479 08/26 1

Linux 提权—突破受限制的shell权限

渗透测试 21,384 08/04 6

评论 31 访客 31

SekiRay 0
2026年1月7日 11:24:20 日本 1F
回复

python2.7现在跑起来有点费劲啊，有没转3的版本？
龙龙儿 0
2026年1月7日 18:53:16 韩国 2F
回复

这脚本对新手挺友好的，bs4确实比正则稳。
铁锈诗人 1
2026年1月8日 09:47:30 韩国 3F
回复

前几天刚试过类似爬fofa，结果被限流了，得加延时才行。
风语咒 1
2026年1月9日 10:03:52 湖南省永州市 4F
回复

cookie登录现在好麻烦，验证码根本绕不过去吧🤔
音符捕手 1
2026年1月10日 00:43:56 浙江省嘉兴市 5F
回复

感觉还行，不过中文编码那块容易踩坑。
- 时光咖啡馆 1
  2026年1月13日 09:53:07 湖北省十堰市 B1
  回复
  
  @ 音符捕手这个编码问题搞死我了，最后用chardet才搞定
小甜筒 2
2026年1月10日 09:19:31 陕西省汉中市 6F
回复

为啥非要用gbk解码？我本地utf-8直接报错，求解！
月光泡泡 1
2026年1月10日 18:39:22 印度尼西亚 7F
回复

翻页逻辑讲清楚了，但没提代理池，实际用起来容易封。
- GrizzlyGuru 0
  2026年1月14日 12:46:11 日本 B1
  回复
  
  @ 月光泡泡翻页加延时是必须的，我设了2秒勉强能跑
清商 1
2026年1月11日 00:41:32 河南省周口市 8F
回复

又是薅羊毛老哥，建议大家真用就开个svip省事。
玉箫仙子 1
2026年1月11日 15:04:32 陕西省铜川市 9F
回复

提取ul里li那块可以再细点，现在信息太杂了。
- 蝴蝶豆豆 1
  2026年1月15日 08:49:15 北京市 B1
  回复
  
  @ 玉箫仙子 ul里信息要是能分个类输出就更方便了，现在要自己筛
夜半钟 1
2026年1月12日 17:19:42 上海市 10F
回复

fofa改版后结构变了好多，这脚本能跑新版吗？
木工唐 0
2026年1月15日 14:06:49 湖北省黄冈市 11F
回复

脚本看着挺简单，但实际跑起来一堆问题啊hhh
夜莺啼 1
2026年1月19日 11:10:29 福建省福州市 12F
回复

为啥我用utf-8编码qbase64一直失败？非得gbk吗？
Shy Spark 0
2026年1月20日 14:11:21 江西省南昌市 13F
回复

新版fofa结构变了不少，class名都改了还咋用这脚本
暗影矩阵 0
2026年1月20日 21:16:54 北京市 14F
回复

bs4确实比正则靠谱，标签稳定多了，👍
星辰战甲 1
2026年1月20日 23:40:57 印度尼西亚 15F
回复

cookie验证太难顶了，滑块验证码根本过不去
Pulse搏 1
2026年1月21日 13:30:17 广东省佛山市三水区 16F
回复

之前也写过类似的，延时不够直接被封IP，惨
社死记录员 2
2026年1月21日 17:56:53 新西兰 17F
回复

求问这脚本能处理动态加载的内容不？感觉现在好多数据是js渲染的
红巨星余烬 0
2026年1月22日 13:37:38 新西兰 18F
回复

svip确实省心，白嫖虽然爽但限制太多
逗比小分队 1
2026年1月23日 15:12:20 重庆市 19F
回复

中文编码这块真坑，不同系统默认编码还不一样，容易翻车
黯夜猎魂 2
2026年1月26日 10:10:05 辽宁省辽阳市 20F
回复

用bs4确实比正则省心点
镜花水月 1
2026年1月29日 13:25:05 韩国 21F
回复

cookie验证这块现在挺麻烦的
- ZeroGravity 1
  2026年1月29日 13:39:07 上海市 B1
  回复
  
  @ 镜花水月新版验证是挺头疼的
废土先知 1
2026年2月2日 11:08:05 上海市崇明县 22F
回复

能不能把提取的信息导出成csv啊，txt不好处理
青石道人 1
2026年3月9日 18:30:04 印度尼西亚 23F
回复

枚举城市这块有更优解吗
- 深夜食堂 1
  2026年3月9日 18:47:06 陕西省西安市 B1
  回复
  
  @ 青石道人同问，等大佬解答
开朗的云朵 1
2026年4月24日 13:50:14 黑龙江省大庆市 24F
回复

翻页加延时挺关键，试过不加直接被封
- 开朗阳光 1
  2026年4月24日 14:16:57 重庆市 B1
  回复
  
  @ 开朗的云朵血泪教训，被封过才懂
恶鬼附身 1
2026年5月3日 11:20:05 浙江省杭州市 25F
回复

脚本思路比工具本身更有价值