Python下载163yum源文件

2019年8月3日 23:18:38OnionT@KillBoy

OnionT@KillBoy

作者

关注

47
文章

0
粉丝

渗透测试428,1153字数 116阅读0分23秒阅读模式

AI智能摘要

想把163镜像站的所有yum包一键镜像到本地吗？这篇文章给出了一段实用Python脚本：用requests和BeautifulSoup抓取指定目录下的所有文件链接，再用wget批量下载到本地，适合搭建离线或内网yum源。摘要里说明了脚本核心流程（请求页面、解析标签、拼接下载链接、调用系统wget）和适用场景，读后你能快速复制运行并根据需要改造目录或并发下载策略，省去手动逐个抓包的繁琐。

— AI 生成的文章内容摘要

用于搭建本地yum源，编写了一个小脚本，将163官方站点的yum文件全部下载到本地。

    #!/usr/bin/python
    import requests
    from bs4 import BeautifulSoup
    import os
    link_list = []
    downurl = []
    s = requests.session()
    url = "http://mirrors.163.com/centos/7/os/x86_64/Packages/"
    response = s.get(url)
    text = response.text
    soup = BeautifulSoup(response.content,'lxml')
    a = soup.find_all('a')
    for x in a:
        link = x.get('href')
        if link:link_list.append(link)
    for filename in link_list:
        down = url + filename
        downurl.append(down)
        get = os.popen("wget %s"%down)
        print get.read()

http://www.oniont.cn/index.php/archives/5.html

ToDesk 远程控制软件首个稳定版本发布

资源分享 6,183 03/16

ActiveMQ任意文件写入漏洞利用（CVE-2016-3088）

渗透测试 9,842 10/12

Scallion：一款基于GPU的Onion哈希生成器

资源分享 8,389 03/04 1

浅谈信息收集

资源分享 7,927 03/28

评论 42 访客 42

Driftlull 1
2026年1月7日 12:18:09 上海市 1F
回复

这个脚本直接抓目录挺省事的，跑一下就有一堆包了，但wget并发要注意别把源弄封了。
华彩 0
2026年1月7日 19:45:37 浙江省台州市椒江区 2F
回复

爬下载列表前最好加个判断排除上级目录和非rpm文件，不然会多下来很多无用东西。
丝路琴心 0
2026年1月7日 19:57:03 江苏省常州市 3F
回复

目录里有很多符号链接，直接拼接有时会出错，建议用requests.head先检查下链接是否可下载。
优品生活 0
2026年1月7日 21:42:53 陕西省西安市 4F
回复

这个方法对小规模本地yum源够用，我之前用过，搭建好后用createrepo就行了。
幽灵画匠 1
2026年1月8日 00:15:50 新加坡 5F
回复

wget一条条串行太慢，建议用aria2或用多线程下载，效率能上去好几倍。
高飞的雄鹰 0
2026年1月8日 09:09:45 韩国 6F
回复

请问作者用的Python版本是啥？3.x的话os.popen那块能改成subprocess更可靠吗？
黑月巫女 1
2026年1月8日 10:39:19 河南省郑州市 7F
回复

前几天刚弄过这个，确实折腾了好久，最后还是用rsync镜像更稳一些。
DreamyCloud 1
2026年1月8日 21:45:45 澳大利亚 8F
回复

rargh，这样下载会把父目录也拉下来，得在过滤里加上../和/的判断，免得混乱。
混元祖师 0
2026年1月8日 22:04:01 日本 9F
回复

脚本没做重试和断点续传，网络波动一下就可能失败，最好加个重试逻辑或者用wget的参数。
无形之刃 0
2026年1月9日 00:48:55 浙江省丽水市 10F
回复

感觉得加个User-Agent和限速参数比较好，别太像爬虫被封IP了🙂
- 冽风不语 0
  2026年1月23日 13:48:58 浙江省杭州市 B1
  回复
  
  @ 无形之刃加User-Agent确实有必要，我上次没加直接被403了
幻影权杖 1
2026年1月9日 10:30:39 北京市 11F
回复

这脚本写得很实用，拿来就能用
蹦跶小狗 0
2026年1月9日 18:16:38 浙江省杭州市 12F
回复

Python2还是3？代码里有些地方可能需要调整
- 奶芙琳琳 0
  2026年1月15日 13:47:30 江苏省徐州市 B1
  回复
  
  @ 蹦跶小狗 Python3跑os.popen会报错，得换成subprocess
岁月书 0
2026年1月9日 23:17:40 日本 13F
回复

可以加个进度条显示下载情况，不然等半天没反应心里没底
糖心星 0
2026年1月10日 14:57:03 北京市 14F
回复

直接用rsync同步整个目录不是更方便吗？
漠影 1
2026年1月10日 16:59:21 台湾省 15F
回复

之前用类似方法下载过，确实要注意别被服务器拉黑
- 炼狱之怒 0
  2026年1月15日 00:12:45 北京市 B1
  回复
  
  @ 漠影 163源对爬虫挺敏感的，最好sleep一下再下
DoppelgangerGrin 0
2026年1月11日 00:15:46 江苏省南京市 16F
回复

wget改成多线程会不会被封IP啊？有点担心
- 黑白记忆 1
  2026年1月14日 23:20:39 福建省厦门市 B1
  回复
  
  @ DoppelgangerGrin 多线程别开太高，我试过5个并发就差点被限了
雾夜谜踪 0
2026年1月11日 13:15:01 北京市 17F
回复

脚本能加个校验md5的功能就更完美了
GhostOfDusk 1
2026年1月11日 14:41:54 香港 18F
回复

这个对搭建内网yum源很有帮助，收藏了
- 神秘的龙猫 0
  2026年1月27日 14:21:24 湖北省荆州市 B1
  回复
  
  @ GhostOfDusk 内网yum源搭起来真不省心，这脚本能省点事
夜莺独语 1
2026年1月11日 23:47:10 北京市 19F
回复

有没有试过用curl代替wget？感觉更轻量一些
暮光审判者 0
2026年1月12日 17:51:35 韩国 20F
回复

下载完还要createrepo建索引吧，建议把这条也写上
霜诀 0
2026年1月15日 18:29:54 甘肃省平凉市泾川县 21F
回复

这脚本跑起来卡半天，加个进度条吧😅
记忆碎片 0
2026年1月18日 22:39:54 广东省深圳市 22F
回复

符号链接那块坑死我了，直接拼路径会404
镜界行者 1
2026年1月19日 10:35:32 美国 23F
回复

有人试过用aria2批量下吗？感觉比wget稳
寒山夜行 1
2026年1月19日 11:02:11 湖南省长沙市 24F
回复

createrepo那步漏了，新手可能不知道要建索引
星际动力 1
2026年1月19日 23:29:59 印度 25F
回复

我之前也踩过这坑，最后还是rsync香
小巨人 1
2026年1月20日 10:18:56 山东省淄博市 26F
回复

求问能过滤只下特定版本的包不？
- 湮灭之光 1
  2026年1月27日 18:09:41 上海市 B1
  回复
  
  @ 小巨人想下指定版本的包得自己改过滤逻辑吧？比如正则匹配文件名
意识迷宫 0
2026年1月21日 16:35:12 广东省广州市 27F
回复

直接wget确实慢，但简单粗暴能跑就行
TheFakeExtrovert 1
2026年1月23日 17:50:06 日本 28F
回复

用requests+bs4抓链接，这思路还挺巧的
对不起我错了 0
2026年1月28日 20:15:56 河南省洛阳市 29F
回复

这脚本跑起来太慢了，串行下载真的顶不住
四季小屋 0
2026年1月29日 08:26:14 广东省广州市 30F
回复

符号链接问题坑死我了，拼完路径一堆404
夜晚的街灯 0
2026年1月30日 00:23:53 上海市 31F
回复

有人试过用aria2吗？感觉比wget稳还快
黑暗之魂 0
2026年1月31日 18:07:18 福建省厦门市 32F
回复

createrepo那步真不能漏，不然yum装不了包
午夜独醒 1
2026年2月1日 10:05:10 陕西省西安市 33F
回复

循环里加个sleep吧，不然容易被163限速
沉睡兽 1
2026年2月2日 13:52:34 日本 34F
回复

新手问下，下载完直接放http目录就行了吗？
孤星旅人 0
2026年2月4日 14:23:51 日本 35F
回复

限速+随机延时比较稳妥，别把人家源打挂了😅
暗影主宰 0
2026年2月5日 16:26:10 辽宁省 36F
回复

Python3的话os.popen换成subprocess更靠谱吧

Python下载163yum源文件

热门话题

ToDesk 远程控制软件首个稳定版本发布

ActiveMQ任意文件写入漏洞利用（CVE-2016-3088）

Scallion：一款基于GPU的Onion哈希生成器

浅谈信息收集

发表评论

热门搜索

热门话题

ToDesk 远程控制软件 首个稳定版本发布

ActiveMQ任意文件写入漏洞利用（CVE-2016-3088）

Scallion：一款基于GPU的Onion哈希生成器

浅谈信息收集

发表评论

ToDesk 远程控制软件首个稳定版本发布