新闻中心
使用 Python 递归提取网站所有链接

本文将介绍如何使用 Python 的 `requests` 和 `re` 模块递归地提取网站上的所有链接。通过改进原始代码,解决了无限循环的问题,并添加了最大深度限制,确保程序能够有效地抓取链接,避免陷入死循环。同时,代码进行了优化,提高了可读性和可维护性。
递归爬取网站链接
网络爬虫是一种自动浏览互联网并提取信息的程序。递归爬虫通过不断访问链接来发现新的链接,直到达到预定的深度或满足特定条件。在 Python 中,我们可以使用 requests 库来获取网页内容,re 库来提取链接。
代码实现
以下是一个改进后的 Python 脚本,用于递归提取网站上的所有链接:
DaGaoPeng(大高朋网团购程序)
大高朋团购系统是一套Groupon模式的开源团购程序,开发的一套网团购程序,系统采用ASP+ACCESS开发的团购程序,安装超简,功能超全面,在保留大高朋团购系统版权的前提下,允许所有用户免费使用。大高朋团购系统内置多种主流在线支付接口,所有网银用户均可无障碍支付;短信发送团购券和实物团购快递发货等。 二、为什么选择大高朋团购程序系统? 1.功能强大、细节完善 除了拥有主流团购网站功能,更特别支
0
查看详情
import requests
import re
from urllib.parse import urljoin, urlparse
def extract_links_from(url):
"""
从给定的 URL 中提取所有 href 链接。
"""
try:
response = requests.get(url, timeout=5) # 添加超时时间
if response.status_code != 200:
print(f"Error: Status code {response.status_code} for {
url}")
return []
content = str(response.content, 'utf-8', errors='ignore') # 指定编码,忽略错误
links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)
return links
except requests.exceptions.RequestException as e:
print(f"Error fetching {url}: {e}")
return []
def crawl(url, domain, visited=set(), max_depth=5):
"""
递归地爬取网站链接。
Args:
url: 起始 URL。
domain: 网站域名,用于过滤外部链接。
visited: 已经访问过的 URL 集合,防止重复访问。
max_depth: 最大递归深度。
Returns:
所有提取到的链接列表。
"""
if max_depth == 0 or url in visited:
return []
visited.add(url)
href_links = extract_links_from(url)
links_list = []
for link in href_links:
link = urljoin(url, link.split("#")[0]) # 处理锚点链接
parsed_link = urlparse(link)
if parsed_link.netloc == domain and link not in visited:
links_list.append(link)
links_list.extend(crawl(link, domain, visited, max_depth - 1))
return links_list
# 示例用法
target_url = "https://www.free-power-point-templates.com/"
parsed_url = urlparse(target_url)
domain = parsed_url.netloc
result = crawl(target_url, domain)
# 去重
result = list(set(result))
print(result)代码详解
-
extract_links_from(url) 函数:
- 使用 requests.get(url) 获取网页内容。添加了 timeout 参数,防止请求超时。
- 检查 HTTP 状态码,如果不是 200,则返回空列表,避免处理错误页面。
- 使用 re.findall() 和正则表达式 r'(?:href=")(.*?)"' 提取所有 href 属性的值。
- 对网页内容进行解码,指定编码为'utf-8',并忽略解码错误,防止因编码问题导致程序崩溃。
-
crawl(url, domain, visited=set(), max_depth=5) 函数:
- 递归终止条件: 当达到最大深度 max_depth 或 URL 已经访问过时,停止递归。
- 使用 visited 集合来跟踪已经访问过的 URL,防止无限循环。
- 使用 urljoin() 函数将相对 URL 转换为绝对 URL。
- 使用 urlparse() 函数解析 URL,获取域名,用于过滤外部链接。
- 递归调用 crawl() 函数,并将 max_depth 减 1。
注意事项
- robots.txt: 在抓取网站之前,请务必查看网站的 robots.txt 文件,了解网站的爬取规则。
- 频率限制: 不要过于频繁地访问网站,以免给服务器带来过大的压力。可以添加延时,例如 time.sleep(1)。
- 异常处理: 增加异常处理机制,例如处理 requests.exceptions.RequestException 异常。
- 编码问题: 确保正确处理网页的编码,避免出现乱码。
- 最大深度: 设置合适的 max_depth,避免爬虫陷入过深的链接中。
- 去重: 递归爬取后,结果中可能存在重复链接,可以使用 set() 进行去重。
总结
本文介绍了如何使用 Python 的 requests 和 re 模块递归地提取网站上的所有链接。通过添加终止条件、使用 visited 集合、处理异常和设置最大深度,可以有效地解决无限循环的问题,并确保程序能够正确地抓取链接。在实际应用中,请务必遵守网站的爬取规则,并合理设置爬取频率,以免给服务器带来不必要的负担。
以上就是使用 Python 递归提取网站所有链接的详细内容,更多请关注其它相关文章!
# 可以使用
# 怎么看小红书关键词排名
# 秦皇岛seo服务商
# 三农论文网站建设
# 珠海医疗网站推广
# 网站优化推广厂商有哪些
# seo440
# 新郑企业网站建设推广
# 上海短视频seo代理
# 了解网站建设
# 新人如何优化网站
# 如何实现
# 如何使用
# 解决方法
# python
# 重写
# 有效地
# 自定义
# 团购
# 递归
# .net
# 状态码
# 爬虫
# ai
# app
# 编码
# 网络爬虫
# 正则表达式
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
漫蛙2在线漫画入口 漫蛙正版漫画网页版直达
文心一言怎样用批量生成做多版文案_文心一言用批量生成做多版文案【批量创作】
yandex入口引擎手机版 yandex安卓版下载入口
Win11 USB传输速度慢怎么解决 Win11 USB驱动更新与设置
Golang如何优化CPU绑定任务分配策略_Golang CPU任务分配优化实践
百度浏览器字体显示异常偏小_百度浏览器字体渲染修复方案
“音游” × “怪文书” 题材的节奏冒险游戏 《晕晕电波症候群》确定于2026年4月发售!
抖音网页版平台入口 抖音网页版官网在线访问教程
windows10怎么查看硬盘序列号_windows10硬盘id查询命令
知音漫客官网漫画下载_知音漫客网页版阅读记录
J*aScript中针对特定容器内图片动画的实现教程
抖音网页版快捷访问 抖音网页版网页版入口操作教程
怎样把文件彻底粉碎无法恢复_Windows下安全删除敏感数据【隐私保护】
痛风发作了怎么办? 快速止痛和后期饮食调理
CSS图片焦点样式实现教程:理解与应用tabindex属性
Golang如何使用const iota_Go iota常量计数器讲解
c++中的std::forward_list和std::list有什么不同_c++ forward_list与list区别分析
C++指针和引用有什么区别_C++内存管理核心概念深度解析
高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】
Android Studio计算器C键功能异常排查与修复教程
C++如何进行游戏物理模拟_使用Box2D库为C++游戏添加2D物理效果
如何设置Windows Defender的定时扫描_计划任务实现自动杀毒【安全】
QQ网页版官方账号入口 QQ网页版网页版登录指南
Go语言中的*string:深入理解字符串指针
CSS布局中意外空白:解决padding-top导致的顶部间距问题
如何在J*a中使用Locale处理多语言环境
Composer中的^和~符号代表什么_精通Composer版本号语义化约束
Composer的 archive 命令怎么用_快速打包你的PHP项目及其Composer依赖
夸克浏览器网页版最新地址 夸克浏览器官方入口合集
从OpenAI API响应中高效提取生成文本
C++如何操作大型数据集_使用C++流式处理(Streaming)技术避免一次性加载大文件
支付宝如何设置安全保护_支付宝安全设置的全面教程
多闪网页版在线观看免费入口_多闪官网访问入口
漫蛙MANWA漫画主页官方入口 漫蛙漫画最新在线阅读地址
J*aScript实现单选按钮与关联输入框的联动禁用教程
在J*a中如何开发简易博客标签推荐系统_博客标签推荐项目实战解析
QQ邮箱正确登录入口_QQ邮箱官方网站使用地址
C++20的source_location是什么_C++在编译期获取源码位置信息用于日志和断言
如何在Promise链中优雅地中断后续then执行
Basecamp怎样用留言钉固定重点_Basecamp用留言钉固定重点【重点标记】
QQ邮箱官方网站登录入口_QQ邮箱网页版在线使用
J*aScript中在Map循环中检测并处理空数组元素
mysql密码锁定怎么解锁_mysql密码锁定解锁后修改密码步骤
Golang如何实现Web文件静态资源服务器_Golang静态资源服务器开发与实践
在Pyomo中实现基于变量的条件约束:Big-M方法详解
qq游戏免费畅玩入口_qq游戏电脑版快速启动
VS Code远程开发时如何处理文件权限问题
解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException
Django表单验证失败时保留用户输入数据的最佳实践
抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩


2025-10-31
浏览次数:次
返回列表
url}")
return []
content = str(response.content, 'utf-8', errors='ignore') # 指定编码,忽略错误
links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)
return links
except requests.exceptions.RequestException as e:
print(f"Error fetching {url}: {e}")
return []
def crawl(url, domain, visited=set(), max_depth=5):
"""
递归地爬取网站链接。
Args:
url: 起始 URL。
domain: 网站域名,用于过滤外部链接。
visited: 已经访问过的 URL 集合,防止重复访问。
max_depth: 最大递归深度。
Returns:
所有提取到的链接列表。
"""
if max_depth == 0 or url in visited:
return []
visited.add(url)
href_links = extract_links_from(url)
links_list = []
for link in href_links:
link = urljoin(url, link.split("#")[0]) # 处理锚点链接
parsed_link = urlparse(link)
if parsed_link.netloc == domain and link not in visited:
links_list.append(link)
links_list.extend(crawl(link, domain, visited, max_depth - 1))
return links_list
# 示例用法
target_url = "https://www.free-power-point-templates.com/"
parsed_url = urlparse(target_url)
domain = parsed_url.netloc
result = crawl(target_url, domain)
# 去重
result = list(set(result))
print(result)