新闻中心

使用 Python 递归提取网站所有链接

2025-10-31
浏览次数:
返回列表

使用 python 递归提取网站所有链接

本文将介绍如何使用 Python 的 `requests` 和 `re` 模块递归地提取网站上的所有链接。通过改进原始代码,解决了无限循环的问题,并添加了最大深度限制,确保程序能够有效地抓取链接,避免陷入死循环。同时,代码进行了优化,提高了可读性和可维护性。

递归爬取网站链接

网络爬虫是一种自动浏览互联网并提取信息的程序。递归爬虫通过不断访问链接来发现新的链接,直到达到预定的深度或满足特定条件。在 Python 中,我们可以使用 requests 库来获取网页内容,re 库来提取链接。

代码实现

以下是一个改进后的 Python 脚本,用于递归提取网站上的所有链接:

DaGaoPeng(大高朋网团购程序) DaGaoPeng(大高朋网团购程序)

大高朋团购系统是一套Groupon模式的开源团购程序,开发的一套网团购程序,系统采用ASP+ACCESS开发的团购程序,安装超简,功能超全面,在保留大高朋团购系统版权的前提下,允许所有用户免费使用。大高朋团购系统内置多种主流在线支付接口,所有网银用户均可无障碍支付;短信发送团购券和实物团购快递发货等。 二、为什么选择大高朋团购程序系统? 1.功能强大、细节完善 除了拥有主流团购网站功能,更特别支

DaGaoPeng(大高朋网团购程序) 0 查看详情 DaGaoPeng(大高朋网团购程序)
import requests
import re
from urllib.parse import urljoin, urlparse

def extract_links_from(url):
    """
    从给定的 URL 中提取所有 href 链接。
    """
    try:
        response = requests.get(url, timeout=5) # 添加超时时间
        if response.status_code != 200:
            print(f"Error: Status code {response.status_code} for {url}")
            return []
        content = str(response.content, 'utf-8', errors='ignore') # 指定编码,忽略错误
        links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)
        return links
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return []


def crawl(url, domain, visited=set(), max_depth=5):
    """
    递归地爬取网站链接。

    Args:
        url: 起始 URL。
        domain: 网站域名,用于过滤外部链接。
        visited: 已经访问过的 URL 集合,防止重复访问。
        max_depth: 最大递归深度。

    Returns:
        所有提取到的链接列表。
    """
    if max_depth == 0 or url in visited:
        return []

    visited.add(url)
    href_links = extract_links_from(url)
    links_list = []

    for link in href_links:
        link = urljoin(url, link.split("#")[0])  # 处理锚点链接
        parsed_link = urlparse(link)
        if parsed_link.netloc == domain and link not in visited:
            links_list.append(link)
            links_list.extend(crawl(link, domain, visited, max_depth - 1))
    return links_list

# 示例用法
target_url = "https://www.free-power-point-templates.com/"
parsed_url = urlparse(target_url)
domain = parsed_url.netloc

result = crawl(target_url, domain)
# 去重
result = list(set(result))
print(result)

代码详解

  1. extract_links_from(url) 函数:
    • 使用 requests.get(url) 获取网页内容。添加了 timeout 参数,防止请求超时。
    • 检查 HTTP 状态码,如果不是 200,则返回空列表,避免处理错误页面。
    • 使用 re.findall() 和正则表达式 r'(?:href=")(.*?)"' 提取所有 href 属性的值。
    • 对网页内容进行解码,指定编码为'utf-8',并忽略解码错误,防止因编码问题导致程序崩溃。
  2. crawl(url, domain, visited=set(), max_depth=5) 函数:
    • 递归终止条件: 当达到最大深度 max_depth 或 URL 已经访问过时,停止递归。
    • 使用 visited 集合来跟踪已经访问过的 URL,防止无限循环。
    • 使用 urljoin() 函数将相对 URL 转换为绝对 URL。
    • 使用 urlparse() 函数解析 URL,获取域名,用于过滤外部链接。
    • 递归调用 crawl() 函数,并将 max_depth 减 1。

注意事项

  • robots.txt: 在抓取网站之前,请务必查看网站的 robots.txt 文件,了解网站的爬取规则。
  • 频率限制: 不要过于频繁地访问网站,以免给服务器带来过大的压力。可以添加延时,例如 time.sleep(1)。
  • 异常处理: 增加异常处理机制,例如处理 requests.exceptions.RequestException 异常。
  • 编码问题: 确保正确处理网页的编码,避免出现乱码。
  • 最大深度: 设置合适的 max_depth,避免爬虫陷入过深的链接中。
  • 去重: 递归爬取后,结果中可能存在重复链接,可以使用 set() 进行去重。

总结

本文介绍了如何使用 Python 的 requests 和 re 模块递归地提取网站上的所有链接。通过添加终止条件、使用 visited 集合、处理异常和设置最大深度,可以有效地解决无限循环的问题,并确保程序能够正确地抓取链接。在实际应用中,请务必遵守网站的爬取规则,并合理设置爬取频率,以免给服务器带来不必要的负担。

以上就是使用 Python 递归提取网站所有链接的详细内容,更多请关注其它相关文章!


# 可以使用  # 怎么看小红书关键词排名  # 秦皇岛seo服务商  # 三农论文网站建设  # 珠海医疗网站推广  # 网站优化推广厂商有哪些  # seo440  # 新郑企业网站建设推广  # 上海短视频seo代理  # 了解网站建设  # 新人如何优化网站  # 如何实现  # 如何使用  # 解决方法  # python  # 重写  # 有效地  # 自定义  # 团购  # 递归  # .net  # 状态码  # 爬虫  # ai  # app  # 编码  # 网络爬虫  # 正则表达式 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 漫蛙2在线漫画入口 漫蛙正版漫画网页版直达  文心一言怎样用批量生成做多版文案_文心一言用批量生成做多版文案【批量创作】  yandex入口引擎手机版 yandex安卓版下载入口  Win11 USB传输速度慢怎么解决 Win11 USB驱动更新与设置  Golang如何优化CPU绑定任务分配策略_Golang CPU任务分配优化实践  百度浏览器字体显示异常偏小_百度浏览器字体渲染修复方案  “音游” × “怪文书” 题材的节奏冒险游戏 《晕晕电波症候群》确定于2026年4月发售!  抖音网页版平台入口 抖音网页版官网在线访问教程  windows10怎么查看硬盘序列号_windows10硬盘id查询命令  知音漫客官网漫画下载_知音漫客网页版阅读记录  J*aScript中针对特定容器内图片动画的实现教程  抖音网页版快捷访问 抖音网页版网页版入口操作教程  怎样把文件彻底粉碎无法恢复_Windows下安全删除敏感数据【隐私保护】  痛风发作了怎么办? 快速止痛和后期饮食调理  CSS图片焦点样式实现教程:理解与应用tabindex属性  Golang如何使用const iota_Go iota常量计数器讲解  c++中的std::forward_list和std::list有什么不同_c++ forward_list与list区别分析  C++指针和引用有什么区别_C++内存管理核心概念深度解析  高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】  Android Studio计算器C键功能异常排查与修复教程  C++如何进行游戏物理模拟_使用Box2D库为C++游戏添加2D物理效果  如何设置Windows Defender的定时扫描_计划任务实现自动杀毒【安全】  QQ网页版官方账号入口 QQ网页版网页版登录指南  Go语言中的*string:深入理解字符串指针  CSS布局中意外空白:解决padding-top导致的顶部间距问题  如何在J*a中使用Locale处理多语言环境  Composer中的^和~符号代表什么_精通Composer版本号语义化约束  Composer的 archive 命令怎么用_快速打包你的PHP项目及其Composer依赖  夸克浏览器网页版最新地址 夸克浏览器官方入口合集  从OpenAI API响应中高效提取生成文本  C++如何操作大型数据集_使用C++流式处理(Streaming)技术避免一次性加载大文件  支付宝如何设置安全保护_支付宝安全设置的全面教程  多闪网页版在线观看免费入口_多闪官网访问入口  漫蛙MANWA漫画主页官方入口 漫蛙漫画最新在线阅读地址  J*aScript实现单选按钮与关联输入框的联动禁用教程  在J*a中如何开发简易博客标签推荐系统_博客标签推荐项目实战解析  QQ邮箱正确登录入口_QQ邮箱官方网站使用地址  C++20的source_location是什么_C++在编译期获取源码位置信息用于日志和断言  如何在Promise链中优雅地中断后续then执行  Basecamp怎样用留言钉固定重点_Basecamp用留言钉固定重点【重点标记】  QQ邮箱官方网站登录入口_QQ邮箱网页版在线使用  J*aScript中在Map循环中检测并处理空数组元素  mysql密码锁定怎么解锁_mysql密码锁定解锁后修改密码步骤  Golang如何实现Web文件静态资源服务器_Golang静态资源服务器开发与实践  在Pyomo中实现基于变量的条件约束:Big-M方法详解  qq游戏免费畅玩入口_qq游戏电脑版快速启动  VS Code远程开发时如何处理文件权限问题  解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException  Django表单验证失败时保留用户输入数据的最佳实践  抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩 

搜索