新闻中心

使用BeautifulSoup高效抓取多URL数据:避免覆盖与处理分页

2025-12-05
浏览次数:
返回列表

使用BeautifulSoup高效抓取多URL数据:避免覆盖与处理分页

本教程旨在解决使用beautifulsoup从多个url抓取数据时,常见的数据覆盖问题。文章将详细阐述如何通过将每次循环获取的数据累积到列表中来有效存储,并进一步介绍如何结合循环逻辑处理网站分页,从而实现对目标网站全面且结构化的数据提取。

在进行网络数据抓取时,我们经常需要从多个相似的网页中提取信息。例如,从多个航空公司的评论页面抓取用户评价。然而,一个常见的陷阱是,当我们在循环中处理每个URL时,如果不对数据进行适当的累积,往往只会保留最后一个URL的数据,而之前的数据则会被覆盖。本文将深入探讨这一问题,并提供两种解决方案:一是通过列表累积数据,二是通过结合分页处理获取网站所有页面数据。

核心问题分析:数据覆盖的根源

原始代码片段展示了一个典型的错误:

for ending in endings:
    url = base_url + ending
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html.parser')
    results = soup.find('div', id='container') # 每次循环都会重新赋值
# ...
titles = results.find_all('h2', class_='text_header') # 每次循环都会重新赋值
# ...
for title in titles:
    print(title, end="\n"*2) # 仅打印当前(最后一次循环)的titles

问题出在 results 和 titles 这两个变量。在 for ending in endings: 循环的每次迭代中,它们都会被当前URL抓取到的新数据所覆盖。当循环结束后,results 和 titles 变量中存储的,仅仅是最后一个URL(在本例中是“alaska-airlines”)对应的数据。之前所有航空公司的数据都被丢弃了。

解决方案一:累积数据到列表

要解决数据覆盖问题,关键在于在循环开始前初始化一个空的数据结构(例如列表),然后在每次循环中将提取到的数据追加到这个结构中。这样,所有URL的数据都能被保存下来。

以下是使用列表累积数据的改进代码示例,它不仅解决了数据覆盖问题,还优化了数据提取方式,并增加了错误处理机制:

Mistral AI Mistral AI

Mistral AI被称为“欧洲版的OpenAI”,也是目前欧洲最强的 LLM 大模型平台

Mistral AI 182 查看详情 Mistral AI
import requests
from bs4 import BeautifulSoup
import pandas as pd # 导入Pandas用于数据整理
import time # 导入time模块用于设置请求间隔

# 定义基础URL和航空公司后缀
base_url = 'https://www.airlinequality.com/airline-reviews/'
endings = ['american-airlines', 'delta-air-lines', 'united-airlines',
           'southwest-airlines', 'alaska-airlines']

# 初始化一个空列表,用于存储所有抓取到的评论数据
all_reviews_data = []

# 遍历每个航空公司的URL后缀
for ending in endings:
    url = base_url + ending
    print(f"正在抓取 {ending} ({url}) 的评论数据...")

    try:
        # 发送HTTP GET请求,并设置超时时间
        r = requests.get(url, timeout=10)
        # 检查请求是否成功(状态码200)
        r.raise_for_status() 
    except requests.exceptions.RequestException as e:
        print(f"请求 {url} 失败: {e},跳过当前航空公司。")
        time.sleep(1) # 请求失败也稍作等待
        continue # 跳过当前URL,继续处理下一个

    # 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(r.content, 'html.parser')

    # 使用CSS选择器更精确地定位评论区块
    # 'article[itemprop="review"]' 通常能定位到每个独立的评论容器
    reviews = soup.select('article[itemprop="review"]')

    if not reviews:
        print(f"在 {url} 未找到评论。")
        time.sleep(1)
        continue

    for review_item in reviews:
        # 提取评论标题
        title_element = review_item.h2
        title = title_element.text.strip() if title_element else "N/A"

        # 提取评论星级评分
        rating_element = review_item.select_one('span[itemprop="ratingValue"]')
        rating = rating_element.text.strip() if rating_element else "N/A"

        # 将提取到的数据以字典形式添加到列表中
        all_reviews_data.append({
            'airline': ending,
            'title': title,
            'rating': rating
        })

    time.sleep(2) # 设置请求间隔,避免对服务器造成过大压力

print("\n所有航空公司评论数据抓取完成。")

# 将列表转换为Pandas DataFrame,便于后续的数据分析、筛选和导出
df = pd.DataFrame(all_reviews_data)
print("部分抓取结果:")
print(df.head())
print(f"\n共抓取到 {len(df)} 条评论数据。")

代码解析与优化点:

  • all_reviews_data = []: 在循环外部初始化一个空列表,这是确保所有数据被收集的关键。
  • all_reviews_data.append({...}): 在内层循环中,每次成功提取一个评论的数据后,将其以字典的形式追加到 all_reviews_data 列表中。
  • soup.select('article[itemprop="review"]'): 相较于 find 和 find_all 的组合,使用CSS选择器 select (或 select_one) 通常更为简洁和高效,能够更精确地定位到目标元素。这里直接定位到每个带有 itemprop="review" 属性的 article 标签,这些标签通常是独立评论的容器。
  • 错误处理: 增加了 try-except requests.exceptions.RequestException 块来捕获网络请求可能出现的错误(如连接超时、DNS解析失败等),提高了代码的健壮性。
  • 数据清洗与健壮性: 使用 .strip() 清除文本两端的空白符。通过 if element else "N/A" 的方式,避免因某些元素不存在而导致程序崩溃,并用“N/A”填充缺失值。
  • 请求间隔: time.sleep(2) 在每次请求之间设置了2秒的延迟,这是爬虫的良好实践,有助于避免对目标网站造成过大压力,降低被封禁的风险。
  • Pandas DataFrame: 抓取到的结构化数据非常适合转换为Pandas DataFrame,这为后续的数据清洗、分析和导出(如保存为CSV、Excel文件)提供了极大的便利。

解决方案二:处理多页数据抓取

许多网站的数据是分页显示的。如果仅仅抓取每个航空公司的第一个页面,会遗漏大量信息。要获取所有页面的数据,我们需要在上述单页抓取的基础上,增加一个内部循环来遍历所有分页链接。

这通常涉及以下步骤:

  1. 构建初始页面的URL:明确每个航空公司第一页的URL结构。
  2. 内层 while True 循环:用于在找到“下一页”链接时持续抓取。
  3. 查找“下一页”链接:在当前页面解析HTML,找到指向下一页的链接元素。
  4. 更新URL并继续:如果找到“下一页”链接,则更新当前页面的URL为下一页的URL,并继续内层循环。
  5. 跳出循环:如果未找到“下一页”链接,则表示已到达最后一页,跳出内层循环,开始处理下一个航空公司。
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

base_url = 'https://www.airlinequality.com' # 注意这里是网站的根域名
endings = ['american-airlines', 'delta-air-lines', 'united-airlines',
           'southwest-airlines', 'alaska-airlines']

all_reviews_data_paginated = []

# 遍历每个航空公司
for ending in endings:
    # 构建当前航空公司的第一个页面的URL
    # 注意:网站分页URL结构可能不同,需根据实际情况调整
    current_page_url = f'{base_url}/airline-reviews/{ending}/page/1/?sortby=post_date%3ADesc&pagesize=100'
    page_num = 1
    print(f"\n开始抓取航空公司: {ending} 的多页评论数据...")

    while True:
        print(f"  正在抓取 {ending} 的第 {page_num} 页: {current_page_url}")

        try:
            r = requests.get(current_page_url, timeout=15)
            r.raise_for_status()
        except requests.exceptions.RequestException as e:
            print(f"  请求 {current_page_url} 失败: {e},跳过当前航空公司剩余页面。")
            break # 当前页面失败,跳出内层循环,尝试下一个航空公司

        soup = BeautifulSoup(r.content, 'html.parser')

        reviews = soup.select('article[itemprop="review"]')
        if not reviews:
            print(f"  在 {ending} 第 {page_num} 页未找到评论,可能已到达最后一页或页面结构有变。")
            break # 如果当前页面没有评论,则认为已到末尾

        for review_item in reviews:
            title_element = review_item.h2
            rating_element = review_item.select_one('span[itemprop="ratingValue"]')

            title = title_element.text.strip() if title_element else "N/A"
            rating = rating_element.text.strip() if rating_element else "N/A"

            all_reviews_data_paginated.append({
                'airline': ending,
                'title': title,
                'rating': rating,
                'page': page_num # 记录数据来源页码
            })

        # 查找“下一页”链接
        # 示例中提供的是 'article.comp_reviews-pagination ul li

以上就是使用BeautifulSoup高效抓取多URL数据:避免覆盖与处理分页的详细内容,更多请关注其它相关文章!


# 数据结构  # 洛阳网站建设定制开发  # 杭州虚拟网站建设项目  # 朝阳建设网站公司电话  # 建瓯seo在线优化工具  # 花样跳绳seo教学  # 山东网站建设费用情况  # 江西省推广网站公司  # 湛江营销型网站推广  # 网络营销seo思维方式  # 无锡优质网站建设  # 未找到  # 第一个  # 跳过  # 这是  # 选择器  # css  # 遍历  # 多个  # 分页  # 下一页  # dns解析失败  # css选择器  # 状态码  # 数据清洗  # dns  # 爬虫  # ai  # csv  # app  # html  # excel 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: vivo浏览器怎么扫描二维码 vivo浏览器内置扫一扫功能使用方法  composer 和 npm/yarn 在管理依赖方面有什么核心思想差异?  J*aScript教程:根据元素文本内容动态设置背景色  Django通过AJAX异步上传图片并保存至模型的完整指南  PS5 Pro有点优势但不多! 《燕云十六声》PS5平台与PC性能画面对比  正确连接J*aScript到HTML实现可点击图片与自定义事件处理  基于动态规划的房屋花卉种植最小成本算法详解  铁路12306官网网页端快速入口 铁路12306官方首页登录教程  J*a里如何使用forEach遍历Map_Map遍历方法说明  c++如何实现一个简单的ECS框架_c++数据驱动设计与游戏开发  yandex入口引擎手机版 yandex安卓版下载入口  《铁拳8》黑皮辣妹新实机:元气满满的18岁少女!  poki网页游戏推荐_poki免费游戏平台入口  如何使用 Excel 发布器与 Power BI 分享 Excel 洞察  TikTok国际版官网直达_TikTok国际版官网直达进入在线观看  TypeScript/J*aScript:高效查找数组中首个唯一ID对象  腾讯QQ邮箱登录入口_QQ邮箱官方网站使用地址  妖精漫画网页版登录入口免费_妖精漫画官网主页直接阅读漫画  铃兰之剑为这和平的世界希里技能组及加点推荐  12306怎么选座位选到安静区_12306选座安静区域选择策略  百度浏览器字体显示异常偏小_百度浏览器字体渲染修复方案  处理嵌套交互式控件:前端可访问性指南  CKEditor 5 自定义构建在React应用中渲染失败的调试与解决  Node.js CSV 数据处理:基于字段值条件过滤整条记录的策略  AO3官网镜像链接 Archive of Our Own同人文在线浏览  Shopware订单对象中获取产品自定义字段的正确方法  sublime侧边栏怎么增强功能_SideBarEnhancements for sublime安装与配置  精准捕获:如何在页面中监听除特定元素外的所有点击事件  win11如何卸载Windows更新补丁 Win11解决更新导致系统不稳定的问题【修复】  将HTML Canvas内容转换为可上传的图像文件(File对象)  怎样使用“本地安全策略”提升Windows安全性_Secpol.msc配置指南【高手】  在J*a里如何理解依赖关系的方向_依赖方向在模块结构中的作用  “音游” × “怪文书” 题材的节奏冒险游戏 《晕晕电波症候群》确定于2026年4月发售!  汽水音乐网页版使用入口_汽水音乐电脑版播放指南  铁路12306卧铺选择攻略 铁路12306下铺座位预定技巧  b站赚钱渠道_b站收益来源  如何将HTML表格多行数据保存到Google Sheets  漫蛙网页登录入口 漫蛙漫画官方授权网址  css绝对定位元素脱离父容器怎么办_确保父元素position非static  b站怎么取消点赞_b站点赞取消操作方法  qq音乐在线播放入口_qq音乐电脑版登录链接  sublime如何只显示或隐藏特定类型文件_sublime侧边栏文件过滤  苹果手机指南针不准怎么校准 传感器校准方法详解【建议收藏】  曝R星经典之作开发图 设计简陋但信息密集!  最新韩小圈网页版登录入口_官网在线观看官方链接  KFC套餐升级怎么获取优惠代码_KFC套餐升级活动与优惠代码获取方法  Win11怎么查看电脑配置_Win11硬件配置检测工具使用  Sublime怎么配置Nim语言环境_Sublime Nim代码高亮与补全  抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩  C++指针和引用有什么区别_C++内存管理核心概念深度解析 

搜索