Python网络爬虫：高效处理分页数据与Pandas Excel存储实践

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

Python网络爬虫：高效处理分页数据与Pandas Excel存储实践

2025-11-21

浏览次数：次

返回列表

Python网络爬虫：高效处理分页数据与Pandas Excel存储实践

本教程旨在解决python网络爬虫中处理分页数据和数据持久化到excel的常见问题。文章将详细指导如何构建分页url、循环遍历多页、使用列表字典结构高效收集数据，并利用pandas的`excelwriter`一次性将所有抓取结果准确保存到excel文件，从而避免文件覆盖、`filenotfounderror`等错误，提升爬虫的健壮性和效率。

在进行网页抓取时，处理包含多页内容的网站是一个普遍的需求。然而，在实现分页抓取并将其结果保存到文件时，开发者经常会遇到一些挑战，例如如何正确地迭代所有页面、如何避免文件在循环中被意外覆盖，以及如何处理FileNotFoundError等文件操作异常。本教程将通过一个实际案例，详细阐述如何构建一个高效且健壮的分页爬虫，并将抓取到的结构化数据保存到Excel文件中。

一、理解分页抓取的核心策略

分页抓取的核心在于识别并构造不同页面的URL，然后通过循环依次请求这些URL，提取数据。

1. 构建分页URL

大多数网站的分页URL都遵循一定的模式，通常包含一个表示页码的参数。例如，https://www.example.com/catalog/?q=item&page={n}，其中{n}是页码。我们需要观察目标网站的URL结构，找出这个规律。

# 示例：构建分页URL
base_url = "https://www.jumia.ma/catalog/?q=pc&page="
page_number = 1
url = f"{base_url}{page_number}#catalog-listing"

2. 循环控制与页面请求

使用while循环是实现分页抓取的常见方式。在每次循环中，我们更新页码，构造新的URL，然后发送HTTP请求获取页面内容。

import requests
import time

def fetch_page_content(page_num):
    url = f"https://www.jumia.ma/catalog/?q=pc&page={page_num}#catalog-listing"
    try:
        html_text = requests.get(url).text
        return html_text
    except requests.exceptions.RequestException as e:
        print(f"请求页面 {page_num} 失败: {e}")
        return None

# 示例循环结构
max_pages = 5 # 假设最多抓取5页
current_page = 1
while current_page <= max_pages:
    page_content = fetch_page_content(current_page)
    if page_content:
        # 在这里处理页面内容
        pass
    current_page += 1
    time.sleep(2) # 添加延迟，避免对服务器造成过大压力

3. 请求延迟与网站友好性

在进行网络爬取时，务必添加适当的延迟（time.sleep()）以模拟人类行为，避免在短时间内发送大量请求，这可能导致IP被封禁或对目标网站造成不必要的负担。同时，建议查阅网站的robots.txt文件，了解其爬取政策。

二、高效数据收集与结构化

在循环中收集数据时，避免在每次迭代都创建一个新的DataFrame并追加到文件，这种方式效率低下且容易出错。更推荐的做法是，在循环内部将每页的数据收集到一个临时的结构中，待所有页面抓取完毕后，再统一处理和保存。

1. 使用列表字典存储数据

将每条抓取到的记录存储为一个字典，然后将这些字典添加到列表中。这种“列表字典”的结构非常适合后续转换为Pandas DataFrame。

from bs4 import BeautifulSoup
from bs4 import Tag # 导入Tag类型用于类型检查

def parse_page_data(html_content):
    soup = BeautifulSoup(html_content, "lxml")
    computers = soup.find_all("a", class_="core")
    page_data = []
    for computer in computers:
        name_element = computer.find("h3", class_="name")
        price_element = computer.find("div", class_="prc")
        original_price_element = computer.find("div", class_="old")
        promo_element = computer.find("div", class_="bdg _dsct _sm")

        # 健壮的数据提取：检查元素是否存在
        name = name_element.text.strip() if name_element else "N/A"
        price = price_element.text.strip() if price_element else "N/A"
        original_price = original_price_element.text.strip() if original_price_element else "N/A"
        promo = promo_element.text.strip() if promo_element else "N/A"

        page_data.append({
            'name': name,
            'price': price,
            'original_price': original_price,
            'promo': promo
        })
    return page_data

# 整合到分页循环中
all_data = []
max_pages = 5
current_page = 1
while current_page <= max_pages:
    html_content = fetch_page_content(current_page)
    if html_content:
        page_records = parse_page_data(html_content)
        all_data.extend(page_records) # 将当前页的数据添加到总列表中
    current_page += 1
    time.sleep(2)

健壮的元素查找与数据提取： 在抓取过程中，某些HTML元素可能在特定页面或特定商品上不存在。直接访问.text或.strip()会导致AttributeError。因此，在访问元素的属性前，应先判断元素是否存在，例如使用if element: element.text.strip() else "N/A"。

三、使用Pandas将数据保存到Excel

当所有数据都收集到一个列表中后，使用Pandas将其转换为DataFrame并保存到Excel就变得非常简单和高效。

CA.LA

第一款时尚产品在线设计平台，服装设计系统

94 查看详情 CA.LA

1. pd.DataFrame的创建

从列表字典创建DataFrame是Pandas的常见操作。

import pandas as pd

# 假设 all_data 已经包含了所有抓取到的数据
df = pd.DataFrame(all_data)

2. pd.ExcelWriter的使用

pd.ExcelWriter是Pandas用于写入Excel文件的推荐方式。它提供了灵活的写入选项，并且能确保文件操作的正确性。

避免常见文件写入错误： 原始代码中出现的FileNotFoundError: [Errno 2] No such file or directory: 'output.xlsx'错误，通常是由于尝试以追加模式（mode='a'）打开一个尚不存在的文件时，内部机制未能正确处理。当文件不存在时，最简单的做法是让pd.ExcelWriter默认创建它，而不是强制指定追加模式。

如果需要完全覆盖现有文件或创建新文件，最简洁且推荐的方式是：

# 假设 df 已经包含了所有需要保存的数据
output_filename = "output.xlsx"
with pd.ExcelWriter(output_filename) as writer:
    df.to_excel(writer, sheet_name="sheet1", index=False) # index=False 避免将DataFrame索引写入Excel

这种方式会在文件不存在时创建它，如果文件已存在则会完全覆盖。对于分页抓取，通常是先抓取所有数据，然后一次性写入，所以这种覆盖模式是合适的。

如果确实需要在现有文件中追加数据到新工作表，并且确保文件存在，可以先创建文件，或使用mode='a'和if_sheet_exists='replace'（或'new'、'overlay'），但这需要确保文件路径是正确的，且openpyxl引擎能找到文件。对于本例，一次性写入所有数据更简单。

四、完整示例代码

结合上述策略，以下是优化后的分页抓取并保存到Excel的完整代码：

import pandas as pd
from bs4 import BeautifulSoup
import requests
import time

def find_computers():
    """
    抓取Jumia网站PC分类下多页的电脑信息。
    """
    all_collected_data = [] # 用于存储所有页面抓取到的数据
    max_pages = 5 # 设置要抓取的最大页数，可以根据实际情况调整

    current_page = 1
    while current_page <= max_pages:
        print(f"正在抓取第 {current_page} 页...")
        url = f"https://www.jumia.ma/catalog/?q=pc&page={current_page}#catalog-listing"

        try:
            html_text = requests.get(url, timeout=10).text # 增加请求超时
            soup = BeautifulSoup(html_text, "lxml")
            computers = soup.find_all("a", class_="core")

            if not computers:
                print(f"第 {current_page} 页未找到商品，可能已达最后一页或页面结构改变。")
                break # 如果当前页没有找到商品，则认为已到达最后一页，停止循环

            for computer in computers:
                name_element = computer.find("h3", class_="name")
                price_element = computer.find("div", class_="prc")
                original_price_element = computer.find("div", class_="old")
                promo_element = computer.find("div", class_="bdg _dsct _sm")

                # 健壮性检查：确保元素存在才提取文本
                name = name_element.text.strip() if name_element else "N/A"
                price = price_element.text.strip() if price_element else "N/A"
                original_price = original_price_element.text.strip() if original_price_element else "N/A"
                promo = promo_element.text.strip() if promo_element else "N/A"

                all_collected_data.append({
                    'name': name,
                    'price': price,
                    'original_price': original_price,
                    'promo': promo
                })
        except requests.exceptions.RequestException as e:
            print(f"请求第 {current_page} 页失败: {e}")
        except Exception as e:
            print(f"处理第 {current_page} 页时发生错误: {e}")

        current_page += 1
        time.sleep(6) # 每次请求后暂停6秒，避免请求过于频繁

    return all_collected_data

if __name__ == "__main__":
    print("开始抓取数据...")
    data_to_s*e = find_computers()

    if data_to_s*e:
        df = pd.DataFrame(data_to_s*e)
        output_filename = "output.xlsx"
        try:
            with pd.ExcelWriter(output_filename, engine="openpyxl") as writer:
                df.to_excel(writer, sheet_name="sheet1", index=False)
            print(f"所有数据已成功保存到 {output_filename} 的 'sheet1' 中。")
        except Exception as e:
            print(f"保存数据到Excel时发生错误: {e}")
    else:
        print("未抓取到任何数据，未生成Excel文件。")

五、注意事项与最佳实践

遵守网站规则： 在进行任何网络爬取之前，请务必阅读目标网站的robots.txt文件和使用条款，确保您的行为合法合规。
错误处理： 在代码中加入try-except块来处理网络请求失败、HTML元素缺失等潜在错误，提高程序的健壮性。
请求延迟： 严格控制请求频率，使用time.sleep()函数添加延迟，避免给目标网站服务器带来过大压力，降低被封禁的风险。
数据结构化： 优先使用列表字典来收集数据，因为它能自然地映射到Pandas DataFrame的行和列结构。
一次性写入： 对于分页抓取，通常建议在所有数据收集完毕后，一次性将其写入文件，而不是在循环中频繁地打开和关闭文件或追加数据，这可以提高效率并减少文件操作的复杂性。
index=False： 在使用df.to_excel()时，通常会设置index=False以避免将Pandas DataFrame的默认索引写入Excel文件，除非您确实需要。

通过遵循本教程中的方法和最佳实践，您可以构建出更高效、更稳定的Python网络爬虫，并有效地管理抓取到的数据。

以上就是Python网络爬虫：高效处理分页数据与Pandas Excel存储实践的详细内容，更多请关注其它相关文章！

# 多页 # 免费网站建设套餐 # 石家庄网站建设推广设计 # 阜阳网站首页优化怎么做 # 站点营销与整合推广 # 计算机网站建设推广优化 # 灵武百度网站优化 # 黄埔网站推广优化建设 # 赤水网站建设好吗 # 天津推广网络营销特点 # 关键词排名商家查询 # 列表中 # 转换为 # 这可 # 过大 # excel # 不存在 # 数据结构 # 将其 # 结构化 # 分页 # html元素 # 常见问题 # 爬虫 # ai # 电脑 # app # 网络爬虫 # html # python

相关栏目：【科技资讯46185 】【网络学院92790 】

上一篇：如何用Golang搭建跨平台开发环境_Golang 跨平台环境配置实践

下一篇：Golang如何处理多文件上传_Golang 多文件上传实践

首页

关于我们

产品展示

咨询研究

新闻中心

留言板

联系我们

新闻中心 NEWS CENTER

Python网络爬虫：高效处理分页数据与Pandas Excel存储实践

一、理解分页抓取的核心策略

1. 构建分页URL

2. 循环控制与页面请求

3. 请求延迟与网站友好性

二、高效数据收集与结构化

1. 使用列表字典存储数据

三、使用Pandas将数据保存到Excel

1. pd.DataFrame的创建

2. pd.ExcelWriter的使用

四、完整示例代码

五、注意事项与最佳实践