新闻中心
Python网络爬虫:处理URL不变的分页数据抓取

本文详细介绍了如何使用python处理看似静态但实际通过post请求实现分页的网页数据抓取。当url在翻页时保持不变时,传统的url枚举方法将失效。教程将指导读者如何通过分析网络请求,识别并构造post请求体中的分页参数,结合requests和beautifulsoup库,实现高效、完整的数据爬取,并将结果整理为结构化的dataframe。
引言:理解静态URL下的动态分页挑战
在进行网络数据抓取时,我们经常会遇到网站内容通过分页展示的情况。传统的分页机制通常会在URL中体现页码参数(如 page=1, page=2),这使得通过简单地修改URL即可遍历所有页面。然而,许多现代网站为了提供更流畅的用户体验,会采用AJAX技术或通过POST请求在不刷新整个页面的情况下加载新数据。这意味着即使页面内容(例如表格数据)发生变化,浏览器地址栏中的URL也可能保持不变。
对于爬虫开发者而言,这种“静态URL下的动态分页”机制带来了挑战。例如,在抓取像 https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview 这样的网站时,尽管页面上显示了数千条数据并提供了翻页功能,但实际的URL在翻页时并不会改变。此时,单纯依赖 requests.get() 和 pd.read_html() 只能获取到当前显示页面的数据,无法遍历所有页面。
核心策略:识别并模拟POST请求
解决此类问题的关键在于理解浏览器在用户点击“下一页”时实际执行了什么操作。通常,当URL不发生变化但内容更新时,浏览器会向服务器发送一个异步请求,这个请求往往是一个POST请求,并且在请求体(Request Body)中包含了控制分页、排序或筛选的参数。
我们的目标就是模拟这种POST请求:
- 识别POST请求: 使用浏览器开发者工具(如Chrome的DevTools,Network Tab),监控在翻页操作时发出的HTTP请求。
- 提取请求参数: 找到对应的POST请求,分析其请求URL和请求负载(Payload/Form Data),确定哪些参数是控制分页的关键(如 pageNum)。
- 构造请求: 在Python中使用 requests 库,构造相同的POST请求,并迭代地修改分页参数以获取不同页的数据。
Python实现步骤
以下将详细介绍如何使用Python的 requests、BeautifulSoup 和 pandas 库来抓取此类分页数据。
1. 导入所需库
首先,我们需要导入本教程将使用的Python库:
Kreado AI
Kreado AI是一个多语言AI视频创作平台,只需输入文本或关键词,即可创作真实/虚拟人物的多语言口播视频。 为创作者提供AI赋能
182
查看详情
- requests:用于发送HTTP请求。
- pandas:用于将抓取到的数据结构化为DataFrame。
- BeautifulSoup:用于解析HTML内容并提取所需数据。
import requests import pandas as pd from bs4 import BeautifulSoup import time # 建议引入,用于控制请求间隔
2. 分析POST请求参数
通过浏览器开发者工具(F12),切换到“Network”选项卡,然后尝试点击网页上的“下一页”按钮。观察新出现的请求,通常会有一个POST请求到相同的URL。点击该请求,查看其“Payload”或“Form Data”部分,你会发现一系列键值对。
针对 https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview 这个网站,经过分析,我们发现翻页时会发送以下形式的POST数据,其中 pageNum 是控制页码的关键参数:
data = {
"folder": "auctionResults",
"loginID": "00",
"pageNum": "1", # 关键参数,用于控制页码
"orderBy": "AdvNum",
"orderDir": "asc",
"justFirstCertOnGroups": "1",
"doSearch": "true",
"itemIDList": "",
"itemSetIDList": "",
"interest": "",
"premium": "",
"itemSetDID": ""
,
}
url = "https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview"3. 迭代发送POST请求并提取数据
有了请求URL和POST数据模板,我们就可以在一个循环中迭代 pageNum 参数,发送请求,并解析返回的HTML内容。
all_data = [] # 用于存储所有页面的数据
# 假设我们需要抓取前N页数据,这里以3页为例,实际应根据总页数调整
# 注意:网站可能没有直接显示总页数,可能需要通过抓取一页数据后解析出总记录数再计算,
# 或者设置一个较大的循环次数直到不再返回新数据为止。
for page_num in range(1, 3): # <-- 增加循环次数以获取更多页面
data["pageNum"] = str(page_num) # 更新页码参数
# 发送POST请求
response = requests.post(url, data=data)
# 检查请求是否成功
if response.status_code == 200:
soup = BeautifulSoup(response.content, "html.parser")
# 定位数据表格,根据页面HTML结构,数据通常在特定的ID或Class的表格中
# 示例中,数据在id为"searchResults"的表格中,且前两行是表头
for row in soup.select("#searchResults tr")[2:]:
tds = [td.text.strip() for td in row.select("td")]
all_data.append(tds)
else:
print(f"请求第 {page_num} 页失败,状态码: {response.status_code}")
time.sleep(1) # 建议增加延迟,避免请求过快被服务器屏蔽4. 构建Pandas DataFrame
抓取到所有页面的数据后,我们可以将其转换为一个结构化的Pandas DataFrame,以便于后续的数据分析和处理。
# 定义列名,确保与网页表格的列顺序一致
columns = [
"SEQ NUM",
"Tax Year",
"Notices",
"Parcel ID",
"Face Amount",
"Winning Bid",
"Sold To",
]
df = pd.DataFrame(all_data, columns=columns)
# 打印DataFrame的最后10条数据进行验证
print(df.tail(10).to_markdown(index=False)) # index=False 避免打印DataFrame索引完整示例代码
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time
# 目标URL,即使翻页也不会改变
url = "https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview"
# POST请求的表单数据模板
# 这些参数通过浏览器开发者工具分析得到
data = {
"folder": "auctionResults",
"loginID": "00",
"pageNum": "1", # 关键参数,会在循环中更新
"orderBy": "AdvNum",
"orderDir": "asc",
"justFirstCertOnGroups": "1",
"doSearch": "true",
"itemIDList": "",
"itemSetIDList": "",
"interest": "",
"premium": "",
"itemSetDID": "",
}
all_data = [] # 用于存储从所有页面抓取到的数据
# 假设网站有N页数据,这里以抓取前2页为例。
# 实际应用中,你需要根据网站的实际总页数或通过其他方式判断何时停止。
# 例如,可以尝试抓取一页,解析出总记录数或总页码,再进行循环。
# 或者,可以循环到一个较大的页码,如果返回的数据为空或与上一页重复,则停止。
for page_num in range(1, 3): # 示例:抓取第1页和第2页
data["pageNum"] = str(page_num) # 更新当前请求的页码
try:
# 发送POST请求,附带更新后的表单数据
response = requests.post(url, data=data)
response.raise_for_status() # 检查HTTP请求是否成功,如果失败则抛出异常
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.content, "html.parser")
# 查找包含数据的表格行。根据HTML结构,#searchResults是表格的ID,
# tr是行,[2:]表示跳过前两行(通常是表头)
for row in soup.select("#searchResults tr")[2:]:
tds = [td.text.strip() for td in row.select("td")]
all_data.append(tds)
print(f"成功抓取第 {page_num} 页数据。")
except requests.exceptions.RequestException as e:
print(f"请求第 {page_num} 页时发生错误: {e}")
except Exception as e:
print(f"解析第 {page_num} 页数据时发生错误: {e}")
time.sleep(1) # 每次请求后暂停1秒,避免对服务器造成过大压力
# 定义DataFrame的列名,与网页表格的列对应
columns = [
"SEQ NUM",
"Tax Year",
"Notices",
"Parcel ID",
"Face Amount",
"Winning Bid",
"Sold To",
]
# 将抓取到的所有数据转换为Pandas DataFrame
df = pd.DataFrame(all_data, columns=columns)
# 打印DataFrame的最后10行数据进行验证
print("\n--- 抓取到的数据(最后10行)---")
print(df.tail(10).to_markdown(index=False))注意事项与最佳实践
- 动态参数识别: 最关键的一步是正确识别POST请求中的所有必要参数,特别是那些会随用户操作(如翻页、筛选、排序)而变化的参数。这通常需要通过浏览器开发者工具仔细观察。
-
反爬机制: 许多网站会实施反爬机制来限制自动化访问。
- User-Agent: 在 requests.post() 中添加 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'} 等模拟浏览器头信息,可以降低被识别为爬虫的风险。
- 请求间隔: 使用 time.sleep() 在每次请求之间增加延迟(如1-5秒),模拟人类浏览行为,避免因请求频率过高而被服务器屏蔽IP。
- Cookie/Session: 有些网站可能需要携带会话Cookie才能访问。在 requests 中,可以使用 requests.Session() 对象来自动管理Cookie。
- 错误处理: 编写健壮的爬虫代码至关重要。使用 try-except 块来捕获可能发生的网络错误(如连接超时、DNS解析失败)或解析错误,确保爬虫不会因单个页面的问题而中断。
- J*aScript渲染: 如果页面数据是通过复杂的J*aScript在客户端动态渲染的,仅使用 requests 和 BeautifulSoup 可能无法获取到所有数据。在这种情况下,可能需要考虑使用 Selenium 或 Playwright 等无头浏览器自动化工具,它们可以模拟完整的浏览器环境来执行J*aScript。
- 法律与道德: 在进行任何网络爬取活动之前,请务必查看网站的 robots.txt 文件和用户服务条款,了解其数据使用政策。遵守相关法律法规,尊重网站的数据所有权和服务器资源,进行负责任的爬取。
总结
即使面对URL不变的分页场景,通过深入理解HTTP协议和网站的交互机制,我们依然可以有效地抓取所需数据。关键在于利用浏览器开发者工具分析出实际的POST请求及其参数,然后使用 requests 库模拟这些请求,结合 BeautifulSoup 进行HTML解析,最后用 pandas 整理数据。掌握这一技巧,将大大扩展Python网络爬虫的应用范围。
以上就是Python网络爬虫:处理URL不变的分页数据抓取的详细内容,更多请关注其它相关文章!
# 数据结构
# 成都网站推广团队
# seo版权
# 如何给照片做网站推广
# 儋州营销网站建设
# 来宾强大seo推广招聘
# 泉州抖音seo服务
# 江宁区负责全网营销推广
# 小说营销号推广
# 界石房地产网站建设
# 邯郸淘宝网站推广优势
# 遍历
# 下一页
# 文档
# 是一个
# javascript
# 所需
# 表单
# 翻页
# 关键词
# 分页
# 网络爬
# cookie
# windows
# ajax
# markdown
# html
# java
# python
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
uc手机浏览器网页版入口 uc浏览器手机版便捷登录首页
TikTok评论显示延迟如何处理 TikTok评论刷新优化方法
KFC早餐时段怎么领特惠代码_KFC早餐订餐优惠代码获取与使用说明
J*aScript map 迭代中检测空数组元素的有效方法
Fabric模组开发:自定义物品与物品组的现代管理方法
word邮件合并后日期格式不对怎么改_Word邮件合并日期格式修改方法
php源码怎么在电脑上测试_电脑测试php源码方法步骤【教程】
Mac怎么使用表情符号_Mac Emoji快捷键面板
妖精动漫免费平台 妖精动漫官网资源观看网址
如何在Promise链中有效终止错误处理后的执行
Yandex搜索引擎官方地址 俄罗斯网络世界的主要入口
优化Log4j2控制台输出性能:解决异步日志瓶颈
c++中的std::launder有什么实际用途_c++对象生命周期与指针优化
护手霜蹭到袖口上了如何清洗? 怎样避免留下一圈油印?
虫虫漫画精品漫画官网_虫虫漫画精品漫画官网进入精品漫画
Linux如何构建多环境配置管理_Linux多环境配置方案
J*a里如何实现线程安全的懒加载单例_懒加载单例实现方法解析
J*aScript教程:根据元素文本内容动态设置背景色
QQ邮箱官网登录入口 QQ邮箱网页版邮箱快速登录
电脑屏幕颜色不舒服怎么办_Windows夜间模式与色彩校准教程【护眼技巧】
C++编译期如何执行复杂计算_C++模板元编程(TMP)技巧与应用
Composer如何处理Git子模块(submodule)依赖_Composer与Git Submodule的对比与选择
Selenium Python中处理点击后新窗口加载冻结问题的策略与实践
提升Kafka消费者健壮性:会话超时处理与消息处理语义
黑猫投诉统一入口官网 消费者权益保护投诉平台
C++如何实现线程池_C++11手动实现一个简单的固定大小线程池
vivo手机互传视频怎么操作_vivo手机互传视频详细传输方法
豆包手机助手发布技术预览版:直接嵌入手机系统!努比亚样机发售
C++如何实现一个装饰器模式_C++设计模式之动态地给对象添加额外职责
Fabric Mod开发:在1.19.3+版本中正确添加自定义物品并管理物品组
React列表渲染与独立状态管理:避免全局状态影响局部更新
一加 Nord 5 隐私权限异常_一加 Nord 5 系统安全优化
LINUX的I/O重定向是什么_深入理解LINUX中 >、>> 与 < 的区别
红果短剧网页版官网入口 官方最新网址发布
黑鲨3Pro怎样在相册开漫画风滤镜_iPhone黑鲨3Pro相册开漫画风滤镜【趣味滤镜】
TikTok搜索不到用户发布内容怎么办 TikTok用户内容搜索优化方法
抖音怎么赚钱_抖音创作者变现方法与途径指南
微信网页版官方入口教程 微信网页版网页版快速登录步骤
离线运行Go语言之旅:本地部署与GOPATH配置指南
深入理解J*aScript Promise异步执行与微任务队列
如何在离线环境中使用Composer_Composer离线安装依赖包的技巧与策略
html两个JS只运行一个怎么办_让双JS在html中都运行方法【技巧】
解决Bootstrap卡片顶部边距导致背景图下移的问题
Lar*el 递归关系中排除指定分支的教程
Pyrogram与g4f集成:异步编程实践与常见错误解决
Golang并发任务中错误如何聚合_Golang goroutine error收集方式
Win11怎么查看电脑配置_Win11硬件配置检测工具使用
漫蛙漫画网页端入口 漫蛙2官方正版漫画站点
MAC的“快捷指令”怎么同步到iPhone_MAC利用iCloud同步所有设备的自动化指令
谷歌邮箱网页版官方页面入口 谷歌邮箱网页端快速访问


2025-11-15
浏览次数:次
返回列表
,
}
url = "https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview"