新闻中心
使用Selenium高效抓取层级式网页内容:H2标题与对应P段落的结构化提取

本教程详细介绍了如何利用selenium和xpath表达式,从复杂html结构中高效提取h2标题及其后续所有p标签内容。通过构建一个字典,将h2标题作为键,其关联p标签文本作为值进行聚合,最终将数据转化为结构化的列表字典形式,实现网页内容的精准抓取与整理,适用于需要处理标题-内容对的场景。
在网页抓取任务中,经常会遇到需要提取具有层级关系的内容,例如文章的标题(通常是
或)及其下方的所有段落(
)。直接按顺序抓取所有
和所有
标签,然后尝试匹配它们,可能会因为HTML结构复杂性而变得困难。本教程将展示如何利用Selenium的强大定位能力结合XPath的层级选择器,高效且准确地实现这一目标。
准备工作:设置Selenium环境
首先,确保您的Python环境中已安装Selenium库和对应的WebDriver。这里我们使用webdriver_manager来自动管理Chrome浏览器驱动。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
# 初始化WebDriver
# driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 对于新的Selenium版本,可以直接这样初始化
driver = webdriver.Chrome(ChromeDriverManager().install())
# 示例HTML内容,用于演示
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
'''
# 加载HTML内容到浏览器
driver.get("data:text/html;charset=utf-8," + html_content)核心策略:利用字典和XPath关联H2与P标签
我们的目标是将每个
标题与其后紧跟的所有
标签内容关联起来。一种有效的方法是先识别所有的
标签,并以此为基础构建一个数据结构,然后遍历所有的
标签,通过XPath找到它们所属的
,并将内容追加到对应的数据结构中。
-
初始化数据结构:
我们使用一个字典来存储抓取到的数据,其中
的文本内容作为键,初始值为空字符串,用于后续累加
标签的文本。
# 查找所有h2标签,并以其文本初始化字典
# 注意:如果h2内部有span等其他标签,.text会获取所有可见文本
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))
# 此时 data 示例: {'Title1': '', 'Title2': '', 'Title3': ''}
-
遍历P标签并关联H2:
接下来,遍历页面上所有的
标签。对于每一个
标签,我们需要确定它属于哪个
Mureka
Mureka是昆仑万维最新推出的一款AI音乐创作工具,输入歌词即可生成完整专属歌曲。
1091
查看详情
标题。XPath的preceding-sibling::h2[1]表达式能够精确地找到当前元素(
)之前最近的一个
同级元素。# 遍历所有p标签,并将其内容追加到对应的h2键下
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
# 使用XPath找到当前p标签前面最近的h2同级元素
# preceding-sibling::h2[1] 表示获取所有h2同级元素中,位于当前元素之前且最接近的那个
try:
associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
# 将p标签的文本内容追加到字典中对应的h2键下
data[associated_h2_text] += ' ' + p_element.text
except Exception as e:
# 处理没有前置h2的情况,或日志记录
print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Error: {e}")
# 此时 data 示例:
# {'Title1': ' text I want text I want',
# 'Title2': ' text I want text I want text I want',
# 'Title3': ' text I want text I want'}
这里我们添加了try-except块,以应对某些p标签可能没有前置h2的情况,提高代码的健壮性。
结构化输出:列表字典形式
初始化数据结构: 我们使用一个字典来存储抓取到的数据,其中
的文本内容作为键,初始值为空字符串,用于后续累加
标签的文本。
# 查找所有h2标签,并以其文本初始化字典
# 注意:如果h2内部有span等其他标签,.text会获取所有可见文本
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))
# 此时 data 示例: {'Title1': '', 'Title2': '', 'Title3': ''}遍历P标签并关联H2: 接下来,遍历页面上所有的
标签。对于每一个
标签,我们需要确定它属于哪个
Mureka
Mureka是昆仑万维最新推出的一款AI音乐创作工具,输入歌词即可生成完整专属歌曲。
1091
查看详情
标题。XPath的preceding-sibling::h2[1]表达式能够精确地找到当前元素(
)之前最近的一个
同级元素。# 遍历所有p标签,并将其内容追加到对应的h2键下
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
# 使用XPath找到当前p标签前面最近的h2同级元素
# preceding-sibling::h2[1] 表示获取所有h2同级元素中,位于当前元素之前且最接近的那个
try:
associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
# 将p标签的文本内容追加到字典中对应的h2键下
data[associated_h2_text] += ' ' + p_element.text
except Exception as e:
# 处理没有前置h2的情况,或日志记录
print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Error: {e}")
# 此时 data 示例:
# {'Title1': ' text I want text I want',
# 'Title2': ' text I want text I want text I want',
# 'Title3': ' text I want text I want'}
这里我们添加了try-except块,以应对某些p标签可能没有前置h2的情况,提高代码的健壮性。
虽然上述data字典已经包含了所需信息,但在实际应用中,将数据整理成更结构化的列表字典(List of Dictionaries)形式通常更便于后续处理和存储。
# 将字典转换为列表字典的格式,更便于数据处理
structured_output = [{'title': title, 'content': content.strip()} for title, content in data.items()]
# 打印最终结果
print(structured_output)完整示例代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
# 1. 初始化WebDriver
driver = webdriver.Chrome(ChromeDriverManager().install())
# 2. 示例HTML内容
html_content = '''
<h2><span>Title1</span></h2>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title2</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>text I want</p>
<h2><span>Title3</span></h2>
<p>text I want</p>
<p>text I want</p>
<p>Standalone paragraph without preceding h2</p>
'''
# 3. 加载HTML内容
driver.get("data:text/html;charset=utf-8," + html_content)
# 4. 初始化数据字典
data = dict((e.text, '') for e in driver.find_elements(By.CSS_SELECTOR, 'h2'))
# 5. 遍历p标签并关联H2
for p_element in driver.find_elements(By.CSS_SELECTOR, 'p'):
try:
associated_h2_text = p_element.find_element(By.XPATH, './preceding-sibling::h2[1]').text
data[associated_h2_text] += ' ' + p_element.text
except Exception:
# 如果p标签没有前置h2,则跳过或按需处理
print(f"Warning: p tag '{p_element.text}' found without a preceding h2. Skipping.")
pass # 或者可以将其归类到'未分类'等键下
# 6. 转换为结构化输出
structured_output = [{'title': title, 'conte
nt': content.strip()} for title, content in data.items()]
# 7. 打印结果
print(structured_output)
# 8. 关闭浏览器
driver.quit()预期输出:
[{'title': 'Title1', 'content': 'text I want text I want'},
{'title': 'Title2', 'content': 'text I want text I want text I want'},
{'title': 'Title3', 'content': 'text I want text I want'}]请注意,输出中的Standalone paragraph without preceding h2由于没有前置h2,在处理时会被跳过,不会出现在最终的structured_output中。如果需要处理这类情况,可以修改except块的逻辑。
注意事项与总结
-
XPath的精确性: preceding-sibling::h2[1] 是本方案的关键。它确保了每个
标签只与它最近的、位于其之前的
标签关联,避免了跨标题内容的混淆。
- CSS选择器与XPath: 对于简单的元素定位,CSS选择器通常更简洁。但对于复杂的层级关系或条件判断,XPath提供了更强大的表达能力。
- 错误处理: 在实际网页抓取中,HTML结构可能不总是完美的。添加try-except块来处理find_element可能找不到元素的情况,可以提高代码的健壮性。
- 文本清理: 在将p.text添加到内容时,我们使用了content.strip()来移除开头或结尾可能多余的空格,确保内容的整洁。
- 数据结构选择: 字典是聚合数据的良好中间结构,而列表字典则提供了更标准化的输出格式,便于后续的数据分析、存储(如JSON、CSV)或API响应。
通过上述方法,您可以高效地从具有清晰标题-内容层级关系的网页中提取数据,并将其整理成易于处理的结构化格式。
以上就是使用Selenium高效抓取层级式网页内容:H2标题与对应P段落的结构化提取的详细内容,更多请关注其它相关文章!
# 单选框
# seo伴侣破解版
# seo推广认准7火星
# 亚马逊seo如何优化
# 重庆seo小海
# 菠菜seo怎么做
# 亚马逊关键词字数排名
# 有没有好一点的推广网站
# 鹰潭绍兴网站建设
# 海安探意网站推广服务商
# 惠济区电商网站推广
# 显示效果
# 跳过
# 转换为
# 将其
# css
# 表单
# 选择器
# 遍历
# 结构化
# 数据结构
# red
# css选择器
# webdriver
# csv
# 浏览器
# json
# js
# html
# python
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
《铁拳8》黑皮辣妹新实机:元气满满的18岁少女!
PHP表单数据传递:如何通过隐藏输入字段获取动态ID
win11如何加载ICC颜色配置文件 Win11校色文件安装与显示器色彩管理【指南】
怎么在浏览器上运行HTML文件_浏览器运行HTML文件技巧【技巧】
消息称三星明年 2 月正式发布 HBM4,与 SK 海力士同台竞技
Python:递归比较文件夹内容并找出特定类型文件的差异
中兴Axon42Ultra怎样在文件App筛图_iPhone中兴Axon42Ultra文件App筛图【图片筛选】
PHP 枚举:根据字符串获取枚举案例的策略与实现
Selenium Python中处理点击后新窗口加载冻结问题的策略与实践
地铁跑酷免费秒玩入口链接 地铁跑酷小游戏免费秒玩网站
windows10怎么查看本机ip_windows10命令提示符ipconfig使用
126邮箱手机版登录官网2026_126手机邮箱免费入口最新
Discord Slash 命令响应超时问题的异步解决方案
HuggingFaceEmbeddings中向量嵌入维度调整的限制与理解
PPT平滑切换怎么做 PPT炫酷“平滑”切换动画制作教程【必学】
俄罗斯方块最新版入口 俄罗斯方块在线玩官网入口
python3时间如何用calendar输出?
J*a应用程序首次运行自动创建文件与目录的最佳实践
QQ邮箱网页版入口登录 QQ邮箱在线邮箱官方通道
Yandex免登录网页版地址 Yandex搜索引擎官方访问入口
在J*a中如何开发简易电子商务商品管理系统_商品管理系统项目实战解析
MAC如何安全彻底地删除文件_MAC使用终端命令确保文件无法被恢复
c++如何使用Catch2编写单元测试_c++简洁易用的BDD风格测试框架
在Runstone环境中高效处理TasteDive API的JSON数据
TikTok搜索不到用户发布内容怎么办 TikTok用户内容搜索优化方法
Web Components中自定义开关组件状态同步的常见陷阱与解决方案
正确连接J*aScript到HTML实现可点击图片与自定义事件处理
c++如何实现一个简单的ECS框架_c++数据驱动设计与游戏开发
夸克浏览器桌面版同步不了书签怎么处理 夸克浏览器跨设备同步异常解决方案
Composer如何处理Git子模块(submodule)依赖_Composer与Git Submodule的对比与选择
Golang如何测试channel通信行为_Golang channel通信测试与分析方法
红果短剧网页版官网入口 官方最新网址发布
Go语言JSON解析深度指南:动态访问与结构体映射实践
J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题
解决Django多数据库/多Schema环境下外键迁移问题
Centos/Linux 系统下安装 composer 的完整步骤
谷歌浏览器最新官方入口链接 谷歌浏览器网页版官网导航
如何创建没有密码的Windows本地账户_跳过微软账户登录的技巧【教程】
c++如何使用折叠表达式(Fold Expressions)_c++17可变参数模板新技巧
vivo浏览器自带的下载器速度慢怎么办 vivo浏览器提升文件下载速度的技巧
win11专注助手在哪 Win11免打扰模式设置与自动化规则【指南】
如何将HTML表格多行数据保存到Google Sheet
Highcharts 雷达图径向轴标签定制指南:利用多Y轴实现数值标注
汽水音乐在线解析 汽水音乐在线解析入口
Golang如何使用buffered channel提高性能_Golang buffered channel优化技巧
2026春节假期票务安排_2026春节放假购票指南
HTML空白字符处理机制:渲染、DOM与编码实践
海棠电脑版入口_通过电脑访问海棠官网阅读
FullCalendar 自定义按钮样式定制指南
在J*a中如何开发简易博客标签推荐系统_博客标签推荐项目实战解析


2025-11-01
浏览次数:次
返回列表
nt': content.strip()} for title, content in data.items()]
# 7. 打印结果
print(structured_output)
# 8. 关闭浏览器
driver.quit()