新闻中心
使用Selenium自动化处理动态下拉菜单与数据提取教程

本教程详细介绍了如何使用selenium webdriver处理网页中动态展开的下拉菜单,并从中提取嵌套的子分类链接。我们将通过识别并迭代点击展开图标,实现所有子菜单的可见化,随后筛选并收集目标href属性。内容涵盖selenium环境配置、元素定位技巧、动态dom交互策略,并提供完整的python代码示例,旨在帮助开发者高效地从复杂网页结构中抓取所需数据。
在进行网页数据抓取时,经常会遇到动态加载或折叠的元素,特别是多级下拉菜单。这些菜单通常需要用户交互(如点击)才能展开,进而暴露其内部的子项链接。本教程将以一个具体的案例为例,演示如何使用Python和Selenium WebDriver有效处理这类场景,最终目标是获取所有子分类的链接。
1. 环境准备与项目初始化
首先,确保你已安装Python和Selenium库,并且配置了WebDriver(如Chrome WebDriver)。
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time # 用于演示,实际项目中建议使用显式等待 # 定义目标URL URL = "https://albiononline2d.com/en/item" # 初始化Chrome WebDriver driver = webdriver.Chrome() # 设置隐式等待,在查找元素时,如果元素未立即可用,WebDriver会等待指定的时间 driver.implicitly_wait(5) # 建议设置一个合理的等待时间 driver.get(URL) # 初始化ActionChains,用于执行复杂的鼠标操作,本例中暂未使用,但可保留备用 # action = webdriver.ActionChains(driver)
在初始化阶段,我们加载了必要的库,设置了目标URL,并启动了Chrome浏览器实例。driver.implicitly_wait()是一个全局设置,它会指示WebDriver在查找任何元素时等待指定的时间,直到元素出现或超时。
2. 识别并展开所有动态下拉菜单
目标网页中的子分类项隐藏在可折叠的菜单中,通过点击一个“加号”图标 (ion-plus-round) 可以展开。为了获取所有子分类链接,我们需要迭代地点击这些展开图标,直到所有菜单都处于展开状态。
关键挑战: 当点击一个展开图标后,页面的DOM结构可能会发生变化,导致之前定位到的元素引用失效。因此,在每次点击之前,我们需要重新定位所有可展开的图标。
# 查找所有带有“展开”图标的元素
# 这些图标通常有一个特定的CSS类,例如 'icon expand-icon ion-plus-round'
# 使用CSS选择器定位这些元素
expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')
# 循环点击所有展开图标
# 注意:由于点击操作可能改变DOM,导致元素列表失效,
# 我们需要在每次点击前重新查找元素。
while True:
# 重新查找所有展开图标
current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')
# 如果没有找到任何展开图标,说明所有菜单都已展开,跳出循环
if not current_expand_icons:
break
try:
# 点击第一个找到的展开图标
# 注意:这里我们总是点击列表中的第一个,因为每次循环都会重新查找
# 这样可以确保我们总是在处理当前页面上可见的、未展开的菜单
current_expand_icons[0].click()
# 每次点击后短暂等待,确保DOM更新完成
time.sleep(0.5)
except Exception as e:
# 捕获可能的异常,例如元素变得不可点击
print(f"点击展开图标时发生错误: {e}")
break # 发生错误时退出循环这段代码的核心在于 while True 循环。每次循环开始时,我们都会重新查找所有带有 ion-plus-round 类的 元素。如果找到了,就点击列表中的第一个,然后短暂等待,让页面有时间更新。如果没有找到任何这样的元素,就意味着所有可展开的菜单都已展开,此时循环终止。
杰易OA办公自动化系统6.0
基于Intranet/Internet 的Web下的办公自动化系统,采用了当今最先进的PHP技术,是综合大量用户的需求,经过充分的用户论证的基础上开发出来的,独特的即时信息、短信、电子邮件系统、完善的工作流、数据库安全备份等功能使得信息在企业内部传递效率极大提高,信息传递过程中耗费降到最低。办公人员得以从繁杂的日常办公事务处理中解放出来,参与更多的富于思考性和创造性的工作。系统力求突出体系结构简明
0
查看详情
3. 提取子分类链接
在所有下拉菜单都展开之后,我们可以开始提取所需的子分类链接。这些链接通常包含特定的标识符,例如在 href 属性中包含 "subcat" 字符串。
# 定位包含所有分类链接的父容器
# 假设所有分类(包括主分类和子分类)都在第一个 'list-group' 元素内
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]
# 查找容器内所有的 'a' 标签(链接)
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')
# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
href = link_element.get_attribute('href')
if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
subcat_links.append(href)
# 打印或处理收集到的子分类链接
print("已收集到的子分类链接数量:", len(subcat_links))
for link in subcat_links:
print(link)
# 关闭浏览器
driver.quit()这段代码首先定位到包含所有分类链接的父容器。然后,它查找该容器内的所有 标签,并遍历这些标签。对于每个链接,它提取 href 属性,并通过检查 href 中是否包含 "subcat" 字符串来判断其是否为目标子分类链接。最终,所有符合条件的链接都会被收集到 subcat_links 列表中。
4. 完整代码示例
将上述所有步骤整合,形成一个完整的自动化脚本:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
# 定义目标URL
URL = "https://albiononline2d.com/en/item"
# 初始化Chrome WebDriver
driver = webdriver.Chrome()
driver.implicitly_wait(5) # 设置隐式等待
driver.get(URL)
print("页面加载完成,开始展开下拉菜单...")
# 循环点击所有展开图标
while True:
# 重新查找所有展开图标,确保处理动态DOM变化
current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')
# 如果没有找到任何展开图标,说明所有菜单都已展开,跳出循环
if not current_expand_icons:
print("所有下拉菜单已展开。")
break
try:
# 点击第一个找到的展开图标
current_expand_icons[0].click()
# 每次点击后短暂等待,确保DOM更新完成
time.sleep(0.5)
except Exception as e:
print(f"点击展开图标时发生错误: {e}")
break # 发生错误时退出循环
print("开始提取子分类链接...")
# 定位包含所有分类链接的父容器
# 使用WebDriverWait进行显式等待,确保元素可见
try:
item_categories_container = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CLASS_NAME, 'list-group'))
)
# 由于页面可能有多个list-group,我们取第一个作为主分类容器
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]
except Exception as e:
print(f"无法找到主分类容器: {e}")
driver.quit()
exit()
# 查找容器内所有的 'a' 标签(链接)
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')
# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
href = link_element.get_attribute('href')
if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
subcat_links.append(href)
print("\n--- 收集到的子分类链接 ---")
print(f"总共收集到 {len(subcat_links)} 个子分类链接。")
for link in subcat_links:
print(link)
# 关闭浏览器
driver.quit()
print("\
n浏览器已关闭。")5. 注意事项与最佳实践
- 动态元素处理: 对于像本例中点击后会改变DOM结构导致元素引用失效的情况,务必在每次交互前重新定位元素。这是处理动态网页的关键。
-
等待策略:
- 隐式等待 (implicitly_wait):全局设置,对所有 find_element 和 find_elements 调用生效。
- 显式等待 (WebDriverWait 和 expected_conditions):更精确和健壮的等待方式,可以等待特定条件(如元素可见、可点击等)发生。在生产环境中,强烈建议优先使用显式等待,尤其是在元素加载时间不确定的情况下。
- time.sleep():虽然简单,但在自动化测试和爬虫中应尽量避免,因为它会强制程序暂停固定时间,效率低下且不稳定。本例中用于演示,实际项目中可替换为更智能的等待。
- 元素定位器: 选择稳定且唯一的定位器。CSS选择器和XPath通常比类名或标签名更具特异性。
- 错误处理: 使用 try-except 块来捕获可能发生的异常(如 NoSuchElementException 或 ElementNotInteractableException),提高脚本的健壮性。
- 浏览器管理: 始终在脚本结束时调用 driver.quit() 来关闭浏览器实例,释放资源。
- 目标扩展: 一旦获取了所有子分类链接,你可以进一步遍历这些链接,访问每个子分类页面,并提取更深层次的数据(例如,每个子分类页面上的具体物品信息)。
总结
通过本教程,我们学习了如何使用Selenium WebDriver有效地处理动态网页中的下拉菜单。核心策略包括迭代地重新定位并点击展开图标以揭示所有隐藏内容,然后精确地提取目标链接。理解并正确应用隐式/显式等待以及动态元素处理是成功实现这类自动化任务的关键。掌握这些技术将大大提高从复杂Web应用中抓取数据的能力。
以上就是使用Selenium自动化处理动态下拉菜单与数据提取教程的详细内容,更多请关注其它相关文章!
# 如果没有
# 怎样外贸网站推广
# qq seo引流
# 长春seo软件打造招聘
# 惠州seo外包平台
# 律师网站建设步骤
# 罗甸网络营销推广
# 保山网站推广排名
# 威海seo优化价格
# 青龙环保网站建设配置
# 曲靖企业找哪家网站优化
# 隐式
# 是在
# 加载
# 都已
# css
# 选择器
# 发生错误
# 办公自动化系统
# 如何使用
# 第一个
# css选择器
# webdriver
# 环境配置
# 爬虫
# ai
# app
# 浏览器
# go
# python
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Win11怎么关闭触摸屏_Windows 11禁用HID符合标准触摸屏
Go语言中高效处理x-www-form-urlencoded表单数据
QQ官网正版登录链接 QQ在线登录入口最新
Golang如何实现Web接口签名验证_Golang Web接口签名校验开发方法
WordPress插件开发:正确注册卸载钩子与避免常见陷阱
C++如何检测键盘输入_C++ _kbhit与_getch函数非阻塞输入
css链接悬停下划线样式如何自定义_使用::after结合content和transition
2026春节假期时间安排 2026春节假日查询
J*aScript 字符串标签转换:使用正则表达式高效替换
C++ vector二维数组定义_C++ vector of vector用法
Python多版本共存与虚拟环境管理深度指南
HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制
押井守高度称赞《辐射4》:玩了八年都停不下来!
QQ邮箱官方邮箱登录入口 QQ邮箱网页版快速访问
vivo手机参数配置怎么增强信号_vivo手机参数配置信号增强方法
Python自定义类排序:解决lambda键值访问TypeError的实践指南
c++中的std::forward_list和std::list有什么不同_c++ forward_list与list区别分析
机构:以往存储涨价周期小米利润率实际上有所改善 能转嫁给消费者等
实现全屏滚动与导航点:专业教程
解决 MongoDB 聚合查询中对象数组 _id 匹配问题
照顾宝贝2小游戏免费秒玩入口
ACG动漫手机版官网入口 手机ACG动漫APP在线观看正版
AO3最新可访问网址 Archive of Our Own官方在线入口
Lar*el Excel导入时生成自定义递增ID的策略与实践
快手赚钱渠道_快手收益来源
网易大神怎么保存别人动态的图片_网易大神动态图片保存方法
taptap防沉迷怎么解除 taptap解除健康系统限制说明【2025最新】
顺丰国际快递查询 国际件官方查询入口
零跑汽车11月交付量达70327台 实现连续9个月正增长
小猿搜题在线学习页面在哪_小猿搜题在线学习中心入口
win11开机启动修复循环怎么办 Win11无法进入系统高级启动解决方法【修复】
lar*el怎么安全地存储和获取配置文件中的敏感信息_lar*el敏感信息安全存储方法
解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException
J*a应用集成GitHub CLI与API认证指南
PostgreSQL海量数据高效导入策略:Python与Django实践指南
新手怎么开始学化妆 零基础化妆入门教程
Angular中父组件异步更新子组件复选框状态的实践指南
QQ网页版官方账号入口 QQ网页版网页版登录指南
不会效仿卡普空!《铁拳》制作人澄清:不采取赛事付费|直播|
铁路12306改签能改到更早的车次吗_铁路12306改签提前车次规则
C++如何打印当前代码行号与文件名_C++预定义宏FILE与LINE的使用
Sublime怎么配置Nim语言环境_Sublime Nim代码高亮与补全
Lar*el如何正确地在控制器和模型之间分配逻辑_Lar*el代码职责分离与架构建议
Go语言中JSON数据解码与字段访问指南
J*aScript对象创建方式_J*aScript设计模式应用
Tabulator表格中精确实现日期时间排序的指南
AO3最新镜像入口 Archive of Our Own官方平台访问
在哪找SublimeJ远程工具_SFTP插件配置教程
没有大陆身份证/银行卡如何实名微信? 亲测有效的几种方法分享
TikTok搜索不到用户发布内容怎么办 TikTok用户内容搜索优化方法


2025-11-11
浏览次数:次
返回列表
n浏览器已关闭。")