
本教程详细阐述了如何使用Python的BeautifulSoup和html2text库,从复杂的HTML结构
中准确提取并分组连续的段落(
标签)和表格(
标签)。文章深入分析了在迭代HTML元素时管理状态的关键性,指出了常见的字典初始化陷阱,并提供了一个健壮的解决方案,确保段落内容能够正确累积,并在遇到表格时将其作为独立项分离,最终生成结构清晰的数据列表。HTML内容解析挑战:段落与表格的混合提取
在处理包含多种类型内容的HTML文档时,常见的需求是将特定类型的元素(如段落)聚合起来,而将另一些元素(如表格)作为独立项处理。例如,我们可能需要将所有连续的段落文本合并成一个逻辑单元,而一旦遇到表格,则将其视为一个新的独立数据块。这要求我们在遍历HTML结构时,能够有效地管理和维护当前解析的状态。
初始尝试与常见陷阱
许多开发者在初次尝试时,可能会采用一种直观的迭代方式,但在处理状态积累时容易陷入误区。考虑以下一个简化的、具有缺陷的初始代码逻辑:
from bs4 import BeautifulSoup
import html2text
import json
# 假设 data3 包含混合的 p 和 table 标签
data3 = """
<p>这是一个段落。</p>
<p>这是第二个段落。</p>
<table>
<thead>
<tr><th>Header A</th><th>Header B</th></tr>
</thead>
<tbody>
<tr><td>Value 1A</td><td>Value 1B</td></tr>
</tbody>
</table>
<p>表格后的段落。</p>
<p>最后一个段落。</p>
"""
converter = html2text.HTML2Text()
soup = BeautifulSoup(data3, 'html.parser')
content_items = []
for tag in soup.descendants:
# 陷阱:在每次循环迭代中都重新初始化 content_dict
content_dict = {'Title': "文档标题", 'Content': ''}
if tag.name == "p":
# 如果 content_dict 每次都被重新创建,这里只会收集当前 p 标签的内容
content_dict['Content'] += converter.handle(str(tag))
elif tag.name == "table":
# 如果前面有 p 标签内容,先添加
if content_dict['Content']:
content_items.append(content_dict)
# 为表格创建一个新的字典,并添加
content_dict = {'Title': "文档标题", 'Content': converter.handle(str(tag))}
content_items.append(content_dict)
print(json.dumps(content_items, indent=4, ensure_ascii=False))上述代码的根本问题在于 content_dict 在每次循环迭代时都被重新初始化。这意味着,当循环处理到一个新的标签时,前一个标签(即使是连续的
标签)所累积的内容会丢失,因为 content_dict 被重置为一个空字典。因此,它无法实现将多个连续的
标签内容合并到同一个 Content 字段中。
解决方案:使用缓冲区管理状态
为了正确地实现段落内容的累积和表格的分离,我们需要引入一个临时的缓冲区来存储连续的段落内容,并在遇到非段落元素(特别是表格)时,将缓冲区内容清空并作为独立项添加,然后处理当前非段落元素。
以下是实现此逻辑的修正代码:
Musho
AI网页设计Figma插件
76
查看详情
from bs4 import BeautifulSoup
import html2text
import json
# 示例 HTML 数据
data3 = """
<p>这是一个段落内容。</p>
<p>这是第二个段落,与上一个段落连续。</p>
<div>
<p>这是一个嵌套在 div 中的段落。</p>
</div>
<table>
<thead>
<tr><th>产品</th><th>价格</th></tr>
</thead>
<tbody>
<tr><td>笔记本</td><td>8000</td></tr>
<tr><td>鼠标</td><td>150</td></tr>
</tbody>
</table>
<p>表格后的第一个段落。</p>
<span>这是一个span标签。</span>
<p>表格后的第二个段落。</p>
"""
converter = html2text.HTML2Text()
soup = BeautifulSoup(data3, 'html.parser')
content_items = [] # 存储最终结果的列表
current_p_buffer = [] # 临时缓冲区,用于累积连续的 p 标签内容
# 遍历 HTML 文档的所有子孙节点
# 使用 soup.descendants 能够遍历到所有嵌套层级的标签,并大致按照文档顺序
for tag in soup.descendants:
# 确保只处理 Tag 对象,跳过 N*igableString 等文本节点
if tag.name == "p":
# 如果当前标签是 p,则将其内容添加到缓冲区
current_p_buffer.append(converter.handle(str(tag)))
elif tag.name == "table":
# 如果遇到 table 标签,首先检查 p 缓冲区是否有内容
if current_p_buffer:
# 将累积的 p 标签内容合并,并作为一个条目添加到结果列表
content_items.append({
'Title': "35.23.060 - DR Zone Standards", # 示例标题,可根据实际需求动态设置
'Content': "".join(current_p_buffer)
})
current_p_buffer = [] # 清空 p 缓冲区,准备收集下一组段落
# 然后,将 table 标签的内容作为一个独立条目添加到结果列表
content_items.append({
'Title': "35.23.060 - DR Zone Standards", # 示例标题
'Content': converter.handle(str(tag))
})
# 可以根据需要添加其他标签的处理逻辑,例如忽略 div, span 等
# else:
# # 如果遇到其他非 p 非 table 标签,也可能需要清空 p 缓冲区
# # 这取决于具体需求,例如是否只有 p 和 table 才能作为主要内容块
# if current_p_buffer:
# content_items.append({
# 'Title': "35.23.060 - DR Zone Standards",
# 'Content': "".join(current_p_buffer)
# })
# current_p_buffer = []
# 循环结束后,检查 p 缓冲区是否还有剩余内容(即文档末尾的段落)
if current_p_buffer:
content_items.append({
'Title': "35.23.060 - DR Zone Standards",
'Content': "".join(current_p_buffer)
})
# 打印提取的数据
print(json.dumps(content_items, indent=4, ensure_ascii=False))代码解析与最佳实践
-
current_p_buffer:核心缓冲区
这个列表是实现段落内容累积的关键。它在循环外部初始化,确保其状态在每次迭代中得以保留。当遇到
标签时,其内容被追加到 current_p_buffer 中。
-
soup.descendants 与 soup.children
- soup.descendants 迭代器会按照文档顺序遍历所有子孙节点,包括嵌套在其他标签内的
或
。这对于处理复杂、多层级的HTML结构非常有用。- 如果 HTML 结构相对扁平,且
和
标签通常是同级兄弟元素,那么使用 soup.children 或 soup.contents 可能会更直接,因为它只遍历直接子节点。然而,对于普遍情况,descendants 更具鲁棒性。-
条件判断与状态转换
- 当 tag.name == "p" 时,内容被添加到 current_p_buffer。
- 当 tag.name == "table" 时,这是一个“状态转换点”。此时,首先检查 current_p_buffer 是否有内容。如果有,说明前面累积了一组段落,需要将其合并并添加到 content_items 列表中,然后清空 current_p_buffer。接着,将当前
的内容作为一个新的独立项添加到 content_items。-
循环结束后的处理:在 for 循环结束后,需要再次检查 current_p_buffer。这是为了捕获文档末尾可能存在的、未被任何
标签中断的连续段落。html2text.HTML2Text() 的作用html2text 库用于将 HTML 片段转换为 Markdown 格式的文本。这在需要从 HTML 中提取纯文本内容,并保留一定的格式(如标题、列表、表格的Markdown表示)时非常有用。converter.handle(str(tag)) 将标签及其内部 HTML 转换为文本。
json.dumps 的应用
使用 json.dumps(..., indent=4, ensure_ascii=False) 可以将结果列表格式化为易于阅读的 JSON 字符串,其中 indent=4 增加了缩进,ensure_ascii=False 确保中文字符正确显示。
总结
正确地从混合内容的HTML中提取和分组数据,关键在于有效地管理迭代过程中的状态。通过引入一个临时缓冲区来累积同类型元素(如段落),并在遇到不同类型或分隔元素(如表格)时处理缓冲区内容,我们可以构建一个健壮且灵活的解析器。这种模式不仅适用于段落和表格,也适用于任何需要按类型分组或合并的HTML元素提取任务。理解并应用状态管理技巧,是高效进行Web数据抓取和内容处理的基础。
以上就是高效解析HTML:按类型分组提取段落与表格内容的详细内容,更多请关注其它相关文章!
# html
# 心理教育网站建设目的
# 适用于
# 作为一个
# 第二个
# 清空
# 并在
# 这是
# 迭代
# 这是一个
# 遍历
# html元素
# app
# json
# markdown
# js
# python
# 文档
# 临洮seo排名培训
# 德国短视频网站排名优化
# seo英文网站赚钱
# 靠谱的推广赚钱网站
# 启东做网站推广
# 青海网站建设的结论
# 临河网站关键词优化
# 手球推广视频素材下载网站
# 工会 网站 建设
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Composer如何在生产环境安全地执行composer update
QQ邮箱网页版快速登录 QQ邮箱邮箱账号官方入口地址
知音漫客官网漫画下载_知音漫客网页版阅读记录
邮编格式怎么匹配地址_根据邮编格式快速匹配详细地址的技巧
谷歌浏览器如何快速清除某个网站的数据_Chrome网站缓存清理方法
NetBeans Ant项目:自动化将资源文件复制到dist目录的教程
C++ map遍历方法大全_C++ map迭代器使用总结
Bing引擎入口最新2025 Bing搜索免费官方登录
LocoySpider如何部署到云服务器_LocoySpider云部署的远程配置
QQ邮箱官方网站登录入口_QQ邮箱网页版在线使用
Django表单提交验证失败后保持字段值不刷新
J*aScript井字棋(Tic-Tac-Toe)核心交互逻辑实现教程
火狐浏览器占用内存高卡顿怎么办 火狐浏览器性能优化设置技巧
千牛数据看板网页版_千牛数据看板网页版访问方法
QQ邮箱官方邮箱登录入口 QQ邮箱网页版快速访问
Windows电脑怎么截图最方便_系统自带截图工具的5种神仙用法【技巧】
魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】
vivo手机互传视频怎么操作_vivo手机互传视频详细传输方法
小红书商家版怎样在笔记嵌入商品卡路径_小红书商家版在笔记嵌入商品卡路径【挂载教程】
解决Tabulator日期时间排序问题的专业指南
mysql备份恢复性能优化_mysql备份恢复性能优化方法
Golang如何使用context实现超时取消_Golang context超时取消模式实践
微信网页版官方快速登录入口 微信网页版网页版账号直达
Win11怎么开启省电模式_Win11电池节电模式自动开启
Win11文件资源管理器卡顿怎么修 Win11重置资源管理器进程优化响应速度【修复方法】
HTML转PPT成品工具有哪些?HTML网页转PPT成品工具大全
黑鲨3Pro怎样在相册开漫画风滤镜_iPhone黑鲨3Pro相册开漫画风滤镜【趣味滤镜】
微信聊天记录怎么加密_微信聊天记录加密方法
SteamMachine定价或为699美元 大家想入手吗?
Golang如何安装Swagger工具_GoSwagger文档生成环境
在Socket.IO连接中实现Access Token自动更新与动态重连
Python模块化编程:有效管理依赖与避免循环引用
12306怎么选座位选到安静区_12306选座安静区域选择策略
2026年发布! 美少女养成动作RPG《神剑少女战记》发布实机演示
AO3最新镜像入口 Archive of Our Own官方平台访问
《GTA6》开发画面疑似泄露!这次可不是AI了
天猫双十一预售商品怎么退款_天猫双十一预售退款操作指南
谷歌浏览器最新官方入口链接 谷歌浏览器网页版官网导航
如何使用Rector自动化升级旧代码_通过Composer安装和配置Rector进行代码重构
win11开机启动修复循环怎么办 Win11无法进入系统高级启动解决方法【修复】
J*aScript动态修改指定div内所有a标签样式指南
三星ZFold5多任务卡顿_Samsung ZFold5流畅度提升
漫蛙漫画官方主页入口 漫蛙MANWA网页直达访问链接
拼多多视频播放卡顿如何处理 拼多多视频播放优化技巧
excel怎么制作工资条 excel快速生成工资条的方法
vivo浏览器怎么扫描二维码 vivo浏览器内置扫一扫功能使用方法
哔哩哔哩忘记密码了怎么找回_哔哩哔哩密码找回方法
整合Supabase认证与Django模型:跨模式迁移的解决方案
漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道
AO3官方可用镜像 Archive of Our Own网页版最新入口