新闻中心
Python脚本:高效灵活地从多文本文件中提取特定信息

本教程旨在指导读者如何使用python高效且灵活地从目录中的多个文本文件中提取特定行信息。文章将重点讲解如何优化文件读取、利用`pathlib`进行路径操作,以及通过正则表达式替代硬编码的字符串切片,以实现更通用和健壮的数据提取策略。
在处理大量文本文件时,经常需要从每个文件中提取特定的信息。传统的做法可能涉及硬编码的字符串切片或多次文件读取,这不仅效率低下,而且当文件格式稍有变化时,脚本就可能失效。本教程将介绍一种更现代、高效且灵活的方法来解决这一问题。
传统方法的局限性与优化思路
最初的实现可能存在以下问题:
- 硬编码的字符串切片: 例如 linea[31:-5] 这样的代码,严重依赖于特定行内容的固定长度和位置。一旦文本文件的格式发生微小变化,这些索引就可能失效,导致提取错误或程序崩溃。
- 多次文件读取: 对于同一个文件,为了提取不同的信息而多次打开、读取,这会带来不必要的I/O开销,尤其是在处理大量文件时,会显著降低脚本的执行效率。
为了克服这些局限性,我们应该采纳以下优化策略:
- 单次文件遍历: 每次打开文件后,一次性遍历其所有行,并在遍历过程中提取所有需要的信息。这能最大程度地减少I/O操作。
- 灵活的模式匹配: 摒弃硬编码的字符串切片,转而使用更强大的模式匹配工具,如正则表达式,来识别和提取所需的数据。
- 健壮性设计: 预设默认值来处理信息缺失的情况,并考虑在关键信息无法找到时抛出异常,以便及时发现问题。
- 现代化路径操作: 利用pathlib模块替代传统的os.path,以更面向对象的方式处理文件和目录路径。
使用pathlib进行文件系统操作
pathlib模块提供了一种面向对象的方式来表示文件系统路径,使得路径操作更加直观和跨平台。它比os.path函数更易读、更安全。
from pathlib import Path
def process_txt_files(directory_path, output_file):
# 将字符串路径转换为Path对象
dirpath = Path(directory_path)
# 使用'w'模式打开输出文件,清空其内容(如果存在),并获取文件句柄
with open(output_file, 'w') as output_handle:
# 遍历目录中的所有文件和子目录
for filepath in dirpath.iterdir():
# 检查文件是否是.txt文件
if filepath.suffix == ".txt":
# 调用extract_lines函数处理每个txt文件
extract_lines(filepath, output_handle)
# 示例用法
# directory_path = 'C:/Users/rinicholls/Richard/Gnarabup_LiDAR/LiDAR/Gnarabup_South_*WS/reports'
# output_file = 'density.txt'
# process_txt_files(directory_path, output_file)在上述代码中,Path(directory_path)创建了一个路径对象,dirpath.iterdir()则返回一个迭代器,用于遍历目录中的所有条目。filepath.suffix可以方便地获取文件的扩展名。
高效的数据提取策略:单次文件遍历与默认值
为了实现单次文件遍历,我们可以在读取文件之前初始化所有待提取信息的默认值。如果在遍历过程中找到了对应的信息,就更新这些值。这样,即使某些信息在文件中不存在,也能保证脚本的正常运行,并输出预设的默认值。
import re
from pathlib import Path
def extract_lines(input_file: Path, output_handle):
# 初始化所有待提取信息的默认值
lasinfo_filename = 'No filename defined!'
projcs_datum = 'No DATUM defined!'
point_density_statement = 'No point density listed'
point_density_value = ''
# 单次打开文件并逐行读取
with open(input_file, 'r') as lines:
for line in lines:
# 使用正则表达式匹配并提取信息
if m := re.match(r"lasinfo .*? report for '(.*?)'", line):
lasinfo_filename = m.group(1)
elif m := re.match(r"^\s*PROJCS\[\"(.*?)\"", line):
projcs_datum = m.group(1)
elif m := re.match(r"^point density: all returns ([\d.]+)", line):
point_density_statement = line.strip() # 提取整行,去除末尾换行符
point_density_value = m.group(1) # 提取数值部分
# 将提取到的信息组合成一行,并写入输出文件
lineout = ",".join([
lasinfo_filename,
projcs_datum,
point_density_statement,
point_density_value
]) + "\n"
output_handle.write(lineout)利用正则表达式实现灵活匹配
正则表达式(Regex)是处理字符串模式匹配的强大工具,它能帮助我们精确地定义要查找的文本模式,并从中提取所需的数据,从而替代脆弱的字符串切片。
以下是针对示例文件内容,使用正则表达式进行匹配和提取的详细说明:
贝特协同办公系统(BetterCOS)
具备更多的新特性: A.具有集成度更高的平台特点,集中体现了信息、文档在办公活动中交流的开放性与即时性的重要。 B.提供给管理员的管理工具,使系统更易于管理和维护。 C.产品本身精干的体系结构再加之结合了插件的设计思想,使得产品为用户度身定制新模块变得非常快捷。 D.支持对后续版本的平滑升级。 E.最价的流程管理功能。 F.最佳的网络安全性及个性化
0
查看详情
-
提取 lasinfo 中的文件名:
- 目标行示例:lasinfo (231025) report for 'Gnarabup_South_sph_e310n6230_1*WS.las'
- 正则表达式:r"lasinfo .*? report for '(.*?)'"
- lasinfo: 匹配字面字符串 "lasinfo "。
- .*?: 非贪婪匹配任意字符零次或多次,直到下一个模式。
- report for ': 匹配字面字符串 " report for '"。
- (.*?): 捕获组,非贪婪匹配并捕获引号内的所有字符。这是我们想要的文件名。
- ': 匹配结束引号。
- 提取:m.group(1) 将获取捕获组中的内容。
-
提取 PROJCS 中的投影名称:
- 目标行示例:PROJCS["GDA2025 / MGA zone 50",GEOGCS["GDA2025",...
- 正则表达式:r"^\s*PROJCS\[\"(.*?)\""
- ^: 匹配行首。
- \s*: 匹配零个或多个空白字符(处理行首的缩进)。
- PROJCS\[\": 匹配字面字符串 "PROJCS[\""。
- (.*?): 捕获组,非贪婪匹配并捕获双引号内的所有字符(即投影名称)。
- \": 匹配结束双引号。
- 提取:m.group(1) 将获取捕获组中的内容。
-
提取 point density 中的数值:
- 目标行示例:point density: all returns 0.25 last only 0.25 (per square units)
- 正则表达式:r"^point density: all returns ([\d.]+)"
- ^: 匹配行首。
- point density: all returns: 匹配字面字符串。
- ([\d.]+): 捕获组,匹配一个或多个数字或点(用于匹配浮点数)。
- 提取:m.group(1) 将获取捕获组中的数值。
Python 3.8+ 的 Walrus Operator (:=)
在上述示例代码中,我们使用了 Python 3.8 引入的“海象运算符” (:=)。它允许你在表达式中同时进行赋值和求值,从而简化代码。例如:
if m := re.match(pattern, line):
# 此时m已经被赋值为re.Match对象,可以直接使用
extracted_value = m.group(1)这比传统的两步写法(先赋值再判断)更加简洁:
m = re.match(pattern, line)
if m:
extracted_value = m.group(1)完整示例代码
将上述概念整合,一个高效、灵活且健壮的Python脚本如下:
import re
from pathlib import Path
def extract_lines(input_file: Path, output_handle):
"""
从单个文本文件中提取特定信息,并将结果写入输出句柄。
Args:
input_file (Path): 输入文件的Path对象。
output_handle: 写入结果的输出文件句柄。
"""
# 初始化所有待提取信息的默认值,以应对信息缺失的情况
lasinfo_filename = 'No filename defined!'
projcs_datum = 'No DATUM defined!'
point_density_statement = 'No point density listed'
point_density_value = ''
# 单次打开文件并逐行读取,提高效率
try:
with open(input_file, 'r', encoding='utf-8') as file_content:
for line in file_content:
# 使用正则表达式进行模式匹配和信息提取
# 提取lasinfo中的文件名
if m := re.match(r"lasinfo .*? report for '(.*?)'", line):
lasinfo_filename = m.group(1)
# 提取PROJCS中的投影名称
elif m := re.match(r"^\s*PROJCS\[\"(.*?)\"", line):
projcs_datum = m.group(1)
# 提取point density行及数值
elif m := re.match(r"^point density: all returns ([\d.]+)", line):
point_density_statement = line.strip() # 获取整行,去除末尾换行符
point_density_value = m.group(1) # 获取提取到的数值
except FileNotFoundError:
print(f"错误:文件未找到 - {input_file}")
return
except Exception as e:
print(f"处理文件 {input_file} 时发生错误: {e}")
return
# 将提取到的信息组合成逗号分隔的字符串,并添加换行符
lineout = ",".join([
lasinfo_filename,
projcs_datum,
point_density_statement,
point_density_value
]) + "\n"
# 将结果写入输出文件
output_handle.write(lineout)
def process_txt_files(directory_path: str, output_file: str):
"""
扫描指定目录中的所有.txt文件,并对每个文件执行信息提取。
Args:
directory_path (str): 包含文本文件的目录路径。
output_file (str): 结果将写入的输出文件路径。
"""
dirpath = Path(directory_path)
# 确保输出目录存在
if not dirpath.is_dir():
print(f"错误:目录不存在 - {directory_path}")
return
# 使用'w'模式打开输出文件,清空其内容,准备写入
with open(output_file, 'w', encoding='utf-8') as output_handle:
# 遍历目录中的所有文件
for filepath in dirpath.iterdir():
# 只处理扩展名为.txt的文件
if filepath.suffix == &
quot;.txt":
extract_lines(filepath, output_handle)
if __name__ == '__main__':
# 定义要处理的目录和输出文件
# 请根据您的实际路径修改
directory_path = 'C:/Users/rinicholls/Richard/Gnarabup_LiDAR/LiDAR/Gnarabup_South_*WS/reports'
output_file = 'density_report.txt' # 建议使用更具描述性的文件名
# 执行文件处理
process_txt_files(directory_path, output_file)
print(f"所有.txt文件的信息已提取并写入到 {output_file}")
注意事项与最佳实践
- 数据类型转换: 在本例中,point_density_value被提取为字符串。如果后续需要进行数值计算,请记得将其转换为 float 或 int 类型。在输出到文件时,通常需要再次将其转换回字符串。
- 错误处理: 尽管我们设置了默认值,但在某些情况下,如果关键信息始终缺失,或者文件本身存在问题(例如,无法打开),抛出异常(raise)可能比静默失败更好。这能让问题在早期阶段就被发现,而不是导致下游数据处理的错误。
- 编码: 明确指定文件编码(如 encoding='utf-8')是一个好习惯,可以避免因编码问题导致的文件读取错误。
- 通用性: 尽量使正则表达式模式足够通用,以应对未来文件格式的微小变化。如果文件结构差异较大,可能需要更复杂的解析逻辑,甚至考虑使用专门的解析库。
- 输出格式: 教程中使用了简单的CSV格式(逗号分隔)。对于更复杂的数据,可以考虑使用JSON、XML或其他结构化数据格式,或者使用csv模块进行更规范的CSV写入。
- if __name__ == '__main__': 块: 这个结构确保了 directory_path 和 output_file 的定义以及 process_txt_files 函数的调用只在脚本作为主程序运行时执行,而不是在被其他模块导入时执行。这是一个标准的Python实践。
总结
通过采用pathlib进行现代化的文件路径操作,结合单次文件遍历的高效策略,并利用正则表达式的强大模式匹配能力,我们可以构建出更加灵活、健壮且高效的Python脚本,用于从大量文本文件中提取特定信息。这种方法不仅提高了代码的可维护性,也大大增强了脚本对文件格式变化的适应能力。在实际开发中,始终优先考虑效率、健壮性和代码的可读性,是编写高质量Python程序的关键。
以上就是Python脚本:高效灵活地从多文本文件中提取特定信息的详细内容,更多请关注其它相关文章!
# js
# json
# 正则表达式
# 编码
# 工具
# python
# 办公系统
# 建设银行网站驱动
# 贝特
# 装修好后如何找网站推广
# 泰顺网站建设推广
# 上海精准营销推广公司
# 昌平网络营销网站推广
# 裕华区个人网站推广方法
# 殷都网站推广
# 安顺本地网络推广营销费用是多少
# 岳阳网站推广优化
# 扬州关键词排名提高方法
# 面向对象
# 句柄
# 多个
# 转换为
# 默认值
# 文本文件
# 遍历
# elif
# python脚本
# python程序
# ai
# csv
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
美团外卖商家服务中心入口 美团商家版官网入口
Excel如何用迷你图显趋势_Excel用迷你图显趋势【趋势小图】
MAC怎么在地图App里使用“四处看看”_MAC体验部分城市的3D实景街景
J*a最大堆Heapify方法修复:索引计算与边界条件深度解析
现代化 SciPy 一维插值:interp1d 的替代方案与最佳实践
快手官方唯一登录入口 谨防山寨钓鱼网站
JUnit5/Mockito:优雅测试内部依赖与异常处理的实践
为什么我的微信朋友圈看不到别人的更新_微信朋友圈更新显示异常解决方法
漫蛙MANWA漫画主页官方入口 漫蛙漫画最新在线阅读地址
内存检查:在VS Code中调试C++时的内存视图
如何高效处理PHP中的Excel数据导入导出?PortPHP/Spreadsheet助你轻松搞定!
PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract
win11专注助手在哪 Win11免打扰模式设置与自动化规则【指南】
照顾宝贝2小游戏免费秒玩入口
css滚动动画效果怎么实现_使用Animate.css滚动触发动画类
外媒分析《GTA6》定价:卖100美元可以但真没必要!
UC浏览器网页版登录入口官网 电脑版网址入口
顺丰快件物流信息 官方网站查询入口
html两个JS只运行一个怎么办_让双JS在html中都运行方法【技巧】
Lar*el如何正确地在控制器和模型之间分配逻辑_Lar*el代码职责分离与架构建议
zookeeper 都有哪些功能?
qq音乐在线播放入口_qq音乐电脑版登录链接
Discord Slash 命令响应超时问题的异步解决方案
Safari怎么安装扩展程序 浏览器插件安装与管理方法【详解】
J*a编写用户注册与登录功能_掌握字符串与验证逻辑
如何在离线环境中使用Composer_Composer离线安装依赖包的技巧与策略
如何使用 Excel 发布器与 Power BI 分享 Excel 洞察
AO3最新官网入口公告_2025AO3镜像站实时查询方法
Win11 USB传输速度慢怎么解决 Win11 USB驱动更新与设置
解决 Vaadin 8 中大文件音频播放与定位时出现的 IOException
如何创建独立于主系统的J*a运行环境_隔离式环境搭建策略
126邮箱账号注册 电脑版登录入口
蛙漫2台版漫画地址 Manwa2正版网页版链接
Lar*el用户头像管理:实现图片缩放、存储与旧文件安全删除的最佳实践
Tabulator表格日期时间排序问题及自定义解决方案
Golang切片为何属于引用类型_Golang slice底层结构与引用语义说明
C++如何实现异步操作_C++11使用std::future和std::async进行异步编程
俄罗斯Yandex免登录入口_Yandex搜索引擎官网一键直达
php源码怎么看淘宝客系统_看php源码淘宝客系统技巧
怎么去除衣服上的口红印_生活小妙招教你用酒精轻松擦除
在python-socketio事件处理器中安全访问Flask应用上下文
qq游戏大厅官方下载_qq游戏免费下载安装入口
LINQ to XML为何解析失败? 深入理解C# XDocument的异常处理
汽车之家官方网站官网入口_汽车之家网页版直接进入
LINUX的perf命令入门_LINUX官方性能分析工具的使用与解读
c++ 获取系统当前时间 c++时间戳获取方法
Excel文件在线转换快速入口 Excel在线格式转换网站
双系统安装时,如何设置默认启动系统? msconfig命令了解一下!
J*aScript实现动态背景色下的文本与按钮颜色自适应调整
高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】


2025-11-24
浏览次数:次
返回列表
quot;.txt":
extract_lines(filepath, output_handle)
if __name__ == '__main__':
# 定义要处理的目录和输出文件
# 请根据您的实际路径修改
directory_path = 'C:/Users/rinicholls/Richard/Gnarabup_LiDAR/LiDAR/Gnarabup_South_*WS/reports'
output_file = 'density_report.txt' # 建议使用更具描述性的文件名
# 执行文件处理
process_txt_files(directory_path, output_file)
print(f"所有.txt文件的信息已提取并写入到 {output_file}")