新闻中心
Polars数据合并技巧:将字典DataFrame合并为单一表并标记来源

本教程详细介绍了如何在polars中高效地将存储在字典中的多个dataframe合并成一个单一的dataframe,同时为每行数据添加一个新列,以标识其原始来源(即字典的键)。通过结合使用列表推导式、`with_columns`、`pl.lit`和`pl.concat`函数,用户可以优雅地实现这一常见的数据整理任务,确保数据完整性和可追溯性。
Polars中合并字典DataFrame并保留来源信息
在数据处理过程中,我们经常会遇到需要从多个来源(例如不同的Excel工作表、数据库查询结果)导入数据,并将它们存储在一个Python字典中,其中字典的键代表来源名称,值是对应的Polars DataFrame。此时,一个常见的需求是将这些独立的DataFrame按行合并成一个统一的DataFrame,并且在新合并的表中保留一个列来标识每行数据最初属于哪个DataFrame。本文将深入探讨如何在Polars中优雅且高效地实现这一目标。
问题场景与挑战
假设我们有一个字典dcty,其中包含了多个Polars DataFrame,每个DataFrame都代表一个独立的数据集:
import polars as pl
dcty = {
"df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
"df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}我们期望的输出是一个包含所有数据,并且多了一个名为sheet的列,用于指示数据来源的DataFrame:
shape: (4, 3) ┌──────┬──────┬──────┐ │ col1 ┆ col2 ┆ sheet│ │ --- ┆ --- ┆ --- │ │ i64 ┆ str ┆ str │ ╞══════╪══════╪══════╡ │ 1 ┆ a ┆ df1 │ │ 2 ┆ b ┆ df1 │ │ 3 ┆ c ┆ df2 │ │ 4 ┆ d ┆ df2 │ └──────┴──────┴──────┘
直接使用pl.concat函数可以垂直合并DataFrame列表,但它无法自动添加来源标识列。如果我们将字典转换为列表,会丢失原始的DataFrame名称信息。因此,我们需要一种方法在合并之前,为每个DataFrame添加一个包含其名称的新列。
核心解决方案
Polars提供了一个简洁而强大的解决方案,它结合了列表推导式、with_columns、pl.lit和pl.concat函数:
Pippit AI
CapCut推出的AI创意内容生成工具
133
查看详情
import polars as pl
# 示例数据
dcty = {
"df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
"df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}
# 解决方案代码
combined_df = pl.concat([df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items()])
print(combined_df)运行上述代码将产生预期的输出:
shape: (4, 3) ┌──────┬──────┬───────┐ │ col1 ┆ col2 ┆ sheet │ │ --- ┆ --- ┆ --- │ │ i64 ┆ str ┆ str │ ╞══════╪══════╪═══════╡ │ 1 ┆ a ┆ df1 │ │ 2 ┆ b ┆ df1 │ │ 3 ┆ c ┆ df2 │ │ 4 ┆ d ┆ df2 │ └──────┴──────┴───────┘
解决方案详解
这个解决方案的核心在于通过列表推导式对字典中的每个DataFrame进行预处理,然后将处理后的DataFrame列表传递给pl.concat。
dcty.items(): 这个方法用于遍历字典dcty中的所有键值对。在每次迭代中,name将是字典的键(例如"df1", "df2"),而df将是对应的Polars DataFrame。
-
df.with_columns(sheet=pl.lit(name)): 这是关键的一步,它为每个DataFrame动态地添加一个新列。
- with_columns(): Polars DataFrame的一个方法,用于添加、修改或删除列。它接受一个或多个表达式作为参数。
- sheet=...: 指定新列的名称为sheet。
- pl.lit(name): pl.lit()函数用于创建一个字面量表达式。在这里,它将当前的name(即字典的键,如"df1")作为一个常量值,应用于新列sheet的所有行。这意味着,来自"df1"的所有行都会在sheet列中得到"df1"这个值。
[...] (列表推导式): 列表推导式[df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items()]会生成一个新的DataFrame列表。这个列表中的每个DataFrame都已经是经过修改的,即它们都包含了一个名为sheet的新列,其中填充了其原始的字典键。
pl.concat(...): 最后,pl.concat()函数接收这个包含所有已修改DataFrame的列表,并将它们垂直(按行)合并成一个单一的DataFrame。pl.concat默认执行垂直合并,因此不需要显式指定how="vertical"。
通过这种方式,我们不仅成功地合并了所有DataFrame,而且巧妙地利用了Polars的表达式系统,在合并过程中保留了宝贵的来源信息。
注意事项与最佳实践
- Schema一致性: 为了确保pl.concat顺利执行并得到预期的结果,所有待合并的DataFrame应该具有兼容的列结构和数据类型。如果列名不一致,pl.concat会尝试进行对齐,可能会导致额外的null值。如果数据类型不兼容,Polars可能会尝试隐式类型转换,但也可能抛出错误。在合并前检查并标准化DataFrame的schema是一个好习惯。
- 性能: Polars的pl.concat函数是高度优化的,对于大量DataFrame或大型DataFrame的合并操作,其性能通常非常出色。列表推导式在Python中也是一种高效的构建列表的方式。
- 内存管理: 尽管Polars在内存效率方面表现优秀,但合并大量大型DataFrame仍然可能消耗大量内存。确保系统有足够的RAM来处理合并操作。
-
错误处理: 在实际应用中,如果字典中的DataFrame可能为空或格式不一致,建议在列表推导式中加入额外的逻辑进行过滤或处理,例如:
# 过滤掉空的DataFrame combined_df = pl.concat([ df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items() if not df.is_empty() ])
总结
将Polars字典中的多个DataFrame合并成一个带有来源标识的单一DataFrame,是一个常见的但有时令人困惑的数据处理任务。通过本教程介绍的方法,即利用列表推导式结合with_columns和pl.lit来预处理每个DataFrame,再通过pl.concat进行最终合并,我们能够以一种高效、清晰且富有表达力的方式解决这一问题。掌握这一技巧,将大大提升您在Polars中处理复杂数据整合任务的能力。
以上就是Polars数据合并技巧:将字典DataFrame合并为单一表并标记来源的详细内容,更多请关注其它相关文章!
# 数据处理
# 抖音关键词搜索排名团队
# 建设网站结束语
# 绥芬河小程序网站建设
# 娄底网站优化收费标准
# 纸制品网站优化哪个好
# 巩义网站优化平台有哪些
# 商丘关键词搜索排名代理
# seo和java哪个好
# 苏州关键词排名平台
# 沛县网站推广公司
# 这是
# excel
# 并将
# 将是
# 键值
# 并为
# 隐式
# 这一
# 是一个
# 多个
# 隐式类型转换
# 键值对
# python
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
必由学官方网站入口 必由学学生教师共用登录通道
J*a里如何实现订单支付与库存同步功能_支付库存同步项目开发方法说明
PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract
知音漫客官网漫画下载_知音漫客网页版阅读记录
Typer应用中动态命令行参数的解析与处理
Steam官网入口直达 Steam注册及登录步骤
汽水音乐车机版横屏版7.1 汽水音乐车机版横屏版下载入口
处理嵌套交互式控件:前端可访问性指南
浏览器打开即用 美图秀秀网页版入口
动漫岛观看全网网 动漫岛在线正版动漫入口
html5 app怎么运行环境_配html5 app运行环境【教程】
漫蛙漫画登录站点 漫蛙2正版漫画快速访问
Golang切片为何属于引用类型_Golang slice底层结构与引用语义说明
Sublime Text怎么设置垂直标尺_Sublime配置Rulers规范代码长度
在J*a中如何使用BigDecimal进行高精度计算_BigDecimal类应用指南
Go语言中JSON数据解码与字段访问指南
响应式容器内容自动缩放与宽高比维持教程
护手霜蹭到袖口上了如何清洗? 怎样避免留下一圈油印?
QQ网页版官方账号入口 QQ网页版网页版登录指南
J*aScript中赋值与自增运算符的复杂交互与执行机制
c++ 命名空间怎么用 c++ namespace使用指南
汽车之家官方网站官网入口_汽车之家网页版直接进入
c++中的std::forward_list和std::list有什么不同_c++ forward_list与list区别分析
印象笔记怎样用批量导出备知识库_印象笔记用批量导出备知识库【备份方法】
age动漫网站入口 age动漫官网直接访问入口
qq浏览器如何查看和导出已保存的密码 qq浏览器密码管理器数据备份教程
PHP URL参数传递与500错误调试指南
《噬血代码2》新预告片发布 展示游戏剧情
如何将HTML表格多行数据保存到Google Sheets
德邦快递查询平台 德邦快递物流信息查询入口
QQ邮箱稳定登录入口_QQ邮箱官方网站网页版使用
C++ explicit关键字防止隐式转换_C++构造函数安全规范
Win11怎么开启卓越性能模式 Win11电源选项启用高性能释放硬件潜力【方法】
Lar*el DB::listen 事件中的查询执行时间单位解析
漫蛙漫画官方首页 漫蛙2漫画在线阅读入口
学习通网页版官方登录 超星学习通电脑端入口指南
Lar*el Excel导入时生成自定义递增ID的策略与实践
Python字典中优雅地迭代剩余元素的方法
可靠CSGO开箱平台解析 CSGO开箱网合集
高德地图家和公司地址在哪设置 高德地图通勤路线设置方法【超详细】
c++如何使用std::memory_order控制原子操作顺序_c++ C++11内存模型详解
Yandex官方入口网址 Yandex俄罗斯搜索引擎最新在线地址
qq邮箱日历功能怎么用_创建日程与会议邀请的技巧
Vue.js 图片显示异常排查:理解应用挂载范围与DOM ID唯一性
深入理解J*aScript中的B样条曲线与节点向量生成
Mac终端命令大全_Mac常用Terminal指令速查
J*aScript设计模式实践_j*ascript代码优化
12306选座如何查看座位示意图_12306座位示意图解读与使用
汽水音乐车机版8.9下载 汽水音乐车机版8.9版本安装入口
多闪网页版在线观看免费入口_多闪官网访问入口


2025-11-04
浏览次数:次
返回列表