新闻中心
Pandas数据重塑:多列映射与DataFrame合并策略

本文详细介绍了在Pandas中如何将一个DataFrame的多个列经过特定转换后,映射到另一个DataFrame的统一列结构中,并最终进行垂直合并。通过实例演示了列重命名、数据类型转换以及列选择等预处理步骤,最终利用`pd.concat`实现不同结构DataFrame的有效整合,以满足复杂数据清洗与整合的需求。
在数据分析和处理中,我们经常会遇到需要整合来自不同数据源或不同结构的数据集。一个常见的场景是,我们有两个或多个DataFrame,它们包含部分相同的核心信息,但也有各自独特的列。为了将这些数据合并到一个统一的结构中,我们可能需要对其中一个或多个DataFrame进行列的重命名、数据转换甚至列的选择性丢弃,以使其与目标结构对齐。本教程将通过一个具体示例,详细阐述如何实现这种多列映射与DataFrame的合并。
1. 问题背景与数据结构
假设我们有两个DataFrame,df1和df2,它们都包含人物信息,但df2额外包含一个nick_name列,并且我们希望将df2中的nick_name作为合并后数据行的name,同时对sex列进行缩写,并将这些转换后的信息添加到df1的下方。
初始DataFrame示例:
首先,我们创建这两个DataFrame:
import pandas as pd
import numpy as np
# 第一个DataFrame (df1)
data1 = {
'name': ['smith row', 'sam smith', 'susan storm'],
'age': [26, 30, 25],
'sex': ['male', 'male', 'female']
}
df1 = pd.DataFrame(data1)
print("df1:")
print(df1)
# Output:
# name age sex
# 0 smith row 26 male
# 1 sam smith 30 male
# 2 susan storm 25 female
# 第二个DataFrame (df2)
data2 = {
'name': ['smith row', 'sam smith', 'susan storm'],
'age': [26, 30, 25],
'sex': ['male', 'male', 'female'],
'nick_name': ['smity', 'sammy', 'suanny']
}
df2 = pd.DataFrame(data2)
print("\ndf2:")
print(df2)
# Output:
# name age sex nick_name
# 0 smith row 26 male smity
# 1 sam smith 30 male sammy
# 2 susan storm 25 female suanny我们的目标是生成一个包含df1所有行,以及由df2转换而来的新行(其中name来自nick_name,sex是原sex的首字母,age则为空值)的DataFrame。
2. 数据预处理与列映射
为了实现上述目标,我们需要对df2进行一系列的预处理操作,使其结构和内容与我们期望的合并结果相匹配。
2.1 映射 nick_name 到 name
首先,我们将df2中的nick_name列的值赋给name列。这样,在后续合并时,这些昵称将作为新的名字出现。
Motiff妙多
Motiff妙多是一款AI驱动的界面设计工具,定位为“AI时代设计工具”
334
查看详情
# 将df2的'nick_name'列值赋给'name'列
df2['name'] = df2['nick_name']
print("\ndf2 after mapping nick_name to name:")
print(df2)
# Output:
# name age sex nick_name
# 0 smity 26 male smity
# 1 sammy 30 male sammy
# 2 suanny 25 female suanny2.2 转换 sex 列为首字母
接下来,我们需要将df2的sex列中的完整性别描述(如'male', 'female')转换为其首字母(如'm', 'f')。这可以通过字符串切片操作实现。
# 将df2的'sex'列转换为首字母
df2['sex'] = df2['sex'].str[0]
print("\ndf2 after transforming sex column:")
print(df2)
# Output:
# name age sex nick_name
# 0 smity 26 m smity
# 1 sammy 30 m sammy
# 2 suanny 25 f suanny2.3 丢弃不必要的列
根据目标输出,我们不需要df2中的原始age列和nick_name列(因为nick_name已经映射到name)。因此,我们可以将它们从df2中删除。
# 丢弃df2中不再需要的列
df2 = df2.drop(columns=['age', 'nick_name'])
print("\ndf2 after dropping unnecessary columns:")
print(df2)
# Output:
# name sex
# 0 smity m
# 1 sammy m
# 2 suanny f此时,df2的结构已经接近我们期望的合并形式。它现在只有name和sex两列,与df1的目标结构(name, age, sex)相比,缺少age列,这将在合并时自动处理为NaN。
3. 合并DataFrame
现在,两个DataFrame都已准备就绪,我们可以使用pd.concat()函数将它们垂直合并。pd.concat()是Pandas中用于沿特定轴(默认是行轴)连接Series或DataFrame对象的强大工具。
# 合并df1和预处理后的df2
# ignore_index=True 会重置合并后的索引
df_combined = pd.concat([df1, df2], ignore_index=True)
print("\nCombined DataFrame:")
print(df_combined)
# Output:
# name age sex
# 0 smith row 26.0 male
# 1 sam smith 30.0 male
# 2 susan storm 25.0 female
# 3 smity NaN m
# 4 sammy NaN m
# 5 suanny NaN f从结果可以看出,df1的所有行都被保留,df2转换后的行被添加在其下方。由于转换后的df2不包含age列,在合并时,这些新行的age列自动填充为NaN(Not a Number),并且为了兼容NaN,age列的数据类型也会自动转换为浮点数。
4. 注意事项与最佳实践
- 列名一致性:pd.concat()在垂直合并时,会根据列名进行对齐。如果一个DataFrame中存在而另一个DataFrame中不存在的列,则会在缺失的DataFrame中填充NaN。这是本例中age列在df2转换行中显示NaN的原因。
- 数据类型兼容性:在进行列映射和转换时,请确保最终的数据类型是兼容的。例如,将字符串转换为数字或反之,可能会导致错误或意外行为。本例中,sex列从完整字符串变为单字符,这在字符串类型中是兼容的。
-
ignore_index=True:使用ignore_index=True参数可以确保合并后的DataFrame拥有一个连续的、从0开始的整数索引,避免了原始DataF
rame索引的重复或冲突。 - 动态映射:虽然本例中我们是直接通过列赋值进行映射,但在更复杂的“动态”场景中,例如根据字典进行批量重命名、或根据条件应用不同的转换规则,可以结合使用df.rename()、df.apply()、df.map()或自定义函数来实现更灵活的映射逻辑。
- 内存效率:对于非常大的DataFrame,频繁地创建中间DataFrame副本(如df2 = df2.drop(...))可能会有性能开销。在某些情况下,可以考虑链式操作或使用assign()方法来提高效率。
5. 总结
本教程演示了如何通过一系列有策略的列操作(包括列赋值、数据转换和列删除)来重塑一个DataFrame,使其能够与另一个DataFrame的结构对齐,并最终通过pd.concat()进行垂直合并。这种方法在处理异构数据源,需要将特定信息映射到统一结构,并进行整合时非常有用。掌握这些Pandas技巧,能够大大提高数据清洗和预处理的效率和灵活性。
以上就是Pandas数据重塑:多列映射与DataFrame合并策略的详细内容,更多请关注其它相关文章!
# 工具
# 数据清洗
# 自定义
# 多个
# 数据结构
# 使其
# 首字母
# 转换为
# 重命名
# app
# 开原首页seo优化
# 专业网站优化技术指导
# 新县企业网站推广公司
# 肇庆推广营销收费情况
# 四平seo服务加盟
# 营销总监推广工作内容
# 漳州seo优化厂家报价
# 泰州微商网站推广
# 巢湖全域营销推广
# 联盟营销推广方式
# 如何用
# 链式
# 本例
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Win11怎么设置鼠标指针速度_Win11提高鼠标指针精确度选项
MongoDB聚合管道:正确匹配对象数组中_id的方法
mysql备份恢复性能优化_mysql备份恢复性能优化方法
Log4j Console Appender性能瓶颈与高并发优化策略
Mac怎么锁定备忘录_Mac备忘录加密设置教程
包子漫画官方网站阅读入口-包子漫画在线漫画官网直达链接
PyTorch模型训练效果不佳?深入剖析常见错误与调试技巧
在Runstone环境中高效处理TasteDive API的JSON数据
12306选座如何查看座位示意图_12306座位示意图解读与使用
使用Pandas转换并合并DataFrame:多列映射至统一结构
WordPress插件开发:正确注册卸载钩子与避免常见陷阱
QQ邮箱官方邮箱登录入口 QQ邮箱网页版快速访问
Win11输入法不见了怎么办_Windows11恢复语言栏显示方法
漫蛙漫画官方主页入口 漫蛙MANWA网页直达访问链接
深入理解Go语言中Map值与方法接收器的交互:为什么需要临时变量
抖音网页版怎么|直播|_抖音网页版开播操作指南
Mudbox图层蒙版怎么用_Mudbox图层蒙版数字雕刻应用技巧
css链接悬停下划线样式如何自定义_使用::after结合content和transition
Win11 BitLocker密码忘了怎么办 Win11找回BitLocker恢复密钥方法【解决】
印象笔记怎样用批量导出备知识库_印象笔记用批量导出备知识库【备份方法】
红果短剧网页版官网入口 官方最新网址发布
Descript怎样用AI剪辑自动去噪_Descript用AI剪辑自动去噪【自动降噪】
《燕云十六声》两周内达九百万玩家!位居畅销榜第五
qq游戏网页版直接玩_qq游戏免下载快速入口
《铁拳8》黑皮辣妹新实机:元气满满的18岁少女!
免费抖音短视频入口_抖音网页版短视频免费通道
在哪找SublimeJ远程工具_SFTP插件配置教程
铁路12306官网网页端快速入口 铁路12306官方首页登录教程
C#中解析不规范的HTML为XML 常见的坑与解决办法
Python:递归比较文件夹内容并找出特定类型文件的差异
谷歌邮箱注册显示错误Gmail服务器异常与延迟处理
优化 Python 函数中的条件逻辑:解决 if-else 嵌套与参数选择问题
Win11截图该按哪些键 Win11截屏完整流程解析【教程】
qq游戏大厅官方下载_qq游戏免费下载安装入口
html怎么在cmd下运行php文件_cmd运行html中php文件方法【教程】
AO3同人作品网入口 AO3搜索引擎官网永久地址
快速CSGO开箱网站指南 CSGO开箱平台推荐
MinIO大规模对象列表性能瓶颈深度解析与外部元数据管理策略
Python实现多节点属性重叠度分析教程
汽水音乐车机版8.9下载 汽水音乐车机版8.9版本安装入口
神庙逃亡小游戏在线玩 神庙逃亡小游戏入口
痛风发作了怎么办? 快速止痛和后期饮食调理
在FastAPI中利用lifespan与依赖注入高效管理Redis连接池
德邦快递查询平台 德邦快递物流信息查询入口
极兔快递快件信息查询系统 极兔快递官网运单号追踪
将HTML动态表格多行数据保存到Google Sheet的教程
PHP表单数据传递:如何通过隐藏输入字段获取动态ID
俄罗斯浏览器官网直达链接 俄罗斯浏览器最新在线入口导航
腾讯视频怎么举报不良内容_腾讯视频内容举报流程与违规信息处理方法
漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道


2025-11-27
浏览次数:次
返回列表
rame索引的重复或冲突。