新闻中心
在Pandas DataFrame中展开NumPy数组为独立列的教程

本教程详细介绍了如何在Pandas DataFrame中将包含NumPy数组的列(如键和值)高效地转换为独立的列。文章涵盖了两种主要场景:当所有行的键(keys)数组相同时,以及当键数组在不同行之间存在差异时。通过提供清晰的代码示例和步骤解释,旨在帮助用户将复杂的数据结构扁平化,提升数据分析的便利性和可读性。
引言
在数据处理和分析中,我们经常会遇到DataFrame的某一列或几列中存储着复杂的数据结构,例如NumPy数组或列表。当这些数组或列表包含需要作为独立特征进行分析的数据时,将其展开为DataFrame的新列就显得尤为重要。本文将以一个常见场景为例:DataFrame中包含keys和values两列,它们分别存储着NumPy数组,我们的目标是将values数组中的元素根据keys数组中的对应键值,展开为新的DataFrame列。
我们将探讨两种核心情况:
- 所有行的keys数组内容完全相同。
- keys数组在不同行之间可能存在差异。
准备示例数据
为了更好地演示,我们首先创建一些示例数据框。
import pandas as pd
import numpy as np
# 场景一:keys数组在所有行中相同
source_df_identical_keys = pd.DataFrame(
[
['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
['data_A2', 'data_B2', np.array(['key1', 'key2', 'key3']), np.array(['value1b', 'value2b', 'value3b'])],
['data_A3', 'data_B3', np.array(['key1', 'key2', 'key3']), np.array(['value1c', 'value2c', 'value3c'])]
],
columns=['Col A', 'Col B', 'keys', 'values']
)
print("原始数据框 (键相同):")
print(source_df_identical_keys)
# 场景二:keys数组在不同行中可能不同
source_df_non_identical_keys = pd.DataFrame(
[
['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
['data_A2', 'data_B2', np.array(['key3', 'key4', 'key1']), np.array(['value3b', 'value4b', 'value1b'])],
['data_A3', 'data_B3', np.array(['key5', 'key2']), np.array(['value5c', 'value2c'])]
],
columns=['Col A', 'Col B', 'keys', 'values']
)
print("\n原始数据框 (键不同):")
print(source_df_non_identical_keys)场景一:处理键(keys)数组在所有行中相同的情况
当DataFrame中的keys列在所有行中都包含相同的NumPy数组时,我们可以利用这一特性进行高效的转换。这种情况下,我们只需要从任何一行获取一次键列表作为新列的名称。
方法一:创建新DataFrame并连接
这种方法涉及创建一个新的DataFrame来承载展开后的值,然后将其与原始DataFrame中不需要展开的列进行连接。
# 假设 source_df_identical_keys 是我们处理的数据框
df = source_df_identical_keys.copy()
# 1. 提取所有行的 'values' 列并转换为列表的列表
# 2. 使用第一行的 'keys' 作为新DataFrame的列名
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_identical_keys = (
df.drop(columns=['keys', 'values'])
.join(pd.DataFrame(df['values'].tolist(), columns=df['keys'].iloc[0]))
)
print("\n展开后的数据框 (键相同 - 方法一):")
print(result_df_identical_keys)代码解析:
- df.drop(columns=['keys', 'values']): 首先从原始DataFrame中删除keys和values这两列,因为它们将被展开成新的列。
- df['values'].tolist(): 将values列中的NumPy数组转换为Python列表,然后将整个Series转换为一个包含列表的列表。这是pd.DataFrame构造函数接受的常见输入格式。
- df['keys'].iloc[0]: 由于所有行的keys数组都相同,我们只需取第一行的keys数组作为新DataFrame的列名。
- pd.DataFrame(...): 使用提取出的值列表和列名构造一个新的DataFrame。
- .join(...): 将这个新生成的DataFrame连接回之前删除了keys和values列的DataFrame。join方法默认根据索引进行连接。
方法二:原地修改DataFrame
如果你希望直接修改现有的DataFrame而不是创建一个新的,可以使用pop方法结合赋值操作。
j2me3D游戏开发简单教程 中文WORD版
本文档主要讲述的是j2me3D游戏开发简单教程; 如今,3D图形几乎是任何一部游戏的关键部分,甚至一些应用程序也通过用3D形式来描述信息而获得了成功。如前文中所述,以立即模式和手工编码建立所有的3D对象的方式进行开发速度很慢且很复杂。应用程序中多边形的所有角点必须在数组中独立编码。在JSR 184中,这称为立即模式。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看
0
查看详情
# 假设 source_df_identical_keys 是我们处理的数据框
df_in_place = source_df_identical_keys.copy()
# 1. 使用 pop 方法移除 'keys' 列,并获取其第一行的值作为新列名
# 2. 使用 pop 方法移除 'values' 列,并将其转换为列表的列表,再用 pd.DataFrame 构造
# 3. 将新生成的 DataFrame 直接赋值给原始 DataFrame 的新列
df_in_place[df_in_place.pop('keys').iloc[0]] = pd.DataFrame(df_in_place.pop('values').tolist())
print("\n展开后的数据框 (键相同 - 方法二,原地修改):")
print(df_in_place)代码解析:
- df_in_place.pop('keys').iloc[0]: pop方法会从DataFrame中移除指定的列并返回该列的Series。我们立即获取其第一行的值(即keys数组)作为后续赋值操作的列名。
- df_in_place.pop('values').tolist(): 同样,pop移除values列并返回其Series,然后将其转换为列表的列表。
- pd.DataFrame(...): 将values列表转换为一个临时的DataFrame。
- df_in_place[...] = ...: 通过将这个临时DataFrame赋值给由keys数组定义的列,实现原地添加新列。Pandas会智能地将临时DataFrame的列名与keys数组中的元素匹配,并将值填充到对应的位置。
场景二:处理键(keys)数组在不同行中可能不同的情况
当keys数组在不同行中不一致时,我们需要更灵活的方法来处理。在这种情况下,简单地使用第一行的keys作为所有列名将不再适用,因为某些行可能不包含这些键,或者包含额外的键。
方法:使用字典列表创建DataFrame并连接
这种方法的核心思想是为每一行创建一个字典,将该行的keys映射到对应的values,然后将这些字典的列表转换为一个新的DataFrame。
# 假设 source_df_non_identical_keys 是我们处理的数据框
df = source_df_non_identical_keys.copy()
# 1. 遍历 'keys' 和 'values' 列,为每一行创建一个字典,将键映射到值
# 2. 将这些字典的列表传递给 pd.DataFrame 构造函数
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_non_identical_keys = (
df.drop(columns=['keys', 'values'])
.join(pd.DataFrame([dict(zip(k, v)) for k, v in zip(df['keys'], df['values'])]))
)
print("\n展开后的数据框 (键不同):")
print(result_df_non_identical_keys)代码解析:
- zip(df['keys'], df['values']): 这会并行迭代keys列和values列,每次迭代返回一个keys数组和一个values数组。
- dict(zip(k, v)): 对于每一对k (keys数组) 和 v (values数组),zip(k, v)会创建一个键值对的迭代器,dict()将其转换为一个字典。例如,如果k=['key1', 'key2']和v=['val1', 'val2'],则会生成{'key1': 'val1', 'key2': 'val2'}。
- [... for k, v in ...]: 这是一个列表推导式,它为DataFrame的每一行生成一个字典。
- pd.DataFrame(...): 使用这个字典列表构造一个新的DataFrame。Pandas会自动识别所有唯一的键作为列名,并在特定行中如果某个键不存在,则填充NaN。
- df.drop(...) 和 .join(...): 与第一种方法类似,删除原始列并连接新生成的DataFrame。
输出示例分析 (键不同):
Col A Col B key1 key2 key3 key4 key5 0 data_A1 data_B1 value1a value2a value3a NaN NaN 1 data_A2 data_B2 value1b NaN value3b value4b NaN 2 data_A3 data_B3 NaN value2c NaN NaN value5c
可以看到,key1、key2、key3、key4、key5成为了新的列。对于第二行,由于其原始keys数组中没有key2,因此key2列在第二行显示为NaN。同样,对于第三行,key1、key3、key4显示为NaN。这种处理方式能够灵活地适应键不一致的场景。
注意事项与总结
- 性能考量: 对于非常大的DataFrame,涉及apply或列表推导式的方法(如处理非相同键的情况)可能会比直接的NumPy数组操作(如处理相同键的情况)慢。在性能敏感的场景下,应优先考虑向量化操作。
- 数据类型: 展开后的新列的数据类型会根据values数组中元素的类型自动推断。如果values中包含混合类型,Pandas可能会将其转换为object类型。
- NaN值处理: 当键不一致时,未匹配到的新列位置将填充NaN。在后续分析中,可能需要对这些NaN值进行填充(例如fillna(0))或删除。
- 列名冲突: 确保keys数组中的键不会与原始DataFrame中已有的列名发生冲突。如果发生冲突,join或赋值操作可能会覆盖现有列或引发错误。
- 选择合适的方法: 根据keys列的特性(是否在所有行中都相同)选择最适合且最高效的方法。如果keys始终相同,使用第一种方法更简洁高效;如果keys可能不同,则第二种方法提供了必要的灵活性。
通过掌握这些技术,您可以有效地将DataFrame中嵌套的NumPy数组结构扁平化,使其更易于进行数据探索、清洗和模型构建。
以上就是在Pandas DataFrame中展开NumPy数组为独立列的教程的详细内容,更多请关注其它相关文章!
# 种方法
# 小程序网站建设特点
# 网站投放推广怎么做最好
# 武汉网站营销推广的公司
# 黑龙seo网站优化设计
# 张家港企业网站优化招聘
# 高级网站建设效果如何
# 附子seo视频2018
# 精准营销活动推广消息
# seo课本
# 诸暨建设集团招聘网站
# 中不
# python
# 移除
# 键值
# 游戏开发
# 数据结构
# 创建一个
# 组中
# 将其
# 转换为
# 键值对
# app
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
c++如何使用chrono库处理时间_c++标准库时间与日期操作
Lar*el 8 多关键词数据库搜索优化实践
必由学官网入口 必由学教师登录入口
C++如何使用AddressSanitizer(ASan)_C++调试工具中检测内存访问错误的利器
192.168.1.1管理中心入口 192.168.1.1路由器网页设置平台
写好的html代码怎么运行出来_运行写好的html代码方法【教程】
抖音小游戏合成大西瓜免费秒玩入口链接 抖音小游戏热门合集秒玩网站
漫蛙manwa2最新登录网址_漫蛙manwa2手机网页版入口
在J*a中如何使用Stream.map转换元素_Stream映射操作解析
在J*a中如何开发简易博客标签推荐系统_博客标签推荐项目实战解析
C++如何实现单例模式_C++设计模式之线程安全的单例写法
谷歌浏览器无痕模式怎么开 Chrome开启无痕浏览设置方法【教程】
怎样在Excel中做仪表盘_Excel仪表盘设计与关键指标展示方法
如何解决电商平台定制报价请求的“黑洞”问题,SprykerQuoteRequest模块助你提升客户体验与销售效率
抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩
Django表单提交验证失败后保持字段值不刷新
GemBox Document HTML转PDF垂直文本渲染问题及解决方案
C++的std::mdspan是什么_C++23中用于操作多维数组的非拥有视图
PHP表单数据传递:如何通过隐藏输入字段获取动态ID
百度网盘网页版入口 百度网盘网页版官方登录网址
J*a TimerTask中HashMap意外清空的深层原因与解决方案
4399网页游戏电脑版全新入口 4399电脑端在线玩指南
Bing引擎入口最新2025 Bing搜索免费官方登录
CSS图片焦点样式实现教程:理解与应用tabindex属性
163邮箱网页版入口导航平台 163邮箱网页版登录入口官网导航
css卡片内容溢出如何处理_使用overflow隐藏或scroll显示内容
Golang如何实现简单的Web表单_Golang表单提交与验证处理方法
《明末:渊虚之羽》设计师谈设计角色:那会刚毕业 充满激情
微信怎么把收藏的内容分类管理 微信收藏内容标签分类方法
支付宝解绑银行卡步骤_支付宝如何解除绑定银行卡
高德地图怎么看全景照片_高德地图全景照片浏览教程
J*aScript异步迭代器_j*ascript异步遍历
移动端XML文件怎么转换成Excel 手机和平板上的解决方案
在Runstone环境中高效处理TasteDive API的JSON数据
AWS EC2实例间SQL Server连接超时:安全组配置与故障排除指南
一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】
J*a编写用户注册与登录功能_掌握字符串与验证逻辑
C++如何进行游戏物理模拟_使用Box2D库为C++游戏添加2D物理效果
优酷会员付费后没到账怎么办_优酷会员充值异常及解决方法
妖精动漫免费平台 妖精动漫官网资源观看网址
Golang如何使用context实现超时取消_Golang context超时取消模式实践
Mac怎么查看崩溃日志_Mac控制台错误报告分析
抖音创作助手登录入口_抖音创作辅助工具官网直达
LINUX的perf命令入门_LINUX官方性能分析工具的使用与解读
J*a里如何实现线程安全的懒加载单例_懒加载单例实现方法解析
Spyder启动失败:字体文件权限拒绝错误解决方案
“在文档元素之后找到了标记”是什么错误? 检查并修复XML中多个根元素的3个方法
HTML转PPT成品工具有哪些?HTML网页转PPT成品工具大全
React Hooks最佳实践:动态组件状态管理的组件化方案
铁路12306卧铺选择攻略 铁路12306下铺座位预定技巧


2025-11-03
浏览次数:次
返回列表
N
1 data_A2 data_B2 value1b NaN value3b value4b NaN
2 data_A3 data_B3 NaN value2c NaN NaN value5c