新闻中心
Pandas DataFrame 高效批量更新指定位置值教程

本教程旨在解决pandas dataframe中批量更新特定单元格值时效率低下的问题。通过介绍迭代更新的性能瓶颈,并提出一种利用dataframe底层numpy数组和标签到位置映射的优化方法,实现对指定行/列标签对的快速批量赋值,显著提升大数据量操作的执行速度。
问题描述与传统方法的局限性
在处理Pandas DataFrame时,我们经常需要更新多个特定位置的单元格值。一种直观但效率低下的方法是使用循环逐个设置:
import pandas as pd import numpy as np # 模拟一个大型DataFrame column_names = np.array(range(100)) np.random.shuffle(column_names) row_names = np.array(range(100)) np.random.shuffle(row_names) df = pd.DataFrame(columns=column_names, index=row_names) # 待设置的行和列标签(这里使用整数作为标签) ix = np.random.randint(0, 100, 1000) iy = np.random.randint(0, 100, 1000) # 迭代更新,耗时较长 # for k in range(len(ix)): # df.loc[ix[k], iy[k]] = 1
对于大型数据集和大量的更新操作,上述循环方式会非常慢。例如,在包含100x100个元素且更新1000个位置的场景下,循环可能需要0.35秒。
另一种尝试是利用Pandas的 .loc 索引器进行批量赋值:
# 尝试使用 df.loc[ix, iy] = 1 # df.loc[ix, iy] = 1
虽然这种方法速度极快(可能仅需0.035秒),但它并不能实现我们期望的“一对一”更新。df.loc[ix, iy] = 1 会将 ix 中所有行标签与 iy 中所有列标签的笛卡尔积所对应的所有单元格都设置为1,而不是仅仅更新 (ix[k], iy[k]) 这样的对应位置。因此,我们需要一种既快速又能准确更新指定位置的方法。
高效解决方案:利用NumPy数组进行矢量化更新
Pandas DataFrame的底层数据结构实际上是NumPy数组。直接操作NumPy数组通常比通过Pandas的标签索引器进行操作更快,因为它避免了额外的开销,并能充分利用NumPy的矢量化特性。然而,DataFrame通常使用非整数的标签(如字符串)作为行索引和列名,而NumPy数组只能通过整数位置进行索引。因此,关键在于将DataFrame的标签转换为对应的整数位置。
核心思想:
- 获取DataFrame行索引和列名的整数位置映射。
- 将需要更新的行标签和列标签列表转换为其对应的整数位置列表。
- 使用这些整数位置直接对DataFrame的底层NumPy数组进行批量赋值。
实现步骤
1. 构建标签到位置的映射 首先,我们需要创建两个 pd.Series,分别将DataFrame的行索引和列名映射到它们的整数位置。
# 假设df是我们的DataFrame # cols = pd.Series(range(df.shape[1]), index=df.columns) # idx = pd.Series(range(df.shape[0]), index=df.index)
这里,df.shape[1] 是列的数量,df.shape[0] 是行的数量。
Health AI健康云开放平台
专注于健康医疗垂直领域的AI技术开放平台
113
查看详情
2. 获取目标标签对应的位置索引 接下来,使用 reindex 方法将我们想要更新的 ix(行标签列表)和 iy(列标签列表)转换为它们在DataFrame中的实际整数位置。
# ix_pos = idx.reindex(ix) # iy_pos = cols.reindex(iy)
idx.reindex(ix) 会查找 ix 中每个标签在 idx Series中的值(即其对应的整数位置)。iy_pos 同理。
3. 直接更新底层NumPy数组 最后,利用得到的整数位置索引,直接对DataFrame的 .values 属性(即底层NumPy数组)进行赋值。
# df.values[ix_pos, iy_pos] = 1
这种高级索引操作在NumPy中是高度优化的,可以实现高效的批量更新。
示例代码
以下是一个完整的示例,演示如何高效地批量设置DataFrame中指定位置的值:
import pandas as pd
import numpy as np
# 1. 初始DataFrame(使用非整数标签以便更好地说明)
df = pd.DataFrame(index=['a', 'b', 'c', 'd', 'e'],
columns=['A', 'B', 'C', 'D', 'E'])
print("原始DataFrame:")
print(df)
print("-" * 30)
# 2. 定义需要更新的行标签和列标签列表
# 例如,我们想设置 (a, A), (b, C), (c, A), (d, E) 这几个位置的值为1
ix_labels = ['a', 'b', 'c', 'd']
iy_labels = ['A', 'C', 'A', 'E']
# 3. 构建标签到位置的映射
# map DataFrame's column labels to their integer positions
cols_map
= pd.Series(range(df.shape[1]), index=df.columns)
# map DataFrame's index labels to their integer positions
idx_map = pd.Series(range(df.shape[0]), index=df.index)
# 4. 获取目标标签对应的位置索引
# Convert the list of row labels to their integer positions
target_row_pos = idx_map.reindex(ix_labels)
# Convert the list of column labels to their integer positions
target_col_pos = cols_map.reindex(iy_labels)
print("目标行标签对应的整数位置:", target_row_pos.tolist())
print("目标列标签对应的整数位置:", target_col_pos.tolist())
print("-" * 30)
# 5. 直接更新底层NumPy数组
# 使用NumPy的高级索引功能,对底层数组进行赋值
df.values[target_row_pos, target_col_pos] = 1
print("更新后的DataFrame:")
print(df)输出结果:
原始DataFrame:
A B C D E
a NaN NaN NaN NaN NaN
b NaN NaN NaN NaN NaN
c NaN NaN NaN NaN NaN
d NaN NaN NaN NaN NaN
e NaN NaN NaN NaN NaN
------------------------------
目标行标签对应的整数位置: [0, 1, 2, 3]
目标列标签对应的整数位置: [0, 2, 0, 4]
------------------------------
更新后的DataFrame:
A B C D E
a 1 NaN NaN NaN NaN
b NaN NaN 1 NaN NaN
c 1 NaN NaN NaN NaN
d NaN NaN NaN NaN 1
e NaN NaN NaN NaN NaN性能优势分析
通过直接操作底层NumPy数组,我们充分利用了NumPy的C语言实现和矢量化操作,避免了Python循环的开销以及Pandas高级索引器的额外逻辑判断。相比于逐个元素迭代赋值,这种方法在处理大量更新时,通常能带来数量级的性能提升(例如,从0.35秒降至0.035秒,提速10倍)。这对于大数据分析和处理至关重要。
注意事项与最佳实践
- 标签一致性: 确保 ix_labels 和 iy_labels 列表的长度相同,并且它们之间的元素是一一对应的关系,即 (ix_labels[k], iy_labels[k]) 构成一个需要更新的单元格。
- 标签存在性: ix_labels 中的所有标签必须存在于DataFrame的行索引中,iy_labels 中的所有标签必须存在于DataFrame的列名中。如果存在不存在的标签,reindex 会返回 NaN,这在后续的NumPy索引中会导致错误。在实际应用中,可能需要预先检查标签的有效性。
- 直接修改: .values 返回的是底层NumPy数组的视图(在大多数情况下),直接对其修改会影响原始DataFrame。这是我们期望的行为,但需要在使用时明确这一点。
- 数据类型: 这种方法适用于更新单一类型的值。如果需要更新不同数据类型的值,Pandas会自动进行类型推断,但直接操作NumPy数组时,可能需要注意其统一的数据类型。
总结
当需要在Pandas DataFrame中高效地批量更新指定(行标签,列标签)对的单元格时,应避免使用Python循环。通过将DataFrame的行/列标签映射到其整数位置,然后利用这些位置直接对DataFrame的底层NumPy数组进行矢量化赋值,可以显著提升性能。这种方法是处理大数据量更新场景下的一个强大且高效的解决方案。
以上就是Pandas DataFrame 高效批量更新指定位置值教程的详细内容,更多请关注其它相关文章!
# 的是
# 公司网站怎样建设
# 绵阳推广视频招聘网站
# 青岛正规网站seo优化公司
# seo1短视频人人网站推seo
# 兰州榆中家装网站建设
# 章丘建设银行网站
# 基层药品营销推广
# 衢州网站推广怎样做的
# 富拓平台排名营销推广
# 临汾网站推广多少钱
# 是一个
# python
# 转换为
# 充分利用
# 迭代
# 笛卡尔
# 矢量化
# 这种方法
# 数据结构
# 单元格
# 性能瓶颈
# 大数据
# c语言
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
小米汽车11月交付量突破40000台!雷军:将继续努力
LINUX的I/O重定向是什么_深入理解LINUX中 >、>> 与 < 的区别
Go语言中的*string:深入理解字符串指针
树莓派传感器触发:通过Twilio API发送WhatsApp消息教程
漫蛙网页登录入口 漫蛙漫画官方授权网址
qq游戏免费畅玩入口_qq游戏电脑版快速启动
C++编译期如何执行复杂计算_C++模板元编程(TMP)技巧与应用
Django表单验证失败时保留用户输入数据的最佳实践
Win10如何清理注册表垃圾 Win10手动清理无效注册表【技巧】
如何将一个大型PHP应用拆分为多个Composer包_微服务与模块化架构的Composer实践
C++如何解决segmentation fault_C++段错误调试与原因分析
163邮箱登录密码 163邮箱忘记密码找回
python3时间如何用calendar输出?
c++如何使用std::memory_order控制原子操作顺序_c++ C++11内存模型详解
c++如何实现一个简单的软件渲染器_c++从零开始的3D图形学
Pandas DataFrame 多条件优先级排序与排名
MongoDB聚合管道:正确匹配对象数组中_id的方法
QQ邮箱在线登录平台 QQ邮箱个人邮箱网页版入口
TikTok网页版直接登录 TikTok网页端官方平台入口
2026年发布! 美少女养成动作RPG《神剑少女战记》发布实机演示
Django AJAX 文件上传教程:解决图片无法保存到模型的常见问题
jQuery Mask 插件中实现电话号码固定前导零的教程
J*aScript异步迭代器_j*ascript异步遍历
AO3官网镜像链接 Archive of Our Own同人文在线浏览
在React函数组件中利用原生HTML5进行邮箱地址验证
b站怎么看视频的弹幕数量_b站弹幕数量查看方法
在Pyomo中实现基于变量的条件约束:Big-M方法详解
163邮箱网页版入口导航平台 163邮箱网页版登录入口官网导航
解决Tabulator日期时间排序问题的专业指南
Win10如何清理注册表垃圾 Win10注册表维护与优化指南【慎用】
Composer的 "licenses" 命令如何帮助你遵守开源协议_检查项目依赖的许可证合规性
c++如何使用折叠表达式(Fold Expressions)_c++17可变参数模板新技巧
在J*a中如何开发在线活动报名与管理系统_活动报名管理项目实战解析
qq浏览器打开空白页怎么办 qq浏览器启动后显示白屏的解决教程
谷歌浏览器一键优化方案_谷歌浏览器直达主页极速不卡版
QQ邮箱官网登录入口 QQ邮箱网页版邮箱快速登录
GemBox Document HTML转PDF垂直文本渲染问题及解决方案
利用5118提升短视频内容效果_5118短视频关键词优化方法
J*aScript打印功能_j*ascript输出控制
C++的std::forward_list怎么用_C++ STL中单向链表容器的特点与应用
Python多版本共存与虚拟环境管理深度指南
黑猫投诉统一入口官网 消费者权益保护投诉平台
CSS Flexbox如何实现多行排列_flex-wrap wrap自动换行显示
Mudbox图层蒙版怎么用_Mudbox图层蒙版数字雕刻应用技巧
css滚动区域卡顿如何改善_css滚动问题用will-change优化渲染
飞书妙记怎样用语音转文字速记_飞书妙记用语音转文字速记【速记方法】
解决macOS Tkinter应用双击启动崩溃:PyInstaller打包指南
Go调试环境为何无法启动_Go调试器启动失败原因与解决策略
KFC套餐升级怎么获取优惠代码_KFC套餐升级活动与优惠代码获取方法
动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道


2025-12-04
浏览次数:次
返回列表
= pd.Series(range(df.shape[1]), index=df.columns)
# map DataFrame's index labels to their integer positions
idx_map = pd.Series(range(df.shape[0]), index=df.index)
# 4. 获取目标标签对应的位置索引
# Convert the list of row labels to their integer positions
target_row_pos = idx_map.reindex(ix_labels)
# Convert the list of column labels to their integer positions
target_col_pos = cols_map.reindex(iy_labels)
print("目标行标签对应的整数位置:", target_row_pos.tolist())
print("目标列标签对应的整数位置:", target_col_pos.tolist())
print("-" * 30)
# 5. 直接更新底层NumPy数组
# 使用NumPy的高级索引功能,对底层数组进行赋值
df.values[target_row_pos, target_col_pos] = 1
print("更新后的DataFrame:")
print(df)