新闻中心
使用Pandas高效计算并添加DataFrame中连续行块的计数

本文详细介绍了如何在pandas dataframe中,为指定列的连续相同值序列计算其长度,并将此计数作为新列添加。通过结合使用shift()、cumsum()生成连续块的唯一标识,并利用groupby().transform('size')方法,文章提供了一种精确且高效的解决方案,适用于需要对数据中连续模式进行分析的场景。
理解连续行计数的挑战
在数据分析中,我们经常需要统计DataFrame中某一列连续相同值的出现次数。例如,在一个序列中,我们可能想知道'a'连续出现了多少次,然后'b'连续出现了多少次,以此类推。这与简单地统计某一值在整个列中出现的总次数有所不同。
常见误区及原因分析:
-
使用 groupby().transform('count'): 直接使用 df.groupby('class')['class'].transform('count') 会统计每个类别在整个DataFrame中出现的总次数,而不是连续出现的次数。 示例代码(错误示范):
import pandas as pd data = {'class': ['a', 'a', 'a', 'b', 'b', 'c', 'd', 'e', 'e', 'e', 'f', 'a', 'c', 'd', 'd']} df = pd.DataFrame(data) df['consecutive_count_wrong1'] = df.groupby('class')['class'].transform('count') print("错误示范1的输出:") print(df[['class', 'consecutive_count_wrong1']])输出分析:
class consecutive_count_wrong1 0 a 4 1 a 4 2 a 4 3 b 2 4 b 2 5 c 2 6 d 3 7 e 3 8 e 3 9 e 3 10 f 1 11 a 4 12 c 2 13 d 3 14 d 3
从输出中可以看到,'a'的总计数是4,而不是第一次连续出现的3次
和第二次连续出现的1次。 -
使用 (df['class'] != df['class'].shift()).cumsum(): 这种方法是识别连续块的关键一步,它通过比较当前行与上一行是否相同来生成一个布尔序列,然后使用 cumsum() 将每个“变化点”累加,从而为每个连续块生成一个唯一的组ID。然而,这本身只是一个分组标识,并非连续计数。 示例代码(关键中间步骤):
import pandas as pd data = {'class': ['a', 'a', 'a', 'b', 'b', 'c', 'd', 'e', 'e', 'e', 'f', 'a', 'c', 'd', 'd']} df = pd.DataFrame(data) df['consecutive_group_id'] = (df['class'] != df['class'].shift()).cumsum() print("\n中间步骤输出(连续组ID):") print(df[['class', 'consecutive_group_id']])输出分析:
class consecutive_group_id 0 a 1 1 a 1 2 a 1 3 b 2 4 b 2 5 c 3 6 d 4 7 e 5 8 e 5 9 e 5 10 f 6 11 a 7 12 c 8 13 d 9 14 d 9
可以看到,虽然它为每个连续块分配了唯一的ID(例如,前三个'a'都是ID 1,两个'b'是ID 2),但这个ID本身并不是我们想要的连续计数。
PictoGraphic
AI驱动的矢量插图库和插图生成平台
133
查看详情
解决方案:结合分组标识与变换
要实现连续行计数,我们需要巧妙地结合上述第二种方法的思路,并在此基础上进行聚合。核心思想是:
- 创建连续块的唯一标识: 利用 (df['class'] != df['class'].shift()).cumsum() 生成一个辅助列,该列为每个连续的相同值序列分配一个唯一的整数ID。
- 基于复合键进行分组: 将原始的 class 列与这个新生成的连续块ID列组合起来,作为 groupby() 的键。这样,每个连续块(例如,第一个'a'序列,第二个'a'序列)都会被视为一个独立的组。
- 应用 transform('size'): 对这些复合组执行 transform('size') 操作。transform('size') 会计算每个组的大小(即连续行的数量),并将这个结果广播回原始DataFrame的相应位置,从而实现连续计数。
完整实现示例
以下是实现连续行计数的完整代码:
import pandas as pd
# 准备示例数据
data = {'class': ['a', 'a', 'a', 'b', 'b', 'c', 'd', 'e', 'e', 'e', 'f', 'a', 'c', 'd', 'd']}
df = pd.DataFrame(data)
# 步骤1: 创建连续块的唯一标识
# df['class'].shift() 将 'class' 列向下移动一行,用于比较当前行与上一行
# df['class'] != df['class'].shift() 比较当前行是否与上一行不同,生成布尔序列
# .cumsum() 对布尔序列进行累积求和,每当遇到 True (即发生变化) 时,计数器加1
# 这样就为每个连续的相同值块创建了一个唯一的整数ID
consecutive_group_id = (df['class'] != df['class'].shift()).cumsum()
# 步骤2: 基于原始 'class' 列和连续块ID进行分组,并计算每个组的大小
# df.groupby(['class', consecutive_group_id]) 结合 'class' 和 'consecutive_group_id' 作为分组键
# .transform('size') 计算每个组的元素数量,并将结果“转换”回原始DataFrame的对应位置
df['consecutive_count'] = df.groupby(['class', consecutive_group_id]).transform('size')
# 打印结果
print("最终结果:")
print(df[['class', 'consecutive_count']])输出结果:
最终结果: class consecutive_count 0 a 3 1 a 3 2 a 3 3 b 2 4 b 2 5 c 1 6 d 1 7 e 3 8 e 3 9 e 3 10 f 1 11 a 1 12 c 1 13 d 2 14 d 2
这个输出与我们期望的结果完全一致。
注意事项与最佳实践
- 性能考量: 对于非常大的DataFrame,shift() 和 groupby().transform() 操作可能会消耗一定的内存和计算资源。但在大多数实际应用中,Pandas的这些操作都是高度优化的。
- 处理初始 NaN: df['class'].shift() 在DataFrame的第一行会产生 NaN。df['class'] != df['class'].shift() 会将 NaN != value 视为 True,因此 cumsum() 会从1开始。这通常是期望的行为,即第一行被视为一个新序列的开始。
- 多列连续判断: 如果需要基于多列的组合来判断连续性,可以将多列放入 shift() 和比较操作中。例如: group_id = ((df['col1'] != df['col1'].shift()) | (df['col2'] != df['col2'].shift())).cumsum() 然后 df.groupby(['col1', 'col2', group_id]).transform('size')。
- 数据类型: 这种方法适用于任何可比较的数据类型(字符串、数字、日期等)。
总结
本文详细阐述了如何在Pandas DataFrame中高效地计算并添加指定列的连续行计数。通过理解 shift()、cumsum() 在生成连续块标识中的作用,并结合 groupby().transform('size') 的强大功能,我们可以精确地解决这一常见的数据处理问题。这种技术不仅提高了数据分析的效率,也为更复杂的序列模式识别奠定了基础。掌握此方法,将有助于您在Pandas数据处理中更加游刃有余。
以上就是使用Pandas高效计算并添加DataFrame中连续行块的计数的详细内容,更多请关注其它相关文章!
# 松原贵阳seo优化
# 搜不到网站url优化
# 网站建设推广可以火7星
# 百度推广不再连接网站
# seo网站怎么优化新人
# 稷山营销型网站建设
# 汽车积分营销推广案例
# 自助网站建设运营费用
# 金华小红书关键词排名
# 鞍山网站建设推荐
# 布尔
# 这种方法
# 这一
# 而不是
# 出现了
# 数据处理
# 可以看到
# 并将
# 适用于
# 都是
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Excel组合图表怎么做 Excel创建柱状图与折线组合图教程【图表】
PHP中获取MongoDB服务器运行时间(Uptime)的专业指南
微信群消息显示延迟如何解决 微信群消息刷新优化方法
Win10磁盘清理工具在哪 Win10打开并使用磁盘清理【教程】
在J*a中如何使用Exception包装底层异常_异常包装与信息传递方法说明
抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩
漫蛙2在线漫画入口 漫蛙正版漫画网页版直达
ArrayList与LinkedList核心操作的Big-O复杂度分析
怎么在浏览器上运行HTML文件_浏览器运行HTML文件技巧【技巧】
Pyrogram与g4f集成:异步编程实践与常见错误解决
Mac怎么使用表情符号_Mac Emoji快捷键面板
蛙漫官网漫画入口地址_蛙漫在线畅读无广告弹窗
AngularJS $http POST请求数据传递与Go后端接收实践
顺丰快递查单号物流信息 顺丰快递小程序查询入口
HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制
蛙漫限时开放最深处链接_蛙漫全站漫画会员同款秒开地址
解决 MongoDB 聚合查询中对象数组 _id 匹配问题
J*aScript类型检查_j*ascript代码规范
服务端验证_j*ascript输入检查
Sublime Text怎么显示空格和制表符_Sublime显示不可见字符设置
qq游戏手机版下载安装_qq游戏移动端入口
Win11截图该按哪些键 Win11截屏完整流程解析【教程】
HTML空白字符处理机制:渲染、DOM与编码实践
C++如何解决segmentation fault_C++段错误调试与原因分析
JUnit5/Mockito:优雅测试内部依赖与异常处理的实践
PyTorch模型训练效果不佳?深入剖析常见错误与调试技巧
Win10如何清理注册表垃圾 Win10注册表维护与优化指南【慎用】
Win10快速启动功能利弊分析 Win10开启或关闭快速启动教程【技巧】
Excel文件在线转换快速入口 Excel在线格式转换网站
极兔快递快件信息查询系统 极兔快递官网运单号追踪
在J*a中如何开发简易博客标签推荐系统_博客标签推荐项目实战解析
win11 Snap Layouts怎么用 Win11窗口布局与分屏多任务高效指南【必学】
支付宝碰一碰设备是REDMI手机吗 博主拆机辟谣:处理器、内存都不一样
Composer如何处理Git子模块(submodule)依赖_Composer与Git Submodule的对比与选择
XML中包含HTML标签导致解析错误? 正确嵌入非XML数据的两种方法
在J*a中如何开发简易电子商务商品管理系统_商品管理系统项目实战解析
Google翻译怎么语音输入_Google翻译语音输入功能使用与设置方法
解决macOS Tkinter应用双击启动崩溃:PyInstaller打包指南
Animex动漫社网入口地址 Animex动漫社网正版在线入口
Win10双系统截图高效法 截屏快捷键速记【技巧】
Win10怎么制作U盘启动盘 Win10系统安装U盘制作教程【详解】
Tailwind CSS line-clamp 布局问题解析与修复指南
Node.js中HTML按钮与J*aScript函数交互的正确姿势
AO3最新官网入口公告_2025AO3镜像站实时查询方法
VS Code远程开发时如何处理文件权限问题
J*aScript 字符串标签转换:使用正则表达式高效替换
vivo浏览器自带的下载器速度慢怎么办 vivo浏览器提升文件下载速度的技巧
修复二维数组索引越界异常:一维循环到二维坐标的正确映射
c++ 命名空间怎么用 c++ namespace使用指南
React/Next.js中实现列表项的动态移动与状态管理:兼论唯一键的重要性


2025-11-24
浏览次数:次
返回列表
和第二次连续出现的1次。