新闻中心

使用 Pandas cummax() 维护序列中的历史最大值

2025-11-21
浏览次数:
返回列表

使用 Pandas cummax() 维护序列中的历史最大值

本文将深入探讨如何利用 pandas 库中的 `cummax()` 函数,高效地在 dataframe 中创建一个新列,该列能够追踪并保留序列中迄今为止遇到的最大值。通过一个实际案例,我们将展示 `cummax()` 如何简洁而准确地实现复杂的数据累计最大值保持逻辑,避免手动迭代的繁琐,从而优化数据处理流程。

引言:追踪并维护序列中的历史最大值

在数据分析和处理中,我们经常会遇到需要在一个序列中追踪并保留迄今为止所遇到的最大值(或最小值)的需求。例如,在金融数据分析中,可能需要跟踪股票价格的历史最高点;在性能监控中,可能需要记录系统的峰值负载。这类问题通常要求创建一个新列,其值在遇到更大的新值时更新,否则保持上一个最大值。虽然这类逻辑听起来可能有些复杂,但 Pandas 库提供了一个非常简洁且高效的内置函数来解决它。

数据准备

首先,我们通过一个示例 DataFrame 来阐述这个问题。假设我们有一个包含数值列 a 的 DataFrame,我们希望创建一个新列 c,使其在每个点上都表示 a 列从开始到当前位置的最大值。

import pandas as pd

df = pd.DataFrame(
    {
        'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
        'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 列 'b' 在本教程中不直接用于计算 'c'
    }
)

print("原始 DataFrame:")
print(df)

原始 DataFrame 输出:

      a  b
0   110  1
1   115  1
2   112  0
3   180  1
4   150  0
5   175  1
6   160  0
7   145  0
8   200  1
9   205  1
10  208  1
11  203  0
12  206  1
13  207  1
14  208  1
15  209  1
16  210  1
17  215  1

问题分析与期望结果

原始问题描述中,用户试图通过一个辅助列 b 来标识 a 列的递增趋势,并进一步构思了复杂的“连胜(streak)”概念,希望在连胜结束时保留连胜期间的最大值,直到遇到更大的新值才更新。然而,仔细分析用户提供的期望输出 c 列,可以发现其行为模式实际上与 pandas.Series.cummax() 函数的功能完全一致。也就是说,c 列在任何时刻都存储着 a 列从开始到当前位置所遇到的最大值。

期望输出 c 列的逻辑:

  • c 的第一个值是 a 的第一个值。
  • 于后续的每一个位置,c 的值是当前 a 的值与前一个 c 的值中的较大者。

例如:

  • c[0] = a[0] = 110
  • c[1] = max(a[1], c[0]) = max(115, 110) = 115
  • c[2] = max(a[2], c[1]) = max(112, 115) = 115 (因为 112 不大于 115)
  • c[3] = max(a[3], c[2]) = max(180, 115) = 180
  • 以此类推...

解决方案:pandas.Series.cummax()

Pandas 库为这种累积计算提供了专门的函数,其中 Series.cummax() 就是用于计算序列累积最大值的函数。它会遍历 Series 中的每个元素,并返回一个新 Series,其中每个位置的值是到该位置为止所有元素的累积最大值。

实现代码:

CA.LA CA.LA

第一款时尚产品在线设计平台,服装设计系统

CA.LA 94 查看详情 CA.LA
# 使用 cummax() 计算列 'c'
df['c'] = df['a'].cummax()

print("\n生成 'c' 列后的 DataFrame:")
print(df)

输出结果:

      a  b    c
0   110  1  110
1   115  1  115
2   112  0  115
3   180  1  180
4   150  0  180
5   175  1  180
6   160  0  180
7   145  0  180
8   200  1  200
9   205  1  205
10  208  1  208
11  203  0  208
12  206  1  208
13  207  1  208
14  208  1  208
15  209  1  209
16  210  1  210
17  215  1  215

从输出结果可以看出,df['c'] = df['a'].cummax() 完美地实现了期望的逻辑,即在 a 列中遇到更大的值时更新 c,否则保持当前的最大值。

cummax() 函数详解

pandas.Series.cummax() 是一个强大的函数,它属于 Series 对象的方法,用于执行累积最大值计算。

工作原理:

  1. 它从 Series 的第一个元素开始。
  2. 对于每个元素,它将其与之前所有元素的累积最大值进行比较。
  3. 如果当前元素大于累积最大值,则累积最大值更新为当前元素的值。
  4. 否则,累积最大值保持不变。
  5. 这个累积最大值被记录在新 Series 的对应位置。

参数说明:

  • axis: 默认为 None。对于 Series,此参数没有意义。对于 DataFrame,可以指定按行或按列计算。
  • skipna: 默认为 True。表示在计算时跳过 NaN(非数字)值。如果设置为 False,则 NaN 值将传播,即如果累积过程中遇到 NaN,则后续结果都将是 NaN。

示例(skipna 参数):

s = pd.Series([1, 3, None, 2, 5])

# skipna=True (默认行为)
print("skipna=True:")
print(s.cummax())
# 输出: 0    1.0
#       1    3.0
#       2    3.0 (None 被跳过,保留前一个最大值)
#       3    3.0
#       4    5.0
#       dtype: float64

# skipna=False
print("\nskipna=False:")
print(s.cummax(skipna=False))
# 输出: 0    1.0
#       1    3.0
#       2    NaN (遇到 None 后传播 NaN)
#       3    NaN
#       4    NaN
#       dtype: float64

注意事项与总结

  1. 简洁性与效率: cummax() 函数是高度优化的 C 语言实现,比手动编写循环来计算累积最大值要快得多,尤其是在处理大型数据集时。
  2. 问题澄清: 在实际工作中,有时对问题的描述可能比实际需求更复杂。本案例中,尽管原始问题描述了复杂的“连胜”和 b 列逻辑,但最终期望的 c 列输出却直接对应 cummax() 的功能。因此,理解核心需求并将其映射到 Pandas 的内置功能是高效解决问题的关键。
  3. 适用场景: cummax() 不仅适用于追踪数值序列的历史最大值,其对应的 cummin() 可用于追踪历史最小值,cumsum() 用于累积和,cumprod() 用于累积乘积。这些函数在时间序列分析、性能指标计算、数据规范化等多种场景下都非常有用。

通过 pandas.Series.cummax(),我们可以以极高的效率和简洁性解决在 DataFrame 中维护历史最大值的问题。掌握这类内置函数是提升 Pandas 数据处理能力的重要一步。

以上就是使用 Pandas cummax() 维护序列中的历史最大值的详细内容,更多请关注其它相关文章!


# 是一个  # 岳麓区营销推广方案公示  # 安阳长尾关键词排名技巧  # 重庆律师网站建设外包  # 火狐浏览器网站建设  # 疆域网站建设  # 黄石seo全网营销价格  # 营销活动推广成效的数据  # 景德镇营销推广口碑推荐  # 微博如何解除关键词排名  # 快手流量推广网站下载  # 金融  # 默认为  # 跳过  # 迄今为止  # 解决问题  # 数据处理  # 创建一个  # 这类  # 更大  # 第一个 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 怎么在html里运行vbs脚本_html中运行vbs脚本方法【教程】  58动漫网在线官方网 58动漫网正版动漫入口网址  TikTok国际版网页端快速入口 TikTok全球版短视频浏览教程  “在文档元素之后找到了标记”是什么错误? 检查并修复XML中多个根元素的3个方法  Yandex搜索引擎官网入口_俄罗斯Yandex免登录一键直达  美团外卖商家服务中心入口 美团商家版官网入口  解决Django多数据库/多Schema环境下外键迁移问题  ArrayList与LinkedList核心操作的Big-O复杂度分析  蛙漫移动版在线看 蛙漫手机浏览器直达入口  win11如何卸载Windows更新补丁 Win11解决更新导致系统不稳定的问题【修复】  Python多版本共存与虚拟环境管理深度指南  高德地图沿途添加点失败如何解决 高德多点规划方法  Animex动漫社网入口地址 Animex动漫社网正版在线入口  PHP中SSG-WSG API的AES加密实践:正确使用初始化向量  免费抖音短视频入口_抖音网页版短视频免费通道  海棠电脑版入口_通过电脑访问海棠官网阅读  Archive of Our Own官网直达 AO3最新可用地址一览  Pandas DataFrame 多条件优先级排序与排名  优化大型XML文件解析:基于Python流式处理的内存高效方案  Win11输入法不见了怎么办_Windows11恢复语言栏显示方法  Safari浏览器输入栏卡顿如何解决 Safari搜索建议与缓存清理  Win11怎么修改默认浏览器_Windows 11设置Chrome为默认  在VS Code中配置和运行Dart程序的完整步骤  马斯克:Optimus 人形机器人复数形式为 Optimi  漫蛙2在线漫画入口 漫蛙正版漫画网页版直达  React/Next.js中实现列表项的动态选择与移动  Kafka Streams中基于消息头条件过滤消息的实现指南  荣耀Play7TPro怎样在信息App置顶客服对话_iPhone荣耀Play7TPro信息App置顶客服对话【优先查看】  离线运行Go语言之旅:本地部署与GOPATH配置指南  html怎么运行外部js文件中的函数_运html外js文件函数法【技巧】  QQ官网正版登录链接 QQ在线登录入口最新  b站赚钱渠道_b站收益来源  win11如何加载ICC颜色配置文件 Win11校色文件安装与显示器色彩管理【指南】  在J*a中如何使用Stream.map转换元素_Stream映射操作解析  b站如何看历史记录_b站观看历史找回方法  NVIDIA股价11月重挫12%:下月有望好转 但难回5万亿美元巅峰  QQ邮箱在线登录平台 QQ邮箱个人邮箱网页版入口  Win11怎么合并任务栏图标 Win11开启任务栏合并减少图标占空间【方法】  c++如何实现一个简单的ECS框架_c++数据驱动设计与游戏开发  AO3同人作品网入口 AO3搜索引擎官网永久地址  Win11蓝牙耳机断连怎么解决 Win11蓝牙设置重新配对与驱动更新【技巧】  天眼查企业查询官网入口 天眼查官方网页版查询  一加Ace 6T支持全新明眸护眼:通过了最严苛的护眼小金标认证  顺丰快件物流信息 官方网站查询入口  如何使用 Excel 发布器与 Power BI 分享 Excel 洞察  谷歌浏览器一键优化方案_谷歌浏览器直达主页极速不卡版  一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】  零跑汽车11月交付量达70327台 实现连续9个月正增长  c++中的std::launder有什么实际用途_c++对象生命周期与指针优化  MAC如何安全彻底地删除文件_MAC使用终端命令确保文件无法被恢复 

搜索