新闻中心

Pandas DataFrame中计算客户前一笔不同类型交易金额的教程

2025-11-28
浏览次数:
返回列表

Pandas DataFrame中计算客户前一笔不同类型交易金额的教程

本教程详细阐述如何在pandas dataframe中,为每笔交易高效地查找同一客户之前发生的不同类型交易的金额。针对传统`apply`方法性能瓶颈和`shift`函数局限性,本文提出一种基于客户分组迭代并维护状态变量的解决方案,确保准确捕获时间序列中异类交易的关联信息,并提供详细代码示例与注意事项。

问题描述

在处理客户交易数据时,经常需要分析交易之间的关联性。一个常见的需求是,对于DataFrame中的每一笔交易,我们希望找到该客户之前发生过的、且交易类型与当前交易不同的最近一笔交易的金额。这要求我们不仅要考虑客户ID和交易日期,还要区分交易类型。

具体来说,给定一个包含KEY_ID(客户ID)、TYPE(交易类型,假设有两种类别)、DATE(交易日期)和AMOUNT(交易金额)的DataFrame,我们需要添加一个新列,记录当前交易的同一客户在当前交易日期之前发生的最近一笔不同类型交易的金额。如果不存在这样的交易,则记为NaN。

以下是一个示例输入数据和期望输出:

输入数据:

KEY_ID TYPE AMOUNT DATE
1 Motor 5000 2025-01-01
1 Tool 3000 2025-02-01
1 Tool 7000 2025-03-01
2 Tool 2000 2025-01-15
2 Motor 6000 2025-02-15
2 Tool 4000 2025-03-15

期望输出:

KEY_ID TYPE AMOUNT DATE PREV_AMOUNT
1 Motor 5000 2025-01-01 NaN
1 Tool 3000 2025-02-01 5000
1 Tool 7000 2025-03-01 5000
2 Tool 2000 2025-01-15 NaN
2 Motor 6000 2025-02-15 2000
2 Tool 4000 2025-03-15 6000

常见误区与挑战

在尝试解决此类问题时,开发者常会遇到以下挑战或误区:

  1. 使用 DataFrame.apply() 方法配合自定义函数: 这种方法虽然直观,但在自定义函数内部对整个DataFrame进行过滤操作(例如 df[(df['KEY_ID'] == row['KEY_ID']) & (df['TYPE'] != row['TYPE']) & (df['DATE']

  2. 使用 groupby().shift() 方法: Pandas的 shift() 函数通常用于获取前一个或后一个值,并且可以与 groupby() 结合使用,在每个组内进行偏移。例如,df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift() 会返回同一客户、同一类型的前一笔交易金额。然而,本问题要求的是“不同类型”的交易金额,shift() 无法直接实现这种跨类型查找的逻辑。

解决方案

解决此类问题的关键在于:按客户分组,并在每个客户组内按时间顺序迭代,同时维护不同交易类型的最新金额状态。

这种方法避免了全局筛选的性能瓶颈,并通过局部变量高效地跟踪所需信息。

核心思路:

  1. 首先,确保DataFrame已按 KEY_ID 和 DATE 升序排序,这对于处理时间序列数据至关重要。
  2. 然后,按 KEY_ID 对DataFrame进行分组。
  3. 对于每个客户组,初始化变量来存储不同交易类型的最新金额(例如 last_motor_amount 和 last_tool_amount)。
  4. 遍历客户组内的每一行交易:
    • 根据当前交易的 TYPE,将其对应的“前一笔不同类型交易金额”赋值给新列。
    • 更新当前交易类型对应的最新金额变量。

代码实现

下面是使用Python和Pandas实现此解决方案的完整代码:

import pandas as pd
import numpy as np

# 示例数据
data = {
    'KEY_ID': [1, 1, 1, 2, 2, 2],
    'TYPE': ['Motor', 'Tool', 'Tool', 'Tool', 'Motor', 'Tool'],
    'AMOUNT': [5000, 3000, 7000, 2000, 6000, 4000],
    'DATE': pd.to_datetime(['2025-01-01', '2025-02-01', '2025-03-01', '2025-01-15', '2025-02-15', '2025-03-15'])
}
df = pd.DataFrame(data)

# 1. 确保数据按客户ID和日期排序
df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True)

# 初始化新列
df['PREV_AMOUNT'] = np.nan

# 2. 按KEY_ID分组并迭代
grouped = df.groupby('KEY_ID')

for key_id, group in grouped:
    # 为每个客户初始化不同类型的最新交易金额
    last_motor_amount = np.nan
    last_tool_amount = np.nan

    # 3. 遍历组内的每一行
    for ind, row in group.iterrows():
        current_type = row['TYPE']
        current_amount = row['AMOUNT']

        if current_type == 'Motor':
            # 如果当前交易是Motor,则需要前一笔Tool交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_tool_amount
            # 更新Motor类型的最新金额
            last_motor_amount = current_amount
        elif current_type == 'Tool':
            # 如果当前交易是Tool,则需要前一笔Motor交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_motor_amount
            # 更新Tool类型的最新金额
            last_tool_amount = current_amount
        # 可以根据需要添加更多交易类型的处理

print(df)

代码解释:

N世界 N世界

一分钟搭建会展元宇宙

N世界 138 查看详情 N世界
  1. 数据准备与排序:

    • 首先,创建示例DataFrame并确保 DATE 列为 datetime 类型。
    • df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True):这一步至关重要。它确保了在处理每个客户的交易时,数据是按时间顺序排列的,这样我们才能正确地找到“前一笔”交易。reset_index(drop=True) 是为了重置索引,避免后续 loc 操作可能出现的索引错位问题。
    • df['PREV_AMOUNT'] = np.nan:初始化一个新列 PREV_AMOUNT,默认值为 NaN,因为最初可能没有前一笔不同类型的交易。
  2. 按客户分组迭代:

    • grouped = df.groupby('KEY_ID'):将DataFrame按 KEY_ID 分组。这将生成一个迭代器,每次迭代返回一个客户ID和该客户对应的子DataFrame。
    • for key_id, group in grouped::循环遍历每个客户组。
  3. 组内行迭代与状态维护:

    • last_motor_amount = np.nan 和 last_tool_amount = np.nan:在进入每个客户组的循环时,都会为该客户初始化这两个变量。它们分别用于存储该客户最近一笔 'Motor' 类型和 'Tool' 类型的交易金额。
    • for ind, row in group.iterrows()::遍历当前客户组内的每一行交易。ind 是原始DataFrame的索引,row 是当前行的Series。
    • 条件判断与赋值:
      • 如果 current_type == 'Motor':这意味着我们正在处理一笔 'Motor' 交易。根据问题要求,我们需要找到它之前最近的“不同类型”交易金额,即 Tool 类型的金额。因此,我们将 last_tool_amount 赋值给当前行的 PREV_AMOUNT。
      • 紧接着,last_motor_amount = current_amount:更新 last_motor_amount 为当前 'Motor' 交易的金额,以便后续 'Tool' 交易可以使用它。
      • 同理,如果 current_type == 'Tool',则将 last_motor_amount 赋值给 PREV_AMOUNT,并更新 last_tool_amount。
    • df.loc[ind, 'PREV_AMOUNT'] = ...:使用 df.loc 根据原始索引 ind 精确地更新DataFrame中的 PREV_AMOUNT 列。

注意事项与扩展

  1. 性能考量: 尽管此方法涉及Python级别的循环,但由于 groupby 操作在C语言层面进行了优化,并且每个组内的迭代是线性的,它比 df.apply 结合全局过滤的方案效率高得多。对于百万级甚至千万级的数据,只要客户数量不是极其庞大且每个客户的交易数量不是极少(导致频繁创建组),这种方法通常是可接受的。

  2. 交易类型数量: 示例代码是针对两种交易类型('Motor' 和 'Tool')硬编码的。如果交易类型数量更多,可以考虑使用字典来动态存储不同类型的最新金额,例如:

    last_amounts = {} # 例如 {'Motor': np.nan, 'Tool': np.nan, 'Service': np.nan}
    # 或者更动态地:
    # all_types = df['TYPE'].unique()
    # last_amounts = {t: np.nan for t in all_types}
    
    for ind, row in group.iterrows():
        current_type = row['TYPE']
        current_amount = row['AMOUNT']
    
        # 获取除当前类型外所有其他类型的最新金额,并找到其中最近的一个(如果需要)
        # 对于本问题,是找到除当前类型外,特定“对立”类型的金额
        # 如果是任意不同类型,则需要更复杂的逻辑,例如存储所有类型的最新交易时间戳和金额,然后查找
    
        # 对于只有两种类型的情况,可以这样通用化:
        opposite_type = 'Tool' if current_type == 'Motor' else 'Motor' # 假设只有两种类型
        df.loc[ind, 'PREV_AMOUNT'] = last_amounts.get(opposite_type, np.nan)
        last_amounts[current_type] = current_amount

    对于多于两种类型且要求是“任意不同类型”的最近交易,则需要维护一个包含所有类型最新交易时间和金额的字典,并在每次迭代时遍历这个字典来找到最近的不同类型交易。

  3. 初始值处理: np.nan 作为初始值是处理没有前一笔交易的正确方式。在后续分析中,可以根据需要使用 fillna() 方法将 NaN 替换为0或其他默认值。

  4. 日期处理: 确保 DATE 列是 datetime 类型,这对于正确的排序和时间比较至关重要。

总结

在Pandas DataFrame中处理涉及跨行、跨类型且基于时间序列的复杂逻辑时,直接使用 df.apply() 配合复杂的行级查询通常效率低下。通过将问题分解为客户分组,并在每个组内进行迭代,同时巧妙地利用局部变量维护状态信息,可以构建出既高效又准确的解决方案。这种模式在处理各种时间序列相关的分组计算时都非常有用,例如计算滚动窗口指标、序列依赖性分析等。

以上就是Pandas DataFrame中计算客户前一笔不同类型交易金额的教程的详细内容,更多请关注其它相关文章!


# 此类  # omo广告营销推广  # 百度seo推广是什么seo  # 建设银行网站客服  # 许昌网站自然优化价格  # 房山区综合网站建设配置  # 终端市场推广营销方案  # 贵州省抖音seo关键词排名前十  # 驻马店网站策划推广电话  # 网店商品营销推广手段  # 网站如何推广运营  # 可以根据  # 自定义  # 两种类型  # python  # 至关重要  # 则需  # 并在  # 遍历  # 迭代  # 不同类型  # elif  # 排列  # 性能瓶颈  # oppo  # app  # 编码  # c语言 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: C#使用XPath查询节点时出错? 常见语法错误与调试技巧  深入理解Google Cloud Datastore查询:祖先路径与数据一致性  如何优雅地扩展SprykerGlue后端API授权逻辑,使用spryker/glue-backend-api-application-authorization-connector-extension  我的世界mc.js免费游戏直接能玩 我的世界mc.js小游戏免费秒玩入口  QQ邮箱网页版邮箱入口 QQ邮箱官方登录平台  QQ邮箱官方网站登录入口_QQ邮箱网页版在线使用  Lar*el头像管理:图片缩放与旧文件删除的最佳实践  微信商城在哪里打开【步骤】  如何为你的Composer包编写自动化测试_集成PHPUnit到Composer的scripts工作流  c++如何使用std::memory_order控制原子操作顺序_c++ C++11内存模型详解  J*a递归快速排序中静态变量导致数据累积问题的解决方案  新手怎么开始学化妆 零基础化妆入门教程  在Blazor WebAssembly应用中动态注入客户端特定指标代码的策略  Yandex官方入口网址 Yandex俄罗斯搜索引擎最新在线地址  CSS Flexbox如何实现多行排列_flex-wrap wrap自动换行显示  海棠账号登录入口_登录海棠账户同步阅读记录  随机参数递归函数的基准调用次数与时间复杂度探究  实现分段式页面滚动导航:CSS与J*aScript教程  深入理解J*aScript Promise异步执行与微任务队列  漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道  铁路12306卧铺选择攻略 铁路12306下铺座位预定技巧  俄罗斯搜索引擎Yandex指南 附2025年免登录官网入口  React Hooks最佳实践:动态组件状态管理的组件化方案  如何高效处理PHP中的Excel数据导入导出?PortPHP/Spreadsheet助你轻松搞定!  Go语言中高效处理x-www-form-urlencoded表单数据  智慧团建扫码登录入口 智慧团建扫码登录入口官网版​  AO3最新官网入口公告_2025AO3镜像站实时查询方法  自定义Bag-of-Words实现:处理带负号的词汇权重  如何将一个大型PHP应用拆分为多个Composer包_微服务与模块化架构的Composer实践  c++ 命名空间怎么用 c++ namespace使用指南  电脑IP地址怎么查 查看本机IP地址的几种方法  实现全屏滚动与导航点:专业教程  KFC游戏互动怎么赢取优惠券_KFC线上游戏活动参与与优惠代码赢取教程  mc.js游戏直达 mc.js网页免下载版本秒进地址  汽水音乐在线解析 汽水音乐在线解析入口  一加Ace 6T实拍样张首次公布!李杰:主摄实力完全看齐4K档性能旗舰  使用J*aScript检测输入元素是否包含在特定类中  EMS快递官网app_中国邮政速递物流手机客户端  2025AO3夸克浏览器通道_AO3手机HTTPS安全入口分享  学习通在线学习平台 学习通网页版直接进入课程中心  steam官方入口大全 steam账号注册及操作指南  Lar*el如何生成PDF或Excel文件_Lar*el文档导出工具与使用教程  顺丰国际快递查询 国际件官方查询入口  从J*aScript对象中精确提取指定属性的教程  文本文档写html代码怎么运行_文本文档html代码运行步骤【教程】  J*aScript中正确使用querySelectorAll与复杂CSS选择器  PHP 枚举:根据字符串获取枚举案例的策略与实现  J*a里如何使用forEach遍历Map_Map遍历方法说明  J*a TimerTask文件监控:HashMap状态管理与常见陷阱规避指南  如何使 Jest 模拟函数默认抛出错误以提高测试效率 

搜索