新闻中心

利用Pandas实现数据框分组条件分配的自动化与优化

2025-12-09
浏览次数:
返回列表

利用Pandas实现数据框分组条件分配的自动化与优化

本文详细介绍了如何在pandas数据框中,以可扩展的方式根据分组条件(如商店和工人)自动化分配“箱子”数量。通过`groupby().transform()`结合自定义函数,实现了为每个工人分配最多100个箱子,并处理了单人商店的特殊情况,避免了手动`iloc`索引的不可伸缩性,显著提升了数据处理效率和代码的健壮性。

引言

在数据处理和资源分配场景中,我们经常需要根据特定规则将总量分配给不同的实体。一个常见需求是,在分组数据中,按照优先级为每个组内成员分配资源,并遵循最大容量限制,同时可能存在特殊情况(例如,当组内成员数量为一时)。手动处理这些分配逻辑,特别是当组规模或组数量庞大时,会变得极其繁琐且难以维护。本教程将展示如何利用Pandas的强大功能,特别是groupby().transform()方法,以一种高效、可扩展且易于理解的方式解决此类问题。

问题描述与传统方法的局限性

假设我们有一个包含商店、工人、工人拥有的箱子数量以及待分配的“最优箱子”数量的数据框。我们的目标是根据以下规则填充optimal_boxes列:

  1. 工人优先级按其worker编号的数值顺序。
  2. 每个工人最多分配100个箱子。
  3. 如果一个商店只有一个工人,则该工人获得该商店所有箱子的总和,即使超过100个。
  4. 箱子总量从优先级最高的工人开始分配,直到分配完毕或所有工人均达到最大容量。

以下是示例数据框:

import pandas
import numpy

data_stack_exchange = {'store': ['A','B', 'B', 'C', 'C', 'C', 'D', 'D', 'D', 'D'],
        'worker': [1,1,2,1,2,3,1,2,3,4],
        'boxes': [105, 90, 100, 80, 10, 200, 70, 210, 50, 0],
        'optimal_boxes': [0,0,0,0,0,0,0,0,0,0]}
df_stack_exchange = pandas.DataFrame(data_stack_exchange)

print("原始数据框:")
print(df_stack_exchange)

原始的数据框如下:

  store  worker  boxes  optimal_boxes
0     A       1    105              0
1     B       1     90              0
2     B       2    100              0
3     C       1     80              0
4     C       2     10              0
5     C       3    200              0
6     D       1     70              0
7     D       2    210              0
8     D       3     50              0
9     D       4      0              0

预期的结果数据框如下:

  store  worker  boxes  optimal_boxes
0     A       1    105            105
1     B       1     90            100
2     B       2    100             90
3     C       1     80            100
4     C       2     10            100
5     C       3    200             90
6     D       1     70            100
7     D       2    210            100
8     D       3     50            100
9     D       4      0             30

一个常见的初学者方法是使用groupby().apply()结合条件判断和手动iloc索引来处理每个组。然而,这种方法存在严重缺陷:它要求针对不同组大小编写冗长的if/elif语句,并且在每个分支中手动指定iloc索引。这不仅导致代码重复,而且当组大小增加时,代码将变得难以维护和扩展。

优化方案:利用 groupby().transform() 实现可扩展分配

为了解决上述问题,我们可以设计一个更通用的函数,该函数能够处理任意大小的组,并利用pandas.groupby().transform()方法将结果高效地应用回原始数据框。transform()方法特别适用于此类场景,因为它要求自定义函数返回一个与输入组具有相同索引和长度的Series或DataFrame,从而可以直接将结果映射回原始数据框的相应位置。

核心分配逻辑函数

我们将创建一个名为assign_boxes的函数,它接收一个Pandas Series(代表一个商店中所有工人的boxes列),并返回一个列表,其中包含每个工人应获得的optimal_boxes数量。

Snowy(SnowyAdmin)快速开发平台3.5.1 Snowy(SnowyAdmin)快速开发平台3.5.1

Snowy(SnowyAdmin)是国内首个国密前后端分离快速开发平台,集成国密加解密插件, 软件层面完全符合等保测评要求,同时实现国产化机型、中间件、数据库适配,是您的不二之选! 技术框架与密码结合,让更多的人认识密码,使用密码;更是让前后分离“密”不可分。采用SpringBoot+MybatisPlus+AntDesignVue+Vite 等更多组件及前沿技术开发,注释丰富,代码简洁,开箱即用

Snowy(SnowyAdmin)快速开发平台3.5.1 5 查看详情 Snowy(SnowyAdmin)快速开发平台3.5.1
def assign_boxes(s: pandas.Series) -> list:
    """
    根据分配规则计算每个工人的最优箱子数量。

    参数:
        s (pandas.Series): 一个商店中所有工人的 'boxes' 列。

    返回:
        list: 对应每个工人应分配的 'optimal_boxes' 数量列表。
    """
    total_boxes = s.sum()  # 计算当前商店箱子总数
    num_workers = len(s)   # 获取当前商店的工人数量

    # 处理单人商店的特殊情况:如果只有一个工人,他将获得所有箱子
    if num_workers == 1:
        return [total_boxes]

    # 对于多于一个工人的商店,计算能分配满100箱子的工人数量
    # d 是能够获得完整100箱子的工人数量。
    # min(total_boxes // 100, num_workers - 1) 的逻辑是:
    # 1. total_boxes // 100 给出理论上能分配满100箱子的工人数量。
    # 2. num_workers - 1 是为了确保至少有一个工人(最后一个工人)可以获得剩余的箱子,
    #    即使这部分箱子超过100。这样避免了所有工人都分配满100后,还有箱子剩余但无人接收的情况。
    d = min(total_boxes // 100, num_workers - 1)

    # 构建分配列表
    # 1. [100] * d: 前 d 个工人每人获得 100 箱子。
    # 2. [total_boxes - 100 * d]: 第 d+1 个工人获得剩余的所有箱子。
    # 3. [0] * (num_workers - d - 1): 如果还有多余的工人,他们将获得 0 箱子。
    assigned_list = [100] * d + [total_boxes - 100 * d] + [0] * (num_workers - d - 1)

    return assigned_list

详细解释 assign_boxes 函数逻辑

为了更好地理解上述函数,我们通过几个示例来逐步分析其工作原理:

示例 1: 商店D的箱子分配 (s = [70, 210, 50, 0])

  1. s = pd.Series([70, 210, 50, 0]) (对应boxes列,按worker排序后)
  2. total_boxes = s.sum() 得到 330
  3. num_workers = len(s) 得到 4
  4. num_workers == 1 为 False。
  5. d = min(total_boxes // 100, num_workers - 1)
    • total_boxes // 100 = 330 // 100 = 3
    • num_workers - 1 = 4 - 1 = 3
    • d = min(3, 3) = 3
  6. assigned_list 构建:
    • [100] * d 变为 [100] * 3 -> [100, 100, 100]
    • [total_boxes - 100 * d] 变为 [330 - 100 * 3] -> [30]
    • [0] * (num_workers - d - 1) 变为 [0] * (4 - 3 - 1) -> [0] * 0 -> []
  7. 最终 assigned_list = [100, 100, 100, 30]

示例 2: 商店B的箱子分配 (s = [90, 100])

  1. s = pd.Series([90, 100])
  2. total_boxes = s.sum() 得到 190
  3. num_workers = len(s) 得到 2
  4. num_workers == 1 为 False。
  5. d = min(total_boxes // 100, num_workers - 1)
    • total_boxes // 100 = 190 // 100 = 1
    • num_workers - 1 = 2 - 1 = 1
    • d = min(1, 1) = 1
  6. assigned_list 构建:
    • [100] * d 变为 [100] * 1 -> [100]
    • [total_boxes - 100 * d] 变为 [190 - 100 * 1] -> [90]
    • [0] * (num_workers - d - 1) 变为 [0] * (2 - 1 - 1) -> [0] * 0 -> []
  7. 最终 assigned_list = [100, 90]

应用 assign_boxes 函数到数据框

现在,我们可以将这个函数应用到我们的数据框中。首先,我们需要确保每个商店内的工人是按优先级(worker列)排序的,因为我们的分配逻辑是基于顺序的。然后,使用groupby('store')['boxes'].transform(assign_boxes)来执行分配。

# 确保在每个商店内部,工人是按 worker ID 排序的,以便正确分配优先级
df_stack_exchange_sorted = df_stack_exchange.sort_values(by=['store', 'worker']).copy()

# 应用自定义函数,并将其结果直接赋值给 'optimal_boxes' 列
df_stack_exchange_sorted['optimal_boxes'] = df_stack_exchange_sorted.groupby('store')['boxes'].transform(assign_boxes)

print("\n最终分配结果数据框:")
print(df_stack_exchange_sorted)

输出结果:

最终分配结果数据框:
  store  worker  boxes  optimal_boxes
0     A       1    105            105
1     B       1     90            100
2     B       2    100             90
3     C       1     80            100
4     C       2     10            100
5     C       3    200             90
6     D       1     70            100
7     D       2    210            100
8     D       3     50            100
9     D       4      0             30

这个结果与我们预期的完全一致。

优势与注意事项

  1. 可扩展性: assign_boxes 函数的逻辑与组的大小无关,它能够自动适应任何数量的工人,无需手动添加if/elif分支或iloc索引,极大地提高了代码的可维护性和可扩展性。
  2. 效率: groupby().transform() 是Pandas中高度优化的操作,通常比使用apply()配合循环或列表推导式更高效,尤其是在处理大型数据集时。
  3. 代码简洁性: 将复杂逻辑封装在一个函数中,并利用Pandas的内置功能,使主代码流保持简洁和易读。
  4. 排序的重要性: 在应用此方法之前,确保数据框已根据分组键和优先级键(如store和worker)正确排序至关重要,因为transform操作会按组内元素的原始顺序应用函数并返回结果。
  5. transform与apply的区别: transform要求其作用的函数返回一个与输入组具有相同长度的Series或DataFrame,或者一个标量值(此时标量值会被广播到整个组)。这使其非常适合将组级计算结果直接映射回原始数据框的每一行。而apply则更通用,可以返回任何类型的对象,但通常需要额外的步骤来将结果重新整合到数据框中。

总结

通过本教程,我们学习了如何利用Pandas的groupby().transform()方法,结合一个精心设计的自定义函数,高效且可扩展地解决分组数据中的条件分配问题。这种方法不仅避免了传统手动iloc索引带来的不可伸缩性,还通过将复杂逻辑封装在通用函数中,显著提升了代码的专业性和可维护性。掌握这种模式对于处理大规模数据集和实现复杂业务逻辑的自动化至关重要。

以上就是利用Pandas实现数据框分组条件分配的自动化与优化的详细内容,更多请关注其它相关文章!


# 只有一个  # 太原网站优化推广  # 营销推广公司代理合同  # 真实的东莞网站推广  # 品牌营销战略与推广案例  # 网站优化标题类型怎么选  # 宿迁营销推广加盟公司  # ebay营销推广方式  # 品牌网站建设哪好  # 薅seo流量  # 邵阳商城类网站建设  # 最大容量  # app  # 数据处理  # 此类  # 我们可以  # 最多  # 化与  # 框中  # 原始数据  # 自定义  # elif  # 区别 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 蛙漫漫画免费阅读入口_蛙漫官方正版无广告纯净版  Python vgamepad库按键模拟:正确使用XUSB_BUTTON常量  优化 Jest 模拟:强制未实现函数抛出错误以提升测试效率  现代化 SciPy 一维插值:interp1d 的替代方案与最佳实践  Yandex搜索引擎一键访问入口_俄罗斯Yandex官网免登录  mcjs网页版在线存档 mcjs云存档登录入口  Lar*el递归关系中排除子孙节点的策略  Composer的 "check-platform-reqs" 命令有什么用_在部署前检查生产环境是否满足Composer依赖需求  在WordPress中通过REST API获取BasicAuth保护的远程文章  Python大型XML文件高效流式解析教程  poki网页游戏推荐_poki免费游戏平台入口  Python异步编程实践:使用Binance API构建实时交易数据流  极速漫画官方主页网址 极速漫画漫画在线浏览官网链接  蓝湖怎样用切图标注提对接效率_蓝湖用切图标注提对接效率【设计对接】  Python模块化编程:有效管理依赖与避免循环引用  J*aScript设计模式实践_j*ascript代码优化  J*aScript DOM操作:高效清空列表元素的策略与实践  Android Studio计算器C键逻辑错误排查与修复:条件判断优化指南  解决Python logging 中 datefmt 导致时间戳固定不变的问题  免费抖音短视频入口_抖音网页版短视频免费通道  处理动态列数据:J*a ArrayList的正确初始化与字符累加教程  J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题  蛙漫官网漫画入口地址_蛙漫在线畅读无广告弹窗  解决Tabulator日期时间排序问题的专业指南  Win10如何清理注册表垃圾 Win10手动清理无效注册表【技巧】  京东京造J1和网易云音乐氧气真无线有什么不同_国产电商蓝牙耳机音质对比  Lar*el表单中优雅地处理“返回”按钮以规避验证:最佳实践指南  Yandex搜索引擎官方地址 俄罗斯网络世界的主要入口  铁路12306的积分有效期是多久_铁路12306积分有效期说明  uc手机浏览器网页版入口 uc浏览器手机版便捷登录首页  C++如何操作注册表_Windows平台下C++读写注册表的API函数详解  蛙漫漫画官网在线入口 蛙漫全本漫画免费阅读平台  包子漫画官方网站在线链接-包子漫画在线阅读平台主页地址  在Go开发中优雅管理ListenAndServe进程:GoSublime集成方案  c++如何使用Meson构建系统_c++比CMake更快的构建工具  动漫花园资源网使用步骤_动漫花园资源网下载流程  魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】  Golang如何优雅处理error_Golang error处理最佳实践总结  Win11怎么开启高性能模式_Windows 11电源计划优化设置  谷歌学术网站直达地址 谷歌学术搜索网页版一键进入  圆通快递查询实时追踪 圆通物流包裹状态快速查看  MAC怎么安装Homebrew包管理器_MAC为开发者和高级用户安装命令行工具  Go语言中JSON数据解码与字段访问指南  在J*aScript中复现SciPy的B样条拟合与求值:关键考量  Golang如何使用context实现超时取消_Golang context超时取消模式实践  《马克思佩恩3》早期版本曝光 UI设计曾多次调整!  微信网页版登录教程_微信网页版登录入口在哪  快手赚钱渠道_快手收益来源  Golang如何使用net/url解析URL_Golang URL解析与处理方法  电脑IP地址怎么查 查看本机IP地址的几种方法 

搜索