新闻中心

Pandas DataFrame 多条件优先级排序与排名

2025-12-01
浏览次数:
返回列表

Pandas DataFrame 多条件优先级排序与排名

本文详细讲解了如何在 pandas dataframe 中,根据多个列的优先级来计算排名。通过将次要排序列进行微小加权并叠加到主要排序列上,再结合 `rank(method='dense', ascending=false)` 方法,能够灵活处理多级平局,确保排名结果的准确性和一致性,有效应对复杂的数据排序需求。

在数据分析和处理中,我们经常需要对数据集进行排名。通常情况下,排名是基于单个指标进行的。然而,当存在多个指标,并且需要按照特定优先级来打破平局时,简单的排序或排名函数可能无法直接满足需求。例如,我们可能需要首先依据“总分”进行排名,如果总分相同,则依据“效率分”进行判别,如果效率分也相同,则最终依据“难度分”来确定名次。本教程将介绍一种在 Pandas DataFrame 中实现这种多条件优先级排名的高级方法。

核心概念:加权综合分数法

为了实现多条件优先级排名,一个有效的方法是构建一个“加权综合分数”。其核心思想是:

  1. 主排序键(例如“Total Score”)保持其原始权重。
  2. 次级排序键(例如“EScore”、“DScore”)被赋予极小的权重。这些权重必须足够小,以至于它们在累加到主排序键上时,不会改变因主排序键不同而产生的排名顺序。它们的作用仅仅是在主排序键值完全相同的情况下,才能够通过其微小的差异来打破平局。
  3. 通过这种方式生成的综合分数,将包含所有排序条件的优先级信息。对这个综合分数进行排名,即可得到满足多条件优先级要求的最终排名。

实现步骤

我们将使用一个示例 DataFrame 来演示这一过程。

1. 准备数据

首先,创建一个包含待排名数据的 Pandas DataFrame:

import pandas as pd

df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)

输出:

原始 DataFrame:
   DScore  EScore  Total Score
0       2       6           17
1       2       7           15
2       4       9           23
3       4       9           23
4       5      10           25

我们的目标是根据 Total Score 降序排名,若 Total Score 相同,则根据 EScore 降序排名,若 EScore 也相同,则根据 DScore 降序排名。

2. 构建加权综合分数

根据上述核心概念,我们将 EScore 和 DScore 乘以一个极小的权重,然后加到 Total Score 上。

选择权重的原则是:

网易人工智能 网易人工智能

网易数帆多媒体智能生产力平台

网易人工智能 233 查看详情 网易人工智能
  • EScore 的最大可能值乘以其权重,必须小于 Total Score 列中最小的非零差值。
  • DScore 的最大可能值乘以其权重,必须小于 EScore 的最大可能值乘以其权重。

在本例中,Total Score 的最小非零差值是 2 (17-15)。EScore 的最大值是 10。 如果 EScore 权重设为 0.01,则 EScore * 0.01 的最大值为 10 * 0.01 = 0.1。这小于 Total Score 的最小差值 2,因此不会影响 Total Score 间的排名。 DScore 的最大值是 5。 如果 DScore 权重设为 0.0001,则 DScore * 0.0001 的最大值为 5 * 0.0001 = 0.0005。这小于 EScore * 0.01 的最小差值(例如,如果 EScore 差 1,则 0.01),因此不会影响 EScore 间的排名。

# 构建加权综合分数
# EScore权重设为0.01,DScore权重设为0.0001
df['Composite Score'] = df['Total Score'].add(df['EScore'].mul(0.01)).add(df['DScore'].mul(0.0001))

print("\n带有加权综合分数的 DataFrame:")
print(df)

输出:

带有加权综合分数的 DataFrame:
   DScore  EScore  Total Score  Composite Score
0       2       6           17          17.0602
1       2       7           15          15.0702
2       4       9           23          23.0904
3       4       9           23          23.0904
4       5      10           25          25.1005

可以看到,Composite Score 列已经将所有优先级信息编码进去。例如,第2行和第3行的 Total Score 都是 23,EScore 都是 9,DScore 都是 4,所以它们的 Composite Score 完全相同。

3. 应用排名函数

现在,我们可以对 Composite Score 列应用 rank() 函数来生成最终排名。

  • ascending=False:表示分数越高,排名越靠前(即排名值越小)。
  • method='dense':表示在存在相同分数时,它们会获得相同的排名,并且下一个不同的分数会获得紧随其后的排名,不会跳过数字。例如,如果前两名并列第一,下一个将是第二名(1, 1, 2),而不是第三名(1, 1, 3)。
  • .astype('int'):将排名结果转换为整数类型。
df['Rank'] = df['Composite Score'].rank(ascending=False, method='dense').astype('int')

print("\n最终排名结果 DataFrame:")
print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果

输出:

最终排名结果 DataFrame:
   DScore  EScore  Total Score  Rank
0       2       6           17     3
1       2       7           15     4
2       4       9           23     2
3       4       9           23     2
4       5      10           25     1

可以看到,Total Score 为 25 的获得了第 1 名。Total Score 为 23 的两行都获得了第 2 名。Total Score 为 17 的获得了第 3 名。Total Score 为 15 的获得了第 4 名。这完全符合我们多条件优先级排名的预期。

完整代码示例

import pandas as pd

# 原始数据
df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)

# 构建加权综合分数并直接计算排名
# 为EScore和DScore赋予极小的权重,以确保它们只在Total Score相同时代替判别
# 权重选择需确保:
# 1. 次级权重 * 次级分数最大值 < 主级分数最小差异
# 2. 更次级权重 * 更次级分数最大值 < 次级权重 * 次级分数最小差异
df['Rank'] = (
    df['Total Score']
    .add(df['EScore'].mul(0.01))     # EScore作为第一平局打破者,权重0.01
    .add(df['DScore'].mul(0.0001))   # DScore作为第二平局打破者,权重0.0001
    .rank(ascending=False, method='dense') # 降序排名,相同分数使用密集排名
    .astype('int')                   # 转换为整数类型
)

print("\n最终排名结果 DataFrame:")
print(df)

权重选择的考量与注意事项

  1. 权重的相对大小: 选择权重时,最关键的是确保次级排序键的加权值不会影响主排序键的相对顺序。例如,如果 Total Score 的最小差异是 1,那么 EScore 的加权最大值必须远小于 1。如果 EScore 的最大值是 100,权重设为 0.01,那么最大加权值就是 1,这可能会影响 Total Score 的原始顺序。在这种情况下,可能需要选择更小的权重,例如 0.001。
  2. 数据范围: 在实际应用中,需要根据各列数据的实际范围(最小值、最大值)来仔细选择权重。一个好的实践是先计算出各列的数值范围和可能的最小差异,然后据此确定合适的权重。
  3. 浮点数精度: 由于涉及到浮点数运算,在极端情况下可能会遇到浮点数精度问题。但对于大多数排名场景,上述权重选择方法是足够稳健的。
  4. 可读性: 虽然这种方法非常有效,但生成的“加权综合分数”本身可能不具备直观的业务含义。在最终展示时,通常会移除这个辅助列,只保留最终的排名列。

总结

通过构建加权综合分数并结合 Pandas 的 rank() 函数,我们可以高效且灵活地实现基于多列优先级的数据排名。这种方法不仅能够处理简单的单列排名,更能应对复杂的平局打破规则,为数据分析提供了强大的工具。理解权重选择的原则是成功应用此方法的关键,确保排名结果的准确性和业务逻辑的正确性。

以上就是Pandas DataFrame 多条件优先级排序与排名的详细内容,更多请关注其它相关文章!


# 工具  # 数据排序  # 单元格  # 多条  # 设为  # 网易  # 都是  # 以其  # 获得了  # 编码  # 元氏国内网站推广哪家好  # 面包店如何营销推广活动  # 台州seo网站建设费用  # 推广网站的视频广告是什么  # 鼓楼区推广网站建设  # 济南知名网站推广  # 网站建设的其他问题  # 壮阳药seo  # 安徽企业网站建设哪里好  # 网站建设的总体设计  # 则是  # 多个  # 降序 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 处理Kafka消费者会话超时:深入理解消息处理语义与幂等性  Word2013如何插入视频和音频媒体_Word2013媒体插入的多媒体支持  韩剧圈正版入口页面_韩剧圈官网登录链接  如何使用CaptainHook和Composer管理Git钩子_在提交前自动运行代码检查的Composer配置  Node.js CSV 数据处理:基于字段值条件过滤整条记录的策略  vivo手机参数配置怎么增强信号_vivo手机参数配置信号增强方法  动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道  Mac怎么锁定备忘录_Mac备忘录加密设置教程  腾讯QQ邮箱官方网站_QQ邮箱网页版在线登录  Win11如何使用Windows Sandbox Win11沙盒功能开启与使用教程【详解】  Odoo 16:在表单视图中基于当前记录动态修改Tree视图属性  必由学官网首页入口 必由学教师网页版登录指南  正确连接J*aScript到HTML实现可点击图片与自定义事件处理  解决Tabulator日期时间排序问题的专业指南  电脑安装程序提示“错误1722”怎么办_Windows Installer服务问题解决【教程】  Basecamp怎样用留言钉固定重点_Basecamp用留言钉固定重点【重点标记】  XML中包含HTML标签导致解析错误? 正确嵌入非XML数据的两种方法  Python模块化编程:有效管理依赖与避免循环引用  蛙漫漫画免费阅读入口_蛙漫官方正版无广告纯净版  离线运行Go语言之旅:本地部署与GOPATH配置指南  CSS布局:解决全屏元素100%尺寸与外边距导致的页面溢出问题  实现全屏滚动与导航点:专业教程  手机屏幕碎了但能正常使用怎么办 手机外屏碎裂的修复建议  QQ邮箱电脑版登录入口_QQ邮箱官方网站登录平台  晋江读书网页版在线登录 晋江读书电脑版官网  Yandex官网免登录入口_俄罗斯Yandex搜索引擎一键访问  电脑屏幕颜色不舒服怎么办_Windows夜间模式与色彩校准教程【护眼技巧】  漫蛙漫画登录站点 漫蛙2正版漫画快速访问  我的世界官方游戏入口 我的世界官网平台直达链接  C++ string find函数返回值npos详解_C++字符串查找失败的判断条件  谷歌邮箱网页版官方页面入口 谷歌邮箱网页端快速访问  一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】  126邮箱账号注册 电脑版登录入口  抖音网页版怎么|直播|_抖音网页版开播操作指南  Go语言中高效处理x-www-form-urlencoded表单数据  c++ dfs和bfs代码 c++深度广度优先搜索算法  win11 arm版怎么安装 M1/M2 Mac虚拟机安装ARM win11的方法  Python中如何避免重复条件判断:利用数据结构实现动态逻辑  优化 Python 函数中的条件逻辑:解决 if-else 嵌套与参数选择问题  我的世界mc.js免费游戏直接能玩 我的世界mc.js小游戏免费秒玩入口  荣耀Play7T运行卡顿解决_荣耀Play7T性能优化  拼多多赚钱渠道_拼多多收益来源  J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题  蛙漫正版漫画平台入口_蛙漫免费阅读全站漫画资源  漫蛙网页登录入口 漫蛙漫画官方授权网址  cad如何更改注释性对象的比例_cad注释性比例调整方法  Typer应用中灵活处理命令行参数的令牌化与解析  qq游戏跨平台入口_qq游戏多设备同步登录  Angular Material 垂直步进器:实现底部到顶部排序的教程  J*aScript:在map操作中高效处理空数组 

搜索