新闻中心
Pandas DataFrame 多条件优先级排序与排名

本文详细讲解了如何在 pandas dataframe 中,根据多个列的优先级来计算排名。通过将次要排序列进行微小加权并叠加到主要排序列上,再结合 `rank(method='dense', ascending=false)` 方法,能够灵活处理多级平局,确保排名结果的准确性和一致性,有效应对复杂的数据排序需求。
在数据分析和处理中,我们经常需要对数据集进行排名。通常情况下,排名是基于单个指标进行的。然而,当存在多个指标,并且需要按照特定优先级来打破平局时,简单的排序或排名函数可能无法直接满足需求。例如,我们可能需要首先依据“总分”进行排名,如果总分相同,则依据“效率分”进行判别,如果效率分也相同,则最终依据“难度分”来确定名次。本教程将介绍一种在 Pandas DataFrame 中实现这种多条件优先级排名的高级方法。
核心概念:加权综合分数法
为了实现多条件优先级排名,一个有效的方法是构建一个“加权综合分数”。其核心思想是:
- 主排序键(例如“Total Score”)保持其原始权重。
- 次级排序键(例如“EScore”、“DScore”)被赋予极小的权重。这些权重必须足够小,以至于它们在累加到主排序键上时,不会改变因主排序键不同而产生的排名顺序。它们的作用仅仅是在主排序键值完全相同的情况下,才能够通过其微小的差异来打破平局。
- 通过这种方式生成的综合分数,将包含所有排序条件的优先级信息。对这个综合分数进行排名,即可得到满足多条件优先级要求的最终排名。
实现步骤
我们将使用一个示例 DataFrame 来演示这一过程。
1. 准备数据
首先,创建一个包含待排名数据的 Pandas DataFrame:
import pandas as pd
df = pd.DataFrame({
"DScore": [2, 2, 4, 4, 5],
"EScore": [6, 7, 9, 9, 10],
"Total Score": [17, 15, 23, 23, 25]
})
print("原始 DataFrame:")
print(df)输出:
原始 DataFrame: DScore EScore Total Score 0 2 6 17 1 2 7 15 2 4 9 23 3 4 9 23 4 5 10 25
我们的目标是根据 Total Score 降序排名,若 Total Score 相同,则根据 EScore 降序排名,若 EScore 也相同,则根据 DScore 降序排名。
2. 构建加权综合分数
根据上述核心概念,我们将 EScore 和 DScore 乘以一个极小的权重,然后加到 Total Score 上。
选择权重的原则是:
网易人工智能
网易数帆多媒体智能生产力平台
233
查看详情
- EScore 的最大可能值乘以其权重,必须小于 Total Score 列中最小的非零差值。
- DScore 的最大可能值乘以其权重,必须小于 EScore 的最大可能值乘以其权重。
在本例中,Total Score 的最小非零差值是 2 (17-15)。EScore 的最大值是 10。 如果 EScore 权重设为 0.01,则 EScore * 0.01 的最大值为 10 * 0.01 = 0.1。这小于 Total Score 的最小差值 2,因此不会影响 Total Score 间的排名。 DScore 的最大值是 5。 如果 DScore 权重设为 0.0001,则 DScore * 0.0001 的最大值为 5 * 0.0001 = 0.0005。这小于 EScore * 0.01 的最小差值(例如,如果 EScore 差 1,则 0.01),因此不会影响 EScore 间的排名。
# 构建加权综合分数
# EScore权重设为0.01,DScore权重设为0.0001
df['Composite Score'] = df['Total Score'].add(df['EScore'].mul(0.01)).add(df['DScore'].mul(0.0001))
print("\n带有加权综合分数的 DataFrame:")
print(df)输出:
带有加权综合分数的 DataFrame: DScore EScore Total Score Composite Score 0 2 6 17 17.0602 1 2 7 15 15.0702 2 4 9 23 23.0904 3 4 9 23 23.0904 4 5 10 25 25.1005
可以看到,Composite Score 列已经将所有优先级信息编码进去。例如,第2行和第3行的 Total Score 都是 23,EScore 都是 9,DScore 都是 4,所以它们的 Composite Score 完全相同。
3. 应用排名函数
现在,我们可以对 Composite Score 列应用 rank() 函数来生成最终排名。
- ascending=False:表示分数越高,排名越靠前(即排名值越小)。
- method='dense':表示在存在相同分数时,它们会获得相同的排名,并且下一个不同的分数会获得紧随其后的排名,不会跳过数字。例如,如果前两名并列第一,下一个将是第二名(1, 1, 2),而不是第三名(1, 1, 3)。
- .astype('int'):将排名结果转换为整数类型。
df['Rank'] = df['Composite Score'].rank(ascending=False, method='dense').astype('int') print("\n最终排名结果 DataFrame:") print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果
输出:
最终排名结果 DataFrame: DScore EScore Total Score Rank 0 2 6 17 3 1 2 7 15 4 2 4 9 23 2 3 4 9 23 2 4 5 10 25 1
可以看到,Total Score 为 25 的获得了第 1 名。Total Score 为 23 的两行都获得了第 2 名。Total Score 为 17 的获得了第 3 名。Total Score 为 15 的获得了第 4 名。这完全符合我们多条件优先级排名的预期。
完整代码示例
import pandas as pd
# 原始数据
df = pd.DataFrame({
"DScore": [2, 2, 4, 4, 5],
"EScore": [6, 7, 9, 9, 10],
"Total Score": [17, 15, 23, 23, 25]
})
print("原始 DataFrame:")
print(df)
# 构建加权综合分数并直接计算排名
# 为EScore和DScore赋予极小的权重,以确保它们只在Total Score相同时代替判别
# 权重选择需确保:
# 1. 次级权重 * 次级分数最大值 < 主级分数最小差异
# 2. 更次级权重 * 更次级分数最大值 < 次级权重 * 次级分数最小差异
df['Rank'] = (
df['Total Score']
.add(df['EScore'].mul(0.01)) # EScore作为第一平局打破者,权重0.01
.add(df['DScore'].mul(0.0001)) # DScore作为第二平局打破者,权重0.0001
.rank(ascending=False, method='dense') # 降序排名,相同分数使用密集排名
.astype('int') # 转换为整数类型
)
print("\n最终排名结果 DataFrame:")
print(df)权重选择的考量与注意事项
- 权重的相对大小: 选择权重时,最关键的是确保次级排序键的加权值不会影响主排序键的相对顺序。例如,如果 Total Score 的最小差异是 1,那么 EScore 的加权最大值必须远小于 1。如果 EScore 的最大值是 100,权重设为 0.01,那么最大加权值就是 1,这可能会影响 Total Score 的原始顺序。在这种情况下,可能需要选择更小的权重,例如 0.001。
- 数据范围: 在实际应用中,需要根据各列数据的实际范围(最小值、最大值)来仔细选择权重。一个好的实践是先计算出各列的数值范围和可能的最小差异,然后据此确定合适的权重。
- 浮点数精度: 由于涉及到浮点数运算,在极端情况下可能会遇到浮点数精度问题。但对于大多数排名场景,上述权重选择方法是足够稳健的。
- 可读性: 虽然这种方法非常有效,但生成的“加权综合分数”本身可能不具备直观的业务含义。在最终展示时,通常会移除这个辅助列,只保留最终的排名列。
总结
通过构建加权综合分数并结合 Pandas 的 rank() 函数,我们可以高效且灵活地实现基于多列优先级的数据排名。这种方法不仅能够处理简单的单列排名,更能应对复杂的平局打破规则,为数据分析提供了强大的工具。理解权重选择的原则是成功应用此方法的关键,确保排名结果的准确性和业务逻辑的正确性。
以上就是Pandas DataFrame 多条件优先级排序与排名的详细内容,更多请关注其它相关文章!
# 工具
# 数据排序
# 单元格
# 多条
# 设为
# 网易
# 都是
# 以其
# 获得了
# 编码
# 元氏国内网站推广哪家好
# 面包店如何营销推广活动
# 台州seo网站建设费用
# 推广网站的视频广告是什么
# 鼓楼区推广网站建设
# 济南知名网站推广
# 网站建设的其他问题
# 壮阳药seo
# 安徽企业网站建设哪里好
# 网站建设的总体设计
# 则是
# 多个
# 降序
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
处理Kafka消费者会话超时:深入理解消息处理语义与幂等性
Word2013如何插入视频和音频媒体_Word2013媒体插入的多媒体支持
韩剧圈正版入口页面_韩剧圈官网登录链接
如何使用CaptainHook和Composer管理Git钩子_在提交前自动运行代码检查的Composer配置
Node.js CSV 数据处理:基于字段值条件过滤整条记录的策略
vivo手机参数配置怎么增强信号_vivo手机参数配置信号增强方法
动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道
Mac怎么锁定备忘录_Mac备忘录加密设置教程
腾讯QQ邮箱官方网站_QQ邮箱网页版在线登录
Win11如何使用Windows Sandbox Win11沙盒功能开启与使用教程【详解】
Odoo 16:在表单视图中基于当前记录动态修改Tree视图属性
必由学官网首页入口 必由学教师网页版登录指南
正确连接J*aScript到HTML实现可点击图片与自定义事件处理
解决Tabulator日期时间排序问题的专业指南
电脑安装程序提示“错误1722”怎么办_Windows Installer服务问题解决【教程】
Basecamp怎样用留言钉固定重点_Basecamp用留言钉固定重点【重点标记】
XML中包含HTML标签导致解析错误? 正确嵌入非XML数据的两种方法
Python模块化编程:有效管理依赖与避免循环引用
蛙漫漫画免费阅读入口_蛙漫官方正版无广告纯净版
离线运行Go语言之旅:本地部署与GOPATH配置指南
CSS布局:解决全屏元素100%尺寸与外边距导致的页面溢出问题
实现全屏滚动与导航点:专业教程
手机屏幕碎了但能正常使用怎么办 手机外屏碎裂的修复建议
QQ邮箱电脑版登录入口_QQ邮箱官方网站登录平台
晋江读书网页版在线登录 晋江读书电脑版官网
Yandex官网免登录入口_俄罗斯Yandex搜索引擎一键访问
电脑屏幕颜色不舒服怎么办_Windows夜间模式与色彩校准教程【护眼技巧】
漫蛙漫画登录站点 漫蛙2正版漫画快速访问
我的世界官方游戏入口 我的世界官网平台直达链接
C++ string find函数返回值npos详解_C++字符串查找失败的判断条件
谷歌邮箱网页版官方页面入口 谷歌邮箱网页端快速访问
一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】
126邮箱账号注册 电脑版登录入口
抖音网页版怎么|直播|_抖音网页版开播操作指南
Go语言中高效处理x-www-form-urlencoded表单数据
c++ dfs和bfs代码 c++深度广度优先搜索算法
win11 arm版怎么安装 M1/M2 Mac虚拟机安装ARM win11的方法
Python中如何避免重复条件判断:利用数据结构实现动态逻辑
优化 Python 函数中的条件逻辑:解决 if-else 嵌套与参数选择问题
我的世界mc.js免费游戏直接能玩 我的世界mc.js小游戏免费秒玩入口
荣耀Play7T运行卡顿解决_荣耀Play7T性能优化
拼多多赚钱渠道_拼多多收益来源
J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题
蛙漫正版漫画平台入口_蛙漫免费阅读全站漫画资源
漫蛙网页登录入口 漫蛙漫画官方授权网址
cad如何更改注释性对象的比例_cad注释性比例调整方法
Typer应用中灵活处理命令行参数的令牌化与解析
qq游戏跨平台入口_qq游戏多设备同步登录
Angular Material 垂直步进器:实现底部到顶部排序的教程
J*aScript:在map操作中高效处理空数组


2025-12-01
浏览次数:次
返回列表
ense').astype('int')
print("\n最终排名结果 DataFrame:")
print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果