Pandas DataFrame 多条件优先级排序与排名_石家庄创泽智能科技有限公司

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

Pandas DataFrame 多条件优先级排序与排名

2025-12-01

浏览次数：次

返回列表

Pandas DataFrame 多条件优先级排序与排名

本文详细讲解了如何在 pandas dataframe 中，根据多个列的优先级来计算排名。通过将次要排序列进行微小加权并叠加到主要排序列上，再结合 `rank(method='dense', ascending=false)` 方法，能够灵活处理多级平局，确保排名结果的准确性和一致性，有效应对复杂的数据排序需求。

在数据分析和处理中，我们经常需要对数据集进行排名。通常情况下，排名是基于单个指标进行的。然而，当存在多个指标，并且需要按照特定优先级来打破平局时，简单的排序或排名函数可能无法直接满足需求。例如，我们可能需要首先依据“总分”进行排名，如果总分相同，则依据“效率分”进行判别，如果效率分也相同，则最终依据“难度分”来确定名次。本教程将介绍一种在 Pandas DataFrame 中实现这种多条件优先级排名的高级方法。

核心概念：加权综合分数法

为了实现多条件优先级排名，一个有效的方法是构建一个“加权综合分数”。其核心思想是：

主排序键（例如“Total Score”）保持其原始权重。
次级排序键（例如“EScore”、“DScore”）被赋予极小的权重。这些权重必须足够小，以至于它们在累加到主排序键上时，不会改变因主排序键不同而产生的排名顺序。它们的作用仅仅是在主排序键值完全相同的情况下，才能够通过其微小的差异来打破平局。
通过这种方式生成的综合分数，将包含所有排序条件的优先级信息。对这个综合分数进行排名，即可得到满足多条件优先级要求的最终排名。

实现步骤

我们将使用一个示例 DataFrame 来演示这一过程。

1. 准备数据

首先，创建一个包含待排名数据的 Pandas DataFrame：

import pandas as pd

df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)

输出：

原始 DataFrame:
   DScore  EScore  Total Score
0       2       6           17
1       2       7           15
2       4       9           23
3       4       9           23
4       5      10           25

我们的目标是根据 Total Score 降序排名，若 Total Score 相同，则根据 EScore 降序排名，若 EScore 也相同，则根据 DScore 降序排名。

2. 构建加权综合分数

根据上述核心概念，我们将 EScore 和 DScore 乘以一个极小的权重，然后加到 Total Score 上。

选择权重的原则是：

网易人工智能

网易数帆多媒体智能生产力平台

233 查看详情网易人工智能

EScore 的最大可能值乘以其权重，必须小于 Total Score 列中最小的非零差值。
DScore 的最大可能值乘以其权重，必须小于 EScore 的最大可能值乘以其权重。

在本例中，Total Score 的最小非零差值是 2 (17-15)。EScore 的最大值是 10。如果 EScore 权重设为 0.01，则 EScore * 0.01 的最大值为 10 * 0.01 = 0.1。这小于 Total Score 的最小差值 2，因此不会影响 Total Score 间的排名。 DScore 的最大值是 5。如果 DScore 权重设为 0.0001，则 DScore * 0.0001 的最大值为 5 * 0.0001 = 0.0005。这小于 EScore * 0.01 的最小差值（例如，如果 EScore 差 1，则 0.01），因此不会影响 EScore 间的排名。

# 构建加权综合分数
# EScore权重设为0.01，DScore权重设为0.0001
df['Composite Score'] = df['Total Score'].add(df['EScore'].mul(0.01)).add(df['DScore'].mul(0.0001))

print("\n带有加权综合分数的 DataFrame:")
print(df)

输出：

带有加权综合分数的 DataFrame:
   DScore  EScore  Total Score  Composite Score
0       2       6           17          17.0602
1       2       7           15          15.0702
2       4       9           23          23.0904
3       4       9           23          23.0904
4       5      10           25          25.1005

可以看到，Composite Score 列已经将所有优先级信息编码进去。例如，第2行和第3行的 Total Score 都是 23，EScore 都是 9，DScore 都是 4，所以它们的 Composite Score 完全相同。

3. 应用排名函数

现在，我们可以对 Composite Score 列应用 rank() 函数来生成最终排名。

ascending=False：表示分数越高，排名越靠前（即排名值越小）。
method='dense'：表示在存在相同分数时，它们会获得相同的排名，并且下一个不同的分数会获得紧随其后的排名，不会跳过数字。例如，如果前两名并列第一，下一个将是第二名（1, 1, 2），而不是第三名（1, 1, 3）。
.astype('int')：将排名结果转换为整数类型。

df['Rank'] = df['Composite Score'].rank(ascending=False, method='dense').astype('int')

print("\n最终排名结果 DataFrame:")
print(df.drop(columns=['Composite Score'])) # 移除辅助列以展示最终结果

输出：

最终排名结果 DataFrame:
   DScore  EScore  Total Score  Rank
0       2       6           17     3
1       2       7           15     4
2       4       9           23     2
3       4       9           23     2
4       5      10           25     1

可以看到，Total Score 为 25 的获得了第 1 名。Total Score 为 23 的两行都获得了第 2 名。Total Score 为 17 的获得了第 3 名。Total Score 为 15 的获得了第 4 名。这完全符合我们多条件优先级排名的预期。

完整代码示例

import pandas as pd

# 原始数据
df = pd.DataFrame({
    "DScore": [2, 2, 4, 4, 5],
    "EScore": [6, 7, 9, 9, 10],
    "Total Score": [17, 15, 23, 23, 25]
})

print("原始 DataFrame:")
print(df)

# 构建加权综合分数并直接计算排名
# 为EScore和DScore赋予极小的权重，以确保它们只在Total Score相同时代替判别
# 权重选择需确保：
# 1. 次级权重 * 次级分数最大值 < 主级分数最小差异
# 2. 更次级权重 * 更次级分数最大值 < 次级权重 * 次级分数最小差异
df['Rank'] = (
    df['Total Score']
    .add(df['EScore'].mul(0.01))     # EScore作为第一平局打破者，权重0.01
    .add(df['DScore'].mul(0.0001))   # DScore作为第二平局打破者，权重0.0001
    .rank(ascending=False, method='dense') # 降序排名，相同分数使用密集排名
    .astype('int')                   # 转换为整数类型
)

print("\n最终排名结果 DataFrame:")
print(df)

权重选择的考量与注意事项

权重的相对大小： 选择权重时，最关键的是确保次级排序键的加权值不会影响主排序键的相对顺序。例如，如果 Total Score 的最小差异是 1，那么 EScore 的加权最大值必须远小于 1。如果 EScore 的最大值是 100，权重设为 0.01，那么最大加权值就是 1，这可能会影响 Total Score 的原始顺序。在这种情况下，可能需要选择更小的权重，例如 0.001。
数据范围： 在实际应用中，需要根据各列数据的实际范围（最小值、最大值）来仔细选择权重。一个好的实践是先计算出各列的数值范围和可能的最小差异，然后据此确定合适的权重。
浮点数精度： 由于涉及到浮点数运算，在极端情况下可能会遇到浮点数精度问题。但对于大多数排名场景，上述权重选择方法是足够稳健的。
可读性： 虽然这种方法非常有效，但生成的“加权综合分数”本身可能不具备直观的业务含义。在最终展示时，通常会移除这个辅助列，只保留最终的排名列。