Pandas数据框中按组生成递增序列ID的教程_石家庄创泽智能科技有限公司

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

Pandas数据框中按组生成递增序列ID的教程

2025-11-04

浏览次数：次

返回列表

Pandas数据框中按组生成递增序列ID的教程

本文介绍如何在pandas数据框中，为每一行生成一个复合id，其中包含基于字符串截取的部分以及一个递增的序列号。核心挑战在于当特定列（如`city`）的值发生变化时，该序列号需要重新从1开始计数。教程将详细阐述如何利用pandas的`groupby()`和`cumcount()`函数，高效地实现这种按组重置的序列id生成逻辑，确保生成的id既具有唯一性又符合业务逻辑，并提供清晰的代码示例。

在数据处理和分析中，为数据集中的记录生成唯一标识符（ID）是一项常见任务。这些ID通常由多个部分组成，例如从现有字符串中提取的片段和顺序编号。一个常见的需求是，当某个特定的分组字段（如城市、类别等）发生变化时，序列号需要重新从1开始计数。

理解按组序列ID的需求

假设我们有一个包含城市（City）和姓名（Name）的数据框，我们希望生成一个复合ID，格式为城市前三字符-姓名前三字符-序列号。这里的关键在于，当城市发生变化时，序列号应该重新从1开始计算，而不是在整个数据框中连续递增。

例如，对于以下数据：

City	Name
Paris	John
Paris	Paul
Paris	Pierre
Paris	Paula
Rome	Riccardo
Rome	Jean-Paul
Rome	Franc

我们期望的ID输出是：

City	Name	Id
Paris	John	Par-Joh-1
Paris	Paul	Par-Pau-2
Paris	Pierre	Par-Pie-3
Paris	Paula	Par-Pau-4
Rome	Riccardo	Rom-Ric-1
Rome	Jean-Paul	Rom-Jea-2
Rome	Franc	Rom-Fra-3

如果直接使用数据框的索引作为序列号（例如 df.index.astype(str)），则序列号将是全局递增的，无法实现按组重置的效果。

核心解决方案：利用 groupby() 和 cumcount()

Pandas库提供了强大的数据分组和聚合功能，其中groupby()结合cumcount()是解决此类问题的理想工具。

df.groupby('分组列'): 这个方法用于根据指定的一个或多个列的值对数据框进行分组。它返回一个GroupBy对象，后续的操作将在每个分组内部独立执行。
cumcount(): 这是GroupBy对象的一个方法，它在每个分组内部生成一个从0开始递增的序列号。例如，对于一个包含3个元素的组，cumcount()将生成 0, 1, 2。
add(1): 由于cumcount()是0-indexed（从0开始计数），而我们通常希望ID从1开始，所以需要使用add(1)将其转换为1-indexed。
astype(str): 最后，将生成的数字序列转换为字符串类型，以便与ID的其他字符串部分进行拼接。

逐步实现与代码示例

让我们通过一个具体的代码示例来演示如何实现这一功能。

VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

134 查看详情 VALL-E

首先，创建示例数据框：

import pandas as pd

data = {
    'City': ['Paris', 'Paris', 'Paris', 'Paris', 'Rome', 'Rome', 'Rome'],
    'Name': ['John', 'Paul', 'Pierre', 'Paula', 'Riccardo', 'Jean-Paul', 'Franc']
}
df = pd.DataFrame(data)

print("原始数据框:")
print(df)

输出：

原始数据框:
    City       Name
0  Paris       John
1  Paris       Paul
2  Paris     Pierre
3  Paris      Paula
4   Rome   Riccardo
5   Rome  Jean-Paul
6   Rome      Franc

接下来，应用groupby().cumcount()方法来生成符合要求的ID：

# 生成按城市分组的递增序列号
# df.groupby('City').cumcount() 会为每个城市组内生成 0, 1, 2...
# .add(1) 将其变为 1, 2, 3...
# .astype(str) 将数字转换为字符串以便拼接
sequential_id = df.groupby('City').cumcount().add(1).astype(str)

# 提取城市和姓名的前三个字符
city_prefix = df.City.str[:3]
name_prefix = df.Name.str[:3]

# 组合所有部分生成最终的ID
df['Id'] = city_prefix + '-' + name_prefix + '-' + sequential_id

print("\n生成ID后的数据框:")
print(df)

输出：

生成ID后的数据框:
    City       Name         Id
0  Paris       John  Par-Joh-1
1  Paris       Paul  Par-Pau-2
2  Paris     Pierre  Par-Pie-3
3  Paris      Paula  Par-Pau-4
4   Rome   Riccardo  Rom-Ric-1
5   Rome  Jean-Paul  Rom-Jea-2
6   Rome      Franc  Rom-Fra-3

可以看到，Id列已经按照预期生成，当City从Paris变为Rome时，序列号成功地从1重新开始计数。

代码解析

df['id'] = (df.City.str[:3] + '-' + df.Name.str[:3] +'-' + 
            df.groupby('City').cumcount().add(1).astype(str))

df.City.str[:3]: 提取City列每个字符串的前三个字符。
df.Name.str[:3]: 提取Name列每个字符串的前三个字符。
df.groupby('City'): 根据City列的值对数据框进行分组。
.cumcount(): 在每个City分组内部，生成一个从0开始的累积计数。
- 例如，对于Paris组，它会生成0, 1, 2, 3。
- 对于Rome组，它会生成0, 1, 2。
.add(1): 将cumcount()生成的序列号加1，使其从1开始计数。
- Paris组变为1, 2, 3, 4。
- Rome组变为1, 2, 3。
.astype(str): 将数字序列转换为字符串类型。
最后，使用+运算符将所有字符串部分连接起来，形成最终的Id。

注意事项与扩展

多列分组: 如果需要根据多列进行分组并重置序列号，只需在groupby()中传入一个列名列表即可，例如 df.groupby(['City', 'Country']).cumcount()。

序列号格式化: 如果希望序列号有固定位数（例如 01, 02, 03），可以在astype(str)之后使用str.zfill()方法。例如：

sequential_id_padded = df.groupby('City').cumcount().add(1).astype(str).str.zfill(2)
df['Id_Padded'] = df.City.str[:3] + '-' + df.Name.str[:3] + '-' + sequential_id_padded