新闻中心

Pandas DataFrame:基于键列高效映射多列的策略与实践

2025-11-27
浏览次数:
返回列表

Pandas DataFrame:基于键列高效映射多列的策略与实践

本教程探讨在pandas dataframe中,如何基于一个“键”列的值,高效地对多个目标列进行条件性映射和数据填充。针对传统方法(如重复使用`numpy.select`)的低效性,文章详细介绍了两种基于向量化操作的优化策略:一是利用`pandas.get_dummies`和`dataframe.mask`构建动态布尔掩码进行条件替换;二是结合`melt`、`merge`和`unstack`进行数据重塑和过滤。通过示例代码和详细解释,帮助读者掌握处理此类数据转换问题的专业技巧。

在数据分析和处理中,我们经常会遇到需要根据DataFrame中某一“键”列的值,有条件地更新或填充其他多个列的场景。例如,如果“键”列的值为'key1',我们可能希望'colA'和'colD'保留其原始值,而其他列则填充为'NA'。当这种映射关系涉及的列数较多时,使用诸如numpy.select或循环迭代的传统方法会变得冗长且效率低下。本教程将深入探讨两种基于Pandas和NumPy的向量化解决方案,以实现高效、简洁的多列条件映射。

首先,我们创建一个示例DataFrame来演示这个问题:

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
    'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
    'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
    'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
    'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

原始DataFrame如下:

原始DataFrame:
    key     colA     colB     colC     colD
0  key1  value1A  value1B  value1C  value1D
1  key2  value2A  value2B  value2C  value2D
2  key3  value3A  value3B  value3C  value3D
3  key1  value4A  value4B  value4C  value4D
4  key2  value5A  value5B  value5C  value5D

我们的目标是:

  • 当key为'key1'时,保留'colA'和'colD'的值,其他列设为'NA'。
  • 当key为'key2'时,保留'colB'的值,其他列设为'NA'。
  • 当key为'key3'时,保留'colC'的值,其他列设为'NA'。

如果采用逐列使用np.select的方式,代码会非常重复:

# 传统方法(低效且冗余)
# df_copy = df.copy() # 避免修改原始df
# df_copy['colA'] = np.select([df_copy['key'] == 'key1'], [df_copy['colA']], default='NA')
# df_copy['colD'] = np.select([df_copy['key'] == 'key1'], [df_copy['colD']], default='NA')
# df_copy['colB'] = np.select([df_copy['key'] == 'key2'], [df_copy['colB']], default='NA')
# df_copy['colC'] = np.select([df_copy['key'] == 'key3'], [df_copy['colC']], default='NA')
# print("\n使用np.select的结果:")
# print(df_copy)

显然,这种方法在列数和键值组合增多时难以维护。下面我们将介绍两种更专业的向量化解决方案。

方法一:利用 pd.get_dummies 和 DataFrame.where 构建动态掩码

此方法的核心思想是首先构建一个布尔掩码,该掩码能够指示DataFrame中每个单元格是否应该保留其原始值(即是否是有效数据)。然后,使用DataFrame.where()方法根据此掩码进行条件性替换。

  1. 定义键与列的映射关系: 创建一个字典,将每个key值映射到它对应的有效列名列表。

  2. 生成布尔掩码:

    • 将映射字典转换为一个Series,并使用explode()将其展平,使得每个键-列对成为一个独立的条目。
    • 利用pd.get_dummies()将展平的Series转换为一个One-Hot编码的DataFrame,其中列名是所有可能的列,值为布尔类型。
    • 由于explode()会保留原始索引,我们可以使用groupby(level=0).max()来聚合,确保每个原始key对应一行,且该行中所有与该key关联的列都标记为True。
  3. 对齐掩码并应用:

    • 使用mask.reindex(df['key'])将生成的掩码与原始DataFrame的key列对齐,生成一个与原始DataFrame行数相同的布尔DataFrame。
    • 将对齐后的布尔DataFrame转换为NumPy数组,以便与原始DataFrame进行元素级操作。
    • 最后,使用df.where(condition, other)方法,当条件为True时保留原始值,当条件为False时替换为'NA'。
# 重新加载原始DataFrame以确保示例的独立性
df = pd.DataFrame(data)

# 1. 定义键与列的映射关系
key_column_map = {
    'key1': ['colA', 'colD'],
    'key2': ['colB'],
    'key3': ['colC'],
}

# 2. 生成布尔掩码
# 将映射字典转换为Series并展平
s = pd.Series(key_column_map).explode()
# 使用get_dummies创建布尔矩阵,并按原始key聚合
# groupby(level=0).max() 在布尔Series上相当于any(),确保每个key对应的所有True都被保留
mask_template = pd.get_dummies(s, dtype=bool).groupby(level=0).max()

print("\n生成的布尔掩码模板 (mask_template):")
print(mask_template)

# 3. 对齐掩码并应用到DataFrame
# 获取需要处理的列名(排除'key'列)
target_cols = df.columns.difference(['key'])

# 根据df['key']对mask_template进行reindex,使其与df的行对齐
# to_numpy() 转换为NumPy数组以进行高效的元素级操作
aligned_mask = mask_template.reindex(df['key']).to_numpy()

# 使用DataFrame.where()进行条件替换
# df.where(condition, other) - 如果condition为True,保留df的值;否则,使用other的值。
df[target_cols] = df[target_cols].where(aligned_mask, 'NA')

print("\n方法一:使用get_dummies和where的结果:")
print(df)

输出结果:

Motiff妙多 Motiff妙多

Motiff妙多是一款AI驱动的界面设计工具,定位为“AI时代设计工具”

Motiff妙多 334 查看详情 Motiff妙多
生成的布尔掩码模板 (mask_template):
       colA   colB   colC   colD
key1   True  False  False   True
key2  False   True  False  False
key3  False  False   True  False

方法一:使用get_dummies和where的结果:
    key     colA     colB     colC     colD
0  key1  value1A       NA       NA  value1D
1  key2       NA  value2B       NA       NA
2  key3       NA       NA  value3C       NA
3  key1  value4A       NA       NA  value4D
4  key2       NA  value5B       NA       NA

优点:

  • 高度向量化,性能优异。
  • 逻辑清晰,通过布尔掩码直观地表达了条件。
  • 适用于大规模数据集。

方法二:通过 melt, merge, 和 unstack 进行数据重塑

此方法利用Pandas的数据重塑能力,将DataFrame转换为“长格式”,然后通过合并操作筛选出有效的数据点,最后再重塑回“宽格式”。

  1. 定义键与列的映射关系: 与方法一相同,使用字典key_column_map。

  2. 重塑原始DataFrame为长格式:

    • 使用reset_index()保留原始行索引,以便后续重塑回宽格式。
    • 使用melt()将除index和key之外的所有列转换为两列:variable(原列名)和value(原单元格值)。
  3. 准备映射关系为DataFrame:

    • 将key_column_map转换为Series并explode(),然后reset_index()将其转换为包含key和variable列的DataFrame。这将作为我们有效键-列对的参照表。
  4. 合并与过滤:

    • 将长格式的DataFrame与步骤3中准备的映射DataFrame进行merge()操作。由于merge()默认只保留匹配的行,这将自动过滤掉所有无效的键-列组合。
  5. 重塑回宽格式并填充:

    • set_index()将index、key和variable设为索引,然后选择value列。
    • unstack('variable', fill_value='NA')将variable列(即原始列名)重新作为新列,并将因merge操作而缺失(即无效)的值填充为'NA'。
    • 最后进行一些索引和列名的清理。
# 重新加载原始DataFrame以确保示例的独立性
df = pd.DataFrame(data)

# 1. 定义键与列的映射关系
key_column_map = {
    'key1': ['colA', 'colD'],
    'key2': ['colB'],
    'key3': ['colC'],
}

# 2. 重塑原始DataFrame为长格式
melted_df = df.reset_index().melt(['index', 'key'])
print("\n中间步骤:melt后的DataFrame:")
print(melted_df.head())

# 3. 准备映射关系为DataFrame
# 将key_column_map转换为DataFrame,用于merge
valid_key_cols = pd.Series(key_column_map).explode().rename_axis('key').reset_index(name='variable')
print("\n中间步骤:有效键-列映射DataFrame:")
print(valid_key_cols)

# 4. 合并与过滤
# 通过merge操作,只保留有效的 (key, variable) 组合
filtered_data = melted_df.merge(valid_key_cols)
print("\n中间步骤:merge过滤后的DataFrame:")
print(filtered_data.head())

# 5. 重塑回宽格式并填充
result_df = (
    filtered_data.set_index(['index', 'key', 'variable'])['value']
    .unstack('variable', fill_value='NA')
    .reset_index('key') # 将'key'从索引移回列
    .rename_axis(index=None, columns=None) # 清理索引和列名
)

# 将结果合并回原始df(如果需要保留原始df的'key'列)
# 或者直接使用result_df,但需要确保所有列都正确对齐
# 这里为了与原始输出格式一致,我们直接构造最终DataFrame
final_df_cols = df.columns.difference(['key'])
df[final_df_cols] = result_df[final_df_cols] # 确保列顺序和名称一致
df['key'] = result_df['key'] # 确保key列也正确

print("\n方法二:使用melt, merge, unstack的结果:")
print(df)

输出结果:

中间步骤:melt后的DataFrame:
   index   key variable    value
0      0  key1     colA  value1A
1      1  key2     colA  value2A
2      2  key3     colA  value3A
3      3  key1     colA  value4A
4      4  key2     colA  value5A

中间步骤:有效键-列映射DataFrame:
    key variable
0  key1     colA
1  key1     colD
2  key2     colB
3  key3     colC

中间步骤:merge过滤后的DataFrame:
   index   key variable    value
0      0  key1     colA  value1A
1      0  key1     colD  value1D
2      1  key2     colB  value2B
3      3  key1     colA  value4A
4      3  key1     colD  value4D

方法二:使用melt, merge, unstack的结果:
    key     colA     colB     colC     colD
0  key1  value1A       NA       NA  value1D
1  key2       NA  value2B       NA       NA
2  key3       NA       NA  value3C       NA
3  key1  value4A       NA       NA  value4D
4  key2       NA  value5B       NA       NA

优点:

  • 非常灵活,适用于更复杂的数据重塑和过滤场景。
  • 所有操作都是向量化的,效率高。

以上就是Pandas DataFrame:基于键列高效映射多列的策略与实践的详细内容,更多请关注其它相关文章!


# 将其  # 关键词排名账户  # 网站建设解决方案v  # 鹤壁网站建设加盟公司  # 咸宁网站建设策划哪家好  # 西青网站建设跑腿代办  # 云南关键词排名推荐  # 集团网站建设方式有几种  # 优化网站出租合同  # 韶关seo渠道  # 库尔勒建设投资招聘网站  # 编码  # 适用于  # 多个  # 创建一个  # 加载  # 两种  # 设为  # 掩码  # 转换为  # 布尔  # red 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: Golang如何安装Swagger工具_GoSwagger文档生成环境  抖音DOU+怎么投最有效 抖音付费推广的ROI提升技巧  汽水音乐在线解析 汽水音乐在线解析入口  文心一言怎样用批量生成做多版文案_文心一言用批量生成做多版文案【批量创作】  必由学官网入口 必由学教师登录入口  深入理解rpy2中的类型转换:优化Python对象到R矩阵的映射  2026年CSGO开箱网站推荐 CSGO开箱平台精选  Lar*el如何生成PDF或Excel文件_Lar*el文档导出工具与使用教程  ACG动漫手机版官网入口 手机ACG动漫APP在线观看正版  处理动态列数据:J*a ArrayList的正确初始化与字符累加教程  React/Next.js中实现列表项的动态移动与状态管理:兼论唯一键的重要性  React项目中导航栏Logo自适应布局:避免裁剪与布局溢出  J*aScript中向JSON对象添加新属性的正确姿势  iwriter统一登录平台 iwrite账号密码登录页面  微信网页版扫码登录入口 微信网页版二维码登录入口  动漫共和国防屏蔽稳定域名-动漫共和国官方正版直达通道  J*aScript井字棋(Tic-Tac-Toe)核心交互逻辑实现教程  Windows 11怎么彻底关闭定位_Windows 11服务中禁用Geolocation  sublime如何配置Python开发环境_将sublime打造成轻量级Python IDE  Python大型XML文件高效流式解析教程  windows10怎么查看硬盘序列号_windows10硬盘id查询命令  解决macOS Tkinter应用双击启动崩溃:PyInstaller打包指南  12306选座系统怎么选连座_12306选座多人连坐操作方法  怎样在Excel中做仪表盘_Excel仪表盘设计与关键指标展示方法  浏览器打开即用 美图秀秀网页版入口  三星GalaxyZFold5怎样在相册制作折叠屏分镜_iPhone三星GalaxyZFold5相册制作折叠屏分镜【创意编辑】  Fabric Mod开发:在1.19.3+版本中正确添加自定义物品并管理物品组  深入理解Google Cloud Datastore查询:祖先路径与数据一致性  J*a里如何使用N*igableMap进行导航操作_可导航Map操作技巧解析  Golang如何实现Web接口签名验证_Golang Web接口签名校验开发方法  快手极速版在线观看 官方网页版登录地址  Win11怎么开启卓越性能模式 Win11电源选项启用高性能释放硬件潜力【方法】  怎么在html里运行vbs脚本_html中运行vbs脚本方法【教程】  蛙漫移动版在线看 蛙漫手机浏览器直达入口  铃兰之剑为这和平的世界希里技能组及加点推荐  DLsite中文平台入口 DLsite官网内容在线查看  GemBox Document HTML转PDF垂直文本渲染问题及解决方案  C++如何操作大型数据集_使用C++流式处理(Streaming)技术避免一次性加载大文件  Adobe PDF表单中利用J*aScript解析与格式化日期组件的教程  优化 Jest 模拟:强制未实现函数抛出错误以提升测试效率  12306选座怎么选到临时改签座_12306改签选座策略与步骤  PySpark中高效提取字符串右侧可变长度数字:使用regexp_extract  痛风发作了怎么办? 快速止痛和后期饮食调理  c++如何使用std::memory_order控制原子操作顺序_c++ C++11内存模型详解  css滚动区域卡顿如何改善_css滚动问题用will-change优化渲染  海棠电脑版入口_通过电脑访问海棠官网阅读  ArchiveofOurOwn小说阅读-ArchiveofOurOwn同人作品访问链接  在WordPress中通过REST API获取BasicAuth保护的远程文章  漫蛙manwa2最新登录网址_漫蛙manwa2手机网页版入口  MinIO大规模对象列表性能瓶颈深度解析与外部元数据管理策略 

搜索