新闻中心

Pandas教程:基于多列范围与条件动态创建新列

2025-12-03
浏览次数:
返回列表

Pandas教程:基于多列范围与条件动态创建新列

本教程详细介绍了如何使用pandas库,根据dataframe中指定列范围内的值是否存在特定条件(例如大于0),来动态创建并填充一个新的列。文章将重点讲解如何利用`df.filter()`结合正则表达式进行灵活的列选择,并通过`any()`和`numpy.where()`实现复杂的条件逻辑判断,最终生成如“y/n”响应者标记的新列,提升数据处理效率与灵活性。

引言:Pandas中基于复杂条件创建新列的挑战

在数据分析实践中,我们经常需要根据现有数据生成新的特征列。当条件涉及DataFrame中多个列,且这些列需要根据某种模式(而非明确列表)进行选择时,这一任务会变得更具挑战性。例如,我们需要检查一系列“事件”列中是否有任何一个值满足特定标准(如大于0),然后据此标记一个“响应者”列。本教程将深入探讨如何利用Pandas的强大功能,高效且灵活地解决这类问题。

核心方法:动态列选择与条件逻辑

解决上述问题的关键在于两个方面:

  1. 动态选择列: 避免手动列出所有目标列,而是通过模式匹配(如正则表达式)来选取。
  2. 应用条件逻辑: 在选定的列上执行条件判断,并聚合结果以生成最终的布尔值,进而创建新列。

我们将使用df.filter()进行动态列选择,结合any(axis=1)进行行级别的条件判断,并最终通过numpy.where()将布尔结果转换为我们所需的值。

示例数据准备

首先,我们创建一个模拟的DataFrame来演示这个过程:

import pandas as pd
import numpy as np

# 示例DataFrame
data = {
    'Animal_ID': ['a1', 'a2', 'a3', 'a4'],
    'weight': [50, 52, 75, 53],
    'Project': ['p1', 'p2', 'p1', 'p2'],
    'Exp_type': ['Acute', 'chronic', 'Acute', 'chronic'],
    'researcher': ['alex', 'mat', 'alex', 'mat'],
    'events_d1': [0, 0, 1, 0],
    'events_d2': [0, 1, np.nan, np.nan],
    'events_d3': [0, 1, 2, np.nan],
    'events_d4': [4, 5, np.nan, 0]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出:

网页制作与PHP语言应用 网页制作与PHP语言应用

图书《网页制作与PHP语言应用》,由武汉大学出版社于2006出版,该书为普通高等院校网络传播系列教材之一,主要阐述了网页制作的基础知识与实践,以及PHP语言在网络传播中的应用。该书内容涉及:HTML基础知识、PHP的基本语法、PHP程序中的常用函数、数据库软件MySQL的基本操作、网页加密和身份验证、动态生成图像、MySQL与多媒体素材库的建设等。

网页制作与PHP语言应用 460 查看详情 网页制作与PHP语言应用
原始DataFrame:
  Animal_ID  weight Project Exp_type researcher  events_d1  events_d2  events_d3  events_d4
0        a1      50      p1    Acute       alex          0        0.0        0.0        4.0
1        a2      52      p2  chronic        mat          0        1.0        1.0        5.0
2        a3      75      p1    Acute       alex          1        NaN        2.0        NaN
3        a4      53      p2  chronic        mat          0        NaN        NaN        0.0

步骤一:使用 df.filter() 动态选择目标列

我们的目标是检查 events_d1、events_d2 和 events_d3 列,但不包括 events_d4。df.filter() 方法允许我们使用正则表达式来匹配列名。

为了排除 events_d4,我们可以使用正则表达式 events_d[^4]。这里的 [^4] 表示匹配除了数字 4 之外的任何字符。

# 筛选出不包含 'events_d4' 的 'events_d' 系列列
event_columns = df.filter(regex="events_d[^4]")
print("\n筛选出的事件列:")
print(event_columns)

输出:

筛选出的事件列:
   events_d1  events_d2  events_d3
0          0        0.0        0.0
1          0        1.0        1.0
2          1        NaN        2.0
3          0        NaN        NaN

步骤二:应用条件并聚合结果

现在我们已经得到了感兴趣的列,接下来需要检查每一行中这些列是否存在至少一个大于0的值。

  1. 条件判断: 对 event_columns 中的每个元素执行 > 0 的判断,这将返回一个布尔型DataFrame。
  2. 行级聚合: 使用 .any(axis=1) 方法检查每一行中是否有任何一个 True 值。axis=1 表示沿行方向操作。any() 会忽略 NaN 值,这对于我们的场景通常是期望的行为(即 NaN 不算作“存在事件”)。
# 检查筛选出的列中是否有任何值大于0
# .any(axis=1) 会在行级别进行判断,如果一行中至少有一个True,则返回True
m = event_columns.gt(0).any(axis=1)
print("\n条件判断结果 (布尔Series):")
print(m)

输出:

条件判断结果 (布尔Series):
0    False
1     True
2     True
3    False
dtype: bool

这里 gt(0) 是 > 的等价方法,可以更好地处理 NaN 值(NaN > 0 结果为 False)。

步骤三:使用 numpy.where() 创建新列

最后一步是根据布尔Series m 的结果,在原始DataFrame中创建新的 responder 列。numpy.where() 函数非常适合这种条件赋值:np.where(condition, value_if_true, value_if_false)。

# 根据布尔Series 'm' 创建 'responder' 列
df['responder'] = np.where(m, 'y', 'n')

print("\n最终DataFrame:")
print(df)

输出:

最终DataFrame:
  Animal_ID  weight Project Exp_type researcher  events_d1  events_d2  events_d3  events_d4 responder
0        a1      50      p1    Acute       alex          0        0.0        0.0        4.0         n
1        a2      52      p2  chronic        mat          0        1.0        1.0        5.0         y
2        a3      75      p1    Acute       alex          1        NaN        2.0        NaN         y
3        a4      53      p2  chronic        mat          0        NaN        NaN        0.0         n

完整代码示例

将上述步骤整合到一起,得到完整的解决方案:

import pandas as pd
import numpy as np

# 示例DataFrame
data = {
    'Animal_ID': ['a1', 'a2', 'a3', 'a4'],
    'weight': [50, 52, 75, 53],
    'Project': ['p1', 'p2', 'p1', 'p2'],
    'Exp_type': ['Acute', 'chronic', 'Acute', 'chronic'],
    'researcher': ['alex', 'mat', 'alex', 'mat'],
    'events_d1': [0, 0, 1, 0],
    'events_d2': [0, 1, np.nan, np.nan],
    'events_d3': [0, 1, 2, np.nan],
    'events_d4': [4, 5, np.nan, 0]
}
df = pd.DataFrame(data)

# 1. 动态选择目标列(排除 events_d4)
# regex="events_d[^4]" 匹配 'events_d' 后跟除了 '4' 之外的任何字符
event_columns_to_check = df.filter(regex="events_d[^4]")

# 2. 对选定列应用条件 (大于0),并进行行级聚合 (任意一个为True)
# .gt(0) 检查每个元素是否大于0
# .any(axis=1) 检查每行中是否有任何一个True值(即至少一个事件大于0)
condition_met = event_columns_to_check.gt(0).any(axis=1)

# 3. 使用 numpy.where 根据条件创建新的 'responder' 列
df['responder'] = np.where(condition_met, 'y', 'n')

print("最终生成的DataFrame:")
print(df)

注意事项与扩展

  1. 正则表达式的灵活性: df.filter(regex=...) 是一个非常强大的工具,可以根据复杂的模式匹配列名。例如,如果你想选择所有以 events_d 开头且数字在1到3之间的列,可以使用 regex="events_d[1-3]"。
  2. 处理 NaN 值: any() 和 all() 在处理布尔值时会默认忽略 NaN。这意味着如果一行的所有非 NaN 值都为 False,或者所有非 NaN 值都为 True,则 any() 或 all() 会返回相应的结果。如果所有值都是 NaN,any() 会返回 False,all() 会返回 True。在我们的场景中,event_columns.gt(0) 会将 NaN 转换为 False,因此 any(axis=1) 会正确地处理它们。
  3. 其他条件: 如果你需要检查其他条件(例如,所有值都大于0,或者特定值范围),可以替换 .gt(0) 为 .eq(value) (等于), .lt(value) (小于), .between(lower, upper) (在范围内) 等,并相应地调整聚合方法(例如使用 all(axis=1))。
  4. 性能考虑: 对于非常大的DataFrame,这种矢量化操作通常比使用 apply() 结合 lambda 函数或循环要高效得多。

总结

本教程展示了如何利用Pandas的filter()、any()以及numpy.where()组合,以一种高度灵活和高效的方式,根据多列范围内的复杂条件动态创建新列。这种方法不仅避免了手动列举列名的繁琐,还提供了强大的正则表达式匹配能力,使得在面对动态或模式化的列集时,数据清洗和特征工程变得更加便捷和可维护。掌握这些技巧将显著提升你在Python数据分析中的生产力。

以上就是Pandas教程:基于多列范围与条件动态创建新列的详细内容,更多请关注其它相关文章!


# 如何实现  # 小红书快手微博b站营销推广  # 延长网站建设方案怎么写  # 兰州有什么推广网站  # 万州抖音seo变现  # 孝感seo推广排名  # 淮南seo网络优化公司  # 产品营销推广朋友圈  # 温州网站营销推广好不好  # 来客营销推广方案  # seo推广服务机构排名  # 网络传播  # python  # 是否存在  # 都为  # 转换为  # 可以使用  # 有任何  # 网页制作  # 布尔  # 数据清洗  # 工具  # app  # 正则表达式 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 优化HTML表单样式:解决输入框焦点跳动与元素间距问题  PySpark中从现有列右侧提取可变长度字符创建新列的教程  抖音未来赚钱的新趋势 2025年值得关注的变现风口分析  在Blazor WebAssembly应用中动态注入客户端特定指标代码的策略  圆通快递查询实时追踪 圆通物流包裹状态快速查看  Win11怎么开启省电模式_Win11电池节电模式自动开启  印象笔记怎样用批量导出备知识库_印象笔记用批量导出备知识库【备份方法】  在React函数组件中利用原生HTML5进行邮箱地址验证  神庙逃亡小游戏在线玩 神庙逃亡小游戏入口  Windows10怎么开启存储感知 Windows10系统设置自动清理临时文件释放C盘空间【教程】  qq浏览器如何查看和导出已保存的密码 qq浏览器密码管理器数据备份教程  漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道  如何在J*a中实现统一对象行为接口_项目大型化时的接口规范化  俄罗斯方块最新版入口 俄罗斯方块在线玩官网入口  抓大鹅无需下载版 抓大鹅秒玩版入口  QQ邮箱稳定登录入口_QQ邮箱官方网站网页版使用  在J*a中如何捕获IndexOutOfBoundsException_索引越界异常防护方法说明  必由学官方网站入口 必由学学生教师共用登录通道  CSS Box Model与弹性按钮:维持布局稳定的动画实践  红果短剧网页版官网入口 官方最新网址发布  qq游戏网页版直接玩_qq游戏免下载快速入口  TypeScript/J*aScript:高效查找数组中首个唯一ID对象  微博网页版怎么开启两步验证_微博网页版账号安全两步验证设置方法  腾讯QQ邮箱登录入口_QQ邮箱官方网站使用地址  自定义Bag-of-Words实现:处理带负号的词汇权重  Python自定义类排序:解决lambda键值访问TypeError的实践指南  邮政快递包裹最新位置 邮政快递实时追踪入口  cad如何更改注释性对象的比例_cad注释性比例调整方法  C++ typeid如何获取类型信息_C++ RTTI运行时类型识别用法  Node.js 中使用 node-cron 实现定时 API 数据抓取与处理  Safari浏览器输入栏卡顿如何解决 Safari搜索建议与缓存清理  漫蛙manwa官网登录界面_漫蛙漫画网页版主站入口  J*a里如何使用forEach遍历Map_Map遍历方法说明  QQ邮箱网页版邮箱入口 QQ邮箱官方登录平台  QQ邮箱网页版登录入口 QQ邮箱官方在线使用平台  不同用户不同价格! 索尼开启账户个性化定价测试  微信商城在哪里打开【步骤】  极兔快递快件信息查询系统 极兔快递官网运单号追踪  必由学在线入口 必由学网页版快速登录入口  C++ explicit关键字防止隐式转换_C++构造函数安全规范  c++如何使用Meson构建系统_c++比CMake更快的构建工具  将HTML动态表格多行数据保存到Google Sheet的教程  C#使用XPath查询节点时出错? 常见语法错误与调试技巧  html两个JS只运行一个怎么办_让双JS在html中都运行方法【技巧】  Lar*el 8 多关键词数据库搜索优化实践  如何在网页中实现特定地点的随机图片展示  深入理解J*a编译器的兼容性选项:从-source到--release  百度网盘网页版入口 百度网盘网页版官方登录网址  sublime怎么预览Markdown渲染效果_Markdown Preview插件 for sublime教程  MAC如何安全彻底地删除文件_MAC使用终端命令确保文件无法被恢复 

搜索