Pandas DataFrame高效筛选：按列条件提取关联患者列表

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

Pandas DataFrame高效筛选：按列条件提取关联患者列表

2025-11-21

浏览次数：次

返回列表

Pandas DataFrame高效筛选：按列条件提取关联患者列表

本文将深入探讨如何在pandas dataframe中高效地执行向量化操作，特别关注如何根据列的特定条件筛选数据，并提取与之关联的非表格化信息，例如患者id列表。我们将通过实例演示如何结合向量化过滤和列表推导式，以优化性能并获取结构清晰的结果。

Pandas中的向量化操作简介

Pandas作为Python数据分析的核心库，其强大的向量化能力是实现高性能数据处理的关键。向量化操作允许我们对整个Series或DataFrame进行元素级别的操作，而无需编写显式的Python循环，从而显著提高执行效率。

我们首先创建一个示例DataFrame来演示：

import pandas as pd

columns = ['S1', 'S2', 'S3', 'S4', 'S5']

df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
                   'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
                   'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
                   'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
                   'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
                   'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})

print("原始DataFrame:")
print(df)

基于此DataFrame，我们可以轻松执行一些基本的向量化聚合操作。例如，计算每列中值大于或等于0.5的单元格数量，以及这些单元格的总和：

# 获取每列中值 >= 0.5 的单元格数量
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格数量:")
print(arr1)

# 获取每列中值 >= 0.5 的单元格总和
# 注意：这里先筛选出符合条件的单元格，不符合的会变为NaN，然后对NaN求和会忽略NaN
arr2 = df[df[columns]>=0.5][columns].sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格总和:")
print(arr2)

按列条件筛选并提取关联数据

上述示例展示了对DataFrame进行聚合计算的向量化方法。然而，在某些场景下，我们可能需要根据每列的特定条件，提取与这些条件关联的“行标识符”（例如本例中的Patient ID），并以列表的形式呈现，而不是进行聚合。

例如，我们希望得到一个列表，其中每个元素都是一个子列表，包含特定列中值大于或等于0.5的所有Patient ID。期望的输出格式如下：

CA.LA

第一款时尚产品在线设计平台，服装设计系统

94 查看详情 CA.LA

[['p1', 'p3', 'p4', 'p5', 'p7', 'p9'],
 ['p3', 'p5', 'p7', 'p8'],
 ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9'],
 (...),
 (...)]

为了实现这种非表格化的结果，我们可以结合使用列表推导式（List Comprehension）和Pandas的布尔索引。对于每一列，我们首先生成一个布尔Series，然后用它来筛选Patient列，最后将结果转换为列表。

解决方案

# 使用列表推导式按列筛选并提取患者ID
patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]

print("\n按列条件筛选的患者ID列表:")
print(patient_lists_by_column)

代码解析：

for col in columns: 这是一个列表推导式的外部循环，它会遍历columns列表中定义的每一列（'S1', 'S2', ... 'S5'）。
df[col] >= 0.5: 在每次循环中，这会为当前列col生成一个布尔Series。Series中的每个元素都是True或False，表示对应行在该列的值是否大于或等于0.5。
df.Patient[...]: 这是Pandas的布尔索引机制。我们将上一步生成的布尔Series作为索引传递给df.Patient。Pandas会选择df.Patient Series中对应布尔值为True的所有元素，即符合条件的患者ID。
.to_list(): 最后，将筛选出的Patient Series转换为一个标准的Python列表。

通过这种方式，我们避免了显式的嵌套循环，利用了Pandas底层的优化，使得代码既简洁又高效。

注意事项与性能考量

非表格化输出: 这种方法特别适用于需要生成非表格化（例如列表的列表、字典等）结果的场景。如果目标是生成一个新的DataFrame，可能需要考虑不同的apply或groupby策略。
列表推导式与循环: 尽管列表推导式在语法上包含循环，但它通常比传统的for循环更高效，因为它在C语言级别进行优化。在本例中，列表推导式内部的df.Patient[df[col] >= 0.5]操作是高度向量化的。
内存使用: 当DataFrame非常大时，生成大量的中间布尔Series可能会占用一定内存。但对于大多数常见数据集，这种方法是高效且内存友好的。
灵活性: 这种模式非常灵活，可以轻松修改筛选条件（例如df[col] = 0.5]）。

总结

在Pandas DataFrame中，高效地根据列条件筛选数据并提取关联信息是常见需求。本文演示了如何巧妙地结合Pandas的向量化布尔索引与Python的列表推导式，以简洁、高效的方式实现这一目标。这种方法不仅能够处理聚合计算，还能灵活地生成结构化的非表格化结果，如本例中的患者ID列表，极大地提升了数据处理的效率和代码的可读性。掌握这种模式，将有助于您在数据分析工作中更游刃有余。

以上就是Pandas DataFrame高效筛选：按列条件提取关联患者列表的详细内容，更多请关注其它相关文章！

# 符合条件 # 乐陵免费企业网站建设 # 去哪找网站建设工程 # 海南网站建设大全 # 深圳抖音seo策略分析 # 养老营销推广文案怎么写 # 闪送线下营销推广方式 # 网站优化十大实例分析题 # 网络seo优惠 # 大石桥专业网站优化推广 # 怎样做好关键词排名优化 # 命令行 # python # 转换为 # 这种方法 # 数据处理 # 我们可以 # 本例 # 都是 # 单元格 # 布尔 # app # c语言