Pandas query方法：处理含空格列名的实用指南_石家庄创泽智能科技有限公司

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

Pandas query方法：处理含空格列名的实用指南

2025-11-19

浏览次数：次

返回列表

Pandas query方法：处理含空格列名的实用指南

本文探讨了在使用 pandas 的 `df.query` 方法时，如何正确处理包含空格的列名以避免 `keyerror`。当列名不符合 python 变量命名规范时（例如含有空格），需要使用反引号（`）将其包裹起来，以确保 `query` 方法能正确识别并执行数据筛选操作，从而实现高效的数据筛选。

理解 Pandas query 方法

Pandas 的 DataFrame.query() 方法提供了一种使用字符串表达式来筛选 DataFrame 行的便捷方式。它通常比使用布尔索引（如 df.loc[]）更具可读性，尤其是在涉及多个条件时。query() 方法能够直接引用 DataFrame 的列名作为变量，并在其内部执行表达式。

例如，筛选 Speed 列小于等于 10 的行，可以直接写成：

import pandas as pd

# 示例数据（替代实际加载，方便演示）
data = {'Name': ['Bulbasaur', 'Charmander', 'Squirtle', 'Pikachu', 'Charizard'],
        'Type 1': ['Grass', 'Fire', 'Water', 'Electric', 'Fire'],
        'Type 2': ['Poison', None, None, None, 'Flying'],
        'Speed': [45, 65, 43, 90, 100]}
df = pd.DataFrame(data)

df.query("Speed <= 10")

这段代码会顺利执行，因为 Speed 是一个符合 Python 变量命名规则的列名。

遇到 KeyError 的原因：含空格的列名

然而，当列名中包含空格或其他特殊字符时，直接在 query() 表达式中引用这些列名会导致 KeyError。例如，如果尝试筛选 Type 1 为 "Fire" 且 Type 2 为 "Flying" 的宝可梦，并使用如下代码：

df.query("'Type 1' == 'Fire' and 'Type 2' == 'Flying'")

这将抛出一个 KeyError，错误信息可能类似 KeyError: False。这是因为 query() 方法在解析字符串表达式时，会尝试将 Type 1 和 Type 2 视为 Python 变量名。而 Type 1 和 Type 2 并不是合法的 Python 变量名（Python 变量名不能包含空格），导致 query 引擎无法正确识别这些列。

相比之下，使用 df.loc 进行布尔索引时，这种问题不会出现：

df.loc[(df['Type 1'] == "Fire") & (df['Type 2'] == "Flying")]

df.loc 直接通过 df['Column Name'] 的方式访问列，这里的 'Column Name' 是一个字符串字面量，Pandas 会直接将其解析为 DataFrame 的列名，而不会尝试将其作为 Python 变量名进行求值。

小云雀

剪映出品的AI视频和图片创作助手

1949 查看详情小云雀

解决方案：使用反引号包裹列名

为了解决 query() 方法中含空格列名的问题，Pandas 提供了使用反引号 (`) 来包裹这些列名的机制。反引号告诉 query 引擎，其内部的字符串应该被视为字面列名，即使它不符合标准的 Python 变量命名规则。

正确的写法如下：

df.query("`Type 1` == 'Fire' and `Type 2` == 'Flying'")

使用上述代码，query() 方法将能够正确识别 Type 1 和 Type 2 这两个列，并返回符合条件的行。

完整示例代码：

import pandas as pd

# 示例数据
data = {'Name': ['Bulbasaur', 'Charmander', 'Squirtle', 'Pikachu', 'Charizard', 'Moltres', 'Ho-oh', 'Talonflame'],
        'Type 1': ['Grass', 'Fire', 'Water', 'Electric', 'Fire', 'Fire', 'Fire', 'Fire'],
        'Type 2': ['Poison', None, None, None, 'Flying', 'Flying', 'Flying', 'Flying'],
        'Total': [318, 309, 314, 320, 534, 580, 680, 499],
        'HP': [45, 39, 44, 35, 78, 90, 106, 78],
        'Attack': [49, 52, 48, 55, 84, 100, 130, 81],
        'Defense': [49, 43, 65, 40, 78, 90, 90, 71],
        'Sp. Atk': [65, 60, 50, 50, 109, 125, 110, 74],
        'Sp. Def': [65, 50, 64, 50, 85, 85, 154, 69],
        'Speed': [45, 65, 43, 90, 100, 90, 90, 126],
        'Generation': [1, 1, 1, 1, 1, 1, 2, 6],
        'Legendary': [False, False, False, False, False, True, True, False]}
df = pd.DataFrame(data)

print("原始 DataFrame 头部:")
print(df.head())
print("\nDataFrame 列名列表:")
print(df.columns.tolist())

# 使用 .loc 方法 (作为对比，功能正常)
print("\n使用 .loc 筛选 'Type 1' == 'Fire' and 'Type 2' == 'Flying':")
result_loc = df.loc[(df['Type 1'] == "Fire") & (df['Type 2'] == "Flying")]
print(result_loc)

# 尝试使用错误的 .query 方法 (会引发 KeyError，此部分被注释以避免程序中断)
# print("\n尝试使用错误的 .query 方法:")
# try:
#     df.query("'Type 1' == 'Fire' and 'Type 2' == 'Flying'")
# except KeyError as e:
#     print(f"捕获到 KeyError: {e} - 这是因为列名 'Type 1' 和 'Type 2' 包含空格。")

# 使用正确的 .query 方法 (使用反引号)
print("\n使用正确的 .query 方法 (使用反引号) 筛选 'Type 1' == 'Fire' and 'Type 2' == 'Flying':")
result_query = df.query("`Type 1` == 'Fire' and `Type 2` == 'Flying'")
print(result_query)

注意事项与最佳实践

检查列名： 在使用 query() 方法之前，始终建议检查 DataFrame 的列名，特别是当数据来源于外部文件时。可以使用 df.columns.tolist() 来获取所有列名。
Pandas 文档： 遇到 query() 方法相关的疑问时，查阅 Pandas 官方文档是最佳实践。文档中明确指出了反引号的使用场景。
列名规范化： 虽然反引号提供了一种解决方案，但从长远来看，如果可能，建议在数据加载或预处理阶段对列名进行规范化，例如将空格替换为下划线（Type 1 改为 Type_1），这样可以避免在后续操作中反复处理此类问题，并提高代码的可读性。
性能考量： 对于非常大的数据集，query() 方法通常比纯 Python 循环或列表推导式更快，因为它在 C 语言层面进行了优化。但在某些复杂场景下，其性能可能与布尔索引相近，甚至略逊。选择哪种方法应根据具体需求、可读性和性能测试结果来决定。