新闻中心

从DataFrame中包含字典列表的列创建新列的教程

2025-11-29
浏览次数:
返回列表

从DataFrame中包含字典列表的列创建新列的教程

本教程旨在指导用户如何将pandas dataframe中包含字典列表的复杂列解构,并将其内部的键值对转换为独立的dataframe列。文章将介绍两种主要方法:利用`str`访问器结合`apply(pd.series)`进行高效转换,以及通过显式处理空列表或缺失值来确保数据完整性和结构一致性的更健壮方案。通过具体代码示例,帮助读者理解并掌握在数据预处理阶段处理此类复杂数据结构的关键技术。

从包含字典列表的DataFrame列中提取数据

在数据分析和处理中,我们经常会遇到DataFrame的某一列存储着复杂的数据结构,例如列表、字典或它们的组合。本教程将重点解决一个常见场景:当DataFrame的一列包含一系列字典的列表时,如何有效地将这些字典中的键提取为新的列。

场景描述与初始数据

假设我们有一个DataFrame,其中一个名为stats的列存储着列表,而每个列表可能包含一个或多个字典。我们的目标是将这些字典中的特定键(例如city和last_time)提取出来,形成DataFrame的新列。

以下是我们的示例输入数据结构:

stats
[{'city':None, 'last_time': 1234567}]
[]
[{'city':'Seattle', 'last_time': 45678999876}]

期望的输出DataFrame结构如下:

city       last_time
None       1234567
NA         NA
Seattle    45678999876

为了复现这个问题,我们可以构造如下的Pandas DataFrame:

import pandas as pd
import numpy as np

# 构造示例DataFrame
df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],  # 空列表
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
                                   stats
0    [{'city': None, 'last_time': 1234567}]
1                                       []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

方法一:使用 str 访问器和 apply(pd.Series)

这是处理此类问题的常见且简洁的方法。它利用了Pandas Series的str访问器来处理字符串或类似列表的元素,并结合apply(pd.Series)将字典转换为新的列。

核心思路:

crmeb电商系统 crmeb电商系统

CRMEB 是基于Thinkphp5基础开发的以会员为中心的电商系统,开源版微信公众号商城和小程序商城数据同步,带积分、优惠券、秒杀、砍价、分销等功能,更是一套方便二次开发的商城框架(后台封装了独有快速创建表单功能,无需写表单页面、快速创建数据搜索和数据列表页、导出表格、系统权限配置控制每一个控制器方法、系统参数配置、数据字典、组合数据等)

crmeb电商系统 0 查看详情 crmeb电商系统
  1. 使用 df["stats"].str[0] 访问 stats 列中每个列表的第一个元素。如果列表为空,此操作将返回 NaN。
  2. 对得到的 Series 使用 .apply(pd.Series)。Pandas 会自动识别 Series 中的字典,并将其键转换为新的列,值填充到相应位置。
# 方法一:使用 str 访问器和 apply(pd.Series)
# 步骤1: 提取每个列表的第一个元素。空列表会变成 NaN。
extracted_stats = df["stats"].str[0]

# 步骤2: 将包含字典的Series转换为DataFrame
output_df_method1 = extracted_stats.apply(pd.Series)

print("\n方法一输出:")
print(output_df_method1)

输出:

方法一输出:
      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

说明:

  • df["stats"].str[0] 会尝试从每个列表(或类似列表的对象)中取出索引为0的元素。对于 [{'city':None, 'last_time': 1234567}],它会取出 {'city':None, 'last_time': 1234567}。
  • 对于空列表 [],str[0] 会导致该位置的值变为 NaN。
  • apply(pd.Series) 能够智能地将 Series 中的字典展开为多列。对于 NaN 值,它会相应地填充 None 或 NaN。

方法二:显式处理 NaN 值以确保结构一致性

在某些情况下,当 str[0] 产生 NaN 时(例如,原始列表中为空),直接 apply(pd.Series) 可能导致某些行完全为空,或者在后续处理中引发类型问题。为了更健壮地处理这种情况,我们可以先用一个默认的字典来替换 NaN 值,确保 apply(pd.Series) 总是接收到一个字典结构。

核心思路:

  1. 同样使用 df["stats"].str[0] 提取第一个元素。
  2. 创建一个模板字典,包含所有期望的键,并设置默认值(例如 None)。
  3. 使用 Series.where() 方法,将 extracted_stats 中为 NaN 的位置替换为模板字典。
  4. 对处理后的 Series 应用 pd.Series。
# 方法二:显式处理 NaN 值
# 步骤1: 提取每个列表的第一个元素,空列表会变成 NaN
extracted_stats_series = df["stats"].str[0]

# 步骤2: 创建一个模板字典,用于填充缺失的字典结构
# 例如,{'city': None, 'last_time': None}
template_dict = dict.fromkeys(["city", "last_time"])

# 步骤3: 使用 .where() 替换 NaN 值。
# 如果 extracted_stats_series 的元素不是 NaN (即 notnull()),则保留原值;
# 否则,替换为 template_dict。
filled_stats_series = extracted_stats_series.where(
    extracted_stats_series.notnull(), template_dict
)

# 步骤4: 将包含字典的Series转换为DataFrame
output_df_method2 = filled_stats_series.apply(pd.Series)

print("\n方法二输出:")
print(output_df_method2)

输出:

方法二输出:
      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

说明:

  • template_dict = dict.fromkeys(["city", "last_time"]) 会创建一个 {'city': None, 'last_time': None} 的字典。
  • extracted_stats_series.where(extracted_stats_series.notnull(), template_dict) 会在 extracted_stats_series 中遇到 NaN 的地方,用 template_dict 替换。这确保了 apply(pd.Series) 总是处理一个字典或一个 template_dict,从而保持输出DataFrame的列结构一致。
  • 尽管在这个特定示例中,两种方法的最终输出看起来相似,但方法二在处理更复杂的数据缺失场景时,能提供更强的控制力,例如,你可以自定义 template_dict 中的默认值。

注意事项与进阶思考

  1. 数据类型转换: last_time 列在输出中可能变为浮点类型(float64),这是因为Pandas在包含 NaN(代表缺失值)的数值列中通常会使用浮点类型来存储。如果需要整数类型,可能需要在使用 astype() 之前处理 NaN 值(例如填充0或使用 Int64 类型,它支持 NaN)。
  2. 多个字典的情况: 上述两种方法都默认每个列表只包含一个需要提取的字典,并通过 str[0] 仅提取第一个字典。如果列表可能包含多个字典,并且你需要提取所有字典的信息,则需要更复杂的处理,例如:
    • 使用 df['stats'].explode() 将列表中的每个字典展开为单独的行。
    • 然后对展开后的 Series 应用 pd.json_normalize() 或 apply(pd.Series)。
  3. 性能: 对于非常大的数据集,apply() 方法虽然灵活,但可能不如向量化操作高效。然而,对于字典解包这种复杂操作,apply(pd.Series) 通常是性能和代码简洁性之间的良好折衷。
  4. 键不存在: 如果某些字典中缺少预期的键(例如,某个字典没有 city 键),apply(pd.Series) 会自动为该缺失键对应的列填充 NaN。

总结

本教程介绍了两种有效的方法,用于将Pandas DataFrame中包含字典列表的复杂列解构为独立的列。第一种方法简洁高效,适用于数据结构相对规整的场景。第二种方法通过显式处理缺失值,提供了更强的健壮性和控制力,适用于数据可能存在不一致或缺失的情况。根据您的具体数据特性和对缺失值的处理需求,可以选择最适合的方法来完成数据清洗和转换任务。掌握这些技术对于有效利用Pandas处理复杂数据结构至关重要。

以上就是从DataFrame中包含字典列表的列创建新列的教程的详细内容,更多请关注其它相关文章!


# 为空  # 贵州清镇网站优化  # 武汉网站建设的步骤  # 镇江营销网站建设优化  # 深圳营销型网站建设模板  # 威海电脑网站维护推广  # 网络营销站内推广  # 南京宁波网站优化公司  # seo bean官网  # 访问网站慢 怎么优化  # 诚信网站建设  # 适用于  # 浮点  # js  # 键值  # 创建一个  # 多个  # 转换为  # 两种  # 第一个  # 数据结构  # 键值对  # 数据清洗  # app  # json 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: 微信网页版官方快速登录入口 微信网页版网页版账号直达  J*a实现学校排课程序_面向对象结构化项目示例  拼多多赚钱渠道_拼多多收益来源  QQ邮箱登录平台入口 QQ邮箱网页版邮箱官方入口  Golang如何优化内存分配与垃圾回收_Golang内存管理与GC优化实践  excel怎么制作工资条 excel快速生成工资条的方法  C++如何使用AddressSanitizer(ASan)_C++调试工具中检测内存访问错误的利器  解决Flask中Quill编辑器内容提交失败及TypeError的指南  58动漫网在线官方网 58动漫网正版动漫入口网址  Yandex免登录官网入口_俄罗斯Yandex搜索引擎直达链接  React中useState与局部变量:理解组件状态管理与渲染机制  抖音怎么赚钱_抖音创作者变现方法与途径指南  MAC怎么让Dock栏只显示当前运行的应用_MAC终端命令实现极简Dock栏  Shopware订单对象中获取产品自定义字段的正确方法  mysql密码锁定怎么解锁_mysql密码锁定解锁后修改密码步骤  构建轻量级网站内部消息系统:Formspree 集成指南  我的世界mc.js免费游戏直接能玩 我的世界mc.js小游戏免费秒玩入口  批改网学生版PC登录 批改网官网登录系统入口  Golang如何使用bytes.Split分割字节切片_Golang bytes切片分割方法  在React函数组件中利用原生HTML5进行邮箱地址验证  4399体育竞技小游戏_4399小游戏赛事入口  Django表单提交验证失败后保持字段值不刷新  快手网页版在线登录 快手网页版官网入口快速访问  抖音网页版平台入口 抖音网页版官网在线访问教程  菜鸟取件码是什么怎么查 最全查询渠道汇总  yy漫画网页版官方入口_yy漫画官网登录页面链接  漫蛙MANWA漫画主页官方入口 漫蛙漫画最新在线阅读地址  AO3中文官网链接_AO3网页版稳定镜像站  C++ string find函数返回值npos详解_C++字符串查找失败的判断条件  中兴BladeV30怎样用测距估书架层高_iPhone中兴BladeV30测距估书架层高【家装参考】  UE5.7引擎表现爆炸优化无敌!5090跑4K稳定60FPS  Golang如何使用const iota_Go iota常量计数器讲解  2025年云电脑操作系统体验 | 无需本地硬件,随时随地使用高性能PC  漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道  J*aScript动态修改指定div内所有a标签样式指南  支付宝如何设置安全保护_支付宝安全设置的全面教程  《马克思佩恩3》早期版本曝光 UI设计曾多次调整!  在FastAPI中利用lifespan与依赖注入高效管理Redis连接池  在哪找SublimeJ远程工具_SFTP插件配置教程  Yandex官方入口网址 Yandex俄罗斯搜索引擎最新在线地址  outlook中文官网入口地址 outlook官方中文版直达首页链接  Android Studio计算器C键逻辑错误排查与修复:条件判断优化指南  Go语言中动态执行代码字符串的策略与实践  WordPress插件开发:正确注册卸载钩子与避免常见陷阱  Golang如何使用context实现超时取消_Golang context超时取消模式实践  Yandex搜索引擎一键访问入口_俄罗斯Yandex官网免登录  J*aScript中在Map循环中检测并处理空数组元素  j*a toString()的覆盖  Win11怎么设置开机NumLock亮 Win11修改注册表InitialKeyboardIndicators值  C#中解析不规范的HTML为XML 常见的坑与解决办法 

搜索