新闻中心

从包含字典列表的DataFrame列创建新DataFrame

2025-11-25
浏览次数:
返回列表

从包含字典列表的DataFrame列创建新DataFrame

本文详细介绍了如何将pandas dataframe中包含字典列表的复杂列展开为多个独立的列。通过两种主要方法,包括使用`.str[0]`结合`.apply(pd.series)`进行直接转换,以及通过模板字典和`.where()`方法更精细地处理空列表和缺失值,帮助读者高效地从嵌套数据结构中提取并重构数据。

在数据分析和处理中,我们经常会遇到DataFrame的某一列中存储着复杂的数据结构,例如列表、字典,甚至是字典的列表。当需要将这些嵌套数据展开为独立的列时,Pandas提供了一些强大的工具。本文将专注于如何将一列包含字典列表的数据,转换为一个新的DataFrame,其中字典的键成为新的列名。

初始数据结构与挑战

假设我们有一个DataFrame,其中一列名为stats,它的每个元素可能是一个包含一个或多个字典的列表,或者是一个空列表。

import pandas as pd
import numpy as np

# 构造示例DataFrame
df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],  # 空列表
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

print("原始DataFrame:")
print(df)

原始DataFrame:

                           stats
0  [{'city': None, 'last_time': 1234567}]
1                                     []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

我们的目标是将其转换为以下形式:

      city      last_time
0      NaN     1234567.00
1     None            NaN  # 或 'NA'
2  Seattle 45678999876.00

直接尝试使用pd.DataFrame(df["stats"])或类似的构造会失败,因为它无法自动解析嵌套的列表和字典结构,特别是当存在空列表时,会导致数据类型不一致或错误。

方法一:使用 .str[0] 和 .apply(pd.Series)

这种方法适用于列表中只包含一个字典,并且我们希望提取这个字典的内容的情况。

  1. df["stats"].str[0]:

    • str 访问器允许我们对Series中的字符串或类列表元素执行字符串或列表操作。
    • [0] 操作符会尝试获取每个列表的第一个元素。
    • 如果列表为空,str[0] 会返回 NaN。
    • 如果列表包含字典,它会返回该字典。
  2. .apply(pd.Series):

    • 当对一个包含字典的Series应用 pd.Series 时,Pandas会自动将每个字典的键转换为新的列名,并将对应的值填充到这些列中。
    • 对于 NaN 值,apply(pd.Series) 会将其转换为一个全为 NaN 的行。
# 方法一实现
out1 = df["stats"].str[0].apply(pd.Series)

print("\n方法一输出:")
print(out1)

输出结果:

      city      last_time
0      NaN     1234567.00
1      NaN            NaN
2  Seattle 45678999876.00

注意事项:

  • 这种方法简洁高效。
  • 对于原始列中的空列表,结果DataFrame中对应的行将全部是 NaN。
  • 原始字典中值为 None 的字段,在结果DataFrame中也会显示为 NaN(Pandas默认将 None 视为 NaN)。

方法二:使用 where() 和模板字典进行更精细的控制

有时,我们可能希望对空列表的处理有更明确的控制,例如,将空列表对应的行填充为 None 或特定的默认值,而不是 NaN。这种方法通过引入一个模板字典来解决这个问题。

PHPWind 9.0 模板开发 PHPWind 9.0 模板开发

PHPWind(简称:PW,中国国家版权局著作权登记号为:2004SR06082)的使命是让网站更具价值,让更多人从网络中享受便利,以提升生活品质。 PHPWind的两位创始人王学集、林耀纳于2003年发布了PHPWind的前身版本ofstar,并发展成为包含BBS、CMS、博客、SNS等一系列程序的通用型建站软件。至今累计已有超过120万网站使用phpwind,每天还有1000个新增网站,这些

PHPWind 9.0 模板开发 271 查看详情 PHPWind 9.0 模板开发
  1. stats = df["stats"].str[0]: 这一步与方法一相同,提取每个列表的第一个元素。结果中空列表的位置会是 NaN。

  2. templ = dict.fromkeys(["city", "last_time"]): 创建一个模板字典,包含我们期望的所有列名,值为默认的 None。这个模板将用于填充那些由空列表导致的 NaN 行。

  3. stats.where(stats.notnull(), templ):

    • stats.notnull() 生成一个布尔Series,指示哪些元素不是 NaN。
    • where(condition, other) 方法会根据 condition 来选择元素:如果 condition 为 True,则保留原值;如果为 False(即 stats 为 NaN),则替换为 other (templ 字典)。
    • 这样,原来是 NaN 的位置(来自空列表)现在被替换成了 {'city': None, 'last_time': None} 这个模板字典。
  4. .apply(pd.Series): 最后,对处理过的Series应用 pd.Series,将其中的字典展开为新的列。

# 方法二实现
stats_extracted = df["stats"].str[0]
# 创建一个模板字典,用于填充因空列表而产生的NaN
templ = dict.fromkeys(["city", "last_time"])

# 使用where方法替换NaN值,然后应用pd.Series
out2 = stats_extracted.where(stats_extracted.notnull(), templ).apply(pd.Series)

print("\n方法二输出:")
print(out2)

输出结果:

      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

注意事项:

  • 这种方法提供了更灵活的缺失值处理。
  • 通过 templ 字典,你可以自定义空列表对应的行应该显示为什么样的默认值。例如,可以将 templ 设置为 {'city': 'N/A', 'last_time': 0}。
  • 原始字典中值为 None 的字段,在结果DataFrame中仍然会显示为 NaN。这是Pandas的默认行为,可以通过后续的 fillna() 操作进行处理。

总结与选择

两种方法都能有效地将包含字典列表的列展开为新的DataFrame。

  • 方法一 (.str[0].apply(pd.Series))

    • 优点: 代码简洁,易于理解。
    • 缺点: 对空列表统一处理为全 NaN 行,缺乏灵活性。
    • 适用场景: 当你对空列表的处理方式没有特殊要求,或者希望它们统一显示为 NaN 时。
  • 方法二 (.str[0].where(stats.notnull(), templ).apply(pd.Series))

    • 优点: 允许通过模板字典更精细地控制空列表(或由它们产生的 NaN)的填充值。
    • 缺点: 代码相对复杂一些。
    • 适用场景: 当你需要为空列表对应的行提供特定的默认值,而不是简单的 NaN 时。

在实际应用中,你可以根据具体的数据清洗需求和对缺失值的处理策略来选择最合适的方法。无论选择哪种方法,理解其背后的原理和对不同数据情况(如空列表、None 值)的处理方式都至关重要。

以上就是从包含字典列表的DataFrame列创建新DataFrame的详细内容,更多请关注其它相关文章!


# 多个  # 如东网站优化好不好  # 石家庄seo品牌优化  # 荆州推广营销方式有哪些  # 汉川网络营销推广多少钱  # 章丘营销推广数据展示平台  # 珠海seo外包平台公司  # 双河seo网络营销方案  # 保定seo公司推荐14火星  # 广安seo网络推广方案  # 宁波网站专业推广员招聘  # 默认值  # app  # 第一个  # 你可以  # 这种方法  # 值为  # 是一个  # 转换为  # 数据结构  # 自定义  # 为什么  # 数据清洗  # 工具 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: J*a编写用户注册与登录功能_掌握字符串与验证逻辑  Win11怎么修改默认浏览器_Windows 11设置Chrome为默认  excel如何生成目录 excel一键生成工作表目录超链接  多闪网页版在线观看免费入口_多闪官网访问入口  如何使用Node.js csv 包按条件移除含空字段的CSV记录  C++如何打印当前代码行号与文件名_C++预定义宏FILE与LINE的使用  J*aScript中管理异步API调用:确保操作顺序与数据一致性  Win11怎么用U盘重装系统 Win11制作启动盘并重装系统完整教程【详解】  TikTok搜索结果不显示如何解决 TikTok搜索刷新优化方法  J*a递归快速排序中静态变量导致数据累积问题的解决方案  响应式CSS Grid布局:优化网格项在小屏幕下的堆叠与宽度适配  win11如何加载ICC颜色配置文件 Win11校色文件安装与显示器色彩管理【指南】  漫蛙Manwa2官网入口地址分享 漫蛙漫画PC版永久访问通道  Mudbox图层蒙版怎么用_Mudbox图层蒙版数字雕刻应用技巧  QQ邮箱官方登录入口_QQ邮箱网页版快捷使用平台  Tabulator表格日期时间排序问题及自定义解决方案  抖音隐秘迷城小游戏入口_ 抖音冒险解谜小游戏秒玩  必由学官方平台入口 必由学在线课堂登录地址  Promise错误处理:在catch后终止链式then执行的策略  c++中的std::launder有什么实际用途_c++对象生命周期与指针优化  Python实时数据流中的动态最值查找策略  在React函数组件中利用原生HTML5进行邮箱地址验证  CKEditor 5 自定义构建在React应用中渲染失败的调试与解决  C++如何实现异步操作_C++11使用std::future和std::async进行异步编程  在J*a中如何隐藏复杂性_使用门面模式组织对象交互  在Socket.IO连接中实现Access Token自动更新与动态重连  如何设置Windows Defender的定时扫描_计划任务实现自动杀毒【安全】  Linux如何排查内存不足OOME问题_LinuxOOM分析教程  php源码怎么看淘宝客系统_看php源码淘宝客系统技巧  C++如何比较两个字符串_C++ string compare函数与操作符对比  lar*el怎么安全地存储和获取配置文件中的敏感信息_lar*el敏感信息安全存储方法  Python类型检查:优化关联可选属性的Mypy推断策略  vivo浏览器怎么扫描二维码 vivo浏览器内置扫一扫功能使用方法  Golang如何测试channel通信行为_Golang channel通信测试与分析方法  uc手机浏览器网页版入口 uc浏览器手机版便捷登录首页  抖音网页版企业服务中心登录入口_抖音网页版企业登录平台  Golang如何使用net/url解析URL_Golang URL解析与处理方法  在WordPress中通过REST API获取BasicAuth保护的远程文章  蛙漫画网页版全站入口 蛙漫热门作品免费浏览  windows10怎么查看本机ip_windows10命令提示符ipconfig使用  Bilibili动漫最新防封地址发布-Bilibili动漫2025年最稳正版入口推荐  小米14应用无法联网原因分析_小米14网络权限修复  qq游戏跨平台入口_qq游戏多设备同步登录  黑鲨3Pro怎样在相册开漫画风滤镜_iPhone黑鲨3Pro相册开漫画风滤镜【趣味滤镜】  俄罗斯搜索引擎Yandex指南 附2025年免登录官网入口  电脑屏幕颜色不舒服怎么办_Windows夜间模式与色彩校准教程【护眼技巧】  Lar*el用户头像管理:实现图片缩放、存储与旧文件安全删除的最佳实践  百度浏览器字体显示异常偏小_百度浏览器字体渲染修复方案  谷歌google账号注册详细步骤 谷歌账号注册官方教程  J*aScript map 方法中处理循环元素为空数组的策略 

搜索