新闻中心
Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题

本教程旨在解决pandas dataframe在对包含混合数据类型的行进行求和时,numeric_only=true参数失效并返回0值的问题。核心解决方案是利用pd.to_numeric函数的errors='coerce'参数,将非数值型数据安全转换为nan,然后再进行行求和,从而确保准确计算。文章还将演示如何将总秒数转换为可读的时间格式。
在数据分析实践中,我们经常需要对Pandas DataFrame的行进行数值求和。然而,当DataFrame中包含混合数据类型(例如,数字以字符串形式存储,或存在非数字文本、列表等)时,直接使用df.sum(axis=1, numeric_only=True)可能无法得到预期的结果,甚至会返回一列0.0。本教程将深入探讨这个问题的原因,并提供一个健壮的解决方案。
理解 numeric_only=True 的局限性
pandas.DataFrame.sum() 方法提供了一个 numeric_only=True 参数,旨在只对DataFrame中的数值列进行求和。然而,其工作机制可能与直觉有所不同。当一个列被指定为 numeric_only=True 时,Pandas会检查该列的整体数据类型(dtype)。如果该列中包含任何非数值型数据(即使大部分是数字,但有一两个字符串或列表),Pandas会认为该整列是非数值列,并将其排除在求和计算之外。
例如,如果一个日期列中包含了像 '29160' (字符串形式的数字) 和 'No hours logged' (非数字字符串) 这样的混合值,Pandas会将整个列识别为 object 类型,并因 numeric_only=True 而将其跳过。如果所有需要求和的列都存在这种情况,那么最终的行求和结果将是对一个空集合求和,默认返回0.0。
解决方案:使用 pd.to_numeric 进行预处理
要正确地对包含混合数据类型的行进行求和,我们需要在求和之前,将所有潜在的数值型数据统一转换为真正的数值类型。pandas.to_numeric() 函数是完成此任务的理想工具,尤其是结合 errors='coerce' 参数。
pd.to_numeric(series, errors='coerce') 会尝试将Series中的每个元素转换为数值类型。如果转换成功,它将返回对应的数值;如果转换失败(例如,遇到 'No hours logged' 或 [10:02, Odd number: missing entry] 这样的非数字字符串),errors='coerce' 参数将把这些无效值替换为 NaN (Not a Number)。NaN 值在进行求和时会被自动忽略,从而确保求和的准确性。
示例数据准备
首先,我们准备一个示例DataFrame,它模拟了实际数据中可能出现的混合数据类型情况。
小云雀
剪映出品的AI视频和图片创作助手
1949
查看详情
import pandas as pd
import numpy as np # 用于可能的NaN操作
data = {
'id': {0: 514, 1: 2414, 2: 3225, 3: 3434, 4: 3864, 5: 4716, 6: 5793},
'name': {0: 'alexis', 1: 'donald', 2: 'mackenzie', 3: 'louisa', 4: 'olga', 5: 'rick', 6: 'roberta'},
'2025-11-28': {0: 'No hours logged', 1: '29160', 2: '28500', 3: '25380', 4: '15600', 5: '30180', 6: '29220'},
'2025-11-29': {0: 'No hours logged', 1: '29160', 2: '28620', 3: '18840', 4: '19080', 5: '28800', 6: '29220'},
'2025-11-30': {0: 'No hours logged', 1: '28860', 2: '28560', 3: '26040', 4: '14400', 5: '28740', 6: '29460'},
'2025-12-01': {0: 'No hours logged', 1: '28620', 2: '28620', 3: 'No hours logged', 4: '13800', 5: '28620', 6: '29280'},
'2025-12-02': {0: 'No hours logged', 1: '[10:02, Odd number: missing entry]', 2: '28980', 3: '25560', 4: '5220', 5: '28680', 6: '29340'},
'2025-12-03': {0: 'No hours logged', 1: 'No hours logged'
, 2: 'No hours logged', 3: 'No hours logged', 4: '17820', 5: 'No hours logged', 6: 'No hours logged'},
'2025-12-04': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: 'No hours logged', 5: 'No hours logged', 6: 'No hours logged'},
'2025-12-05': {0: 'No hours logged', 1: '28860', 2: '28740', 3: '24900', 4: '14400', 5: '28680', 6: '29040'},
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)执行精确的行求和
接下来,我们将使用 pd.to_numeric 结合 apply 方法对选定的日期列进行预处理,然后进行行求和。
# 注意:'id'是索引为0的列,'name'是索引为1的列。
# 我们需要从索引为2的列(即第一个日期列)开始选择。
# 使用 .iloc[:, 2:] 选择从第三列到最后一列的所有数据。
# 对选定列的每一列应用 pd.to_numeric,将非数字值转换为 NaN。
# 最后,对转换后的DataFrame按行求和 (axis=1)。
df['total_hours'] = (
df.iloc[:, 2:]
.apply(lambda x: pd.to_numeric(x, errors='coerce'))
.sum(axis=1)
)
print("\n添加'total_hours'列后的DataFrame(仅显示相关列):")
print(df[['id', 'name', 'total_hours']])运行上述代码,您会看到 total_hours 列现在包含了每行实际的工时总和(以秒为单位),而不是0.0。例如,对于 donald 这一行,所有有效的秒数都被正确地加总。
格式化总工时为可读时间
原始问题提到希望将总秒数转换为 HH:MM 格式。Pandas的 pd.to_timedelta() 函数可以非常方便地完成这个任务,它将秒数转换为 timedelta 对象,可以直接表示为天、小时、分钟和秒。
# 将total_hours(秒)转换为timedelta对象
df['total_hours_formatted'] = pd.to_timedelta(df['total_hours'], unit='s')
print("\n格式化后的总工时:")
print(df[['id', 'name', 'total_hours', 'total_hours_formatted']])通过 pd.to_timedelta(df['total_hours'], unit='s'),我们得到了一个更易读的时间格式,例如 1 days 16:11:00,这比原始的秒数更加直观。
注意事项与总结
- 数据类型检查: 在进行任何数值计算之前,始终建议检查相关列的数据类型 (df.dtypes)。这有助于识别潜在的混合数据类型问题。
- errors='coerce' 的重要性: 当处理可能含有非数值字符串的列时,errors='coerce' 是将数据清洗为可计算形式的关键。它能优雅地处理无效数据,避免程序崩溃。
- 精确的列选择: 使用 iloc 或明确的列名列表来确保只对目标列进行操作,避免包含不需要的非数值列(如 id 或 name)。
- pd.to_timedelta 的应用: 对于时间相关的数值求和,这是一个非常有用的后续处理步骤,能显著提高数据可读性。
- 性能考量: 对于非常大的DataFrame,apply 函数可能会比矢量化操作慢。但在大多数情况下,对于行级别的转换和求和,它的可读性和灵活性使其成为一个很好的选择。
通过上述方法,您可以有效地处理Pandas DataFrame中混合数据类型的行求和问题,确保计算的准确性,并将结果以更友好的格式呈现。
以上就是Pandas DataFrame行求和:解决混合数据类型导致0值结果的问题的详细内容,更多请关注其它相关文章!
# 包含了
# 洛龙区微信营销推广
# 日照如何seo优化
# 长沙短视频seo加盟
# 网站建设原代码
# qq微信广告推广网站
# 谷歌seo全英文吗
# seo的培训学校
# 抚顺营销网络推广哪家好
# 百家号关键词购买排名
# 麻涌营销型网站建设公司
# 第一个
# app
# 很好
# 有一
# 正确地
# 如何用
# 只对
# 它将
# 自定义
# 转换为
# 数据清洗
# mac
# 工具
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Yandex搜索引擎一键访问入口_俄罗斯Yandex官网免登录
写好的html代码怎么运行出来_运行写好的html代码方法【教程】
抖音网页版平台入口 抖音网页版官网在线访问教程
解决Flask中Quill编辑器内容提交失败及TypeError的指南
jQuery Mask 插件中实现电话号码固定前导零的教程
谷歌邮箱网页版官方页面入口 谷歌邮箱网页端快速访问
css元素hover动画延迟生效怎么办_使用animation-delay调整触发时间
Golang如何通过reflect操作map_Golang reflect map操作与遍历技巧
Pandas DataFrame:高效添加条件计算列
探索高级语言到原生C/C++的转译:挑战与内存管理策略
小红书商家版怎样在笔记嵌入商品卡路径_小红书商家版在笔记嵌入商品卡路径【挂载教程】
Win11怎么安装Linux子系统 Win11 WSL2安装Ubuntu及环境配置指南
C++如何实现线程池_C++11手动实现一个简单的固定大小线程池
J*aScript map 方法中处理循环元素为空数组的策略
AO3访问入口汇总 AO3网页版同人作品一键直达
顺丰快件物流信息 官方网站查询入口
解决Bootstrap卡片顶部边距导致背景图下移的问题
铁路12306官网网页端快速入口 铁路12306官方首页登录教程
CSS Grid如何控制元素对齐_align-items与justify-items组合使用
12306选座系统怎么选连座_12306选座多人连坐操作方法
Lar*el Form Request中唯一性验证在更新操作中的正确实现
MAC怎么安装Homebrew包管理器_MAC为开发者和高级用户安装命令行工具
mc.js免安装版 mc.js一键畅玩入口
php源码怎么看淘宝客系统_看php源码淘宝客系统技巧
在J*a里如何理解依赖关系的方向_依赖方向在模块结构中的作用
解决macOS Tkinter应用双击启动崩溃:PyInstaller打包指南
微信网页版官方入口直达 微信网页版网页版登录使用方法
包子漫画官方网站在线链接-包子漫画在线阅读平台主页地址
理解Python模块与全局变量的作用域管理
优化大型XML文件解析:基于Python流式处理的内存高效方案
FullCalendar 自定义按钮样式定制指南
网站内容防复制粘贴的实现策略与局限性
Excel Power Pivot如何处理XML数据源 构建高级数据模型
php源码怎么在电脑上测试_电脑测试php源码方法步骤【教程】
QQ邮箱电脑版登录入口_QQ邮箱官方网站登录平台
整合Supabase认证与Django模型:跨模式迁移的解决方案
QQ邮箱官方登录入口_QQ邮箱网页版快捷使用平台
Python大型XML文件高效流式解析教程
铁路12306卧铺选择攻略 铁路12306下铺座位预定技巧
绝地鸭卫平a核爆刀流玩法攻略
俄罗斯方块最新版入口 俄罗斯方块在线玩官网入口
荣耀Play7TPro怎样在信息App置顶客服对话_iPhone荣耀Play7TPro信息App置顶客服对话【优先查看】
windows10怎么查看硬盘序列号_windows10硬盘id查询命令
css滚动动画效果怎么实现_使用Animate.css滚动触发动画类
Lar*el表单中优雅地处理“返回”按钮以规避验证:最佳实践指南
为什么我的微信朋友圈看不到别人的更新_微信朋友圈更新显示异常解决方法
Win10快速启动功能利弊分析 Win10开启或关闭快速启动教程【技巧】
新三国志曹操传110级星符试炼夏侯渊极难攻略
J*aScript中高效清空DOM列表元素:解决for循环中断与任务管理问题
PS5 Pro有点优势但不多! 《燕云十六声》PS5平台与PC性能画面对比


2025-11-20
浏览次数:次
返回列表
, 2: 'No hours logged', 3: 'No hours logged', 4: '17820', 5: 'No hours logged', 6: 'No hours logged'},
'2025-12-04': {0: 'No hours logged', 1: 'No hours logged', 2: 'No hours logged', 3: 'No hours logged', 4: 'No hours logged', 5: 'No hours logged', 6: 'No hours logged'},
'2025-12-05': {0: 'No hours logged', 1: '28860', 2: '28740', 3: '24900', 4: '14400', 5: '28680', 6: '29040'},
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)