新闻中心

Pandas中字符串时间转换为日期时间时日期意外更改的解决方案

2025-11-18
浏览次数:
返回列表

Pandas中字符串时间转换为日期时间时日期意外更改的解决方案

在pandas中将仅包含时间的字符串转换为`datetime`类型时,由于缺少日期信息,`pd.to_datetime`函数会默认填充当前系统日期,导致日期意外更改。本教程将深入解析此问题的原因,并提供两种主要解决方案:通过字符串拼接合并日期和时间,或通过结合`datetime`与`timedelta`对象来精确创建完整的日期时间信息,确保数据转换的准确性。

理解Pandas日期时间转换中的日期变更问题

在使用Pandas处理时间序列数据时,将字符串格式的日期和时间转换为datetime对象是常见的操作。然而,当数据集中日期和时间信息分别存储在不同的列中,并且尝试单独转换仅包含时间的列时,可能会遇到日期意外变更的问题。这是因为pd.to_datetime函数在处理不完整的日期时间字符串(例如,只包含时间的部分)时,会默认使用当前的系统日期来填充缺失的日期信息。

问题现象与复现

考虑以下初始DataFrame,其中order_date和order_time是单独的列:

import pandas as pd

data = {
    'order_details_id': [1, 2, 3, 4, 5],
    'order_id': [1, 2, 2, 2, 2],
    'order_date': ['1/1/23', '1/1/23', '1/1/23', '1/1/23', '1/1/23'],
    'order_time': ['11:38:36 AM', '11:57:40 AM', '11:57:40 AM', '11:57:40 AM', '11:57:40 AM'],
    'item_id': [109.0, 108.0, 124.0, 117.0, 129.0]
}
df = pd.DataFrame(data)
print("初始DataFrame:")
print(df)
print("\n初始DataFrame数据类型:")
print(df.dtypes)

输出:

初始DataFrame:
   order_details_id  order_id order_date   order_time  item_id
0                 1         1     1/1/23  11:38:36 AM    109.0
1                 2         2     1/1/23  11:57:40 AM    108.0
2                 3         2     1/1/23  11:57:40 AM    124.0
3                 4         2     1/1/23  11:57:40 AM    117.0
4                 5         2     1/1/23  11:57:40 AM    129.0

初始DataFrame数据类型:
order_details_id      int64
order_id              int64
order_date           object
order_time           object
item_id             float64
dtype: object

如果首先将order_date列转换为datetime类型,然后尝试将order_time列也转换为datetime类型:

df['order_date'] = pd.to_datetime(df['order_date'])
print("\n转换order_date后的DataFrame:")
print(df)

df['order_time'] = pd.to_datetime(df['order_time'])
print("\n转换order_time后的DataFrame:")
print(df)

你可能会观察到order_time列在转换为datetime后,其日期部分从2025-01-01变为了执行代码时的当前日期(例如2025-12-29)。这是因为"11:38:36 AM"这样的字符串本身不包含任何日期信息,pd.to_datetime在缺乏日期上下文时,会默认使用当前日期进行填充。

# 转换order_date后的DataFrame (示例输出)
#    order_details_id  order_id  order_date   order_time  item_id
# 0                 1         1  2025-01-01  11:38:36 AM    109.0
# ...

# 转换order_time后的DataFrame (示例输出,日期部分已更改)
#    order_details_id  order_id  order_date          order_time  item_id
# 0                 1         1  2025-01-01   2025-12-29 11:38:36    109.0
# ...

(注意:order_time列的日期部分会根据你运行代码的实际日期而变化,这里以2025-12-29为例。)

核心原理:pd.to_datetime的默认行为

当pd.to_datetime函数接收到一个只包含时间(如"HH:MM:SS AM/PM")的字符串时,它无法从该字符串中推断出日期信息。为了生成一个完整的datetime对象,Pandas会采用一个默认策略:将缺失的日期部分填充为函数执行时的当前系统日期。这就是导致日期意外变更的根本原因。

要避免这种问题,关键在于确保在创建datetime对象时,始终提供完整的日期和时间信息。

解决方案

解决此问题的核心思路是,在进行datetime转换之前,将日期和时间信息合并为一个完整的字符串或利用Pandas的日期时间操作功能。

方法一:字符串拼接

此方法通过将日期和时间字符串合并成一个完整的日期时间字符串,然后使用pd.to_datetime进行一次性转换。

CA.LA CA.LA

第一款时尚产品在线设计平台,服装设计系统

CA.LA 94 查看详情 CA.LA
# 重新加载初始数据以确保干净状态
df = pd.DataFrame(data)

# 将order_date和order_time列拼接成一个新的字符串列
df['order_datetime'] = pd.to_datetime(df['order_date'].astype(str) + ' ' + df['order_time'].astype(str))

print("\n方法一:字符串拼接后的DataFrame:")
print(df)
print("\n方法一:新列数据类型:")
print(df.dtypes)

输出:

方法一:字符串拼接后的DataFrame:
   order_details_id  order_id order_date   order_time  item_id      order_datetime
0                 1         1     1/1/23  11:38:36 AM    109.0 2025-01-01 11:38:36
1                 2         2     1/1/23  11:57:40 AM    108.0 2025-01-01 11:57:40
2                 3         2     1/1/23  11:57:40 AM    124.0 2025-01-01 11:57:40
3                 4         2     1/1/23  11:57:40 AM    117.0 2025-01-01 11:57:40
4                 5         2     1/1/23  11:57:40 AM    129.0 2025-01-01 11:57:40

方法一:新列数据类型:
order_details_id             int64
order_id                     int64
order_date                  object
order_time                  object
item_id                    float64
order_datetime      datetime64[ns]
dtype: object

这种方法简单直观,尤其适用于日期和时间格式相对规整的情况。astype(str)确保了在拼接前所有元素都是字符串,避免潜在的类型错误。

方法二:结合datetime与timedelta

这种方法被认为是更优雅和健壮的方式,因为它避免了字符串操作可能带来的格式问题,而是利用了Pandas的日期时间算术功能。首先将日期列转换为datetime对象,然后将时间列转换为timedelta对象,最后将两者相加。

# 重新加载初始数据以确保干净状态
df = pd.DataFrame(data)

# 将order_date转换为datetime对象
# 使用pop()可以同时获取列并从DataFrame中删除它
order_date_dt = pd.to_datetime(df.pop('order_date'))

# 将order_time转换为timedelta对象
# 注意:pd.to_timedelta可以直接解析时间字符串
order_time_td = pd.to_timedelta(df.pop('order_time'))

# 将datetime和timedelta相加,得到完整的datetime对象
df['order_datetime'] = order_date_dt + order_time_td

print("\n方法二:结合datetime与timedelta后的DataFrame:")
print(df)
print("\n方法二:新列数据类型:")
print(df.dtypes)

输出:

方法二:结合datetime与timedelta后的DataFrame:
   order_details_id  order_id  item_id      order_datetime
0                 1         1    109.0 2025-01-01 11:38:36
1                 2         2    108.0 2025-01-01 11:57:40
2                 3         2    124.0 2025-01-01 11:57:40
3                 4         2    117.0 2025-01-01 11:57:40
4                 5         2    129.0 2025-01-01 11:57:40

方法二:新列数据类型:
order_details_id             int64
order_id                     int64
item_id                    float64
order_datetime      datetime64[ns]
dtype: object

此方法在处理日期和时间格式复杂或需要进行进一步时间算术操作时显示出其优势。pd.to_timedelta能够智能地解析时间字符串,并将其转换为表示时间差的Timedelta对象。

方法三:处理预合并的日期时间字符串

在某些情况下,你可能从数据源获得的数据已经将日期和时间合并在一个字符串列中。在这种情况下,直接使用pd.to_datetime进行转换即可。

# 假设我们有一个预合并的日期时间列
df_combined = pd.DataFrame({
    'order_details_id': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5},
    'order_id': {0: 1, 1: 2, 2: 2, 3: 2, 4: 2},
    'order_date_time': {0: '1/1/23 11:38:36 AM',
                        1: '1/1/23 11:57:40 AM',
                        2: '1/1/23 11:57:40 AM',
                        3: '1/1/23 11:57:40 AM',
                        4: '1/1/23 11:57:40 AM'},
    'item_id': {0: 109.0, 1: 108.0, 2: 124.0, 3: 117.0, 4: 129.0}
})

df_combined['order_dt'] = pd.to_datetime(df_combined['order_date_time'])

print("\n方法三:处理预合并日期时间字符串的DataFrame:")
print(df_combined)
print("\n方法三:新列数据类型:")
print(df_combined.dtypes)

输出:

方法三:处理预合并日期时间字符串的DataFrame:
   order_details_id  order_id     order_date_time  item_id            order_dt
0                 1         1  1/1/23 11:38:36 AM    109.0 2025-01-01 11:38:36
1                 2         2  1/1/23 11:57:40 AM    108.0 2025-01-01 11:57:40
2                 3         2  1/1/23 11:57:40 AM    124.0 2025-01-01 11:57:40
3                 4         2  1/1/23 11:57:40 AM    117.0 2025-01-01 11:57:40
4                 5         2  1/1/23 11:57:40 AM    129.0 2025-01-01 11:57:40

方法三:新列数据类型:
order_details_id             int64
order_id                     int64
order_date_time             object
item_id                    float64
order_dt            datetime64[ns]
dtype: object

注意事项与最佳实践

  1. 始终提供完整的日期时间信息: 避免将仅有时间或仅有日期的字符串单独转换为datetime对象,除非你确实希望Pandas填充默认值。
  2. 明确指定格式(format参数): 如果你的日期时间字符串格式不标准或可能存在歧义,使用pd.to_datetime的format参数明确指定输入格式,例如pd.to_datetime(df['date_col'], format='%m/%d/%y %I:%M:%S %p')。这可以提高转换的效率和准确性。
  3. 错误处理(errors参数): 当数据中可能存在无法解析的日期时间字符串时,可以使用errors='coerce'参数。这会将无法解析的值转换为NaT(Not a Time),而不是引发错误,从而提高代码的健壮性。
  4. 数据类型检查: 转换后,务必使用df.dtypes或df['column'].dtype检查新列的数据类型,确保其为datetime64[ns]。
  5. 性能考量: 对于大型数据集,字符串拼接(方法一)可能比datetime与timedelta结合(方法二)略慢,因为字符串操作通常开销较大。在性能敏感的场景下,可以优先考虑方法二或预处理数据。

总结

在Pandas中处理日期时间数据时,理解pd.to_datetime的默认行为至关重要。当将仅包含时间的字符串转换为datetime类型时,由于缺少日期信息,Pandas会默认填充当前系统日期,导致数据不准确。通过将日期和时间信息合并为一个完整的字符串进行转换,或利用datetime与timedelta对象的算术操作,可以有效地解决这一问题,确保生成正确的日期时间对象。选择哪种方法取决于原始数据的结构和个人偏好,但核心原则是:在创建datetime对象时,确保其包含完整的日期和时间上下文。

以上就是Pandas中字符串时间转换为日期时间时日期意外更改的解决方案的详细内容,更多请关注其它相关文章!


# 这一  # seo黑科技是什么  # 泰州贸易网站优化  # 凡科网站建设说明  # 河北模板网站建设价格  # 昆明网站建设路夜市  # SEO监控手机支架安装  # 宝鸡网站建设地方  # 鱼台seo技巧  # 网站推广费方法优劣比较  # 楚雄农资推广员招聘网站  # ai  # 加载  # 都是  # 无需注册  # 如何用  # 这是因为  # 并为  # 离线  # 串列  # 转换为 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: C++如何实现异步操作_C++11使用std::future和std::async进行异步编程  c++中的std::basic_string的SSO优化_c++短字符串优化深度解析  composer 和 npm/yarn 在管理依赖方面有什么核心思想差异?  在J*a里如何理解依赖关系的方向_依赖方向在模块结构中的作用  Yandex搜索引擎官网入口_俄罗斯Yandex免登录一键直达  AO3访问入口汇总 AO3网页版同人作品一键直达  机构:以往存储涨价周期小米利润率实际上有所改善 能转嫁给消费者等  纯CSS与HTML网格布局的HTML精简策略:SVG与JS方案解析  邮政快递单号查询入口 邮政快递物流信息在线查询入口  J*aScript井字棋(Tic-Tac-Toe)核心交互逻辑实现教程  微信网页版扫码登录入口 微信网页版二维码登录入口  谷歌浏览器如何快速清除某个网站的数据_Chrome网站缓存清理方法  今日头条怎么同步内容到抖音_今日头条内容同步到抖音教程  零跑汽车11月交付量达70327台 实现连续9个月正增长  4399免费游戏网址入口 4399小游戏免费入口点开即玩  荒野行动PC版怎么注册_荒野行动PC版账号注册详细流程图文教程  百度网盘网页版入口 百度网盘网页版官方登录网址  Go与Ruby之间实现AES加密互通:CFB模式下的密钥长度匹配策略  SteamMachine定价或为699美元 大家想入手吗?  Angular Material 垂直步进器:实现底部到顶部排序的教程  C++如何进行游戏物理模拟_使用Box2D库为C++游戏添加2D物理效果  c++ 命名空间怎么用 c++ namespace使用指南  Word2013如何插入视频和音频媒体_Word2013媒体插入的多媒体支持  J*aScript生成器_j*ascript异步迭代  Android Studio计算器C键逻辑错误排查与修复:条件判断优化指南  poki网页游戏推荐_poki免费游戏平台入口  KFC游戏互动怎么赢取优惠券_KFC线上游戏活动参与与优惠代码赢取教程  如何高效处理PHP中的Excel数据导入导出?PortPHP/Spreadsheet助你轻松搞定!  Mac怎么锁定备忘录_Mac备忘录加密设置教程  Go调试环境为何无法启动_Go调试器启动失败原因与解决策略  在J*a中如何开发简易电子商务商品管理系统_商品管理系统项目实战解析  一加手机拍照效果不好怎么办 一加哈苏影像调校与专业模式使用教程【高手篇】  J*aScriptWebpack优化_J*aScript构建工具实战  vivo手机参数配置怎么增强信号_vivo手机参数配置信号增强方法  Golang如何通过reflect操作map_Golang reflect map操作与遍历技巧  J*a里如何使用N*igableMap进行导航操作_可导航Map操作技巧解析  ArrayList与LinkedList操作复杂度详解:遍历与修改  4399体育竞技小游戏_4399小游戏赛事入口  Python实现多节点属性重叠度分析教程  12306怎么选座位选到安静区_12306选座安静区域选择策略  python3时间如何用calendar输出?  抖音DOU+怎么投最有效 抖音付费推广的ROI提升技巧  如何在CSS中使用浮动制作导航栏_float实现水平菜单  HTML转PPT成品工具有哪些?HTML网页转PPT成品工具大全  PostgreSQL海量数据高效导入策略:Python与Django实践指南  Descript怎样用AI剪辑自动去噪_Descript用AI剪辑自动去噪【自动降噪】  J*a递归快速排序中静态变量导致数据累积的陷阱与解决方案  Go语言中JSON数据解析与字段访问教程  荣耀Play7TPro怎样在信息App置顶客服对话_iPhone荣耀Play7TPro信息App置顶客服对话【优先查看】  React Hooks最佳实践:动态组件状态管理的组件化方案 

搜索