新闻中心

Python 中处理嵌套 JSON 字符串字段的双重编码与解码策略

2025-11-06
浏览次数:
返回列表

Python 中处理嵌套 JSON 字符串字段的双重编码与解码策略

本文探讨了在 python 中对包含已编码 json 字符串的字典进行序列化时遇到的双重编码问题。当内部 json 字符串作为外部字典的一个字段值时,`json.dumps` 会对其进行转义。文章阐明了这种行为是符合预期的,并提供了生产者和消费者双方的正确处理策略,强调消费者需要进行多阶段解码以恢复原始数据。

当在 Python 中处理 JSON 数据时,一个常见的场景是将一个已编码为 JSON 字符串的数据作为另一个 JSON 结构中的字段值。例如,将一个复杂的 JSON 消息封装到一个更简单的信封(envelope)结构中,并通过消息队列发布。然而,直接将已编码的 JSON 字符串作为字段值再次进行 json.dumps 操作时,往往会导致内部引号被双重转义,使得消费者难以直接解析。本文将深入探讨这一现象,并提供一套清晰的生产者与消费者处理策略。

场景描述与问题复现

假设我们有一个复杂的 Python 字典 message,需要先根据 Avro Schema 将其序列化为 JSON 字符串 message_str。

import json
from datetime import datetime
from io import StringIO
import fast*ro

# 原始数据字典
message = {
    "name": "any",
    "ingestion_ts": datetime.utcnow(),
    "values": {
        "amount": 5,
        "countries": ["se", "nl"],
        "source": {
            "name": "web",
            "url": "whatever"
        }
    }
}

# 示例 Avro Schema,用于序列化原始消息
*ro_schema = {
  "type": "record",
  "name": "MyRecord",
  "fields": [
    {"name": "name", "type": "string"},
    {"name": "ingestion_ts", "type": {"type": "long", "logicalType": "timestamp-micros"}},
    {"name": "values", "type": {
      "type": "record",
      "name": "Values",
      "fields": [
        {"name": "amount", "type": "int"},
        {"name": "countries", "type": {"type": "array", "items": "string"}},
        {"name": "source", "type": {
          "type": "record",
          "name": "Source",
          "fields": [
            {"name": "name", "type": "string"},
            {"name": "url", "type": "string"}
          ]
        }}
      ]
    }}
  ]
}

fo = StringIO()
fast*ro.json_writer(fo, *ro_schema, [message])
message_str = fo.getvalue()
print(f"原始 JSON 字符串:
{message_str}
")
# 示例输出: '{"name": "any", "ingestion_ts": 1703192665965373, "values": {"amount": 5, "countries": ["se", "nl"], "source": {"name": "web", "url": "whatever"}}}'

现在,我们需要将这个 message_str 封装到一个新的字典 wrap 中,作为 payload 字段的值,并按照特定的 Schema 结构(其中 payload 被定义为 string 类型)发布。

# 外部包装字典
wrap = {
    "sys": "my_system",
    "op": "c",
    "payload": message_str
}

# 再次进行 JSON 编码
wrap_str = json.dumps(wrap)
print(f"双重编码后的 JSON 字符串:
{wrap_str}
")
# 示例输出: '{"sys": "my_system", "op": "c", "payload": "{\"name\": \"any\", \"ingestion_ts\": 1703192665965373, \"values\": {\"amount\": 5, \"countries\": [\"se\", \"nl\"], \"source\": {\"name\": \"web\", \"url\": \"whatever\"}}}"}'

从输出中可以看出,payload 字段的值 message_str 中的双引号被 进行了转义。这使得 wrap_str 看起来不直观,并可能导致消费者在尝试直接解析时遇到问题。

理解双重转义的本质

JSON 规范规定,当一个字符串作为 JSON 对象的值时,其内部的特殊字符(如双引号 "、反斜杠 等)必须被转义。在上述例子中,message_str 本身是一个合法的 JSON 字符串。当它被赋值给 wrap 字典的 payload 键时,payload 的值在 Python 层面是一个普通的字符串。随后,json.dumps(wrap) 会将这个字符串作为 JSON 的一个字段值进行处理。根据 JSON 规范,为了确保最终的 JSON 字符串是有效的,它会将其中的所有双引号进行转义,从而产生了 " 的形式。这并非错误,而是 json.dumps 遵循 JSON 规范的正确行为。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

正确的消费者解码策略

问题的关键不在于生产者如何避免双重转义(因为在这种场景下,根据 payload 字段被定义为 string 的 Schema,生产者当前的编码方式是符合规范的),而在于消费者如何正确地处理这种嵌套的 JSON 字符串。消费者需要执行多阶段解码:

  1. 解码外部 JSON 结构: 首先,将接收到的 wrap_str 解码为 Python 字典对象。
  2. 解码内部 JSON 字符串: 从解码后的字典中提取 payload 字段的值,该值此时是一个包含原始 JSON 数据的字符串。然后,对这个字符串再次进行 JSON 解码(或 Avro JSON 解码)。

以下是消费者端解码的示例代码:

# 假设消费者接收到 wrap_str
received_wrap_str = wrap_str # 模拟接收到的数据

# 1. 解码外部 JSON 结构
wrapped_object = json.loads(received_wrap_str)
print(f"解码外部 JSON 后:
{wrapped_object}
")
# 示例输出: {'sys': 'my_system', 'op': 'c', 'payload': '{"name": "any", "ingestion_ts": 1703192665965373, "values": {"amount": 5, "countries": ["se", "nl"], "source": {"name": "web", "url": "whatever"}}}'}

# 2. 从 payload 字段中提取内部 JSON 字符串
payload_json_str = wrapped_object["payload"]
print(f"提取的 payload 字符串:
{payload_json_str}
")

# 3. 对内部 JSON 字符串进行解码(此处使用 fast*ro.json_reader)
# 注意:需要提供原始的 Avro Schema
# 重新创建 StringIO 对象以供 fast*ro.json_reader 使用
payload_stream = StringIO(payload_json_str)
decoded_payload_records = []
for record in fast*ro.json_reader(payload_stream, *ro_schema):
    decoded_payload_records.append(record)
    print(f"最终解码的原始消息:
{record}
")
# 示例输出: {'name': 'any', 'ingestion_ts': 1703192665965373, 'values': {'amount': 5, 'countries': ['se', 'nl'], 'source': {'name': 'web', 'url': 'whatever'}}}

通过上述两步解码过程,消费者能够完全恢复原始的 message 数据,避免了因双重转义而导致的解析错误。

注意事项与最佳实践

  • 明确 Schema 定义: 在设计数据传输协议时,务必明确每个字段的类型。如果 payload 字段被定义为 string,那么生产者将其内容编码为字符串是正确的,消费者也应预期它是一个需要二次解析的字符串。如果 payload 被定义为一个复杂的 JSON 对象(例如 type: "record" 或 type: "map"),那么生产者就不应该将其预先编码为字符串,而应该直接传递 Python 字典或对象。
  • 沟通与文档: 生产者和消费者之间必须就数据序列化和反序列化的层级达成一致,并通过清晰的文档进行说明。这有助于避免因误解数据结构而导致的解析失败。
  • 性能考量: 多阶段解码会带来额外的处理开销。对于对性能极度敏感的场景,可以考虑是否能将嵌套的 JSON 结构扁平化,或者重新设计 Schema 以避免这种多层封装。然而,在许多消息队列和事件驱动架构中,这种信封模式是常见且可接受的。

总结

当一个字典字段的值本身是一个已编码的 JSON 字符串时,对其进行再次 JSON 编码会导致内部引号被转义。这并非编码错误,而是 JSON 规范的正常行为。解决此问题的关键在于消费者端采用多阶段解码策略:首先解码外部 JSON 结构,然后将 payload 字段提取出的字符串再次解码。理解数据 Schema 的定义和生产者与消费者之间的数据契约是成功处理此类问题的核心。

以上就是Python 中处理嵌套 JSON 字符串字段的双重编码与解码策略的详细内容,更多请关注其它相关文章!


# js  # 网站建设高端培训班  # 微商怎么做推广微营销  # 这一  # 原始数据  # 这并  # 如何使用  # 双引号  # 对其  # 数据结构  # python  # json  # 编码  # app  # stream  # 是一个  # 将其  # 序列化  # 英语seo兼职  # 软件推广营销费用多少  # 农产品的营销推广和内容  # 沾化区网站推广公司  # 全年营销推广方案 地产  # 小红书seo业务  # 吴忠信息化品牌营销推广  # 小程序营销推广方法 


相关栏目: 【 科技资讯46185 】 【 网络学院92790


相关推荐: AO3同人作品网入口 AO3搜索引擎官网永久地址  UE5.7引擎表现爆炸优化无敌!5090跑4K稳定60FPS  CSS自定义字体样式被系统字体替换怎么办_font-face方式指定font-display控制渲染策略  多闪网页版在线观看免费入口_多闪官网访问入口  Pygame教程:解决用户输入与游戏状态更新不同步问题  在FastAPI中利用lifespan与依赖注入高效管理Redis连接池  Excel函数批量查找替换超快方法_Excel用REPLACE和FIND函数秒级替换  想当下一个《2077》?《心之眼》Steam评价升至"多半好评"  我的世界官方游戏入口 我的世界官网平台直达链接  豆包手机助手发布技术预览版:直接嵌入手机系统!努比亚样机发售  俄罗斯搜索引擎Yandex指南 附2025年免登录官网入口  ArrayList与LinkedList核心操作的Big-O复杂度分析  中兴Axon42Ultra怎样在文件App筛图_iPhone中兴Axon42Ultra文件App筛图【图片筛选】  《燕云十六声》两周内达九百万玩家!位居畅销榜第五  Win11网速慢怎么解决 Win11网络设置优化解除限速  晋江读书网页版在线登录 晋江读书电脑版官网  修复二维数组索引越界异常:一维循环到二维坐标的正确映射  HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制  怎么在mac上运行html代码_mac运行html代码方法【指南】  CKEditor 5 自定义构建在React应用中渲染失败的调试与解决  特斯拉自动驾驶房车计划曝光 原型车将于2027年亮相  PPT平滑切换怎么做 PPT炫酷“平滑”切换动画制作教程【必学】  Go调试环境为何无法启动_Go调试器启动失败原因与解决策略  C++如何实现一个装饰器模式_C++设计模式之动态地给对象添加额外职责  Excel文件在线转换快速入口 Excel在线格式转换网站  俄罗斯浏览器官网直达链接 俄罗斯浏览器最新在线入口导航  b站怎么看视频的弹幕数量_b站弹幕数量查看方法  《刺客信条4:黑旗》重制版新细节曝光:无缝加载 地图更细致!  抖音创作助手登录入口_抖音创作辅助工具官网直达  QQ邮箱官方邮箱登录入口 QQ邮箱网页版快速访问  C++ typeid如何获取类型信息_C++ RTTI运行时类型识别用法  163邮箱登录密码 163邮箱忘记密码找回  知音漫客正版漫画平台_知音漫客官网账号登录  VS Code远程开发时如何处理文件权限问题  UC浏览器官网入口2025最新 UC浏览器网页版正式地址  魅族17怎样用浏览器译外语网页_iPhone魅族17浏览器译外语网页【即时翻译】  CSS子选择器:如何区分并样式化嵌套列表的子层级  漫蛙官网正版漫画入口 漫蛙2官方网页登录地址  怎样更改Windows系统的默认安装路径_避免C盘爆满的终极设置【技巧】  蛙漫画网页版全站入口 蛙漫热门作品免费浏览  Django通过AJAX异步上传图片并保存至模型的完整指南  Django表单验证失败时保留用户输入数据的最佳实践  win11专注助手在哪 Win11免打扰模式设置与自动化规则【指南】  漫蛙2网页版漫画入口 漫蛙漫画在线官方登录  Mac怎么使用表情符号_Mac Emoji快捷键面板  J*aScript中在Map循环中检测并处理空数组元素  京东单号查询入口_京东快递订单追踪入口  将HTML动态表格多行数据保存到Google Sheet的教程  蛙漫限时开放最深处链接_蛙漫全站漫画会员同款秒开地址  知乎APP怎么管理已购盐选内容_知乎APP盐选内容购买记录与查看方法 

搜索