SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

2025-12-04

浏览次数：次

返回列表

scale | 2025 年 11 月《大模型 sql 能力排行榜》发布

一、摘要与核心看点

本期 SCALE[1] 评测聚焦于新一代专业级大语言模型在数据库 SQL 领域的表现边界。

发版核心内容为 Gemini 3 Pro[2] 和 DeepSeek-V3.2-Exp[3] 两大顶尖模型的首次《深度测评报告》，旨在为用户提供最前沿、最可靠的技术选型依据。

核心看点速览：

可靠性新标杆：Gemini 3 Pro 模型首次参评，在「SQL 理解」能力维度以 86.0 的高分领跑榜单，确立了其在复杂逻辑解析上的业内领先地位。
国产化潜力股：DeepSeek-V3.2-Exp 模型首次入榜，其在「国产数据库转换」方面表现出强劲潜力（92.1），为国产化替代场景提供了新的高性能选择。

二、评测目的与方法论

本次测评旨在系统性评估两大模型在企业级复杂数据库场景下的实用性。我们严格遵循 SCALE 框架自创立以来的三大核心维度和统一评测数据集，确保结果的公正性与可复现性。

评测维度	评估目标	核心应用场景
SQL 理解	对现有 SQL 代码的逻辑、意图和执行计划的深度分析能力。	数据分析、生产环境故障排查、代码审查。
SQL 优化	在保证逻辑等价下，将低效 SQL 改写为性能更优查询的策略应用和效果。	数据库性能调优、存量代码重构。
方言转换	在不同数据库方言之间进行语法迁移和复杂过程化逻辑重构的准确性和可靠性。	数据库迁移、跨平台数据中台构建。

三、Gemini 3 Pro 深度评测报告

Gemini 3 Pro 是谷歌于 2025 年 11 月 18 日推出的新一代大型语言模型。它具备卓越的推理、多模态理解与代码生成能力，在多项基准测试中领先。该模型在发布当日即整合至谷歌搜索、Gemini 应用等核心产品，旨在为用户和开发者提供更智能、直接的服务。

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

3.1 核心结论速览

Gemini 3 Pro 的能力分布呈现出 深度理解、高质优化、均衡转换 的显著特征。其「SQL 理解」能力取得榜单首位（86.0 分），优化后 SQL 语法正确性达 100 分，是面向企业级、高可靠性要求的数据库任务的理想 AI 助手。

3.2 维度详细表现与数据洞察

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

SQL 理解

维度总分：86
- 执行准确性：90.0
- 执行计划检测：64.3
- 语法及最佳实践：87.1
关键优势：执行准确性领先（90.0），逻辑保真度高，是处理复杂业务逻辑的首选。
待改进点：执行计划检测得分相对较低（64.3），对写操作执行计划的理解偏差，结构化输出规范性不足。

SQL 优化

维度总分：72.7
- 逻辑等价：73.7
- 优化深度：66.7
- 语法错误检测：100.0
关键优势：优化结果生产级安全：语法错误检测满分（100.0），确保优化代码可直接部署；逻辑等价性高（73.7）。
待改进点：优化深度得分有提升空间（66.7），在应用复杂优化策略（如消除冗余）和模式识别上的深度不足。

方言转换

维度总分：77.1
- 大 SQL 转换：61.3
- 国产数据库：89.5
- 逻辑等价：80.6
- 语法错误检测：78.6
关键优势：国产数据库转换得分高（89.5），逻辑等价性高（80.6），全局逻辑把握强劲。
待改进点：大 SQL 转换得分较低（61.3）；对特定国产数据库（如 OceanBase）的知识欠缺，存在知识性错误。

3.3 关键挑战与数据分析

评测中发现，Gemini 3 Pro 的主要挑战集中在对数据库底层机制的精细理解和结构化输出的严格规范性上。

1. SQL 理解维度：执行计划解析缺陷

语义混淆：模型在结构化输出中未能严格遵循规范，将 JSON 的 null 值错误输出为字符串 "NULL"，导致 SQL 语义中的 "NULL" 与 JSON 数据类型规范发生混淆。
写操作误判：在执行计划检测中，模型对数据库写操作（UPDATE/DELETE）的语义理解不足，未能识别 MySQL 优化器会使用主键索引进行行定位的优化行为，错误地将应使用索引扫描的 UPDATE 操作误判为全表扫描（type: "ALL"）。

2. SQL 优化维度：模式识别与策略应用不足

模式识别缺陷：未能识别 LIKE 前缀查询模式可改写为范围查询以利用索引有序性，限制了在特定查询场景下的性能提升。
冗余消除不足：未能识别并消除无 LIMIT 子查询中的冗余 ORDER BY 操作，反映出模型在细粒度语义分析和规则消除方面的不足。
类型转换盲区：未能识别 DATE 字段与字符串比较时可能发生的隐式类型转换问题，这可能在生产环境中导致性能下降。

3. 方言转换维度：国产数据库知识短板

知识性错误：在处理 Oracle 的 CAST 语法时，模型错误地将其替换为 OceanBase（Oracle 模式）不支持的 COLLECT 聚合函数，反映出模型对于国产数据库的知识储备不足，更倾向于机械转换而非基于目标环境特性进行语义等价性判断。

3.4 应用建议与价值体现

目标用户	建议应用场景	价值体现
数据分析与工程	复杂查询的逻辑验证和结果准确性预测。	确保数据洞察的可靠性。
数据库管理与开发	存量 SQL 的规范化和初步性能调优。	安全快速地提升代码质量和性能。

四、DeepSeek-V3.2-Exp 评测报告

DeepSeek-V3.2-Exp 是深度求索于 2025 年 9 月 29 日发布的实验性模型，核心创新是引入了自研的 DeepSeek 稀疏注意力机制，显著提升了长文本处理的训练和推理效率。该模型在多项基准测试中与前代 V3.1-Terminus 性能基本持平，同时 API 服务价格下调超过 50%，并已在 Hugging Face 等平台开源。

文章发布时，DeepSeek-V3.2 正式版已经发布，待评测。

SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布

4.1 核心结论速览

Deepseek-v3.2-exp 在本期评测中展现了明显的 能力聚焦。其在 国产数据库转换 子项上取得了 92.1 分的优异成绩，使其成为 国产化替代路径中具有突出价值的工具。然而，其在复杂逻辑处理和优化深度上的不足表明，它更适用于特定领域的辅助工作。