SQL LLM Benchmark：大模型SQL能力专业测评与排行榜-代码号

Name: sql-llm-benchmark
Author: 原创

SQL LLM Benchmark项目由国内领先的数据库自动化运维厂商爱可生（ActionTech） 开发并开源，是一个专注于评估大型语言模型（LLM）SQL能力的测评系统和排行榜。它不仅仅是一个简单的测试脚本，而是一套完整的、科学严谨的测评解决方案。

该项目的核心在于构建了全面的评估体系，聚焦于三大关键能力：

SQL理解能力：评估模型解析复杂SQL逻辑、解释执行计划、检测语法错误及识别SQL意图的能力。
方言转换能力：测试模型在不同数据库方言（如Oracle、MySQL、PostgreSQL等）之间进行SQL语法等价转换的准确性和效率。
SQL优化能力：衡量模型识别SQL性能瓶颈、提供等价改写方案以提升执行效率的能力。

项目采用混合评估方法，结合了基于标准答案的客观测评和由裁判大模型（LLM-as-a-judge）进行的主观测评，并通过一套精细的加权评分体系计算最终得分。所有的测评结果都会自动生成详尽的报告，并通过前端排行榜网站直观展示，方便用户对比不同模型在不同维度的表现。

官网入口地址

官网排行榜入口： https://sql-llm-leaderboard.com/

下载地址

项目为开源，代码托管在多个平台，可以通过Git克隆或直接下载源码包。

Gitee镜像仓库：https://gitee.com/action-tech/sql-llm-benchmark
GitHub仓库：https://github.com/actiontech/sql-llm-benchmark

功能介绍

SQL LLM Benchmark的核心功能围绕测评、评估和展示三个环节展开：

多维度标准化测评
- SQL理解测评：包含执行准确性、解释检测、SQL识别、语法错误检测等多个细分子指标，通过不同难度等级的案例，全面考察模型对SQL的深层理解。
- 方言转换测评：测试模型在不同数据库方言间的转换能力，涵盖逻辑等价性和语法错误检测，确保转换后SQL的正确性与可执行性。
- SQL优化测评：评估模型在逻辑等价性、优化深度、语法错误检测等方面的表现，检验能否识别低效SQL并提出合理的优化建议。
智能混合评估体系
- 客观测评：针对有明确标准答案的案例（如语法错误检测），系统自动比对模型输出与标准答案，实现精确评分。
- 主观测评（LLM-as-a-judge）：对于没有唯一答案的开放式任务（如SQL优化），系统会引入一个更强大的裁判模型，根据预设的带有权重的评估规则对目标模型的输出进行打分，有效处理了复杂任务的评估难题。
科学的得分计算逻辑
- 系统采用加权评分法，每个测评指标和每个测试用例都有预设的权重（如难度权重），最终能力得分是各项加权得分的综合体现，确保了评估结果的科学性和客观性。
- 计算公式：最终能力得分 = (∑(指标得分 × 指标权重) / 理论总分) × 100。
灵活的配置与扩展性
- 可配置LLM：支持在配置文件（evaluator/config/llm_config.py）中灵活设定被测试的目标模型和作为裁判的模型，可以轻松接入多种模型API。
- 自定义数据集：用户可以根据自身需求，在 evaluator/dataset/ 目录下按照指定格式添加或修改测试用例和评估指标，以满足特定业务场景的测评需求。
- 模块化架构：项目分为测评脚本（evaluator）和排行榜UI（leaderboard）两部分，易于开发者进行二次开发和功能扩展。
自动化报告与可视化展示
- 详尽测评报告：测评完成后，系统会自动在 leaderboard/public/data/ 目录下生成三种类型的报告：模型总分报告（用于榜单）、每个案例的详细测评结果、以及完整的测评流程日志（包含与模型的所有对话记录），确保了评估过程的透明性和可追溯性。
- 前端排行榜：项目提供了一个基于Next.js和React构建的现代化前端页面，通过雷达图、柱状图等可视化方式，清晰展示各模型在总分和各个能力维度上的排名与得分。

应用场景

企业技术选型：企业在引入大模型来辅助数据库开发或运维时，可以利用本项目的排行榜和测评报告，客观比较不同模型在SQL处理能力上的优劣，从而做出更明智的决策。
模型开发者评估：LLM开发团队可以使用该工具集对自己的模型进行SQL专项能力的内部测试，发现模型的优势与不足，为后续的模型训练和优化提供方向。
学术研究：研究人员可以基于该项目的数据集和评估框架，开展关于大模型在代码智能、数据库自然语言处理等领域的研究。
开发者工具集成：他数据库相关工具（如SQL编辑器、数据库管理平台）可以集成该测评脚本，实现对内置AI助手SQL能力的持续评估。项目本身也提供了HTTP接口（application.py）以方便他应用调用。

补充介绍

定价：SQL LLM Benchmark本身是一个遵循MIT开源许可协议的项目，免费。用户只需承担运行测评脚本时，调用各类大模型API所产生的费用（如果有的话）。
开发者：该项目由国内领先的数据库自动化运维厂商爱可生（ActionTech） 开发并开源，体现了在数据库领域的技术积累和对AI趋势的洞察。
项目状态：项目于2025年6月创建，正处于积极开发和完善阶段。
典型应用示例：一位数据库架构师计划为公司引入AI助手辅助SQL编写。他先通过SQL LLM Benchmark的官网排行榜，快速筛选出在“SQL理解”和“SQL优化”两个维度得分的前三个模型。接着，他下载了项目源码，并根据公司特定的数据库表结构和业务场景，在数据集中添加了几个自定义的复杂SQL优化测试用例。然后他配置好这三个模型的API密钥，运行测评脚本。最终，通过对比生成的测评报告，他不仅验证了排行榜的结论，还发现某个模型在处理公司特定业务SQL时表现，从而确定了最终选型。