sql-llm-benchmark項目是一個測評大模型 SQL 能力的腳本工具和排行榜列表,旨在評估大型語言模型 (LLM) 在 SQL 相關(guān)任務(wù)方面的能力。它支持對 LLM 的 SQL 理解、方言轉(zhuǎn)換和 SQL 優(yōu)化能力進(jìn)行深入測評,集成了 MCP (Model Context Protocol) 網(wǎng)絡(luò)搜索功能來增強(qiáng)裁判模型的判斷準(zhǔn)確性,并最終生成詳細(xì)的測評報告,通過前端界面直觀展示。
可以在sql-llm-benchmark的網(wǎng)站上查看排行榜和詳細(xì)測評報告
- sql-llm-benchmark官網(wǎng)入口網(wǎng)址:https://sql-llm-leaderboard.com/
- sql-llm-benchmark開源項目地址:https://github.com/actiontech/sql-llm-benchmark
- sql-llm-benchmark中文介紹:鏈接

特性
- 多維度評估: 支持 SQL 理解、方言轉(zhuǎn)換和 SQL 優(yōu)化三大核心能力。
- 智能裁判增強(qiáng): 集成 MCP 網(wǎng)絡(luò)搜索功能,裁判模型可實時搜索數(shù)據(jù)庫文檔和最佳實踐,顯著提升判斷準(zhǔn)確性。
- 靈活的數(shù)據(jù)集: 允許用戶自定義和擴(kuò)展測評數(shù)據(jù)集。
- 可配置的 LLM: 支持集成多種大模型作為被測對象和裁判模型。
- 自動化報告生成: 自動生成詳細(xì)的測評報告,包括總分、案例詳情和交互日志。
- 直觀的前端展示: 提供排行榜列表和詳細(xì)報告頁面,方便用戶查看和分析結(jié)果。
- 可擴(kuò)展架構(gòu): 易于添加新的 LLM 接口、HTTP 接口和測試用例。
sql-llm-benchmark項目旨在通過科學(xué)、嚴(yán)謹(jǐn)?shù)臏y評體系,全面評估大語言模型(LLM)在SQL處理方面的核心能力。項目聚焦于三大關(guān)鍵維度:SQL優(yōu)化能力、方言轉(zhuǎn)換能力以及SQL深度理解能力。通過構(gòu)建多維度、多指標(biāo)的綜合測評體系,并采用不同難度等級的真實案例進(jìn)行測試,以科學(xué)加權(quán)評分的方式,評估模型在數(shù)據(jù)庫操作中的實際表現(xiàn)。
sql-llm-benchmark項目旨在為開發(fā)者、數(shù)據(jù)庫管理員及企業(yè)技術(shù)決策者提供權(quán)威、客觀的參考依據(jù),推動大模型在數(shù)據(jù)庫智能化應(yīng)用中的技術(shù)發(fā)展與選型落地。
sql-llm-benchmark項目旨在通過科學(xué)、嚴(yán)謹(jǐn)?shù)臏y評方法,全面評估大語言模型在SQL處理方面的能力,為相關(guān)領(lǐng)域的技術(shù)發(fā)展和應(yīng)用提供參考。