NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider NL2SQL、数据智能分析简介NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的SQL查询。 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道5.优化二:提示工程更多内容参考☆☆NL2SQL进阶系列(4):ConvAI 更多内容请参考NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道
“从技术层面看,NL2SQL是将自然语言转化为SQL语句的一项任务,在研究领域是一个比较新的方向。 正如俞扬提到,NL2SQL是一个技术与应用结合的产物。这场关于NL2SQL的大赛,其意义不仅仅在于对一项技术的推动,而是业内对技术与应用深度结合的重视。 从NL2SQL竞赛看技术落地 具体去看,NL2SQL是如何帮助改进传统数据库查询的? 但同时他也指出,透过比赛可以看出NL2SQL还有很大的提升空间,比如说在算法泛化能力这一普遍关注点上。 最后 近年来,NLP的技术研究带来了一些创新型研究机会,NL2SQL是其中之一。
NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL] NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理 NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 最终,DAIL-SQL在NL2SQL的国际权威榜单Spider上取得了86.6的执行准确率,比第二名的DIN-SQL高1.3个百分点。
火热的中文 NL2SQL 挑战赛 这次 NL2SQL 挑战赛真的很受关注,自 6 月份比赛启动以来,海内外共有 1457 支队伍、1630 名选手报名参赛,参与院校数达 170 所,其中 227 支队伍 首个中文 NL2SQL 数据集 这次挑战赛这么受关注,很大一部分可以归功于新数据集的发布。 中文 NL2SQL 的冠军解决方案 在这次挑战赛中,中文 NL2SQL 数据与 WikiSQL 主要有三点差异,即更口语化的表达、可用表格数据以及单位存在差异。 在理解冠军方案 M-XQL 之前,如果读者之前不太了解中文 NL2SQL 任务,我们建议可以先看看前一篇赛题解读文章:让机器自动写 SQL 语言,首届中文 NL2SQL 挑战赛等你来战。 前面国防科大的 M-SQL 将 NL2SQL 视为槽值填充的任务,而浙江大学团队从 QA 的角度思考 NL2SQL。
赛事情况:国内外千支队伍,角逐Top5 (一)千支队伍挑战NL2SQL,角逐五强 任务上的创新、应用上的潜力,NL2SQL比赛一经推出,就受到了学界和工业界的广泛关注。 NL2SQL:当NLP唤醒数据库的灵魂六问 (一)什么是NL2SQL? NL2SQL可以让机器理解这样的自然语言,并从表格中检索出答案。 (二)NL2SQL应用前景,可以用在哪些场景,解决什么问题? (四)NL2SQL在学术中的定位是怎么样的呢? (1)WikiSQL是Salesforce在2017年提出的一个大型标注NL2SQL数据集,也是目前规模最大的NL2SQL数据集。
在本文中,追一科技介绍了 NL2SQL 的价值,及其过去、现在与未来,希望能有更多关于 NL2SQL 的落地场景研究。 NL2SQL 不仅可以独当一面,降低人机交互的距离和门槛,也可以与其它技术相辅相成。 那 NL2SQL 在学术中的定位是怎么样的呢? WikiSQL 是 Salesforce 在 2017 年提出的大型标注 NL2SQL 数据集,也是目前规模最大的 NL2SQL 数据集。 学界和工业界也越来越关注这方面的研究,追一科技 6 月份将发起首届中文 NL2SQL 挑战赛,期待 NL2SQL 在不远的将来会迎来属于自己的春天,学术应用两开花。 ?
本文共计784字 预计阅读时长3分钟 国产Agent进入“NL2SQL全球最难榜单”前三。 来源:BIRD-Bench官网截图 BIRD-Bench以其严苛性被誉为“NL2SQL全球最难榜单”。 相比于传统NL2SQL方案往往只能依赖有限信息“猜测”用户意图,易因数据结构复杂或语义模糊出错。 腾讯云TCDataAgent在NL2SQL领域的技术研究成果也获得了国际学术界的认可,相关论文已被今年的数据库领域顶级国际会议VLDB接收。 论文中的实验表明,TCDataAgent的核心"数据库内容感知"技术模块",可以无缝集成到其他NL2SQL系统中,最高能将查询执行准确率提升18.3%,并在多个主流方法上实现了超过5%的性能提升。
为了帮助更多开发者快速获取资源,我们将近年来公开的 Text2SQL/NL2SQL 数据集进行了整理清单,持续分享给大家! 本期为系列文章的第六期,将介绍 大模型在地理空间查询 SQL 生成 和 提高 NL2SQL 精准度 方面的两款数据集:GeoSQL-Eval 与 DeKeyNLU。 传统的 NL2SQL 基准测试无法涵盖空间数据类型、函数和坐标系等复杂元素,导致在实际应用场景中出现函数错觉和参数误用等错误。 在 NL2SQL 流程中,实体检索被认为是影响整体准确率的最关键环节,其次是用户问题理解和修正机制。 这些发现凸显了以数据集为中心的方法和精心设计的流程对于提升 NL2SQL 系统能力的重要价值,并为用户实现直观、准确的数据交互铺平了道路。
然而nl2sql对于大模型的能力和embedding有一定的要求的。所以如果生成sql的效果不理想不妨试着换个模型试试!今天我们来看看,通过Gitee AI来免费体验一下DeepSeek的满血版本。
但在当前市场中,大多数 ChatBI 产品依赖大模型直接生成 SQL 的技术路径(NL2SQL),普遍面临“大模型幻觉”导致的数据不可信问题——模型可能生成与事实不符、计算逻辑矛盾、口径不一致甚至完全虚构的数据结果 究其根本,在于 NL2SQL 方案的局限性。目前市面上主流的 NL2SQL 方案是直接将自然语言映射为 SQL,依赖表结构与字段名的精确匹配。 技术路径对比:NL2SQL vs NL2MQL2SQL 的本质差异1、NL2SQL:基于物理表的“概率生成”大模型直接解析用户问题,尝试从物理表结构中生成 SQL。 同一指标在不同场景下,也可能存在着不同的计算逻辑(如“销售额”是否含税),NL2SQL 技术路径则难以统一管理,无法保障数据和业务语义对齐。 传统 NL2SQL 模式下,业务人员看不懂 SQL,无法判断结果是否可信。
NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL]NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL]NL2SQL进阶系列(3):Data-Copilot、Chat2DB、Vanna ]☆☆NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM)、新一代数据集BIRD-SQL解读NL2SQL实践系列(1):深入解析Prompt 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。
郭一璞 发自 南大仙林 量子位 报道 | 公众号 QbitAI 在追一科技主办的首届中文NL2SQL挑战赛上,又一项超越国外水平的NLP研究成果诞生了。 在NL2SQL这项任务上,比赛中的最佳成绩达到了92.19%的准确率,超过英文NL2SQL数据集WikiSQL目前91.8%的最高成绩。 NL2SQL最佳方法揭秘 NL2SQL,也就是把自然语言“翻译”成机器能理解的SQL语句,在人机交互中有巨大的价值,这样的成绩意味着,92.19%的情况下,你说的话都能被机器准确的理解,并给到你想要的答案 肖仰华教授说,现在阻碍大数据价值变现的最大难题就是访问数据门槛太高,依赖数据库管理员写复杂的SQL,而且考虑到中文的表述更加多样,中文NL2SQL要比英文难很多。 而在NL2SQL这个任务上,曾经在腾讯达到T4职级的刘云峰说,中文NL2SQL在比赛之前只有追一和微软两家,通过这场比赛,如果能达到众人拾柴火焰高的目的,就可以将这项技术推广出去了: “客户这边有一个钉子
将自然语言转换为数据库查询的技术(称为 NL2SQL)已从一个新兴概念发展成为成熟且具有商业可行性的解决方案。 这种范式转变解决了直接 NL2SQL 方法的根本局限性,例如准确性低、存在安全风险以及无法处理复杂的企业数据模式。 1.2 从自然语言到 SQL(NL2SQL):直接方法第一代 NL2SQL 技术旨在通过将用户的纯英语查询转换为可执行的 SQL 语句来直接解决瓶颈问题。 在这种情况下,NL2SQL 的作用是简化和加速特定任务(例如数据探索或工作流程生成)的执行,而非唯一的价值主张。 已识别的风险: 与 NL2SQL 相关的主要安全风险是未经授权的数据访问、意外的数据修改和 SQL 注入攻击。
NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解Text2SQLNL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL]NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL]NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的SQL 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。 最终,DAIL-SQL在NL2SQL的国际权威榜单Spider上取得了86.6的执行准确率,比第二名的DIN-SQL高1.3个百分点。
NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD )全面对比优劣分析[Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理 1.
今天我们就来揭秘一下,为什么企业级的NL2SQL技术远比你想象的复杂。 在NL2SQL的世界里,一句"显示销售详情"可能有一千种不同的SQL查询方式。让我们看看一个简单的例子:用户问: "最危险的地区在哪里?" 第四大挑战:基准测试的"掩耳盗铃"当考试题目本身就有问题现在我们来说说NL2SQL领域最大的问题之一:如何评估系统是否真的"聪明"。 第五大挑战:AI的"社会责任"问题当数据库里有"危险内容"AI时代的NL2SQL面临着前所未有的责任问题。 如果有了完美的NL2SQL系统,小张只需要说:"查询上月各部门业绩数据",系统就会:智能消歧:询问具体需求("您指的是自然月还是财务月?")
NL2SQL实践系列(1):深入解析Prompt工程在text2sql中的应用技巧 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析 [Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七年发展脉络梳理 NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder 、Text2SQL开源应用实践详解 NL2SQL进阶系列(2):DAIL-SQL、DB-GPT开源应用实践详解[Text2SQL] NL2SQL进阶系列(3):Data-Copilot、Chat2DB、 Vanna Text2SQL优化框架开源应用实践详解[Text2SQL] NL2SQL进阶系列(4):ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL] NL2SQL任务的目标是将用户对某个数据库的自然语言问题转化为相应的 随着LLM的发展,使用LLM进行NL2SQL已成为一种新的范式。在这一过程中,如何利用提示工程来发掘LLM的NL2SQL能力显得尤为重要。
然而,看似最直接的实现路径,即直接将自然语言翻译成 SQL(NL2SQL),实则是一条布满荆棘的歧路。这种基于概率的直接翻译方法,本质上难以避免不准确甚至危险的错误结果。 NL2SQL:脆弱且“有损”的直接抽象 直接将自然语言(NL)翻译成 SQL 的方法,本质上是脆弱的。 “理性的左脑”:逻辑推理引擎 (Deterministic CoT) 这是该架构与传统 NL2SQL 最大的区别所在。 NL2SQL (传统直译) 2. NL2DSL2SQL (领域语言) 3. NL2MQL2SQL (指标查询/语义层) 4. 所以传统的 NL2SQL 方案试图让大模型“既当翻译又当算盘”,结果导致了极高的不确定性。
然而,一个普遍的误解是将智能问数简单地等同于“自然语言转 SQL”(NL2SQL)的 AI 问题——仿佛只要接入一个强大的 LLM,就能让业务人员轻松获得准确、一致且可解释的数据洞察。 语义层的引入是 NL2Semantic2SQL 相比 NL2SQL 的核心优势,它不仅提升了查询的准确性,还增强了系统的可解释性和业务人员的自助能力。 开发效率与维护成本的对比 基于传统物理数仓的 NL2SQL 路线在应对业务变化时,常常面临开发效率、数据质量与维护成本难以兼顾的挑战。 传统物理数仓的 NL2SQL 路线由于依赖人工 ETL 开发宽表和汇总表,导致指标定义分散在不同表中,口径难以统一。 总结来看,传统 NL2SQL 依赖人工宽表的模式,因维护成本高、口径碎片化难以适应敏捷需求。
AI原生能力需实现以下突破: 自然语言交互:支持NL2SQL技术,用户通过自然语言直接生成查询语句; 智能优化:基于AI的自动调优与资源分配,降低运维成本; 多模态数据处理:融合文本、图像等非结构化数据分析 二、腾讯云数据湖计算DLC的AI原生实践 基于腾讯云大数据团队在VLDB 2025发表的NL2SQL技术成果,DLC的AI原生能力体现在: 能力维度 功能实现 腾讯云数据湖计算DLC以Serverless架构、NL2SQL、智能调优等AI原生能力,为企业提供开放、高性能的一站式解决方案。