1、开场问题一边是大模型发布“震惊世界”,一边是大模型生成SQL“不靠谱”开场问题大模型能力从GPT-3到今天的o3,有了巨大的提升产品层面,从Github Copilot到Claude Code,从ChatGPT到Deep Research,智能体验的改进巨大2022年,我们说Text2SQL不行,2025年还是不行吗?大纲智能的“第一性原理”技术路线对比词槽模式Text2SQLText2DSL从问数到Data AgentThe Bitter Lesson长远看,最重要的是利用计算“专家经验”将被“搜索和学习”打败“if.else.”规则有明显的天花板语音识别,计算机视觉,AlphaZero,L
2、LM,gpt-4o图片生成.The Bitter Lesson-如何应用?我们的技术路线能够在计算能力/模型智能提升的情况下受益吗?引入“人工结构”的诱惑:规则、词槽、指标检索ChatBI的技术路线前大模型时代:词槽模式Text2SQL:准确率不行?Text2DSL:魔法解药?词槽模式Demo:最近7天 各门店 的 销量 是多少?标准结构:维度+指标+过滤条件实际问题:上海 一店 的 业绩 表现如何?利润情况 呢?昨天 的 订单 有多少,不要 退款 的帮我拉一下 买过 上述商品 的 会员 明细销量 情况最好的 3家 门店 里,售卖 最好 的 产品 是哪些?词槽模式的挑战分词多样性更新频繁的专有
3、名词、黑话多轮对话追问表达能力受限于“槽位”:自定义函数,子查询,分组后再过滤,窗口函数多意图,嵌套意图国际化支持Text2SQL的准确性问题大家以为的Text2SQL不准:大模型吐出一堆乱码,根本无法执行实际上的不准:用户提问:上个月屈臣氏的收入如何?返回:SELECT SUM(零售金额)FROM 销售明细 WHERE 渠道=屈臣氏 AND 成交时间=DATE_TRUNC(month,CURRENT_DATE-INTERVAL 1 month)AND 成交时间 归因-总结,而真正的业务问题归因往往是“设计之外”的情况。Agentic方案如何解决?SQL工具:自由探索数据体系中的所有数据,包括
4、“稳态”和“敏态”资产。找到两个top SKU的缺货率峰值。供应链API工具:显示这些SKU的发运延迟问题。网络搜索工具:找到竞对类似SKU的促销打折20%的报道。天气API工具:相关性低,抛弃该信息。代码仿真工具:测算缺货与价格弹性带来的GMV影响。输出完整深入的报告结论。如何拓展Agent的能力?-原则2给Agent的工具不要加太多人工结构计算器,数据洞察,跟指标DSL工具结合,有哪些拓展场景?搜索引擎,浏览器,代码执行工具结合,有哪些拓展场景?(Browser use)选型建议长远看,应该选择最能够发挥大模型智能的技术路线对于新技术的信任建立,需要一个过程人类大脑的运作逻辑也是个“黑盒”,为什么值得信任Agent也可以往人类证明自己可信的方向发展当LLM能力超越人类时,我们如何构建“护栏”中短期,可以结合企业当前情况来选择一些混合方案例如追求“传统软件”的确定性/GUI操作体验,可以使用DSL方案DSL无法满足的问题范围,引入SQL/Python的泛化能力类似“集中管控”与“自助分析”并存Questions?