《王新波-从 AI 取数到智能分析:企业级数据-Agent 的多阶段演进与工程化落地.pdf》由会员分享,可在线阅读,更多相关《王新波-从 AI 取数到智能分析:企业级数据-Agent 的多阶段演进与工程化落地.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、从AI取数到智能分析企业级数据Agent的多阶段演进与工程化落地王新波Shopee Data Infra目录0102030405背景与挑战Text2SQL 技术演进之路Data Agent 工程体系基于 Skill 的场景化分析支持总结与展望从 BI 演进到 AI 原生数据消费背景与挑战BI 演进的四个阶段演进的四个阶段1.0 传统传统 BI静态报表依赖数据团队编写 SQL2.0 自助式自助式 BI平台化拖拽式配置但仅 8%用户是编辑者3.0 增强分析增强分析ML 辅助数据准备与推荐分析仍由人驱动数据消费门槛逐步降低,但分析仍由人驱动 AI 原生时代:从取数到智能分析原生时代:从取数到智能分析
2、4.0 AI 原生原生 Agent自然语言交互 个性化学习 主动提供见解第二章Text2SQL 技术演进技术演进Multi-Agent 个性化 语义建模突破取数门槛,让 AI 理解问题第三章Data Agent 工程体系工程体系元数据治理 评测 运营闭环让 Agent 在生产环境可靠运行第四章Skill 场景化分析场景化分析将专家经验沉淀为标准化流程AI 不只取数,还主动分析用户提问用户提问Embedding向量检索向量检索基于召回表元数据基于召回表元数据构建构建PromptLLM生成生成 SQLSQL 结果结果学术学术 BenchmarkSpider SOTA 准确率85-91%Spider
3、 2.0(真实企业数据)GPT-4o10%Diana 第一版效果第一版效果找表 MRR1056%Text2SQL 执行准确率39%近 30 天有访问的表有近百万张 LLM:GPT-4o-mini基于 RAG 的Workflow 在企业级OLAP场景下效果不佳第一版架构及存在的问题第一版架构及存在的问题三次跃迁:Multi-Agent 个性化 语义建模Text2SQL 技术演进之路用户的负反馈暴露了五大核心问题:1 1找表不准只用 Hive 元数据,缺少业务规则和数据口径、计算逻辑错误无法理解数仓模型层级,MRR低2 2SQL 语义错误3 3混用多种 SQL 方言,准确率仅 60%左右SQL 语
4、法错误4 4各 Agent 入口隔离,体验割裂,等待时间长交互体验差5 5评估集脱离实际生产环境,不敢直接交给业务用评测缺失基于 LLM 的 Text2SQL:理想 vs 现实每次跃迁都由真实生产痛点驱动跃迁1RAG Workflow Multi-Agent+元数据渐进式披露-解决找数及体验割裂问题Multi-Agent跃迁2用户画像+记忆,从千人一面到个性化及跨Session记忆个性化跃迁3语义模型+辅助建模 Agent,突破准确性天花板语义建模跃迁4FileSystem-as-Context+Sandbox,为复杂 Agent 提供底座工程底座跃迁5从取数走向场景化分析Skill 机制Sh
5、opee Data Agent 的五次关键跃迁Multi-Agent 架构架构Supervisor+专业专业子子Agent+Human-in-the-LoopSupervisor Layer专业专业 Agent LayerSupervisor Agent背景知识加载意图识别任务编排与调度Data Scope Clarity Agent业务域定位百万表 域内数百表Data Discovery Agent域内表发现数百表 候选表Generate SQL AgentSQL 生成候选表 最终 SQLHuman-in-the-Loop确认业务域Human-in-the-Loop确认候选表执行 SQL润色
6、 可视化用户问题输入用户问题输入L3L2L1百万级表 域内数百张,基于意图识别+用户背景L1 业务域定位数百表 数张候选,语义检索+热度排序L2 域内表发现候选表 完整字段+业务规则L3 深度知识展开层间确认节点,让用户纠偏Human-in-the-Loop元数据渐进式披露(Progressive Disclosure)L1表名、字段、描述 基础层Hive 表元数据L2语义压缩+结构化提取 文档层Mart 知识文档L3业务规则、术语映射 业务层Topic 运营知识L4高质量 SQL 样例 样例层Sample SQL&DataSQL 生成策略与四层知识体系用户画像(静态)高效高效组织架构、角色、