《4姚维v4-AI 驱动下的数据系统演进-2025DataFun.pdf》由会员分享,可在线阅读,更多相关《4姚维v4-AI 驱动下的数据系统演进-2025DataFun.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、姚维 平凯数据库(TiDB)中国区研发负责人AI AI 驱动下的数据系统演驱动下的数据系统演进进目录目录0 0 1 1AI AI 驱动下的数据库设计驱动下的数据库设计探索探索0 0 2 2多模数据库技术优化和敏捷部署多模数据库技术优化和敏捷部署实践实践0 0 3 3AI AI 应用落地案例应用落地案例0 0 1 1 AI AI 驱动下的数据库设计探索驱动下的数据库设计探索DeepSeek 热潮带动 AI 应用爆发,最大挑战是?为什么 CEO 们喊“上 AI”的时候 CIO 们会沉默?阶段一:快速部署 DeepSeek DeepSeek 支持快速私有化部署满足数据安全和自主可控的需求开源模式打破
2、技术壁垒推动国内 AI 应用生态发展阶段二:Data+AI 的数据飞轮时代结构化与非结构化数据融合处理数据飞轮闭环加速 AI 应用迭代推动 AI Agent 时代的到来基础设施:LLM 模型和数据复合复合 AI AI 平台产品架构图平台产品架构图数据接入数据接入结构化数据非结构化数据元数据设置知识图谱RAGRAGAdvanced RAGGraph RAG多模态RAGRAG优化策略AgentAgent推理&反思工具调用Agentic RAGMulti Agent工作流工作流工作流编排工作流监控智能体协同服务部署基座大模型基座大模型OpenAIGeminiClaude通义千问Deepseek其他大
3、模型智能体平台智能体平台标准应用标准应用ChatBIChatBI人人都是数据分析师企业知识库企业知识库企业知识高效检索内容生成内容生成讲稿、简报自动生成运维管理运维管理智能运维行业解决方案行业解决方案零售消费品制造业政府金融其他结构化结构化数据数据MySQL非结构非结构化数据化数据HDFSHiveExcel其他WordPDF图片/视频表格其他RAGRAG解决解决方案方案来自数据库厂商对 RAG 程序的探索tidb.ai 设计目标:希望减少对技术专家的依赖来回答所有和 TiDB 相关的技术问题。实现路径:灌入 TiDB 相关的所有内外部文档、工单等等OpenAI,Jina AI(Embeddin
4、g),LlamaIndex,Cohere(Reranking),GraphRAG,Claude,Gemini.RAG 知识库探索,大概开始于 2023 年底 RAG 的朴素认知QuestionAnswerLLM上下文获取Context information from multiple sources is below.-context_str-Given the information from multiple sources and not prior knowledge,answer the query.Question:question_strAnswer:Knowledge Bas
5、e既然这么简单,直接试试既然这么简单,直接试试 LlamaIndex LlamaIndex 行不行?行不行?一个朴素的版本StartEventJudge_queryImprove QueryRerankNaiveRAGBadQueryResponseJudgeDoc ChunkingEmbeddingStopEventIndexingDemo 1 Demo 1 小时,上线半个月小时,上线半个月面临的第一个问题:向量搜索召回率低面临的第一个问题:向量搜索召回率低 多路召回StartEventJudge_queryImprove QueryRerankNaiveRAGBadQueryRespons
6、eJudgeDoc ChunkingEmbeddingStopEventIndexingKeyword Search召回手段丰富了,效果有一些提升,但不够。召回手段丰富了,效果有一些提升,但不够。提升数据的质量?提升数据的质量?文本切分(Chunking)根据 Markdown 标题划分 Chunks(默认从二级标题开始)如果划分得到的 Chunk 超过 max_chunk_size 就按照下一级标题进行进一步切分 如果相邻的两个同级标题的内容都比较少,对其进行合并 将父标题提取到 Chunk Text 的最顶部(保留与文档整体的关联度)例如:#TiDB 五大核心特性#一键水平扩缩容得益于 T