1、面向智能研发的知识引擎面向智能研发的知识引擎构建及业务应用构建及业务应用演讲人:吴锐目录目录01020304智能研发现状构建研发知识引擎落地案例未来趋势分析01智能研发现状AIAI CodingCoding 百花齐放百花齐放多样的形式多样的形式不同的设计不同的设计丰富的生态丰富的生态业务落地的“最后一公里”业务落地的“最后一公里”隐藏在代码外的业务知识业务专家经验、业务规则、业务黑话存量代码的复杂性10w+行的代码仓库、复杂设计模式复杂的系统间依赖跨系统调用、复杂的包依赖内部研发知识的匮乏常见的中间件的接入方式02构建研发知识引擎架构设计架构设计常用知识中间件库产研通用知识产研通用知识精品数据
2、资产核心应用代码需求/系分文档业务知识业务知识产研规范日常小记个人知识个人知识聊天/会议记录个人语雀文档/ATA知识解析与存储知识解析与存储智能解析统一知识管理多数据源接入知识理解知识理解ChunkingEmbeddingLinkingKG构建通识导入业务知识图谱个人知识图谱知识生产知识生产个人Wiki业务Wiki编码rules业务代码示例冲突检测过时文档发现孤岛发现知识治理知识治理MCP/OpenAPI知识检索快速问答知识召回知识召回Query处理多路召回DeepSearch多模态检索模型训练模型训练RLSFTRerank图检索知识引擎的必要性1.深度理解、高效管理存量业务知识,让AI读懂现
3、有业务,降低生成代码的幻觉率2.挂载企业内部私有的中间件文档与规范,填补通用模型的认知空白3.提供准确、快速的检索能力,在有限上下文内提供关键信息,降低模型理解门槛知识索引与检索知识索引与检索-Chunking 结构化分割-索引-检索解耦-知识粒度对齐(HyDE)-QA 挖掘-文档标签与优先级部分关键优化点:基础检索能力:朴素基础检索能力:朴素RAG知识索引与检索知识索引与检索进阶检索能力:进阶检索能力:GraphRAG优势:1.依赖Node 和Edge 进行结构化的信息关联,有效地扩大检索范围,提升召回率2.前置进行了信息的归纳与总结,面对全局性问题效果更好劣势:1.依赖模型抽取三元组,导致
4、索引成本高、耗时长2.工程复杂度高,不易于维护知识索引与检索知识索引与检索综合多路检索综合多路检索Chunk 检索确保简单问题能够快速定位到答案图谱检索提升复杂Query的召回率:1.实体/关系分别进行关键词抽取与检索,确保明确/抽象描述均能召回2.在Graph 上进行基于点/边关系的扩展,提高召回内容3.重排确保相关性知识索引与检索知识索引与检索依靠Agent 能力,在搜索、阅读、推理中不断循环往复,直到总结出最优答案。Search Agent:优势:1.依赖大模型自主决策,极大地提升了检索的灵活性,检索效果有质的飞跃2.更加易于扩展,只要接入新的tool 即可扩大检索范围劣势:依赖大模型服
5、务的反复调用,检索成本高、耗时(特别)长知识索引与检索知识索引与检索 Why Cline Doesnt Index Your Codebase-当你在chunk 时,你实际上在破坏其内部的逻辑-索引总是会存在负担:存储成本、更新成本当文档本身存在良好的目录结构/标题时,给Agent 配置 ls/grep等类命令行工具,让他像人一样去找文档,比检索更为准确、有效。“File System”:”:将知识组织成一个文件系统知识压缩与生产知识压缩与生产AI 在生成代码时缺乏对业务背景的深入理解,可能导致实际开发偏离真实需求。结合代码、文档、用户动线等多种类型数据,产出业务全貌文档,让模型真正懂业务。-
6、接口功能与链路描述-技术栈详解-项目模块概述、模块间关系-业务功能列表-业务功能与接口的关系-用户主要动线Wiki 都有什么内容?业务业务Wiki构建构建03业务实践案例SpecSpec DrivenDriven DevelopmentDevelopmentSpecificationSpecification:一份详细描述一个产品、系统、软件组件或项目应该如何工作、它具备什么功能、它的设计参数和限制的文件或集合,用来驱动 AI 生成代码。Spec Driven Develop