当前位置:首页 > 报告详情

OceanBase 向量检索在货拉拉的探索和实践_陈铨.pdf

上传人: 可*** 编号:710825 2025-05-28 24页 3.72MB

1、OceanBaseOceanBase 向量检索在货拉拉的向量检索在货拉拉的探索和实践探索和实践陈铨货拉拉-大数据技术与产品部-高级大数据工程师Contents目录货拉拉介绍01 大模型与向量数据库02 向量数据库选型与落地03 未来规划04 0101货拉拉介绍 2024年全球闭环货运交易总值最大的物流交易平台 2024年全球闭环货运 GTV 最大的同城物流交易平台 2024年全球已完成订单数量最多的物流交易平台 2024年全球平均月活商户最多的物流交易平台全球年订单全球月活用户城市0202大模型与向量数据库14个业务部门50+业务场景大模型在货拉拉的应用大模型当前的痛点领域知识缺乏过时幻觉安全

2、解决问题领域知识和私有数据实时数据减少生成不确定性增强数据安全大模型应用的四大问题RAG(Retrieval Augmented Generation)检索增强生成技术,利用检索外部文档提升生成结果质量RAG(检索增强生成)向量数据库总结生成用户问题chunk文档chunkchunkEmbeddingTextQuery SplitEmbeddingDocs SplitLLMs向量数据库多模态数据Embedding嵌入向量向量数据库 音频、视频、图片、文本 存储非结构化数据 数据规模大,信息密度高,处理成本高 通过神经网络提取数据特征,形成高维空间的坐标点 向量化表示 向量具备语义表达能力,用于

3、相似性检索 通过向量间的距离(内积/欧氏距离)找出最相似的向量 检索非结构化数据 检索过程是近邻图的遍历过程,需要进行大量浮点(距离)运算L2:欧氏距离L1:曼哈顿距离Cosine:余弦距离0303向量数据库选型与落地现有架构5+集群数量2kw+Document384G单集群内存混合检索复杂入口层接入层检索层存储层基础设施混合检索复杂动态 SchemaStep1Step2Step3流程繁琐索引重构耗时长容易引发抖动相近语义理解多语言理解/跨语言理解多模态理解容错性强向量检索优势全文检索优势精确匹配短文本匹配倾向低频词汇的匹配可解释强更高的检索召回精度:通过多路召回,既保证基于语义的查询结果,也

4、能保证精确检索。更复杂的查询能力:可以利用全文检索的逻辑运算、排序、过滤等功能,实现更复杂的查询需求。更强的可解释性:可以利用全文检索的文本匹配和高亮显示,实现更可解释的检索结果。更灵活、可自定义:用户可自定义全文检索召回结果、向量检索召回结果在最终结果的权重,为变化的检索场景选择更合适的检索手段混合检索优势Hybrid SeachReranking标量检索向量检索全文检索关系数据库向量数据库ES多种存储介质相似度得分难统一用户实现Reranking混合检索混合检索复杂运维痛点稳定性能力弱 向量数据库自身不稳定,BUG 多 专家经验不足,问题排查困难 监控指标少,问题难定位1扩展性不足 节点横

5、行扩展能力差,数据需手工迁移 数据分片管理运维复杂2权限认证 权限认证能力弱,容易造成数据泄漏和安全等问题 需自行实现权限管理,增加了开发和运维的复杂性3社区活跃度差 虽然项目仍在维护,但更新频率较低,社区贡献和开发者参与度有限 功能和生态发展缓慢,无法满足业务未来的需求4运维诉求稳定性:高可用、监控完善扩展性:动态扩缩容、多云部署可维护性:组件依赖少、备份恢复、容灾成熟度:大厂实践业务诉求功能:距离算法、索引、动态Schema检索:标量、向量、全文、混合检索易用:支持 Go/Python/Java,文档完善性能:召回率、P99稳定性:稳定可靠、故障快恢选型标准Zilliz(Milvus)El

6、asticsearchOceanBase(OB Cloud)入围:3款选型过程候选集:10款淘汰多云部署:阿里云 ADB、腾讯云 VectorDB、Lindorm向量纬度:pgvector稳定性:Weaviate稳定性运维成本OB Cloud弹性扩缩容扩展性RPO=0,RTO 8秒高可用专注业务接入运维成本OB Cloud基于云上构建向量存储服务混合检索复杂资损代码识别随着软件系统复杂性增加,代码中的潜在问题可能导致严重的财务损失。传统审查方法效率低且易遗漏问题。本项目结合向

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了货拉拉在向量检索方面的探索和实践。关键点如下: 1. 货拉拉是全球最大的物流交易平台,拥有众多订单和月活商户。 2. 公司面临大模型应用痛点,如领域知识缺乏、实时数据和数据安全等问题。 3. 引入向量数据库解决这些问题,通过多模态数据嵌入向量进行相似性检索。 4. 选型过程中考虑了稳定性、扩展性、运维成本等因素,最终选择OceanBase(OB Cloud)作为向量存储服务。 5. 核心数据:5+集群数量,2kw+Document,384G单集群内存。 6. 未来规划包括融合查询能力、业务改造、迁移工具等,以及更多场景探索。
"货拉拉如何应对大数据挑战?" "向量检索技术如何助力货拉拉?" "货拉拉未来有哪些创新规划?"
客服
商务合作
小程序
服务号
折叠