5 腾讯大数据基于 StarRocks 的向量检索探索.pdf

编号:186221 PDF 36页 3.29MB 下载积分:VIP专享
下载报告请您先登录!

5 腾讯大数据基于 StarRocks 的向量检索探索.pdf

1、基于基于StarRocks的向的向量量检索探索检索探索腾讯大数据腾讯大数据赵裕隆腾讯大数据研发工程师向量检索技术浅析StarRocks实现向量检索的原理及优化StarRocks向量检索在腾讯的实践案例挑战及未来规划01向量检索技术浅析什么是向量什么是向量检索检索向量向量检索检索新型新型应用不断涌现:应用不断涌现:听歌识曲、以图搜图、广告推荐、大模型检索增强等等;Embedding技技术的成熟:术的成熟:大量非结构化数据(视频、语音、图像等)可以通过深度学习技术转化成高维向量(数组);统一数据特征表达:统一数据特征表达:将非结构化数据Embedding后,对高维特征向量进行最近邻(或k近邻)查询

2、即可查找相似内容:给定查询向量,在特征数据库中寻给定查询向量,在特征数据库中寻找距离找距离查询向量最近(即相似度最高)查询向量最近(即相似度最高)的的k个向量;个向量;-get_topN(distance),id -id,metrics_distance(query_vector,vector_column):distance -scan_table(id,vector_column)近似最近近似最近邻查询邻查询高维空间的向量很难进行快速而准确的近邻查询,主要原因在于:高高维度导致的计算复杂性:维度导致的计算复杂性:数据维度较高,通用的距离函数都需要成百上千次浮点运算,十分耗时;维度灾难(维度

3、灾难(Curse of Dimensionality):):随着维度的增大,搜索空间将呈指数增长的现象;维度灾难为了解决高维向量KNN查询的效率问题,近似最近近似最近邻查询(邻查询(Approximate Nearest Neighbor Search,ANNS)应运而生,其通过返回近似查询结果,来显著提升查询效率(通常为数百倍以上)。目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。欧式距离和余弦距离。通常使用召回率(召回率(Recall)来衡量ANNS的查询精度,即近似查询结果中正确答案占实际正确答案的比例。近近邻索引技术邻索引技术哈希/树:用于ANNS的哈希方法主要是局部敏感哈希

4、;树索引的基本思路是对空间进行划分,并采用树型结构维护空间划分的层次关系。量化与倒排(主流):乘积量化(Product Quantization,PQ)先把向量分为多个子段,然后对每段进行分别聚类与编码。量化是一种压缩技术,虽然能够极大的减少存储空间占用和距离计算开销,但是仍然要对全量数据进行距离排序,没有剪枝作用,所以通常需要配合倒排索引技术(Inverted File,IVF),求取TopK个聚类中心的进行剪枝,进一步减少访问的数据量。近近邻图(主流):邻图(主流):近邻图的基本思想是“近邻的近邻也是近邻”,其将每个向量作为图中的一个Node,在距离相近的向量之间建立边连接构成近邻图。查询

5、时从固定入口出发,不断地贪心遍历离查询向量更近的邻节点,直到没有更近的节点停止搜索。各索引技术对比业务背景业务背景 业务场景:业务场景:一个典型检索场景 检索链路复杂:一次检索经过 四套四套 系统 写入链路复杂:写入维护 三条三条 链路 端到端延迟高:端到端 分分钟级钟级延迟 数据一致性保障 业务诉求业务诉求 能力支撑:文本文本检索检索+向量向量检索检索+多多维分析维分析 成本:尽可能少尽可能少的使用和接入成本 业务开发维护成本:高可靠、高可用、用高可靠、高可用、用户友好户友好 性能:亚秒亚秒/秒秒级级 查询延迟,召回率 95%+如何如何选型最符合业务现状,并有利于后续发展选型最符合业务现状,

6、并有利于后续发展 新兴向量库:系统学习成本?链路打通成本?数据迁移成本?后续系统维护成本?现有传统数据库+向量索引:性能?生态融合成本?稳定性?后期迭代?答案:成熟可靠的分布式高性能成熟可靠的分布式高性能 数据数据库系统库系统+向量向量检索检索;02StarRocks实现向量检索的原理及优化整体架构整体架构StarRocks向量数据向量数据库整体架构库整体架构 基本功能的开发完成,具备服服务分析一体务分析一体的向量数据库雏形 形成了内部索引库TenANN,集成了业界主流的向量索引HNSW和IVFPQ语法设计语法设计向量向量检索语义与检索语义与SQL有有gap,如何,如何设计语设计语法来法来进行

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(5 腾讯大数据基于 StarRocks 的向量检索探索.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠