全球计算联盟GCC:2025向量数据库白皮书(56页).pdf

编号:734160 PDF  DOCX 56页 4.15MB 下载积分:VIP专享
下载报告请您先登录!

全球计算联盟GCC:2025向量数据库白皮书(56页).pdf

1、?Research?Report?on?the?Development?of?Vector?Database?1?研?(?)?盟?研?2?研?.1 Research?Report?on?the?Development?of?Vector?Database.1?.4 1.1?.4 1.2?.4?.7 2.1?.7 2.2?.7 2.3?.12 2.4?.16 2.5?.18?.21 3.1?.22 3.2?.23 3.3?.24 3.4?.26?.27 4.1?.27 4.2?的?.27 4.3?.28 4.4?.30 3 4.5?.31 4.6?.31?.34 5.1?.34 5.2?.35?

2、.38 6.1?.38 6.2?.40?.49 7.1?.49 7.2?.50 7.3?.51?.53?1.1?1.1?研?吐?研?研?研?研 IDC?2025?研?175ZB?务 80%?副?研?1?研?研?撑练?B+?割?研?研?研?研?研?割?务?研?务?研?研?1.1.2 2?研?AI?1 1.2.1.2.1?2020?-2012017 7?研?Embedding?研?研?研?研?Word2Vec?务?BERT?副?1 1.2.2.2 2?20182018?-20232023?2010?去务?研?去?研?研?FAISS?去?HNSW?厅?研?RAG?研?割?务?研?AI?研?务?研?撑

3、?-?研?去?研?!?研?研?BM25?Milvus?Vearch?研?FAISS?模?研?研?的?研?研?Milvus?Vearch?AI?GitHub?HNSW?40%?GPU?属?QPS?去?研?导?的?1 1.2.2.3 3?20202424?-?研?空?Zilliz?研?研?割?Zilliz?研?的?IT?研?尽?Vastbase?V100?研?/?筛?AI?openGauss?空openGauss?DataVec?研?空?研?研?QPS?RecallK?研?割?研?研?导?割?匹?研?筛?研?筛?研?2.1?2.1?向量是同时具有方向和大小的量,其在数学上表示为多为空间中的坐标,比

4、如 N 维空间中的向量就是一个具有 N 个维度的坐标,(a!,a,a#,.)。向量的大小(也称为长度或者膜)通过公式&!+#+.计算获得。向量的方向通过从原点到坐标点连线的夹角表示,两个向量 A 和 B 的夹角可以通过公式cos$!%|%|计算获得。向量嵌入技术广泛应用于多模态非结构化数据检索任务中,通过将原始数据嵌入编码到同一个空间中,使之具有等长同类型的向量标签,并且数据之间的语义相似度可以通过向量之间的相似度计算进行度量。比如:通过表征训练可以让具有相同含义的单词,句子,片段,甚至是文档,图片等实体具有更高相似度的嵌入向量;反之,具有不同语义的实体的嵌入向量相似度较低。向量之间的相似度特

5、征是向量数据库的数学理论保证,而统数据库只能进行准确查询和精确匹配的局限,这一特征传使得向量数据库能够具备语义匹配和多模查询处理的能力。在实际应用场景中,海量的文本/图片等数据(PB 级)直接存放在文件系统中,直接对其进行查询和检索性能低下,因此用户会首先应用先进的嵌入学习模型对于文本/图片进行嵌入编码,然后将相应的编码向量导入到向量数据库中进行管理。通过这种手段,利用向量作为数据的签名,既可以降低数据库中的数据维护成本,也可以显著提高文本/图片相似查询的性能。2.2.2 2?Vector?Space?Model,?VSM?Embedding?VSM?务?研务?2.2.12.2.1?(Word

6、?Embeddings?务?Word2Vec?CBOW?副?务?OOV?割?Skip-gram?务?副?GloVe?-?-?副?Word2Vec?匹?FastText?subword?n-gram?n-gram?OOV?2.2.2?2.2.2?/?/?的?NLP?1)?务?average?pooling?max?pooling?吐?TF-IDF?告?撑练?2)2)?Doc2Vec?Doc2Vec?Word2Vec?的?PV-DM?PV-DBOW?ID?Transformer?Transformer?副?BERT 务?CLS?务?Token?CLS?Token?Sentence-BERT?(SB

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(全球计算联盟GCC:2025向量数据库白皮书(56页).pdf)为本站 (表表) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠