《RAG 系统中的关键技术:从 Embedding 到 Reranker-王峰.pdf》由会员分享,可在线阅读,更多相关《RAG 系统中的关键技术:从 Embedding 到 Reranker-王峰.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、Berlin Beijing Shenzhen王峰 Jina AI 2024年05月18日 felix.wangjina.aiRAG 系统中的关键技术:从 Embedding 到 Reranker2021-now,研发总监,Jina AI2020-21,高级研究员,虎牙2018-19,高级研究员,腾讯2011 -18,博士,香港浸会大学王峰,王峰,本科毕业于山东大学,并于2016年获得香港浸会大学计算机博士学位。曾就职于腾讯和虎牙科技工作,目前担任 Jina AI 研发总监,主要负责向量 Embedding 和重排 Reranker 模型的训练和开发工作。此外,王峰博士具有非常丰富的开源项目开
2、发和运营经验,对开源事业充满热情,是 Jina、clip-as-service、rungpt 等开源项目的核心贡献者或管理者。About Me为什么需要检索增强生成(为什么需要检索增强生成(RAG)?LLM 大语言模型目前存在的问题大语言模型目前存在的问题 幻觉:幻觉:简而言之就是“胡说八道”在专业领域后果严重 知识更新:知识更新:训练数据过时而产生的知识更新问题 私域数据私域数据 各种各种 limit包括Token长度大海捞针(needle in a haystack)RAG是一种结合了大语言模型和外部知识库的技术,通过在生成答案之前从外部知识库中检索相关信息,来提高答案的准确性。RAG 是
3、如何工作的?是如何工作的?通用通用 Embedding 模型模型jina-embeddings-v2:8K 向量模型向量模型 融合ALiBi,使用 750Gb 语料,训练 jina-bert-v2 基于步骤 1 的 jina-bert-v2,使用3.8亿无标签的文本对数据,训练向量模型 基于步骤 2 的向量表示模型,使用300万有标签的正负样本构成文本三元组数据,微调向量模型Jina BERTPairwise DataWeb TextPairs+Hard NegativesJina Embedding PairsJina Embedding FullJina BERT v2 模型框架模型框架A
4、ttention with Linear Biases(ALiBi)Positional Embeddings Relative BiasesSource:Vaswani et al.“Attention is all you need”.NeurIPS 2017.arXiv:1706.03762(2017).Jina BERT v2 模型框架模型框架Attention with Linear Biases(ALiBi)Positional Embeddings Relative Biases ALiBi is able to maintain language modeling perple
5、xity when inferencing on sequences that are longer than the training dataTrain short,Test LongSource:Press,Ofir et al.“Train Short,Test Long:Attention with Linear Biases Enables Input Length Extrapolation”.ICLR 2022.arXiv:2108.12409(2021).训练训练Embedding模型模型弱监督数据训练弱监督数据训练Jina BERTPairwise DataWeb Text
6、Pairs+Hard NegativesJina Embedding PairsJina Embedding Full弱监督数据训练弱监督数据训练Bi-Encoder(Two-Tower)ArchitectureJina BERTMean PoolingSource:https:/ 3阶段数据清理,得到3.8亿条高质量文本对,1700亿个token 去重 语种过滤 一致性过滤 根据数据集质量重采样强强监督数据训练监督数据训练Jina BERTPairwise DataWeb TextPairs+Hard NegativesJina Embedding P