1、张祺深蚂蚁集团 高级算法专家主要内容1.移动APP时代搜索场景的变化和挑战结构化信息检索问题多属性语义匹配算法2.生成式的层次化文本多分类样本增强3.大模型时代还留给搜索哪些NLP问题?1.移动APP时代搜索场景的变化和挑战搜索内容的变化:传统搜索搜索引擎搜索的内容是网页(HTML)和文档(Doc),主要关注文本语义的匹配,检索的文档数量庞大。移动APP上搜索的内容多样性显著增加,例如商品、门店、视频、小程序、账号载体(公众号、生活号)、股票基金等。Query文本很难完整表示被检索的内容。检索的内容是有限集合,更注重语义相关性。网页搜索(文本语义匹配)商品搜索公众号搜索小程序搜索门店搜索基金股
2、票搜索结构化信息检索问题移动端APP搜索的特点:1.检索的内容文本信息较少2.检索的内容具有结构化信息:商品:品牌、行业、类目、款式小程序:意图、地域、功能基金:基金类型、经理人、基金公司、板块、重仓股3.不同的搜索内容,具有不同的结构化信息结构化信息的匹配问题:如何把用户Query和检索Item的结构化信息完整表示并进行综合的语义匹配?多属性语义匹配算法解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。优化策略C1:多属性文本表示
3、Token EmbeddingMulti-View EmbeddingProperty EmbeddingGraph EmbeddingProperty-Aware TaskC2:多属性间文本匹配多属性文本联合匹配概率单属性文本匹配融合概率复合属性文本匹配融合概率C3:语义向量融合表示构建局部和整体概率之间的联系利用局部表征获得整体表征多属性语义匹配算法解决方案-多属性文本信息的匹配场景设计语义匹配框架,通过多属性文本的表征、多属性匹配任务、联合匹配概率建模和整句embedding表征优化等方法,将不同属性的文本信息融合到语义匹配算法中,提升文本语义匹配的准确率。C1:多属性文本表示将每个属性
4、所属的token embedding进行first last layer average pooling作为属性表征。C2:多属性间文本匹配计算query对于每个属性的attention weight使用对比学习InfoNCE Loss 来优化query与多属性表征的相似度C3:语义向量融合表示query与item之间的余弦相似度作为q-i之间相关性得分。使用对比学习来优化query与item的整句embedding表征之间的相似度。WWW 2023:Beyond Two-Tower:Attribute Guided Representation Learning for Candidate
5、Retrieval多属性语义匹配算法同时期的独立工作,google基于多属性的有监督预训练进行属性表征学习,需要有监督的属性样本。Google SIGKDD 2022WWW 2023:Beyond Two-Tower:Attribute Guided Representation Learning for Candidate Retrieval主要内容1.移动APP时代搜索场景的变化和挑战结构化信息检索问题多属性语义匹配算法2.生成式的层次化文本多分类样本增强3.大模型时代还留给搜索哪些NLP问题?2.生成式的层次化文本多分类样本增强Query文本分类问题:Query文本分类是召回、相关性、排
6、序的重要特征,是搜索场景重要的策略输入(例如搜索结果类型的触发条件)大规模层次化文本分类问题(分类节点1000-100万),分类体系差异性强样本少,不同分类体系的样本无法复用,人工标注成本较高Query意图类目Query商品服务视频电子产品图书服装裙子裤子上衣帽子鞋短裤运动裤西裤牛仔裤日用品Query类型+商品类目2.生成式的层次化文本多分类样本增强层次化文本多分类样本生成的挑战:生成样本的分类label需要足够准确生成样本的多样性ACL 2023:Towards Bette