《计算机行业GenAI系列报告之68:2026大模型幻觉能被抑制吗?-260122(23页).pdf》由会员分享,可在线阅读,更多相关《计算机行业GenAI系列报告之68:2026大模型幻觉能被抑制吗?-260122(23页).pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、2026大模型幻觉能被抑制吗?相关研究本期投资提示:.当我们在说模型进步的时候,我们在说什么?智能化水平的提升和错误率(幻觉)的下降。智能化水平的提升,打开了AI大模型能力的上限,而幻觉的控制,则是保障模型的下限,而我们认为,下限是让AI应用真正落地的核心。何谓幻觉?即语言模型常产生过度自信的似真谬误,这种错误模式就被称为幻觉。当下AI大模型的幻觉主要包括无中生有、事实错误、语境误解、逻辑谬误等。根据哥德尔不完备定理,一个系统或者大模型是不能自证清白的,必定有一些幻觉是无法消灭的。因此幻觉控制和智能化水平提升一样,是一个始终伴随AI算法发展的重要命题。.围绕“幻觉”这个命题,我们产生了四个核心
2、思考:1)导致幻觉的因素有哪些;2)如何降低幻觉,从模型算法、数据、工程化几个维度探讨;3)Agent进化的痛点:多步执行如何解决错误累积问题?4)幻觉对于不同领域AI应用落地的影响?怎么评估?已经看到的趋势?.数据端,最核心是喂给模型高质量的数据。因此当下业界聚焦高质量数据集的构建,海天瑞声、ScaleAl采用mathsfAl+人工”模式清洗标注,减少训练噪声;推理阶段通过自动过滤矛盾信息,提升输入数据可靠性。.工程化方面,RAG技术成2B标配,Gartner预计2025年企业采用率将达68%,搭配D&Q问题分解框架,将问题拆解为多个相互依赖的子问题,并通过深度优先搜索的方式逐步推进推理路径
3、,从而减少幻觉的发生。.我们对幻觉问题的回答是,2026年,AI模型的幻觉会得到有效控制。VectaraHHEM测评中,全球幻觉率最低的TOP25个大模型。其幻觉率低于8%。通过工程化+RAG方式,部分严肃场景下AI模型的可用性也正在提升。在幻觉能够得到控制的前提下,我们看好三大方向:1)最先成熟的AI应用:税友股份、合合信息、鼎捷数智、卓易信息、汉得信息、万兴科技等;2)幻觉不敏感,商业化速度快的营销AI:迈富时、新致软件、光云科技等;3)数据+mathsfAlinfra:海天瑞声、深信服等。风险提示:技术迭代不及预期风险;数据质量与合规风险;商业化进展不及预期风险等。投资案件2026年,A
4、I模型的幻觉能够得到有效控制。AI幻觉不可避免,但通过算法、数据、工程化等控制,全球幻觉率最低的TOP25个大模型已降低至8%以内,达到可落地水平。息、万兴科技等;3)数据+mathsfAlinfra:海天瑞声、深信服等。原因与逻辑数据端,最核心是喂给模型高质量的数据。因此当下业界聚焦高质量数据集的构建,海天瑞声、ScaleAl采用mathrmmathsfA1mathrm+人工”模式清洗标注,减少训练噪声;推理阶段通过自动过滤矛盾信息,提升输入数据可靠性。工程化方面,RAG技术成2B标配,Gartner预计2025年企业采用率将达68%,搭配D&Q问题分解框架,将问题拆解为多个相互依赖的子问题
5、,并通过深度优先搜索的方式逐步推进推理路径,从而减少幻觉的发生。有别于大众的认识市场认为,大模型的幻觉不可避免。我们认为,从数学原理上幻觉无法避免,但从模型训推范式、架构创新、推理部署侧工程化等多层面努力,大模型幻觉率正在不断降低。且全球已经初步形成了一套完整的幻觉评估及控制方法论,幻觉能够得到有效控制,根据Vectara的HHEM测评,目前全球大模型幻觉率最低可做到1.8%。市场认为,AI应用的落地受制于幻觉。我们认为正由于幻觉的存在,且通用模型的幻觉高于垂直领域专业模型,使得在行业内有丰富数据和know-how的Al应用厂商更有差异化优势,不会被大模型吞噬。市场认为,严肃场景下AI的渗透速
6、度会非常慢。我们看到例如财税等严肃场景,通过丰富的知识库,和严谨的工程化手段(不仅是RAG,还包括可纠错的Agent系统等),模型可用率和准确率正在提升,且部分厂商已经实现了有规模的AI商业化收入,渗透速度并不慢。1幻觉一模型能力的下限当我们在说模型进步的时候,我们在说什么?本质是智能化水平的提升和错误率(幻觉)的下降。智能化水平提升,当前有一个共识的路径一Scaling,即扩大训练语料、参数规模和训练算力。在Scaling这条路上演化出了四条分支,Pre-trainScaling、Post-trainingScaling、ReasoningScaling、Mid-trainScaling。智