12-higress-zai-ai-yu-mcp-wang-guan-chang-jing-xia-de-tan-suo-yu-shi-jian-cheng-zhi-wei-.pptx

编号:1035855 PPTX 33页 86.76MB 下载积分:VIP专享
下载报告请您先登录!

1、Higress 在 AI 与 MCP 网关场景下的探索与实践,NVIDIA 高级工程师,Higress Maintainer,2025/11/15,程治玮,程治玮嘉宾职位:NVIDIA 高级工程师,Higress Maintainer,个人简介:开源爱好者,专注云原生、AI Infra 与 Elastic Stack 技术生态,形象照,CONTENT,目录,01,AI 网关简介,02,Higress AI 网关核心功能介绍,03,Higress MCP 实践与应用,04,Demo,01 AI 网关简介,网关演进形态概览,伴随软件架构的演进网关形态也在持续进化,K8S 成为统一运维界面,AI 成

2、为流量增长的核心驱动力,模型服务提供商(MaaS)的接入层:部署在模型推理服务之前,通过智能的负载均衡策略将请求 转发给后端最合适的计算资源AI 应用的开发网关:屏蔽不同厂商 API 的协议差异,提供一个统一的调用接口企业内部的中央 AI 网关:统一的安全管控、成本审计与分摊MCP 工具生态的统一入口:集中管理 MCP 工具的调用请求、REST API 与 MCP 的协议转换,AI 网关的应用场景,02 Higress AI 网关核心功能介绍,Higress AI 网关核心功能,模型切换,模型切换的核心价值,业务需求适配:根据业务复杂性或性能要求选择不同模型。数据隐私与合规性:在处理敏感数据时

3、,可能需要切换到符合特定法规的模型,确保数据处理的安全性。性能优化:根据实时性能需求,可能会切换到更快的模型以减少延迟。成本与性能平衡:根据预算动态选择性价比最优的模型领域特定需求:针对特定领域(如法律、医学),可能需要切换到在相关领域微调过的模型,以提高推理准确性。,AI Agent,Backend Service,基于 OpenAI 协议,Body 中带有 model 名称,AI API 配置:多模型服务(按模型名称)模型名称使用 Glob 语法匹配模型,如 model-*,model-?,model=deepseek-r1,model=qwen-max,LLM 服务 Fallback,A

4、I Agent,Backend Service,当请求主 LLM 服务异常报错时,LLM 服务 Fallback 的核心价值,当主 LLM 服务因为各种原因出现异常,不能提供服务时,网关侧可以快速将请求 Fallback 到配置的备选 LLM 服务。这样保证了业务的持续性,争取了排查主 LLM 服务问题的时间。,自动将请求 Fallback 到备用 LLM 服务,多 API Key 管理,AI Agent,Backend Service,AI 服务维度管理 API Key:OpenAI 服务:openai_api_key_1openai_api_key_2openai_api_key_3Dee

5、pSeek 服务:deepseek_api_key_1deepseek _api_key_2deepseek _api_key_3,假设每个 API Key 有 1000 QPS 上限,维护 N 个 API Key 便有 1000*N QPS 上限,多 API Key 管理的核心价值,突破 QPS 上限:通过管理闭源 LLM 或 LLM 托管平台的多个 API Key,变相提升 QPS 上限,提升业务性能。,像 ChatGPT,豆包这类闭源 LLM,或者百炼这种托管 LLM 平台,都是以提供 API 的方式供大家使用 LLM 的能力,但是受限底层 GPU 资源的压力,以及整体平台的稳定性,每个

6、用户都有请求 QPS 的最大限制(基于平台的 API Key 的维度),且上调比较困难。,基于 Token 维度的限流,AI Agent,Backend Service,提供扩展点,接入 Redis 实现 Token 维度的限流能力,基于 Token 维度限流的核心价值,成本管理:LLM 的费用通常基于 Token 数量计算,限流帮助用户避免超支。例如,服务提供商可能按 Token 使用量提供不同定价层。资源管理:LLM 需要大量计算资源,限流防止系统过载,确保所有用户都能获得稳定性能,尤其在高峰期。用户分层:可以基于 Consumer Id 或者 API Key 进行 Token 限流。防止

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(12-higress-zai-ai-yu-mcp-wang-guan-chang-jing-xia-de-tan-suo-yu-shi-jian-cheng-zhi-wei-.pptx)为本站 (data) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠