12-higress-zai-ai-yu-mcp-wang-guan-chang-jing-xia-de-tan-suo-yu-shi-jian-cheng-zhi-wei-.pptx-在线下载-三个皮匠报告

1、Higress 在 AI 与 MCP 网关场景下的探索与实践,NVIDIA 高级工程师，Higress Maintainer,2025/11/15,程治玮,程治玮嘉宾职位：NVIDIA 高级工程师，Higress Maintainer,个人简介：开源爱好者，专注云原生、AI Infra 与 Elastic Stack 技术生态,形象照,CONTENT,目录,01,AI 网关简介,02,Higress AI 网关核心功能介绍,03,Higress MCP 实践与应用,04,Demo,01 AI 网关简介,网关演进形态概览,伴随软件架构的演进网关形态也在持续进化，K8S 成为统一运维界面，AI 成

2、为流量增长的核心驱动力,模型服务提供商（MaaS）的接入层：部署在模型推理服务之前，通过智能的负载均衡策略将请求转发给后端最合适的计算资源AI 应用的开发网关：屏蔽不同厂商 API 的协议差异，提供一个统一的调用接口企业内部的中央 AI 网关：统一的安全管控、成本审计与分摊MCP 工具生态的统一入口：集中管理 MCP 工具的调用请求、REST API 与 MCP 的协议转换,AI 网关的应用场景,02 Higress AI 网关核心功能介绍,Higress AI 网关核心功能,模型切换,模型切换的核心价值,业务需求适配：根据业务复杂性或性能要求选择不同模型。数据隐私与合规性：在处理敏感数据时

3、，可能需要切换到符合特定法规的模型，确保数据处理的安全性。性能优化：根据实时性能需求，可能会切换到更快的模型以减少延迟。成本与性能平衡：根据预算动态选择性价比最优的模型领域特定需求：针对特定领域（如法律、医学），可能需要切换到在相关领域微调过的模型，以提高推理准确性。,AI Agent,Backend Service,基于 OpenAI 协议，Body 中带有 model 名称,AI API 配置：多模型服务（按模型名称）模型名称使用 Glob 语法匹配模型，如 model-*，model-?,model=deepseek-r1,model=qwen-max,LLM 服务 Fallback,A

4、I Agent,Backend Service,当请求主 LLM 服务异常报错时,LLM 服务 Fallback 的核心价值,当主 LLM 服务因为各种原因出现异常，不能提供服务时，网关侧可以快速将请求 Fallback 到配置的备选 LLM 服务。这样保证了业务的持续性，争取了排查主 LLM 服务问题的时间。,自动将请求 Fallback 到备用 LLM 服务,多 API Key 管理,AI Agent,Backend Service,AI 服务维度管理 API Key：OpenAI 服务：openai_api_key_1openai_api_key_2openai_api_key_3Dee

5、pSeek 服务：deepseek_api_key_1deepseek _api_key_2deepseek _api_key_3,假设每个 API Key 有 1000 QPS 上限，维护 N 个 API Key 便有 1000*N QPS 上限,多 API Key 管理的核心价值,突破 QPS 上限：通过管理闭源 LLM 或 LLM 托管平台的多个 API Key，变相提升 QPS 上限，提升业务性能。,像 ChatGPT，豆包这类闭源 LLM，或者百炼这种托管 LLM 平台，都是以提供 API 的方式供大家使用 LLM 的能力，但是受限底层 GPU 资源的压力，以及整体平台的稳定性，每个

6、用户都有请求 QPS 的最大限制（基于平台的 API Key 的维度），且上调比较困难。,基于 Token 维度的限流,AI Agent,Backend Service,提供扩展点，接入 Redis 实现 Token 维度的限流能力,基于 Token 维度限流的核心价值,成本管理：LLM 的费用通常基于 Token 数量计算，限流帮助用户避免超支。例如，服务提供商可能按 Token 使用量提供不同定价层。资源管理：LLM 需要大量计算资源，限流防止系统过载，确保所有用户都能获得稳定性能，尤其在高峰期。用户分层：可以基于 Consumer Id 或者 API Key 进行 Token 限流。防止