I_O Extended 2025062804 张世欣.pdf-三个皮匠报告

1、Google AI Edge边缘智能应用、模型和框架张世欣（拭心）张世欣（拭心）Google Android Developer Expert AI EngineerEdge User IntentGoogle I/O Extended 25Proprietary&ConfidentialWhat&WhyGoogle I/O Extended 25Proprietary&Confidentialhttps:/ai.google.dev/edgeGoogle I/O Extended 25Proprietary&ConfidentialLiteRT(TensorFlow Lite)：更底层的模型

2、运行时模型架构和NPU 推理优化MediaPipe Tasks：开箱即用的跨平台 API 和库，比如LLM 推理、Function Calling、RAGGoogle I/O Extended 25Proprietary&ConfidentialMediaPipe Tasks测下来比较好用的：LLM 推理、Function Calling、RAG、文本分类、图片分类Google I/O Extended 25Proprietary&ConfidentialShixin Zhang“端智能是未来”为什么要了解 AI Edge？Google I/O Extended 25Proprietary&C

3、onfidential需求与趋势逐渐强烈的需求：个性化、实时化云端模型的局限：成本、延时手机芯片算力逐渐强大Google I/O Extended 25Proprietary&ConfidentialGoogle AI Edge GalleryGoogle I/O Extended 25Proprietary&ConfidentialGallery体验 Google AI Edge 相关能力1.图片问答2.尝试不同的提示词3.文字聊天本地运行，无需网络Google I/O Extended 25Proprietary&ConfidentialGallery默认模型列表：1.Gemma 3n 2

4、B/4B int4 2.Gemma 3 1B3.Qwen 2.5 1.5BQwen 2.5-1.5B 有商业案例Gemma 3n 2B 能力强劲Google I/O Extended 25Proprietary&ConfidentialGalleryPrompt Lab：不同类型的文本生成模版，比如语气改写、代码生成、内容总结等等AI Chat：多轮对话Google I/O Extended 25Proprietary&ConfidentialGemma 3nhttps:/ I/O Extended 25Proprietary&ConfidentialGemma 3nGemma 3n E2B/

5、E4BE:有效参数 Effective parameters尽管模型的参数量较大，但在实际运行时，它会使用一个更小的有效参数集，从而降低内存占用和计算需求，使其能够在资源较少的设备上高效运行https:/huggingface.co/google/gemma-3n-E2B-it-litert-previewGoogle I/O Extended 25Proprietary&ConfidentialGemma 3n适合这些业务场景：1.实时 AI 互动，因为它能够理解用户环境中的视觉和听觉信息2.以音频为中心的应用，包括实时语音转录、翻译和丰富的语音驱动互动支持 Google AI Studio

6、和Google AI Edge 两种方式使用https:/Google I/O Extended 25Proprietary&ConfidentialMediaPipe LLMInferenceGoogle I/O Extended 25Proprietary&ConfidentialLLM Inference推理：使用训练好的大型语言模型来处理新的输入数据并生成结果每次对话、生成、工具调用，背后都是一次 InferenceLLM Inference=Prefill（大输入）+Decode（小步生成）+KV Cache（记忆优化）Google I/O Extended 25Proprieta

I_O Extended 2025062804 张世欣.pdf

相关报告