龙蜥社区MeetUp-2026智算技术沙龙嘉宾演讲PPT合集（共7套打包）

更新时间：2026-03-10 报告数量：7份

龙蜥社区MeetUp-2026智算技术沙龙嘉宾演讲PPT合集

资源包简介：

1、蔡尚铭SGLang社区Core Developer2026/01/31Milestones&Recent Milestones&Recent HighlightHighlight02.02.ContentContentSGLang OverviewSGLang Overview01.01.Future Roadmap Future Roadmap(2026 Q1)(2026 Q1。

2、1.Transmission:ZMQ IPC OverheadBottleneck:Serialization and memory copying latency when moving massive vision tensors across process boundaries(Tokenizer Scheduler).Overview:Critical Bottlenecks in t。

3、区庆亮：清华大学研究生，KTransformers 核心开发者https:/ SPR+8*DDR5-4800规格80GB VRAM，2 TBps$15,0008*64GB DRAM，8*40GB/s$8,000带宽成本$7.5 per GBps$25 per GBps容量成本$187 per GB$15.6 per GB注：价格随时间波动大，仅供意会适合稀疏 5B（128K 上下文）17B654。

4、王悉宇阿里云智能集团技术专家阿里云Tair KVCache Manager 负责人阿里云数据库 Tair KVCacheTair KVCache是阿里云数据库Tair团队面向大模型推理场景推出的KVCache缓存服务。依托Tair在内存缓存和存储领域的深厚积累，积极服务LLM Infra场景，携手SGLang、Mooncake等开源社区共同推动KVCache相关技术发展和落地，提供企业级KVCa。

5、当代模型（包括开源与闭源）正快速向多模态（Multi-modal）和 Omni 方向发展Omni 模型拥有多种输入（文字/图像/视频/音频）与输出组合Gemini、Qwen-Omni 等模型具备更复杂的数据流与互联结构传统 LLM 架构设计不能直接处理这种复杂且多路径的数据流什么是 Omni 模型Omni 模型同时涉及多个子模块，例如：文本编码器视觉编码器思考（Thinker）模块生成（T。

6、共建大模型推理生态：Mooncake、KTransformers 与 SGLang杨珂趋境科技技术专家|Mooncake 核心贡献者区庆亮清华大学研究生|KTransformers 核心开发者Kimi 底层推理架构承载了 Kimi 80%以上的流量将 Kimi 的吞吐量提升了 75%在高负载情况下仍严格保障 SLOMoonshot+Tsinghua KVCache.AI teamFAST。

7、思明&方舟公司介绍：算秩未来目录性能性能测试测试01.01.思明思明Investment promotion cooperation plan.Investment promotion cooperation plan.目录内容目录内容架构设计架构设计02.02.方舟方舟架构设计架构设计核心能力核心能力未来规划未来规划应用场景应用场景快如内存，大如云盘SolMM架构设计分布式缓存服务极致。

展开阅读全文

Es****e...

该用户很懒，什么也没介绍

龙蜥社区MeetUp-2026智算技术沙龙嘉宾演讲PPT合集（共7套打包）

报告合集目录

报告预览

相关合集

其他合集