推理与基础设施 · 已验证

KServe 0.19.0-rc0 推进 LLMInferenceService 缓存、扩缩容与双协议路由

官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由，以及 readiness 事件与指标可靠性修复。

发布时间 2026/05/28 10:19 · 发现时间 2026/06/07 07:10

采用建议: 观察并试点
影响范围: 模型服务
成熟度: 官方发布，需结合本地环境验证

技术变化

官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由，以及 readiness 事件与指标可靠性修复。

架构影响

这意味着私有模型平台可以把模型缓存、协议入口、扩缩容策略和 GPU 异构调度作为同一控制面设计，但上线前必须针对 RC 版本建立兼容回归和灰度验证。

落地步骤

先在非核心模型池验证吞吐、延迟和兼容性，再进入主推理集群。
把这条变化归入“推理与基础设施”专题，并同步检查相关运行手册、依赖版本和回滚路径。

风险边界

关注模型加载、显存占用、多节点调度和版本回滚窗口。
若官方来源没有覆盖你的运行环境，先不要把结论直接推广到生产链路。

验证清单

用冒烟请求、批量压测、冷启动和多节点故障场景验证服务。
保留官方来源、测试结果、采用决策和回滚条件，作为后续复核依据。

原始来源

KServe · KServe v0.19.0-rc0

来源类型：official · 可信度：high · 状态：verified

相关内容