推理与基础设施 · 已验证

KServe 0.19.0-rc0 推进 LLMInferenceService 缓存、扩缩容与双协议路由

官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由,以及 readiness 事件与指标可靠性修复。

发布时间 2026/05/28 10:19 · 发现时间 2026/06/07 07:10

  • KServe
  • LLMInferenceService
  • Autoscaling
采用建议
观察并试点
影响范围
模型服务
成熟度
官方发布,需结合本地环境验证

技术变化

  • 官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由,以及 readiness 事件与指标可靠性修复。

架构影响

  • 这意味着私有模型平台可以把模型缓存、协议入口、扩缩容策略和 GPU 异构调度作为同一控制面设计,但上线前必须针对 RC 版本建立兼容回归和灰度验证。

落地步骤

  • 先在非核心模型池验证吞吐、延迟和兼容性,再进入主推理集群。
  • 把这条变化归入“推理与基础设施”专题,并同步检查相关运行手册、依赖版本和回滚路径。

风险边界

  • 关注模型加载、显存占用、多节点调度和版本回滚窗口。
  • 若官方来源没有覆盖你的运行环境,先不要把结论直接推广到生产链路。

验证清单

  • 用冒烟请求、批量压测、冷启动和多节点故障场景验证服务。
  • 保留官方来源、测试结果、采用决策和回滚条件,作为后续复核依据。

原始来源

KServe · KServe v0.19.0-rc0

来源类型:official · 可信度:high · 状态:verified

相关内容