推理与基础设施 · 已验证
KServe 0.19.0-rc0 推进 LLMInferenceService 缓存、扩缩容与双协议路由
官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由,以及 readiness 事件与指标可靠性修复。
- 采用建议
- 观察并试点
- 影响范围
- 模型服务
- 成熟度
- 官方发布,需结合本地环境验证
技术变化
- 官方预发布版本为 LLMInferenceService 增加 LocalModelCache 支持、异构 GPU 负载均衡样例、WVA 扩缩容测试、REST 与 gRPC 双协议路由,以及 readiness 事件与指标可靠性修复。
架构影响
- 这意味着私有模型平台可以把模型缓存、协议入口、扩缩容策略和 GPU 异构调度作为同一控制面设计,但上线前必须针对 RC 版本建立兼容回归和灰度验证。
落地步骤
- 先在非核心模型池验证吞吐、延迟和兼容性,再进入主推理集群。
- 把这条变化归入“推理与基础设施”专题,并同步检查相关运行手册、依赖版本和回滚路径。
风险边界
- 关注模型加载、显存占用、多节点调度和版本回滚窗口。
- 若官方来源没有覆盖你的运行环境,先不要把结论直接推广到生产链路。
验证清单
- 用冒烟请求、批量压测、冷启动和多节点故障场景验证服务。
- 保留官方来源、测试结果、采用决策和回滚条件,作为后续复核依据。
原始来源
来源类型:official · 可信度:high · 状态:verified