推理与基础设施 · 已验证

Triton Inference Server 2.69.0 加强 vLLM 多 GPU 编排与 HTTP 安全硬化

官方版本新增 vLLM backend 的 GPU_DEVICE_IDS、Azure Managed Identity 模型仓库认证和 Rust gRPC 客户端，同时限制 HTTP 分块数量、拒绝保留参数覆盖与重复输出名，以降低推理入口的资源耗尽与请求污染风险。

发布时间 2026/06/03 01:33 · 发现时间 2026/06/07 07:10

采用建议: 观察并试点
影响范围: 模型服务
成熟度: 官方发布，需结合本地环境验证

技术变化

官方版本新增 vLLM backend 的 GPU_DEVICE_IDS、Azure Managed Identity 模型仓库认证和 Rust gRPC 客户端，同时限制 HTTP 分块数量、拒绝保留参数覆盖与重复输出名，以降低推理入口的资源耗尽与请求污染风险。

架构影响

AI 推理平台可以更细粒度地绑定多 GPU 模型实例并减少静态云凭据依赖，但需要把请求校验、身份认证和后端资源分配一起纳入推理网关基线。

落地步骤

先在非核心模型池验证吞吐、延迟和兼容性，再进入主推理集群。
把这条变化归入“推理与基础设施”专题，并同步检查相关运行手册、依赖版本和回滚路径。

风险边界

关注模型加载、显存占用、多节点调度和版本回滚窗口。
若官方来源没有覆盖你的运行环境，先不要把结论直接推广到生产链路。

验证清单

用冒烟请求、批量压测、冷启动和多节点故障场景验证服务。
保留官方来源、测试结果、采用决策和回滚条件，作为后续复核依据。

原始来源

NVIDIA · Release 2.69.0 corresponding to NGC container 26.05

来源类型：official · 可信度：high · 状态：verified

相关内容