跳到主要内容

Ctrl+K

NVIDIA Triton 推理服务器

GitHub

NVIDIA Triton 推理服务器

GitHub

目录

首页
发行说明
兼容性矩阵

入门指南

按后端快速部署指南
使用 TRT-LLM 的 LLM
多模态模型
Stable diffusion

扩展指南

多节点 (AWS)
多实例

AI 代理

约束解码
函数调用

客户端

API 参考
- OpenAI API
- KServe API
  - HTTP/REST 和 GRPC 协议
  - 扩展
    
    二进制张量数据扩展
    
    分类扩展
    
    调度策略扩展
    
    序列扩展
    
    共享内存扩展
    
    模型配置扩展
    
    模型仓库扩展
    
    统计信息扩展
    
    跟踪扩展
    
    日志记录扩展
    
    参数扩展
进程内 Triton 服务器 API
- C/C++
- Python
  - Kafka I/O
  - Rayserve
- Java
客户端库
Python tritonclient 包 API
- tritonclient

服务器

并发模型执行
调度器
批处理器
模型管线
- 集成
- 业务逻辑脚本
状态管理
- 隐式状态管理
请求取消
速率限制器
缓存
指标
追踪

模型管理

仓库
配置
优化
控制
解耦模型
自定义运算符

后端

TRT-LLM
vLLM
- vLLM 后端
- Multi-LoRA
Python 后端
PyTorch (LibTorch) 后端
ONNX Runtime
TensorFlow
TensorRT
FIL
DALI
自定义

性能基准测试和调优

GenAI 性能分析器
性能分析器
模型分析器
模型导航器

调试

指南

状态管理

状态管理#

previous

业务逻辑脚本

next

隐式状态管理

隐私政策 | 管理我的隐私 | 请勿出售或分享我的数据 | 服务条款 | 辅助功能 | 公司政策 | 产品安全 | 联系我们

版权所有 © 2018-2025，NVIDIA Corporation。

© . All rights reserved.