跳到主要内容
返回顶部
Ctrl
+
K
NVIDIA Triton 推理服务器
GitHub
NVIDIA Triton 推理服务器
GitHub
目录
首页
发行说明
兼容性矩阵
入门指南
基于后端的快速部署指南
TRT-LLM
vLLM
使用 HuggingFace 的 Python
PyTorch
ONNX
TensorFlow
Openvino
使用 TRT-LLM 的 LLM
多模态模型
Stable diffusion
扩展指南
多节点 (AWS)
多实例
AI 代理
约束解码
函数调用
客户端
API 参考
OpenAI API
KServe API
HTTP/REST 和 GRPC 协议
扩展
二进制张量数据扩展
分类扩展
调度策略扩展
序列扩展
共享内存扩展
模型配置扩展
模型仓库扩展
统计信息扩展
跟踪扩展
日志记录扩展
参数扩展
进程内 Triton 服务器 API
C/C++
Python
Kafka I/O
Rayserve
Java
客户端库
Python tritonclient 包 API
tritonclient
tritonclient.grpc
tritonclient.grpc.aio
tritonclient.grpc.auth
tritonclient.http
tritonclient.http.aio
tritonclient.http.auth
tritonclient.utils
tritonclient.utils.cuda_shared_memory
tritonclient.utils.shared_memory
服务器
并发模型执行
调度器
批处理器
模型管道
集成
业务逻辑脚本
状态管理
隐式状态管理
请求取消
速率限制器
缓存
指标
追踪
模型管理
仓库
配置
优化
控制
解耦模型
自定义算子
后端
TRT-LLM
vLLM
vLLM 后端
Multi-LoRA
Python 后端
PyTorch (LibTorch) 后端
ONNX Runtime
TensorFlow
TensorRT
FIL
DALI
自定义
性能基准测试和调优
GenAI 性能分析器
大型语言模型
视觉语言模型
嵌入模型
排序模型
多个 LoRA 适配器
性能分析器
推荐安装方法
推理负载模式
输入数据
测量模式
模型分析器
模型分析器 CLI
启动模式
目录
模型分析器指标
目录
模型分析器中的检查点
模型分析器报告
在 Kubernetes 集群上部署模型分析器
模型导航器
调试
指南
Python tritonclient 包 API
tritonclient
tritonclient
#
模块
grpc
http
utils