跳到主要内容
Ctrl+K
NVIDIA Triton Inference Server - Home

NVIDIA Triton 推理服务器

  • GitHub
NVIDIA Triton Inference Server - Home

NVIDIA Triton 推理服务器

  • GitHub

目录

  • 首页
  • 发行说明
  • 兼容性矩阵

入门指南

  • 按后端快速部署指南
    • TRT-LLM
    • vLLM
    • 使用 HuggingFace 的 Python
    • PyTorch
    • ONNX
    • TensorFlow
    • Openvino
  • 使用 TRT-LLM 的 LLM
  • 多模态模型
  • Stable diffusion

扩展指南

  • 多节点 (AWS)
  • 多实例

AI 代理

  • 约束解码
  • 函数调用

客户端

  • API 参考
    • OpenAI API
    • KServe API
      • HTTP/REST 和 GRPC 协议
      • 扩展
        • 二进制张量数据扩展
        • 分类扩展
        • 调度策略扩展
        • 序列扩展
        • 共享内存扩展
        • 模型配置扩展
        • 模型仓库扩展
        • 统计信息扩展
        • 跟踪扩展
        • 日志记录扩展
        • 参数扩展
  • 进程内 Triton 服务器 API
    • C/C++
    • Python
      • Kafka I/O
      • Rayserve
    • Java
  • 客户端库
  • Python tritonclient 包 API
    • tritonclient
      • tritonclient.grpc
        • tritonclient.grpc.aio
        • tritonclient.grpc.auth
      • tritonclient.http
        • tritonclient.http.aio
        • tritonclient.http.auth
      • tritonclient.utils
        • tritonclient.utils.cuda_shared_memory
        • tritonclient.utils.shared_memory

服务器

  • 并发模型执行
  • 调度器
  • 批处理器
  • 模型管线
    • 集成
    • 业务逻辑脚本
  • 状态管理
    • 隐式状态管理
  • 请求取消
  • 速率限制器
  • 缓存
  • 指标
  • 追踪

模型管理

  • 仓库
  • 配置
  • 优化
  • 控制
  • 解耦模型
  • 自定义运算符

后端

  • TRT-LLM
  • vLLM
    • vLLM 后端
    • Multi-LoRA
  • Python 后端
  • PyTorch (LibTorch) 后端
  • ONNX Runtime
  • TensorFlow
  • TensorRT
  • FIL
  • DALI
  • 自定义

性能基准测试和调优

  • GenAI 性能分析器
    • 大型语言模型
    • 视觉语言模型
    • 嵌入模型
    • 排序模型
    • 多个 LoRA 适配器
  • 性能分析器
    • 推荐安装方法
    • 推理负载模式
    • 输入数据
    • 测量模式
  • 模型分析器
    • 模型分析器 CLI
    • 启动模式
    • 目录
    • 模型分析器指标
    • 目录
    • 模型分析器中的检查点
    • 模型分析器报告
    • 在 Kubernetes 集群上部署模型分析器
  • 模型导航器

调试

  • 指南
  • 状态管理

状态管理#

previous

业务逻辑脚本

next

隐式状态管理

NVIDIA NVIDIA
隐私政策 | 管理我的隐私 | 请勿出售或分享我的数据 | 服务条款 | 辅助功能 | 公司政策 | 产品安全 | 联系我们

版权所有 © 2018-2025,NVIDIA Corporation。

© . All rights reserved.