词汇表#

常用缩略语和术语列表

缩略语和术语#

术语

定义

Audio2Face-2D

Audio2Face-2D (A2F-2D) 是一种生成模型,可将音频输入转换为提供的 2D 肖像照片的逼真 2D 嘴部运动动画。

Audio2Face-3D

Audio2Face-3D (A2F-3D) 是一种生成式 AI 技术,可将音频输入转换为逼真的 3D 面部动画,包括情感表达。

动画图

NVIDIA 动画图是 NVIDIA Omniverse 平台中的一个运行时框架,用于骨骼动画的混合、播放和控制。

ASR

自动语音识别 (ASR),或语音转文本,是将人类语音解码并转换为数字化文本的过程和软件的组合。

Audio2Emotion

NVIDIA Audio2Emotion 是 NVIDIA Audio2Face-3D 技术的一个组件,它使用 AI 从语音中检测情感状态,并相应地调整 3D 角色的面部动画。

AWS

Amazon Web Services (AWS) 是一个综合性的云计算平台,按需提供 IaaS、PaaS 和 SaaS 解决方案。它提供广泛的服务,包括计算能力、数据库存储和内容交付。

Azure

Microsoft Azure 是微软的公共云计算平台,提供 IaaS、PaaS、SaaS 和无服务器功能。它支持各种技术,并按需付费运营。

裸金属

裸金属服务器:完全专用于单个用户或租户的物理服务器,提供对服务器硬件的直接访问,没有任何虚拟化层。

CSP

云服务提供商 (CSP) 是一家提供云计算服务各种组件的公司,使企业和个人能够通过互联网访问和使用计算资源。示例 CSP

  • Amazon Web Services (AWS)

  • Microsoft Azure

  • Google Cloud Platform (GCP)

  • Oracle Cloud Infrastructure (OCI)

数字人

数字人是由人工智能驱动的人类虚拟表示,它结合了计算机图形学、计算机视觉和人工智能,以创建高度逼真和交互式的虚拟角色。

GCP

Google Cloud Platform (GCP) 是一套云计算服务,提供用于构建、部署和管理应用程序的工具。它包括计算能力、存储、数据库和机器学习等服务,运行在 Google 的全球基础设施上。

护栏

在大型语言模型 (LLM) 的上下文中,护栏是关键的安全措施,旨在监控、控制和确保这些强大 AI 系统的安全和负责任的运行。

Helm

Kubernetes 的包管理器,通过使用预配置的包(称为 Helm charts)简化了 Kubernetes 应用程序的安装和管理过程。

Kubernetes

一种广泛使用的容器编排平台,旨在自动化容器化应用程序的部署、扩展和管理。

LLM

大型语言模型 (LLM) 是深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。

NAT

网络地址转换 (NAT) 是一种用于管理和节省网络内 IP 地址的技术,尤其是在可用 IPv4 地址数量有限的情况下。

NeMo

NVIDIA NeMo 是一个端到端平台,用于在任何地方开发自定义生成式 AI,包括大型语言模型 (LLM)、视觉语言模型 (VLM)、视频模型和语音 AI。

NGC Catalog

NGC (Nvidia GPU Cloud) Catalog 是 GPU 优化软件的精选集合,包括容器、预训练模型、Kubernetes 部署的 Helm charts 以及包含软件开发工具包 (SDK) 的行业特定 AI 工具包。

NLP

自然语言处理 (NLP) 是应用 AI 来处理和分析文本或语音数据,以便理解、解释、分类和/或从内容中提取见解。

NVIDIA ACE

NVIDIA ACE (Avatar Cloud Engine) 是一套全面的技术和工具,旨在利用生成式 AI 将数字人栩栩如生。

NVIDIA Blueprint

NVIDIA Blueprints 是预定义的、预训练的 AI 工作流程,旨在简化和加速各种 AI 应用程序的开发。

NVIDIA GPU

NVIDIA 图形处理单元 (GPU) 是一种专门的电子电路,专为图形渲染和高速数学计算而设计,用于游戏、专业图形、AI 和高性能计算。

NVIDIA Maxine

NVIDIA Maxine 是一套 GPU 加速的 SDK 和 NIM 微服务,可增强实时通信的音频、视频和增强现实效果,包括降噪、视频升级和眼神交流校正等功能。

NVIDIA NIM

NVIDIA 推理微服务 (NIM) 是一组易于使用的微服务,旨在加速生成式 AI 模型在云、数据中心和工作站环境中的部署。NIM 提供预优化的推理引擎,例如 TensorRT 和 TensorRT-LLM,以在 NVIDIA GPU 上运行 AI 模型,从而确保低延迟和高吞吐量性能。

NVIDIA Omniverse

它是一个 API、SDK 和服务的平台,使开发人员能够将 OpenUSD、NVIDIA RTX™ 渲染技术和生成式物理 AI 集成到现有软件工具和仿真工作流程中,用于工业和机器人用例。

NVIDIA UCS

NVIDIA UCS (Unified Cloud Services) 是一个低代码框架,旨在开发云原生、实时和多模态 AI 应用程序。它采用微服务架构,允许开发人员将微服务组合到云原生应用程序或服务中

OCI

Oracle Cloud Infrastructure (OCI) 是一种公共云服务,提供 IaaS、PaaS 和 SaaS 解决方案,提供计算、存储、网络和数据库服务,具有安全性、可扩展性和合规性。

RAG

检索增强生成 (RAG) 是一种生成式 AI 架构,它将大型语言模型 (LLM) 与数据检索组件相结合,以生成准确且最新的响应。它从外部知识库检索相关信息,并使用这些数据来告知生成的输出。这种方法提高了 LLM 的可靠性和准确性。

Riva

NVIDIA Riva 是一个 AI 语音 SDK,提供一套用于构建会话式 AI 应用程序的工具,包括语音识别、文本转语音和自然语言处理功能,并针对 NVIDIA GPU 进行了优化。

RTSP

实时流协议 (RTSP) 是一种网络协议,用于控制媒体流在服务器和客户端之间应如何进行流式传输。

SDR

流分发与路由 (SDR) 提供了一种将媒体流分发到各个 pod 的方法,并负责路由和流状态管理。

STUN

STUN (Session Traversal Utilities for NAT) 服务器是一种用于 VoIP (Voice over Internet Protocol) 和其他实时通信系统中的服务器,以帮助防火墙或 NAT (Network Address Translation) 设备后的客户端与其他客户端连接。

TTS

文本转语音是一种语音合成形式,可将任何文本字符字符串转换为语音输出。

TURN

TURN (Traversal Using Relays around NAT) 是一种网络协议和服务器技术,旨在促进位于网络地址转换 (NAT) 系统或防火墙之后的设备之间的通信,在这些情况下,直接对等连接是不可能的。

语音字体

指 NVIDIA 语音字体微服务。此功能将输入音频中说话者的音色转换为参考音频的音色,同时保留输入中的语言内容和韵律。

UMIM

统一多模态交互管理 (UMIM) 在交互管理器 (IM)(决策单元)和执行来自 IM 命令的交互系统之间提供交互级别接口。

语音字体

指 NVIDIA 语音字体微服务。此功能将输入音频中说话者的音色转换为参考音频的音色,同时保留输入中的语言内容和韵律。

VST

NVIDIA 视频存储工具包 (VST),也称为 VMS (视频管理系统),管理音频和视频流,并提供对来自存储的离线流的按需访问。它接受来自前端 UI 应用程序的 WebRTC 流,并输出 RTSP 流以进行进一步处理。