词汇表#
常用缩略语和术语列表
术语 |
定义 |
---|---|
Audio2Face-2D |
Audio2Face-2D (A2F-2D) 是一种生成模型,可将音频输入转换为提供的 2D 肖像照片的逼真 2D 嘴部运动动画。 |
Audio2Face-3D |
Audio2Face-3D (A2F-3D) 是一种生成式 AI 技术,可将音频输入转换为逼真的 3D 面部动画,包括情感表达。 |
动画图 |
NVIDIA 动画图是 NVIDIA Omniverse 平台中的一个运行时框架,用于骨骼动画的混合、播放和控制。 |
ASR |
自动语音识别 (ASR),或语音转文本,是将人类语音解码并转换为数字化文本的过程和软件的组合。 |
Audio2Emotion |
NVIDIA Audio2Emotion 是 NVIDIA Audio2Face-3D 技术的一个组件,它使用 AI 从语音中检测情感状态,并相应地调整 3D 角色的面部动画。 |
AWS |
Amazon Web Services (AWS) 是一个综合性的云计算平台,按需提供 IaaS、PaaS 和 SaaS 解决方案。它提供广泛的服务,包括计算能力、数据库存储和内容交付。 |
Azure |
Microsoft Azure 是微软的公共云计算平台,提供 IaaS、PaaS、SaaS 和无服务器功能。它支持各种技术,并按需付费运营。 |
裸金属 |
裸金属服务器:完全专用于单个用户或租户的物理服务器,提供对服务器硬件的直接访问,没有任何虚拟化层。 |
CSP |
云服务提供商 (CSP) 是一家提供云计算服务各种组件的公司,使企业和个人能够通过互联网访问和使用计算资源。示例 CSP
|
数字人 |
数字人是由人工智能驱动的人类虚拟表示,它结合了计算机图形学、计算机视觉和人工智能,以创建高度逼真和交互式的虚拟角色。 |
GCP |
Google Cloud Platform (GCP) 是一套云计算服务,提供用于构建、部署和管理应用程序的工具。它包括计算能力、存储、数据库和机器学习等服务,运行在 Google 的全球基础设施上。 |
护栏 |
在大型语言模型 (LLM) 的上下文中,护栏是关键的安全措施,旨在监控、控制和确保这些强大 AI 系统的安全和负责任的运行。 |
Helm |
Kubernetes 的包管理器,通过使用预配置的包(称为 Helm charts)简化了 Kubernetes 应用程序的安装和管理过程。 |
Kubernetes |
一种广泛使用的容器编排平台,旨在自动化容器化应用程序的部署、扩展和管理。 |
LLM |
大型语言模型 (LLM) 是深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。 |
NAT |
网络地址转换 (NAT) 是一种用于管理和节省网络内 IP 地址的技术,尤其是在可用 IPv4 地址数量有限的情况下。 |
NeMo |
NVIDIA NeMo 是一个端到端平台,用于在任何地方开发自定义生成式 AI,包括大型语言模型 (LLM)、视觉语言模型 (VLM)、视频模型和语音 AI。 |
NGC Catalog |
NGC (Nvidia GPU Cloud) Catalog 是 GPU 优化软件的精选集合,包括容器、预训练模型、Kubernetes 部署的 Helm charts 以及包含软件开发工具包 (SDK) 的行业特定 AI 工具包。 |
NLP |
自然语言处理 (NLP) 是应用 AI 来处理和分析文本或语音数据,以便理解、解释、分类和/或从内容中提取见解。 |
NVIDIA ACE |
NVIDIA ACE (Avatar Cloud Engine) 是一套全面的技术和工具,旨在利用生成式 AI 将数字人栩栩如生。 |
NVIDIA Blueprint |
NVIDIA Blueprints 是预定义的、预训练的 AI 工作流程,旨在简化和加速各种 AI 应用程序的开发。 |
NVIDIA GPU |
NVIDIA 图形处理单元 (GPU) 是一种专门的电子电路,专为图形渲染和高速数学计算而设计,用于游戏、专业图形、AI 和高性能计算。 |
NVIDIA Maxine |
NVIDIA Maxine 是一套 GPU 加速的 SDK 和 NIM 微服务,可增强实时通信的音频、视频和增强现实效果,包括降噪、视频升级和眼神交流校正等功能。 |
NVIDIA NIM |
NVIDIA 推理微服务 (NIM) 是一组易于使用的微服务,旨在加速生成式 AI 模型在云、数据中心和工作站环境中的部署。NIM 提供预优化的推理引擎,例如 TensorRT 和 TensorRT-LLM,以在 NVIDIA GPU 上运行 AI 模型,从而确保低延迟和高吞吐量性能。 |
NVIDIA Omniverse |
它是一个 API、SDK 和服务的平台,使开发人员能够将 OpenUSD、NVIDIA RTX™ 渲染技术和生成式物理 AI 集成到现有软件工具和仿真工作流程中,用于工业和机器人用例。 |
NVIDIA UCS |
NVIDIA UCS (Unified Cloud Services) 是一个低代码框架,旨在开发云原生、实时和多模态 AI 应用程序。它采用微服务架构,允许开发人员将微服务组合到云原生应用程序或服务中 |
OCI |
Oracle Cloud Infrastructure (OCI) 是一种公共云服务,提供 IaaS、PaaS 和 SaaS 解决方案,提供计算、存储、网络和数据库服务,具有安全性、可扩展性和合规性。 |
RAG |
检索增强生成 (RAG) 是一种生成式 AI 架构,它将大型语言模型 (LLM) 与数据检索组件相结合,以生成准确且最新的响应。它从外部知识库检索相关信息,并使用这些数据来告知生成的输出。这种方法提高了 LLM 的可靠性和准确性。 |
Riva |
NVIDIA Riva 是一个 AI 语音 SDK,提供一套用于构建会话式 AI 应用程序的工具,包括语音识别、文本转语音和自然语言处理功能,并针对 NVIDIA GPU 进行了优化。 |
RTSP |
实时流协议 (RTSP) 是一种网络协议,用于控制媒体流在服务器和客户端之间应如何进行流式传输。 |
SDR |
流分发与路由 (SDR) 提供了一种将媒体流分发到各个 pod 的方法,并负责路由和流状态管理。 |
STUN |
STUN (Session Traversal Utilities for NAT) 服务器是一种用于 VoIP (Voice over Internet Protocol) 和其他实时通信系统中的服务器,以帮助防火墙或 NAT (Network Address Translation) 设备后的客户端与其他客户端连接。 |
TTS |
文本转语音是一种语音合成形式,可将任何文本字符字符串转换为语音输出。 |
TURN |
TURN (Traversal Using Relays around NAT) 是一种网络协议和服务器技术,旨在促进位于网络地址转换 (NAT) 系统或防火墙之后的设备之间的通信,在这些情况下,直接对等连接是不可能的。 |
语音字体 |
指 NVIDIA 语音字体微服务。此功能将输入音频中说话者的音色转换为参考音频的音色,同时保留输入中的语言内容和韵律。 |
UMIM |
统一多模态交互管理 (UMIM) 在交互管理器 (IM)(决策单元)和执行来自 IM 命令的交互系统之间提供交互级别接口。 |
语音字体 |
指 NVIDIA 语音字体微服务。此功能将输入音频中说话者的音色转换为参考音频的音色,同时保留输入中的语言内容和韵律。 |
VST |
NVIDIA 视频存储工具包 (VST),也称为 VMS (视频管理系统),管理音频和视频流,并提供对来自存储的离线流的按需访问。它接受来自前端 UI 应用程序的 WebRTC 流,并输出 RTSP 流以进行进一步处理。 |