LLM 支持#

我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。然而,由于采用对话护栏以及大多数预定义的输入和输出护栏(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大到可以被使用。

评估实验#

本文档旨在概述我们为评估各种 LLM 在不同类型护栏方面的性能而采用的评估实验。

有关护栏评估的更多详细信息,包括数据集和定量结果,请阅读此文档。评估工具在同一文件中进行了描述,有关主题摘要,请阅读用户指南中的此部分。Guardrails 中可用的任何新 LLM 都应使用至少这组工具进行评估。

LLM 支持和指导#

下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点是开箱即用的不同护栏。如果您想使用 LLM,但在prompts 文件夹中看不到提示,请同时查看LLM 示例配置中定义的配置。

功能

gpt-3.5-turbo-instruct

text-davinci-003

nemollm-43b

llama-2-13b-chat

falcon-7b-instruct

gpt-3.5-turbo

gpt-4

gpt4all-13b-snoozy

vicuna-7b-v1.3

mpt-7b-instruct

dolly-v2-3b

HF Pipeline 模型

对话护栏

✔ (0.74)

✔ (0.83)

✔ (0.82)

✔ (0.77)

✔ (0.76)

❗ (0.45)

❗ (0.54)

❗ (0.54)

❗ (0.50)

❗ (0.40)

(取决于模型)

• 单个 LLM 调用

✔ (0.83)

✔ (0.81)

• 多步骤流程生成

实验性

实验性

流式传输

-

-

-

-

-

-

幻觉检测 (SelfCheckGPT with AskLLM)

AskLLM 护栏

• 越狱检测

✔ (0.88)

✔ (0.88)

✔ (0.86)

✔ (0.85)

• 输出审核

✔ (0.85)

• 事实核查

✔ (0.81)

✔ (0.82)

✔ (0.81)

✔ (0.80)

✔ (0.83)

(取决于模型)

AlignScore 事实核查(LLM 独立)

✔ (0.89)

ActiveFence 审核(LLM 独立)

Llama Guard 审核(LLM 独立)

Got It AI RAG TruthChecker (LLM 独立)

Patronus Lynx RAG 幻觉检测(LLM 独立)

GCP 文本审核(LLM 独立)

Patronus Evaluate API (LLM 独立)

表格图例

  • ✔ - 支持(根据我们的实验和测试,该功能完全受 LLM 支持

  • ❗ - 有限支持(实验和测试表明,LLM 在该功能方面表现不佳

  • ✖ - 不支持(实验表明性能非常差,或者尚未对 LLM 功能对进行实验

  • - - 不适用(例如,模型支持流式传输,这取决于它们的部署方式

上表中报告的每个 LLM 功能对的性能数字如下

  • 银行业务数据集对话(主题)护栏评估

  • 使用 MSMARCO 数据集进行事实核查和审核护栏实验。更多详细信息请参见评估文档