LLM 支持

我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。然而,由于使用对话 rails 以及大多数预定义的输入和输出 rails(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大到可以使用。

评估实验

本文档旨在概述我们为评估各种 LLM 在不同类型 rails 上的性能而采用的评估实验。

有关 guardrails 评估的更多详细信息,包括数据集和定量结果,请阅读本文档。评估工具在同一文件中描述,有关主题摘要,请阅读用户指南中的此部分。Guardrails 中可用的任何新 LLM 都应使用至少这组工具进行评估。

LLM 支持和指导

下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点介绍了开箱即用的不同 rails。如果您想使用 LLM 并且在 prompts 文件夹中看不到提示,请同时查看 LLM 示例配置中定义的配置。

功能

gpt-3.5-turbo-instruct

text-davinci-003

nemollm-43b

llama-2-13b-chat

falcon-7b-instruct

gpt-3.5-turbo

gpt-4

gpt4all-13b-snoozy

vicuna-7b-v1.3

mpt-7b-instruct

dolly-v2-3b

HF Pipeline 模型

对话 Rails

:heavy_check_mark: (0.74)

:heavy_check_mark: (0.83)

:heavy_check_mark: (0.82)

:heavy_check_mark: (0.77)

:heavy_check_mark: (0.76)

:exclamation: (0.45)

:exclamation

:exclamation: (0.54)

:exclamation: (0.54)

:exclamation: (0.50)

:exclamation: (0.40)

:exclamation: (取决于模型)

• 单个 LLM 调用

:heavy_check_mark: (0.83)

:heavy_check_mark: (0.81)

:heavy_check_mark

:x

:x

:x

:x

:x

:x

:x

:x

:x

• 多步流程生成

实验性

实验性

:x

:x

:x

:x

:x

:x

:x

:x

:x

:x

流式传输

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

-

-

:heavy_check_mark

:heavy_check_mark

-

-

-

-

:heavy_check_mark

幻觉检测(SelfCheckGPT 与 AskLLM)

:heavy_check_mark

:heavy_check_mark

:x

:x

:x

:x

:x

:x

:x

:x

:x

:x

AskLLM rails

• 越狱检测

:heavy_check_mark: (0.88)

:heavy_check_mark: (0.88)

:heavy_check_mark: (0.86)

:x

:x

:heavy_check_mark: (0.85)

:x

:x

:x

:x

:x

:x

• 输出审核

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:x

:x

:heavy_check_mark: (0.85)

:x

:x

:x

:x

:x

:x

• 事实核查

:heavy_check_mark: (0.81)

:heavy_check_mark: (0.82)

:heavy_check_mark: (0.81)

:heavy_check_mark: (0.80)

:x

:heavy_check_mark: (0.83)

:x

:x

:x

:x

:x

:exclamation: (取决于模型)

AlignScore 事实核查(独立于 LLM)

:heavy_check_mark: (0.89)

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

ActiveFence 审核(独立于 LLM)

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

Llama Guard 审核(独立于 LLM)

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

Got It AI RAG TruthChecker (独立于 LLM)

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

Patronus Lynx RAG 幻觉检测(独立于 LLM)

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

:heavy_check_mark

表格图例

  • :heavy_check_mark: - 支持(根据我们的实验和测试,该功能完全受 LLM 支持

  • :exclamation: - 有限支持(实验和测试表明 LLM 在该功能方面表现不佳

  • :x: - 不支持(实验表明 LLM-功能对的性能非常差,或者没有进行过实验

  • - - 不适用(例如,模型支持流式传输,这取决于它们的部署方式

上表中报告的每个 LLM-功能对的性能数字如下

  • 银行业务数据集对话(主题)rails 评估

  • 使用 MSMARCO 数据集进行事实核查和审核 rails 实验。更多详细信息请参阅评估文档