LLM 支持#
我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。然而,由于采用对话护栏以及大多数预定义的输入和输出护栏(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大到可以被使用。
评估实验#
本文档旨在概述我们为评估各种 LLM 在不同类型护栏方面的性能而采用的评估实验。
有关护栏评估的更多详细信息,包括数据集和定量结果,请阅读此文档。评估工具在同一文件中进行了描述,有关主题摘要,请阅读用户指南中的此部分。Guardrails 中可用的任何新 LLM 都应使用至少这组工具进行评估。
LLM 支持和指导#
下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点是开箱即用的不同护栏。如果您想使用 LLM,但在prompts 文件夹中看不到提示,请同时查看LLM 示例配置中定义的配置。
功能 |
gpt-3.5-turbo-instruct |
text-davinci-003 |
nemollm-43b |
llama-2-13b-chat |
falcon-7b-instruct |
gpt-3.5-turbo |
gpt-4 |
gpt4all-13b-snoozy |
vicuna-7b-v1.3 |
mpt-7b-instruct |
dolly-v2-3b |
HF Pipeline 模型 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
对话护栏 |
✔ (0.74) |
✔ (0.83) |
✔ (0.82) |
✔ (0.77) |
✔ (0.76) |
❗ (0.45) |
❗ |
❗ (0.54) |
❗ (0.54) |
❗ (0.50) |
❗ (0.40) |
❗ (取决于模型) |
• 单个 LLM 调用 |
✔ (0.83) |
✔ (0.81) |
✔ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 多步骤流程生成 |
实验性 |
实验性 |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
流式传输 |
✔ |
✔ |
✔ |
- |
- |
✔ |
✔ |
- |
- |
- |
- |
✔ |
幻觉检测 (SelfCheckGPT with AskLLM) |
✔ |
✔ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
AskLLM 护栏 |
||||||||||||
• 越狱检测 |
✔ (0.88) |
✔ (0.88) |
✔ (0.86) |
✖ |
✖ |
✔ (0.85) |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 输出审核 |
✔ |
✔ |
✔ |
✖ |
✖ |
✔ (0.85) |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 事实核查 |
✔ (0.81) |
✔ (0.82) |
✔ (0.81) |
✔ (0.80) |
✖ |
✔ (0.83) |
✖ |
✖ |
✖ |
✖ |
✖ |
❗ (取决于模型) |
AlignScore 事实核查(LLM 独立) |
✔ (0.89) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
ActiveFence 审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Llama Guard 审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Got It AI RAG TruthChecker (LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Patronus Lynx RAG 幻觉检测(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
GCP 文本审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Patronus Evaluate API (LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
表格图例
✔ - 支持(根据我们的实验和测试,该功能完全受 LLM 支持)
❗ - 有限支持(实验和测试表明,LLM 在该功能方面表现不佳)
✖ - 不支持(实验表明性能非常差,或者尚未对 LLM 功能对进行实验)
- - 不适用(例如,模型支持流式传输,这取决于它们的部署方式)
上表中报告的每个 LLM 功能对的性能数字如下
银行业务数据集对话(主题)护栏评估
使用 MSMARCO 数据集进行事实核查和审核护栏实验。更多详细信息请参见评估文档。