LLM 支持
我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。然而,由于使用对话 rails 以及大多数预定义的输入和输出 rails(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大到可以使用。
评估实验
本文档旨在概述我们为评估各种 LLM 在不同类型 rails 上的性能而采用的评估实验。
有关 guardrails 评估的更多详细信息,包括数据集和定量结果,请阅读本文档。评估工具在同一文件中描述,有关主题摘要,请阅读用户指南中的此部分。Guardrails 中可用的任何新 LLM 都应使用至少这组工具进行评估。
LLM 支持和指导
下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点介绍了开箱即用的不同 rails。如果您想使用 LLM 并且在 prompts 文件夹中看不到提示,请同时查看 LLM 示例配置中定义的配置。
功能 |
gpt-3.5-turbo-instruct |
text-davinci-003 |
nemollm-43b |
llama-2-13b-chat |
falcon-7b-instruct |
gpt-3.5-turbo |
gpt-4 |
gpt4all-13b-snoozy |
vicuna-7b-v1.3 |
mpt-7b-instruct |
dolly-v2-3b |
HF Pipeline 模型 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
对话 Rails |
:heavy_check_mark: (0.74) |
:heavy_check_mark: (0.83) |
:heavy_check_mark: (0.82) |
:heavy_check_mark: (0.77) |
:heavy_check_mark: (0.76) |
:exclamation: (0.45) |
:exclamation |
:exclamation: (0.54) |
:exclamation: (0.54) |
:exclamation: (0.50) |
:exclamation: (0.40) |
:exclamation: (取决于模型) |
• 单个 LLM 调用 |
:heavy_check_mark: (0.83) |
:heavy_check_mark: (0.81) |
:heavy_check_mark |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
• 多步流程生成 |
实验性 |
实验性 |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
流式传输 |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
- |
- |
:heavy_check_mark |
:heavy_check_mark |
- |
- |
- |
- |
:heavy_check_mark |
幻觉检测(SelfCheckGPT 与 AskLLM) |
:heavy_check_mark |
:heavy_check_mark |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
:x |
AskLLM rails |
||||||||||||
• 越狱检测 |
:heavy_check_mark: (0.88) |
:heavy_check_mark: (0.88) |
:heavy_check_mark: (0.86) |
:x |
:x |
:heavy_check_mark: (0.85) |
:x |
:x |
:x |
:x |
:x |
:x |
• 输出审核 |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:x |
:x |
:heavy_check_mark: (0.85) |
:x |
:x |
:x |
:x |
:x |
:x |
• 事实核查 |
:heavy_check_mark: (0.81) |
:heavy_check_mark: (0.82) |
:heavy_check_mark: (0.81) |
:heavy_check_mark: (0.80) |
:x |
:heavy_check_mark: (0.83) |
:x |
:x |
:x |
:x |
:x |
:exclamation: (取决于模型) |
AlignScore 事实核查(独立于 LLM) |
:heavy_check_mark: (0.89) |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
ActiveFence 审核(独立于 LLM) |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
Llama Guard 审核(独立于 LLM) |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
Got It AI RAG TruthChecker (独立于 LLM) |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
Patronus Lynx RAG 幻觉检测(独立于 LLM) |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
:heavy_check_mark |
表格图例
:heavy_check_mark: - 支持(根据我们的实验和测试,该功能完全受 LLM 支持)
:exclamation: - 有限支持(实验和测试表明 LLM 在该功能方面表现不佳)
:x: - 不支持(实验表明 LLM-功能对的性能非常差,或者没有进行过实验)
- - 不适用(例如,模型支持流式传输,这取决于它们的部署方式)
上表中报告的每个 LLM-功能对的性能数字如下
银行业务数据集对话(主题)rails 评估
使用 MSMARCO 数据集进行事实核查和审核 rails 实验。更多详细信息请参阅评估文档。