KV 缓存重用(又名:前缀缓存)#

如何使用#

通过将环境变量 NIM_ENABLE_KV_CACHE_REUSE 设置为 1 启用。有关更多信息,请参阅配置文档。

何时使用#

在超过 90% 的初始提示在多个请求中相同(仅在最后的 token 中有所不同)的情况下,实施键值缓存可以显著提高推理速度。这种方法利用了提示的高度相似性,从而可以有效重用计算资源,并最大限度地减少末尾变体的处理时间。

例如,当用户询问有关大型文档的问题时,大型文档在请求之间重复,但提示末尾的问题是不同的。当启用此功能时,通常在首个令牌时间 (TTFT) 方面有大约 2 倍的加速。

示例

  • 大型表格输入,后跟关于该表格的问题

  • 相同的大型表格输入,后跟关于该表格的不同问题

  • 相同的大型表格输入,后跟关于该表格的不同问题

  • 依此类推…

KV 缓存重用将从第二个请求及后续请求开始加速 TTFT。