KV 缓存重用(又名:前缀缓存)#
如何使用#
通过将环境变量 NIM_ENABLE_KV_CACHE_REUSE 设置为 1 启用。有关更多信息,请参阅配置文档。
何时使用#
在超过 90% 的初始提示在多个请求中相同(仅在最后的 token 中有所不同)的情况下,实施键值缓存可以显著提高推理速度。这种方法利用了提示的高度相似性,从而可以有效重用计算资源,并最大限度地减少末尾变体的处理时间。
例如,当用户询问有关大型文档的问题时,大型文档在请求之间重复,但提示末尾的问题是不同的。当启用此功能时,通常在首个令牌时间 (TTFT) 方面有大约 2 倍的加速。
示例
大型表格输入,后跟关于该表格的问题
相同的大型表格输入,后跟关于该表格的不同问题
相同的大型表格输入,后跟关于该表格的不同问题
依此类推…
KV 缓存重用将从第二个请求及后续请求开始加速 TTFT。