VLLM与PagedAttention实现快速大模型推理服务
本文介绍了一种名为 PagedAttention 的新型注意力算法和基于该算法构建的大模型服务系统 vLLM。PagedAttention 算法通过在非连续的分页内存中存储连续的键值对,提高了内存管理效率。vLLM 系统通过块级内存管理和抢占式请求调度,实现了高效的内存利用,显著提高了 LLM 的吞吐量。实验结果表明,vLLM 在保持相同延迟水平的情况下,将吞吐量提高了 2-4 倍。
发布日期:
2024-07-20 08:04:19