搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI SPPECH
2025 Papers with Code平台趋势论文全解析：大模型研究新方向
3.2 推理加速框架推理加速框架通过优化模型的推理过程，显著提高模型的推理速度： 3.2.1 vLLM-2：高效的大语言模型推理框架 vLLM-2是vLLM推理框架的升级版，通过一系列优化技术，进一步提高了大语言模型的推理效率通过更高效的批处理策略，提高吞吐量 KV缓存优化：优化键值缓存的管理策略，减少内存占用投机解码增强：改进投机解码算法，提高解码效率分布式推理协调：优化分布式推理中的协调机制，提高并行效率根据论文实验结果，vLLM /skipformer/skipformer 层次化注意力跳跃连接推理优化 GPTQ-v2 https://github.com/gptq-team/gptq 大语言模型高效INT4量化推理优化 vLLM
57210编辑于 2025-11-13