首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI SPPECH

    2025 Papers with Code平台趋势论文全解析:大模型研究新方向

    3.2 推理加速框架 推理加速框架通过优化模型的推理过程,显著提高模型的推理速度: 3.2.1 vLLM-2:高效的大语言模型推理框架 vLLM-2是vLLM推理框架的升级版,通过一系列优化技术,进一步提高了大语言模型的推理效率 通过更高效的批处理策略,提高吞吐量 KV缓存优化:优化键值缓存的管理策略,减少内存占用 投机解码增强:改进投机解码算法,提高解码效率 分布式推理协调:优化分布式推理中的协调机制,提高并行效率 根据论文实验结果,vLLM /skipformer/skipformer 层次化注意力跳跃连接 推理优化 GPTQ-v2 https://github.com/gptq-team/gptq 大语言模型高效INT4量化 推理优化 vLLM

    56510编辑于 2025-11-13
领券