搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
DeepSeek-V4 本地部署，SGLang 把活做绝了
集成这一整套体系工程，不是一两个补丁从 LMSYS 公开的 Day-0 对比图看，30K 上下文同口径单批 decode 下，SGLang 明显领先另一家开源引擎——而且对手在这个口径里其实是带伤上阵：B200 上 MTP
2.2K20编辑于 2026-05-08
每周AI论文速递（260209-260213）
该模型通过交错的3:1滑动窗口/全注意力机制以及多令牌预测 (Multi-Token Prediction, MTP-3) 进行优化，旨在降低多轮智能体交互的延迟和成本。
61910编辑于 2026-03-02