expert top-2 不同的是, DeepSeekV2 在模型架构上有非常具备影响力的创新:MLA + 大量的小 Expert 结合复杂 routing:[ shared 2 expert + top Tensor Parallel 需要重新设计 训练 infra 挑战2:Unbalanced Pipeline Parallelism 训练 infra 挑战3:shared 2 expert + top MoE Shared Expert MoE 部分在别家都是 8/16 Expert 选 top2 时, DeepSeekV2 设计了一种 Shared Expert 2 + Routed Expert top 在并行时,还限制了 单个 token (top-6)只能分配到至多 3 个 GPU 上。
尽管如此,Top-6 命中化合物在结构上与已知抑制剂高度相似(共享苯环、环己烷等结合相关基团),结构重叠超几何检验 p < 10⁻¹¹; 5. 联合使用 Boltz2 进行结合亲和力验证。