首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?

    expert top-2 不同的是, DeepSeekV2 在模型架构上有非常具备影响力的创新:MLA + 大量的小 Expert 结合复杂 routing:[ shared 2 expert + top Tensor Parallel 需要重新设计 训练 infra 挑战2:Unbalanced Pipeline Parallelism 训练 infra 挑战3:shared 2 expert + top MoE Shared Expert MoE 部分在别家都是 8/16 Expert 选 top2 时, DeepSeekV2 设计了一种 Shared Expert 2 + Routed Expert top 在并行时,还限制了 单个 token (top-6)只能分配到至多 3 个 GPU 上。

    1K20编辑于 2025-02-03
  • Site4Drug:用 AI 智能体解决药物靶点发现的上游瓶颈

    尽管如此,Top-6 命中化合物在结构上与已知抑制剂高度相似(共享苯环、环己烷等结合相关基团),结构重叠超几何检验 p < 10⁻¹¹; 5. 联合使用 Boltz2 进行结合亲和力验证。

    17010编辑于 2026-06-11
领券