首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯开源的专栏

    腾讯TRMT助力DeepSeek-MoE模型通信提速30%

    腾讯网平团队基于自研TRMT技术体系,结合在RoCEv2网络协议栈与双端口网卡架构的深度研究,对DeepSeek开源项目DeepEP进行了优化和增强:通过GPU直控RDMA通信消除控制面开销,创新多信道并行传输架构突破带宽瓶颈。最终实现了在RoCEv2网络性能提升100%、IB网络性能提升30%的突破性进展。

    1.3K10编辑于 2025-04-26
  • DeepSeek: 中国AI新锐的崛起之路

    公司成立不到一年,DeepSeek便发布了一系列大语言模型,包括DeepSeek-LLM、DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL等,展现出强大的研发能力和技术实力 3.3 混合专家模型架构DeepSeek-MoE采用了混合专家(Mixture of Experts)架构,有效平衡了计算资源与模型性能。这种架构使得模型在保持较高性能的同时,大幅降低了推理成本。

    51010编辑于 2025-04-03
  • 来自专栏大模型系列

    DeepSeek模型全解析:DeepSeek核心差异与应用场景指南-DeepSeek 凭什么脱颖而出?

    从专精代码的DeepSeek-Coder,到混合专家架构的DeepSeek-MoE,再到多模态融合的DeepSeek-VL与强化推理的DeepSeek-R1/V3.2,其产品矩阵已覆盖语言、代码、数学、 21B12.9B~20B专家数量8864(稀疏激活)中文优化✅强❌弱✅强推理速度(A100)120tokens/s95tokens/s110tokens/s开源完整性✅权重+代码✅权重⚠️仅权重优势:DeepSeek-MoE

    1.6K50编辑于 2026-04-06
  • 来自专栏大模型系列

    万字长文详解DeepSeek:DeepSeek是什么-超长上下文

    成立不到三年,DeepSeek已发布包括DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL、DeepSeek-R1等多个重量级模型,在代码生成、混合专家架构、多模态理解与推理能力等方面实现多项突破 阶段二:推出DeepSeek-MoE,引领架构创新(2024年初)国内首个开源的混合专家(Mixture-of-Experts,MoE)大模型。

    3.2K60编辑于 2026-04-06
  • [DeepSeek]-DeepSeek技术解析:MoE架构实现与代码实战

    本文将通过代码实例解析其核心技术,并展示如何基于DeepSeek-MoE框架实现高效推理。 其核心设计包含三个关键模块:(图示:动态路由的专家选择机制)二、核心代码实现以下示例基于PyTorch框架实现简化版DeepSeek-MoE层:import torchimport torch.nn as

    1.4K10编辑于 2025-03-15
  • 来自专栏大模型系列

    万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家(MoE)/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力(DSA)

    阶段二:架构革命(2024年初)——DeepSeek-MoE背景:稠密模型推理成本高,难以部署。突破:发布国内首个开源混合专家(Mixture-of-Experts,MoE)模型。 DeepSeek-MoE证明:稀疏激活是平衡性能与成本的关键路径。阶段三:多模态融合(2024–2025)——DeepSeek-VL目标:打破纯文本限制,实现图文协同理解。

    1.2K20编辑于 2026-04-06
  • 来自专栏福大大架构师每日一题

    DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

    其中,DeepSeek-MoE技术、多头潜在注意力机制、FP8混合精度训练方法以及多标记预测策略成为关键的创新亮点。 在模型设计上,DeepSeek-MoE充分利用了混合专家(MoE)结构的潜力。

    97410编辑于 2025-05-17
  • 来自专栏大模型系列

    DeepSeek模型在金融领域的应用有哪些?

    六、部署模式与技术选型建议场景推荐模型部署方式智能客服(高并发)DeepSeek-MoE/V3.2私有云+vLLM加速投研分析(高精度)DeepSeek-R1(API)或V3.2本地GPU服务器OCR与文档处理

    47130编辑于 2026-04-06
  • 来自专栏Python进阶之路

    深度求索开源国内首个 MoE 大模型 | DeepSeekMoE:在专家混合语言模型中实现终极专家专业化

    模型、代码、论文均已同步发布: 模型下载:https://huggingface.co/deepseek-ai 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf 二、主要内容 这篇论文试图解决什么问题?

    2.6K00编辑于 2024-05-25
  • DeepSeek模型解析:技术创新与应用前景

    2.2 混合专家系统(MoE)DeepSeek-MoE模型采用了混合专家架构,将单一大型模型分解为多个"专家"子网络。

    76720编辑于 2025-04-01
  • 来自专栏AI SPPECH

    13. 推理工程师职责:模型适配与优化

    /adapters/deepseek-moe", optimization_strategy="max_perf" # 优化策略:max_perf, balanced, min_mem ) /adapters/deepseek-moe", test_cases=[ "Hello, how are you?" /adapters/deepseek-moe", engine_args={ "tensor_parallel_size": 8, "max_num_batched_tokens

    24610编辑于 2026-01-20
  • 来自专栏AI.NET极客圈

    DeepSeek二十种神仙级组合:助力工作效率飞跃

    DeepSeek涵盖通用语言模型(如DeepSeek-LLM)、代码生成模型(如DeepSeek-Coder)以及混合专家模型(如DeepSeek-MoE),在中文理解、内容生成等领域表现出色。

    1.5K11编辑于 2025-03-20
  • 不只OpenAI!2025年AI大模型公司排名一览表 字节、中关村科金得助智能、百度、腾讯、阿里强势登榜!

    .深度求索(DeepSeek)核心优势:AGI技术研究,专注通用人工智能(AGI)底层技术,推出DeepSeek-R1(多模态理解与生成)、DeepSeek-Coder(代码生成)等模型;开源影响力,DeepSeek-MoE

    13.1K10编辑于 2025-07-08
  • 来自专栏深度学习自然语言处理

    Deepseek-V2技术报告解读!全网最细!

    深度求索Deepseek近日发布了v2版本的模型,沿袭了1月发布的 Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。 在经过embedding层后,与Deepseek-MoE保持一致,首先会经过一个共享的大Decoder层进行第一层计算,这层模型的attention计算设定与后续59层基本一致,唯一区别是这一层的mlp

    2.5K20编辑于 2025-02-03
  • 来自专栏大模型系列

    DeepSeek是什么?一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法

    行业陷入“百模大战”的同质化竞争时,一个成立不足一年的团队——深度求索(DeepSeek),凭借三款产品迅速出圈: DeepSeek-Coder:性能超越 CodeLlama-34B 的开源代码大模型; DeepSeek-MoE

    5.2K40编辑于 2026-03-27
  • 来自专栏AI大模型应用开发炼丹房

    预训练速度提升50%?MoE的加速秘密全揭露

    开发者可借助开源框架(如DeepSeek-MoE或Hugging Face实现)加速开发,但需精细调试以确保专家间负载均衡(避免某些专家过载)。​​​

    75611编辑于 2025-08-10
  • LLM系列(三):核心技术之架构模式

    • DeepSeek-MoE:代表了下一代 MoE 架构的探索方向。 • DeepSeek-MoE:其设计的“共享专家”本质上就是一个小型的稠密 FFN,所有令牌都需经过它来学习通用知识,而更大规模的“路由专家”则负责处理专业化知识。

    1.3K21编辑于 2025-06-17
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。

    29720编辑于 2026-04-05
  • 来自专栏大模型系列

    DeepSeek 的开源策略对行业有何影响?——万字深度解析DeepSeek之全栈开源、免费商用、极致性能

    DeepSeek开源策略的核心内涵1.1“全栈开源”:不止于模型权重与部分厂商仅开源模型权重不同,DeepSeek奉行真正意义上的全栈开源:模型权重:从DeepSeek-LLM、DeepSeek-Coder到DeepSeek-MoE

    63420编辑于 2026-04-05
  • 来自专栏大模型系列

    DeepSeek模型本地化部署的技术挑战全景解析-DeepSeek-V3/R1

    MoE动态激活:利用DeepSeek-MoE的稀疏性,仅加载Top-2专家,减少70%计算量。

    37320编辑于 2026-04-05
领券