搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏腾讯开源的专栏
腾讯TRMT助力DeepSeek-MoE模型通信提速30%
腾讯网平团队基于自研TRMT技术体系，结合在RoCEv2网络协议栈与双端口网卡架构的深度研究，对DeepSeek开源项目DeepEP进行了优化和增强：通过GPU直控RDMA通信消除控制面开销，创新多信道并行传输架构突破带宽瓶颈。最终实现了在RoCEv2网络性能提升100%、IB网络性能提升30%的突破性进展。
1.3K10编辑于 2025-04-26
DeepSeek: 中国AI新锐的崛起之路
公司成立不到一年，DeepSeek便发布了一系列大语言模型，包括DeepSeek-LLM、DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL等，展现出强大的研发能力和技术实力 3.3 混合专家模型架构DeepSeek-MoE采用了混合专家(Mixture of Experts)架构，有效平衡了计算资源与模型性能。这种架构使得模型在保持较高性能的同时，大幅降低了推理成本。
51010编辑于 2025-04-03
来自专栏大模型系列
DeepSeek模型全解析：DeepSeek核心差异与应用场景指南-DeepSeek 凭什么脱颖而出？
从专精代码的DeepSeek-Coder，到混合专家架构的DeepSeek-MoE，再到多模态融合的DeepSeek-VL与强化推理的DeepSeek-R1/V3.2，其产品矩阵已覆盖语言、代码、数学、 21B12.9B~20B专家数量8864（稀疏激活）中文优化✅强❌弱✅强推理速度（A100）120tokens/s95tokens/s110tokens/s开源完整性✅权重+代码✅权重⚠️仅权重优势：DeepSeek-MoE
1.6K50编辑于 2026-04-06
来自专栏大模型系列
万字长文详解DeepSeek：DeepSeek是什么-超长上下文
成立不到三年，DeepSeek已发布包括DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL、DeepSeek-R1等多个重量级模型，在代码生成、混合专家架构、多模态理解与推理能力等方面实现多项突破阶段二：推出DeepSeek-MoE，引领架构创新（2024年初）国内首个开源的混合专家（Mixture-of-Experts,MoE）大模型。
3.2K60编辑于 2026-04-06
[DeepSeek]-DeepSeek技术解析：MoE架构实现与代码实战
本文将通过代码实例解析其核心技术，并展示如何基于DeepSeek-MoE框架实现高效推理。其核心设计包含三个关键模块：（图示：动态路由的专家选择机制）二、核心代码实现以下示例基于PyTorch框架实现简化版DeepSeek-MoE层：import torchimport torch.nn as
1.4K10编辑于 2025-03-15
来自专栏大模型系列
万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家（MoE）/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力（DSA）
阶段二：架构革命（2024年初）——DeepSeek-MoE背景：稠密模型推理成本高，难以部署。突破：发布国内首个开源混合专家（Mixture-of-Experts,MoE）模型。 DeepSeek-MoE证明：稀疏激活是平衡性能与成本的关键路径。阶段三：多模态融合（2024–2025）——DeepSeek-VL目标：打破纯文本限制，实现图文协同理解。
1.2K20编辑于 2026-04-06
来自专栏福大大架构师每日一题
DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨
其中，DeepSeek-MoE技术、多头潜在注意力机制、FP8混合精度训练方法以及多标记预测策略成为关键的创新亮点。在模型设计上，DeepSeek-MoE充分利用了混合专家（MoE）结构的潜力。
97410编辑于 2025-05-17
来自专栏大模型系列
DeepSeek模型在金融领域的应用有哪些？
六、部署模式与技术选型建议场景推荐模型部署方式智能客服（高并发）DeepSeek-MoE/V3.2私有云+vLLM加速投研分析（高精度）DeepSeek-R1（API）或V3.2本地GPU服务器OCR与文档处理
47130编辑于 2026-04-06
来自专栏Python进阶之路
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化
模型、代码、论文均已同步发布：模型下载：https://huggingface.co/deepseek-ai 微调代码：https://github.com/deepseek-ai/DeepSeek-MoE 技术报告：https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf 二、主要内容这篇论文试图解决什么问题？
2.6K00编辑于 2024-05-25
DeepSeek模型解析：技术创新与应用前景
2.2 混合专家系统(MoE)DeepSeek-MoE模型采用了混合专家架构，将单一大型模型分解为多个"专家"子网络。
76720编辑于 2025-04-01
来自专栏AI SPPECH
13. 推理工程师职责：模型适配与优化
/adapters/deepseek-moe", optimization_strategy="max_perf" # 优化策略：max_perf, balanced, min_mem ) /adapters/deepseek-moe", test_cases=[ "Hello, how are you?" /adapters/deepseek-moe", engine_args={ "tensor_parallel_size": 8, "max_num_batched_tokens
24610编辑于 2026-01-20
来自专栏AI.NET极客圈
DeepSeek二十种神仙级组合：助力工作效率飞跃
DeepSeek涵盖通用语言模型（如DeepSeek-LLM）、代码生成模型（如DeepSeek-Coder）以及混合专家模型（如DeepSeek-MoE），在中文理解、内容生成等领域表现出色。
1.5K11编辑于 2025-03-20
不只OpenAI！2025年AI大模型公司排名一览表字节、中关村科金得助智能、百度、腾讯、阿里强势登榜！
.深度求索（DeepSeek）核心优势：AGI技术研究，专注通用人工智能（AGI）底层技术，推出DeepSeek-R1（多模态理解与生成）、DeepSeek-Coder（代码生成）等模型；开源影响力，DeepSeek-MoE
13.1K10编辑于 2025-07-08
来自专栏深度学习自然语言处理
Deepseek-V2技术报告解读！全网最细！
深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。在经过embedding层后，与Deepseek-MoE保持一致，首先会经过一个共享的大Decoder层进行第一层计算，这层模型的attention计算设定与后续59层基本一致，唯一区别是这一层的mlp
2.5K20编辑于 2025-02-03
来自专栏大模型系列
DeepSeek是什么？一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法
行业陷入“百模大战”的同质化竞争时，一个成立不足一年的团队——深度求索（DeepSeek），凭借三款产品迅速出圈： DeepSeek-Coder：性能超越 CodeLlama-34B 的开源代码大模型； DeepSeek-MoE
5.2K40编辑于 2026-03-27
来自专栏AI大模型应用开发炼丹房
预训练速度提升50%？MoE的加速秘密全揭露
开发者可借助开源框架（如DeepSeek-MoE或Hugging Face实现）加速开发，但需精细调试以确保专家间负载均衡（避免某些专家过载）。
75611编辑于 2025-08-10
LLM系列（三)：核心技术之架构模式
• DeepSeek-MoE：代表了下一代 MoE 架构的探索方向。 • DeepSeek-MoE：其设计的“共享专家”本质上就是一个小型的稠密 FFN，所有令牌都需经过它来学习通用知识，而更大规模的“路由专家”则负责处理专业化知识。
1.3K21编辑于 2025-06-17
来自专栏openclaw系列
如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册
9.2模型效率革命MoE架构：DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化：RTX4090可流畅运行7B模型，硬件门槛大幅降低。
29720编辑于 2026-04-05
来自专栏大模型系列
DeepSeek 的开源策略对行业有何影响？——万字深度解析DeepSeek之全栈开源、免费商用、极致性能
DeepSeek开源策略的核心内涵1.1“全栈开源”：不止于模型权重与部分厂商仅开源模型权重不同，DeepSeek奉行真正意义上的全栈开源：模型权重：从DeepSeek-LLM、DeepSeek-Coder到DeepSeek-MoE
63420编辑于 2026-04-05
来自专栏大模型系列
DeepSeek模型本地化部署的技术挑战全景解析-DeepSeek-V3/R1
MoE动态激活：利用DeepSeek-MoE的稀疏性，仅加载Top-2专家，减少70%计算量。
37320编辑于 2026-04-05

第 2 页

腾讯TRMT助力DeepSeek-MoE模型通信提速30%

DeepSeek: 中国AI新锐的崛起之路

DeepSeek模型全解析：DeepSeek核心差异与应用场景指南-DeepSeek 凭什么脱颖而出？

万字长文详解DeepSeek：DeepSeek是什么-超长上下文

[DeepSeek]-DeepSeek技术解析：MoE架构实现与代码实战

万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家（MoE）/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力（DSA）

DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

DeepSeek模型在金融领域的应用有哪些？

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

DeepSeek模型解析：技术创新与应用前景

13. 推理工程师职责：模型适配与优化

DeepSeek二十种神仙级组合：助力工作效率飞跃

不只OpenAI！2025年AI大模型公司排名一览表字节、中关村科金得助智能、百度、腾讯、阿里强势登榜！

Deepseek-V2技术报告解读！全网最细！

DeepSeek是什么？一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法

预训练速度提升50%？MoE的加速秘密全揭露

LLM系列（三)：核心技术之架构模式

如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册

DeepSeek 的开源策略对行业有何影响？——万字深度解析DeepSeek之全栈开源、免费商用、极致性能

DeepSeek模型本地化部署的技术挑战全景解析-DeepSeek-V3/R1

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

腾讯TRMT助力DeepSeek-MoE模型通信提速30%

DeepSeek: 中国AI新锐的崛起之路

DeepSeek模型全解析：DeepSeek核心差异与应用场景指南-DeepSeek 凭什么脱颖而出？

万字长文详解DeepSeek：DeepSeek是什么-超长上下文

[DeepSeek]-DeepSeek技术解析：MoE架构实现与代码实战

万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家（MoE）/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力（DSA）

DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

DeepSeek模型在金融领域的应用有哪些？

深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

DeepSeek模型解析：技术创新与应用前景

13. 推理工程师职责：模型适配与优化

DeepSeek二十种神仙级组合：助力工作效率飞跃

不只OpenAI！2025年AI大模型公司排名一览表 字节、中关村科金得助智能、百度、腾讯、阿里强势登榜！

Deepseek-V2技术报告解读！全网最细！

DeepSeek是什么？一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法

预训练速度提升50%？MoE的加速秘密全揭露

LLM系列（三)：核心技术之架构模式

如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册

DeepSeek 的开源策略对行业有何影响？——万字深度解析DeepSeek之全栈开源、免费商用、极致性能

DeepSeek模型本地化部署的技术挑战全景解析-DeepSeek-V3/R1

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

不只OpenAI！2025年AI大模型公司排名一览表字节、中关村科金得助智能、百度、腾讯、阿里强势登榜！