搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏人工智能领域
DeepSeek Model Zoo：解锁预训练模型的宝藏地图（12/18）
以 DeepSeek-LLM 为例，它在文本生成任务中表现出色，能够根据给定的提示生成连贯、富有逻辑的文本。无论是创作故事、撰写新闻报道还是生成技术文档，DeepSeek-LLM 都能提供高质量的输出，其生成的文本在流畅性和准确性上都达到了相当高的水平。为了帮助读者更直观地了解 DeepSeek Model Zoo 中 NLP、CV、语音模型的特点和差异，我们以表格形式呈现它们的关键指标对比：模型类型准确率召回率模型大小推理速度适用场景 NLP 模型 - DeepSeek-LLM NLP 模型：文本生成以下是一个使用 DeepSeek-LLM 进行文本生成的代码示例： Python from transformers import AutoTokenizer, AutoModelForCausalLM ("deepseek-ai/DeepSeek-LLM") # 输入提示文本 prompt = "请根据以下提示生成一段故事：在一个遥远的星球上，住着一群会说话的动物。"
41910编辑于 2025-02-28
来自专栏Datawhale专栏
完整解读：从DeepSeek Janus到Janus-Pro！
384 像素；整体训练使用 16 个节点，每个节点包含 8 块 Nvidia A100 GPU；无论是视觉生成还是多模态理解任务，图片特征序列和文本特征序列都会连接在一起，作为 LLM（文中使用 DeepSeek-LLM 使用ImageNet-1k进行简单的视觉生成训练，随后使用通用文本到图像数据提升模型开放领域的视觉生成能力；纯文本数据：DeepSeek-LLM 预训练语料库；交错的图像 - 文本数据：WikiHow
1.9K40编辑于 2025-02-05
自媒体稿慌写文累AI改写洗稿免费，外部文章导入3分钟变原创
rewrite_article(text, style="客观严谨"): model = pipeline("text2text-generation", model="deepseek-ai/deepseek-llm
43410编辑于 2025-09-08
DeepSeek: 中国AI新锐的崛起之路
公司成立不到一年，DeepSeek便发布了一系列大语言模型，包括DeepSeek-LLM、DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL等，展现出强大的研发能力和技术实力
51010编辑于 2025-04-03
来自专栏设计模式
DeepSeek火爆出圈：使用方法及接入API全解析
开源地址：https://github.com/deepseek-ai/DeepSeek-LLM HuggingFace 链接：https://huggingface.co/deepseek-ai 技术实力
4.2K10编辑于 2025-02-26
来自专栏大模型系列
万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家（MoE）/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力（DSA）
DeepSeek-LLM：7B/67B双版本，中文理解能力显著优于Llama系列。技术亮点：使用高质量代码语料清洗管道，剔除低质量GitHub数据。
1.2K20编辑于 2026-04-06
来自专栏AI.NET极客圈
DeepSeek二十种神仙级组合：助力工作效率飞跃
DeepSeek涵盖通用语言模型（如DeepSeek-LLM）、代码生成模型（如DeepSeek-Coder）以及混合专家模型（如DeepSeek-MoE），在中文理解、内容生成等领域表现出色。
1.5K11编辑于 2025-03-20
来自专栏AI智韵
DeepSeekMath：突破开放式语言模型中数学推理能力的极限，提出了GRPO，值得关注学习
如图 3 所示，在 DeepSeekMath 语料库上训练的 DeepSeek-LLM 1.3B 模型显示出更陡峭的学习曲线和更持久的性能提升。单阶段训练数学训练1500亿个标记（Tokens）：我们对DeepSeek-LLM 1.3B进行1500亿个数学标记的训练； 4000亿个代码标记和1500亿个数学标记混合训练：代码训练后的数学训练会降低编码性能一种推测是，由于DeepSeek-LLM 1.3B的规模有限，无法同时充分吸收代码和数学数据。 5.1.2. 我们使用经过不同处理流程的ArXiv语料库，对不同规模的模型进行了实验，包括DeepSeek-LLM 1.3B和DeepSeek-Coder-Base-v1.5 7B（Guo等人，2024年）： MathPile 在我们的实验中，我们分别在每个ArXiv语料库上对DeepSeek-LLM 1.3B进行了1500亿个标记的训练，对DeepSeek-Coder-Base-v1.5 7B进行了400亿个标记的训练。
82810编辑于 2025-06-08
来自专栏自然语言处理
深入了解Deepseek模型的最佳三篇论文
DeepSeek-LLM：以长期主义扩展开源语言模型。 2024年1月发布，从长期主义视角提出开源语言模型发展策略，推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。三、DeepSeek-LLM：以长期主义扩展开源语言模型论文题目：《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
2.6K10编辑于 2025-02-09
来自专栏新智元
新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」
ImageNet-Instruct-130K 基于ImageNet-1K数据集，通过BLIP2模型生成图像描述，结合Deepseek-LLM生成的问答模板构建而成。
45500编辑于 2025-02-04
来自专栏大模型系列
DeepSeek 的开源策略对行业有何影响？——万字深度解析DeepSeek之全栈开源、免费商用、极致性能
一、DeepSeek开源策略的核心内涵1.1“全栈开源”：不止于模型权重与部分厂商仅开源模型权重不同，DeepSeek奉行真正意义上的全栈开源：模型权重：从DeepSeek-LLM、DeepSeek-Coder
63120编辑于 2026-04-05
来自专栏LLM
3年，从0到全球领跑：万字长文拆解DeepSeek大模型技术演进
DeepSeek的技术演进可清晰地划分为四个阶段：基石奠定模型（2023年）：以DeepSeek-Coder和DeepSeek-LLM为代表，验证了在有限算力下训练高质量稠密模型的能力，确立了「代码+ 通用稠密大模型技术创新：中英双语对齐/规模化训练稳定性论文：https://arxiv.org/abs/2401.02954 github：https://github.com/deepseek-ai/DeepSeek-LLM
1.2K10编辑于 2026-02-12
来自专栏测试开发技术
DeepSeek 新手使用指南：入门必备技巧与隐藏功能（建议收藏）
2、DeepSeek LLM, 它是通用大语言模型，仓库地址为: https://github.com/DeepSeek-AI/DeepSeek-LLM 这里有关于该模型的架构、训练方法等方面的介绍，
3.7K30编辑于 2025-02-10
来自专栏面经
【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm
RMSNorm Mistral 7B GQA + sliding window RoPE SwiGLU RMSNorm DeepSeek-LLM
1.4K20编辑于 2025-11-20
来自专栏【腾讯云开发者】
PPT汇总：DeepSeek核心技术前世今生
论文翻译版本见：【技术报告解读】Deepseek-R1 的初代藕身——Deepseek-LLM 展示长期主义的硬核浪漫 DeepSeekMoE：提出 DeepSeekMOE 关键架构。
1.5K00编辑于 2025-03-06
来自专栏AI资讯
DeepSeek-V3.1深度解析：架构、性能与API Key定价详细
：绘制DeepSeek的模型发布轨迹DeepSeek AI以惊人的速度进行模型迭代，其发布历史清晰地展示了其架构思想的演进和技术焦点的转移： 2023年：发布DeepSeek Coder（11月）和DeepSeek-LLM
2.3K10编辑于 2025-08-22
来自专栏【腾讯云开发者】
万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！
01、Deepseek-LLM （V1-V3）系列 V1模型重点在于保障效果的前提下，探索低成本算法，在低成本情况下做Scaling Laws实验，打牢基础。
3.1K23编辑于 2025-02-27

DeepSeek Model Zoo：解锁预训练模型的宝藏地图（12/18）

完整解读：从DeepSeek Janus到Janus-Pro！

自媒体稿慌写文累AI改写洗稿免费，外部文章导入3分钟变原创

DeepSeek: 中国AI新锐的崛起之路

DeepSeek火爆出圈：使用方法及接入API全解析

万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家（MoE）/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力（DSA）

DeepSeek二十种神仙级组合：助力工作效率飞跃

DeepSeekMath：突破开放式语言模型中数学推理能力的极限，提出了GRPO，值得关注学习

深入了解Deepseek模型的最佳三篇论文

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

DeepSeek 的开源策略对行业有何影响？——万字深度解析DeepSeek之全栈开源、免费商用、极致性能

3年，从0到全球领跑：万字长文拆解DeepSeek大模型技术演进

DeepSeek 新手使用指南：入门必备技巧与隐藏功能（建议收藏）

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm

PPT汇总：DeepSeek核心技术前世今生

DeepSeek-V3.1深度解析：架构、性能与API Key定价详细

万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐