首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能领域

    DeepSeek Model Zoo:解锁预训练模型的宝藏地图(12/18)

    DeepSeek-LLM 为例,它在文本生成任务中表现出色,能够根据给定的提示生成连贯、富有逻辑的文本。 无论是创作故事、撰写新闻报道还是生成技术文档,DeepSeek-LLM 都能提供高质量的输出,其生成的文本在流畅性和准确性上都达到了相当高的水平。 为了帮助读者更直观地了解 DeepSeek Model Zoo 中 NLP、CV、语音模型的特点和差异,我们以表格形式呈现它们的关键指标对比: 模型类型 准确率 召回率 模型大小 推理速度 适用场景 NLP 模型 - DeepSeek-LLM NLP 模型:文本生成 以下是一个使用 DeepSeek-LLM 进行文本生成的代码示例: Python from transformers import AutoTokenizer, AutoModelForCausalLM ("deepseek-ai/DeepSeek-LLM") # 输入提示文本 prompt = "请根据以下提示生成一段故事:在一个遥远的星球上,住着一群会说话的动物。"

    41910编辑于 2025-02-28
  • 来自专栏Datawhale专栏

    完整解读:从DeepSeek Janus到Janus-Pro!

    384 像素; 整体训练使用 16 个节点,每个节点包含 8 块 Nvidia A100 GPU; 无论是视觉生成还是多模态理解任务,图片特征序列和文本特征序列都会连接在一起,作为 LLM(文中使用 DeepSeek-LLM 使用ImageNet-1k进行简单的视觉生成训练,随后使用通用文本到图像数据提升模型开放领域的视觉生成能力; 纯文本数据:DeepSeek-LLM 预训练语料库; 交错的图像 - 文本数据:WikiHow

    1.9K40编辑于 2025-02-05
  • 自媒体稿慌写文累AI改写洗稿免费,外部文章导入3分钟变原创

    rewrite_article(text, style="客观严谨"): model = pipeline("text2text-generation", model="deepseek-ai/deepseek-llm

    43410编辑于 2025-09-08
  • DeepSeek: 中国AI新锐的崛起之路

    公司成立不到一年,DeepSeek便发布了一系列大语言模型,包括DeepSeek-LLM、DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL等,展现出强大的研发能力和技术实力

    51010编辑于 2025-04-03
  • 来自专栏设计模式

    DeepSeek火爆出圈:使用方法及接入API全解析

    开源地址:https://github.com/deepseek-ai/DeepSeek-LLM HuggingFace 链接:https://huggingface.co/deepseek-ai 技术实力

    4.2K10编辑于 2025-02-26
  • 来自专栏大模型系列

    万字长文拆解DeepSeek大模型技术演进-Coder/LLM/混合专家(MoE)/VL/R1 / V3.2-超长上下文处理、动态稀疏注意力(DSA)

    DeepSeek-LLM:7B/67B双版本,中文理解能力显著优于Llama系列。技术亮点:使用高质量代码语料清洗管道,剔除低质量GitHub数据。

    1.2K20编辑于 2026-04-06
  • 来自专栏AI.NET极客圈

    DeepSeek二十种神仙级组合:助力工作效率飞跃

    DeepSeek涵盖通用语言模型(如DeepSeek-LLM)、代码生成模型(如DeepSeek-Coder)以及混合专家模型(如DeepSeek-MoE),在中文理解、内容生成等领域表现出色。

    1.5K11编辑于 2025-03-20
  • 来自专栏AI智韵

    DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习

    如图 3 所示,在 DeepSeekMath 语料库上训练的 DeepSeek-LLM 1.3B 模型显示出更陡峭的学习曲线和更持久的性能提升。 单阶段训练 数学训练1500亿个标记(Tokens):我们对DeepSeek-LLM 1.3B进行1500亿个数学标记的训练; 4000亿个代码标记和1500亿个数学标记混合训练:代码训练后的数学训练会降低编码性能 一种推测是,由于DeepSeek-LLM 1.3B的规模有限,无法同时充分吸收代码和数学数据。 5.1.2. 我们使用经过不同处理流程的ArXiv语料库,对不同规模的模型进行了实验,包括DeepSeek-LLM 1.3B和DeepSeek-Coder-Base-v1.5 7B(Guo等人,2024年): MathPile 在我们的实验中,我们分别在每个ArXiv语料库上对DeepSeek-LLM 1.3B进行了1500亿个标记的训练,对DeepSeek-Coder-Base-v1.5 7B进行了400亿个标记的训练。

    82810编辑于 2025-06-08
  • 来自专栏自然语言处理

    深入了解Deepseek模型的最佳三篇论文

    DeepSeek-LLM:以长期主义扩展开源语言模型。 2024年1月发布,从长期主义视角提出开源语言模型发展策略,推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。 三、DeepSeek-LLM:以长期主义扩展开源语言模型 论文题目:《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

    2.6K10编辑于 2025-02-09
  • 来自专栏新智元

    新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

    ImageNet-Instruct-130K 基于ImageNet-1K数据集,通过BLIP2模型生成图像描述,结合Deepseek-LLM生成的问答模板构建而成。

    45500编辑于 2025-02-04
  • 来自专栏大模型系列

    DeepSeek 的开源策略对行业有何影响?——万字深度解析DeepSeek之全栈开源、免费商用、极致性能

    一、DeepSeek开源策略的核心内涵1.1“全栈开源”:不止于模型权重与部分厂商仅开源模型权重不同,DeepSeek奉行真正意义上的全栈开源:模型权重:从DeepSeek-LLM、DeepSeek-Coder

    63120编辑于 2026-04-05
  • 来自专栏LLM

    3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进

    DeepSeek的技术演进可清晰地划分为四个阶段:基石奠定模型(2023年): 以DeepSeek-Coder和DeepSeek-LLM为代表,验证了在有限算力下训练高质量稠密模型的能力,确立了「代码+ 通用稠密大模型技术创新: 中英双语对齐/规模化训练稳定性论文:https://arxiv.org/abs/2401.02954 github:https://github.com/deepseek-ai/DeepSeek-LLM

    1.2K10编辑于 2026-02-12
  • 来自专栏测试开发技术

    DeepSeek 新手使用指南:入门必备技巧与隐藏功能(建议收藏)

    2、DeepSeek LLM, 它是通用大语言模型,仓库地址为: https://github.com/DeepSeek-AI/DeepSeek-LLM 这里有关于该模型的架构、训练方法等方面的介绍,

    3.7K30编辑于 2025-02-10
  • 来自专栏面经

    【大模型学习】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm

    RMSNorm Mistral 7B GQA + sliding window RoPE SwiGLU RMSNorm DeepSeek-LLM

    1.4K20编辑于 2025-11-20
  • 来自专栏【腾讯云开发者】

    PPT汇总:DeepSeek核心技术前世今生

    论文翻译版本见:【技术报告解读】Deepseek-R1 的初代藕身——Deepseek-LLM 展示长期主义的硬核浪漫 DeepSeekMoE:提出 DeepSeekMOE 关键架构。

    1.5K00编辑于 2025-03-06
  • 来自专栏AI资讯

    DeepSeek-V3.1深度解析:架构、性能与API Key定价详细

    :绘制DeepSeek的模型发布轨迹DeepSeek AI以惊人的速度进行模型迭代,其发布历史清晰地展示了其架构思想的演进和技术焦点的转移 : 2023年:发布DeepSeek Coder(11月)和DeepSeek-LLM

    2.3K10编辑于 2025-08-22
  • 来自专栏【腾讯云开发者】

    万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!

    01、Deepseek-LLM (V1-V3)系列 V1模型重点在于保障效果的前提下,探索低成本算法,在低成本情况下做Scaling Laws实验,打牢基础。

    3.1K23编辑于 2025-02-27
领券