首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 推理模型 推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G

    1K10编辑于 2025-03-10
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 一体机方案:如恒生电子“光子大模型一体机DeepSeek版”,打包软硬件,价格约$50,000起,但省去集成烦恼。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46420编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    这一系列令人咋舌的事件,让DeepSeek这个名字,瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的大语言模型的名称。 DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • DeepSeek模型MOE结构代码详解

    其实在DeepSeek-R1爆火之前,DeepSeek V2在我们行业就已经妇孺皆知了,它独特的MOE结构值得研究一下。 这样的话,既能让模型学习更多的知识(多个“专家”),又能减少推理计算量(选择部分“专家”进行计算)。 output shape: {output.shape}") # torch.Size([64, 256])初始化函数定义首先,定义了Expert类,也就是“专家”,可以看到,专家是由线性层和激活函数构成的简单模型

    45720编辑于 2025-04-21
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩,压缩后的KVEntriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。 Transformer每层hidden是:[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream:[batch,seq,hc_mult,hidden]默认hc_mult=4模型入口处会把

    21310编辑于 2026-05-09
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B

    3.5K12编辑于 2025-01-26
  • 来自专栏IT从业者张某某

    大语言模型-1.3-GPT、DeepSeek模型介绍

    ,综合模态能力显著提升 ➢ 支持统一处理和输出文本、音频、图片、视频信息 o系列模型 ➢ 推理任务上能力大幅提升 ➢ 长思维链推理能力 o-series ➢ 类似人类的“慢思考”过程 1.3.2DeepSeek 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言大模型DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型DeepSeek-VL ➢ 推理大模型DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破 为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放

    1.3K00编辑于 2025-03-15
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB 相较于目前的 Dense 模型和之前最流行的 MoE 模型, DeepSeekV2 的 Expert token 训练量 和 Attention token 训练量的差距是最大的: LLaMa3 训练 本质上 LLaMa3 以及其他所有 Dense 开源模型,都是在复现 LLaMa2 的基础上卷数据,其中 LLaMa3 是卷数据卷的最狠的,因此也是模型能力最强的 8B/70B 模型。 技术报告中明确了 Pipeline Parallel Size 是 16,但模型的结构是 60 层 Transformer Layer: DeepSeekV2 模型 config 而 60 层是不能整除 也为 DeepSeek 是一个中国 team 感到自豪。 - The End -

    97920编辑于 2025-02-03
  • 来自专栏DotNet NB && CloudNative

    DeepSeek API Client:轻松接入 DeepSeek AI 模型的 .NET 开发利器

    今天,我们来介绍一款名为 DeepSeek.ApiClient 的 .NET 库,它为我们提供了一种简单而强大的方式,用于与 DeepSeek 的 AI 模型进行交互。 概述 DeepSeek.ApiClient 是一个专为与 DeepSeek API 交互而设计的 .NET 库。它允许我们轻松地向 DeepSeek 的 AI 模型发送请求,并接收智能的响应。 功能 • 动态支持 DeepSeek 模型 • 依赖注入(DI)无缝集成 • 自定义系统消息专业的技术助手”,从而让模型生成更符合场景的响应。 使用枚举选择模型 还可以通过枚举直接指定模型: string response = await deepSeekClient.SendMessageAsync("解释 SOLID 原则", DeepSeekModel.V3 正是这样一款工具,不仅简化了与 DeepSeek API 的交互,还提供了强大的功能支持。

    55800编辑于 2025-04-18
  • 来自专栏服务端技术杂谈

    特斯拉将搭载豆包大模型DeepSeek模型

    8月22日,字节跳动方面发布消息称,特斯拉与火山引擎已于近日达成合作,在国内,火山引擎将为特斯拉提供大模型服务,助力特斯拉智能座舱交互体验升级。 全新上市的特斯拉Model Y L车型将搭载豆包大模型DeepSeek模型,两款模型均通过火山引擎接入。 其中,豆包大模型将承担语音命令功能,如导航设定、媒体播放操控、空调温度调节等,同时,还具备车主手册查询功能;DeepSeek模型则提供AI语音闲聊服务 。

    24310编辑于 2026-03-11
  • 来自专栏星哥的AI自留地

    免费使用腾讯云模型能力,DeepSeek满血模型白送

    免费使用腾讯云模型能力,DeepSeek满血模型白送宝子们,是不是总感觉做项目、搞开发的时候,AI模型能力得付费使用,成本高到让人心疼?别慌! 今天给大伙带来一个好消息,腾讯云直接把DeepSeek模型能力免费!这可太香了!咱不用再为预算不够、模型能力受限干着急啦,直接冲就完事儿! 您可通过多款原子能力组建您专属的模型服务,调用文档解析、拆分、embedding、多轮改写等服务进行组装,定制企业专属 AI 业务。 简单来说,这个东西就像是给企业和开发者提供了一套“AI工具箱”,可以灵活地组建和开发模型应用,以满足特定业务需求。 点击新建一个对话框,并且选择腾讯云TI的模型,选择模型结尾总之,腾讯云这波操作太给力了,把DeepSeek满血模型免费送到咱们面前。能帮咱们的项目、应用直接开挂。宝子们还等啥呢?

    1.1K10编辑于 2026-04-23
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2.6K60编辑于 2025-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 promptmessages = [ {"role": "user", "content": f"""请根据以下参考内容回答问题: {retrieved} 问题:{query}"""}]4️⃣ 模型部署 mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的大模型问答系统:搭建知识库后:模型输出写在最后:✅ 本项目搭建了一个简单的知识库问答系统,用户可以将自己的私人知识库进行搭建,基于RAG技术实现问答系统

    1.1K31编辑于 2025-07-19
  • 来自专栏服务器运维日常

    DeepSeek 模型:究竟该如何抉择?

    无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。 那么不同的模型有什么区别?具体如何选择模型? 二、DeepSeek “满血版”模型 1、DeepSeek-V3:全能创作王 DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。 2、DeepSeek-R1:超级推理大师 DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。 三、DeepSeek 蒸馏模型 这张表格展示了不同模型在多种任务和评测指标上的表现: 模型列:左侧一列列出了不同的语言模型,如GPT - 4o - 0513、Claude - 3.5 - Sonnet 相反,如果你的硬件配置较高,预算充足,那么可以选择性能更强大的模型,如 DeepSeek-R1-14B 或 DeepSeek-R1-32B。

    1.9K21编辑于 2025-02-23
  • 模型蒸馏在DeepSeek中的应用

    本文将深入探讨模型蒸馏技术在DeepSeek搜索引擎中的应用,分析其原理背景、技术难点,并与其他模型进行比较。 训练学生模型:在学生模型上进行训练,使其在保持较小规模的同时,尽可能模拟教师模型的行为。在DeepSeek中,模型蒸馏技术用于优化搜索引擎的查询理解和排序过程。 通过将大型NLP模型的知识蒸馏到小型模型中,DeepSeek能够在保证搜索质量的同时,实现快速响应用户查询。 与其他模型的比较为更全面地评估模型蒸馏在DeepSeek中的应用效果,我们将其与其他几种常见NLP模型进行比较:从表中可以看出,经过模型蒸馏优化后的DeepSeek在保持较低参数量和快速推理速度的同时, 结论综上所述,模型蒸馏技术在DeepSeek搜索引擎中的应用有效解决了大型NLP模型在实际部署中的难题。通过将教师模型的知识高效迁移到学生模型DeepSeek实现了在资源受限环境下的高质量搜索服务。

    73110编辑于 2025-03-22
  • DeepSeek、豆包向左,盘古大模型向右

    不过,当前国内的AI大模型竞争可谓是相当激烈,华为的盘古大模型在众多大模型中并不是十分出众。华为云此次重磅推出的盘古大模型5.5能否从一众强敌面前杀出重围? 通义千问中文理解能力全球领先,支持百万级上下文窗口和多模态交互;豆包大模型月活用户量第二,擅长图像理解和多模态融合。另一类是由DeepSeek、Kimi为代表的创业公司大模型DeepSeek就不用说了,如今也是国内最火的大模型,月活用户量高达1.8亿,妥妥的一哥;Kimi由月之暗面开发,支持20万汉字输入,长文本处理能力突出,适合数据分析与专业文档解读,同样受到了不少用户的欢迎 国产大模型普遍向左,盘古大模型偏偏向右不管是DeepSeek也好,还是豆包大模型也罢,大多数的国产大模型几乎都选择了面向C端用户。 此次发布的5.5版本,包括比肩全球一流大模型的718B准万亿级NLP深度思考大模型、基于盘古多模态大模型的世界模型、升级的预测大模型、升级的视觉大模型,以及科学计算大模型。算力支持方面。

    86210编辑于 2025-07-01
领券