首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB 相较于目前的 Dense 模型和之前最流行的 MoE 模型, DeepSeekV2 的 Expert token 训练量 和 Attention token 训练量的差距是最大的: LLaMa3 训练 本质上 LLaMa3 以及其他所有 Dense 开源模型,都是在复现 LLaMa2 的基础上卷数据,其中 LLaMa3 是卷数据卷的最狠的,因此也是模型能力最强的 8B/70B 模型。 技术报告中明确了 Pipeline Parallel Size 是 16,但模型的结构是 60 层 Transformer Layer: DeepSeekV2 模型 config 而 60 层是不能整除 也欢迎大家对于上述问题与我讨论~ 总之,DeepSeekV2 是一个非常让人惊喜的模型,并且还开源了。

    97920编辑于 2025-02-03
  • DeepSeek-OCR-2 开源 OCR 模型的技术

    DeepSeek-OCR-2开源OCR模型的技术OCR应用的场景和类型很广,本次使用Qwen2的架构,解决看的全(扫码方式优化)、看的的准(内容识别、视觉标记、降低重复率),多裁剪策略提取核心信息。 这两款模型代表了当前开源OCR技术的两大发展方向:DeepSeek-OCR-2主打视觉因果流(VisualCausalFlow)的创新架构,而HunyuanOCR则以极致轻量化+端到端统一见长。 一、DeepSeek-OCR-2:视觉因果流的革新1.1核心创新:DeepEncoderV2DeepSeek-OCR-2最引人注目的创新在于其DeepEncoderV2视觉编码器。 1.2模型规格与性能指标DeepSeek-OCR-2参数量3B视觉编码器DeepEncoderV2(基于Qwen2-0.5B)语言解码器DeepSeek3B-MoE-A570M支持分辨率动态分辨率,最高 /视频字幕模型大小2GB20GBGPU显存可部署支持语言130+含14种高频小语种三、技术对比:DeepSeek-OCR-2vsHunyuanOCR对比维度DeepSeek-OCR-2HunyuanOCR

    79210编辑于 2026-02-07
  • 来自专栏网络虚拟化

    如何评价 Deepseek 新发布的 DeepSeek-Prover-V2-671B 模型?

    2025 年 4 月,DeepSeek 放大招,推出了 DeepSeek-Prover-V2-671B,参数高达 6710 亿,专为在 Lean 4 语言里证明数学定理而生。 DeepSeek-Prover-V2-671B 的横空出世可是个大跃进,实力已经能跟一些人类专家过过招了。 模型架构:大而灵活 混合专家的路子 DeepSeek-Prover-V2-671B 是从 DeepSeek-V3-Base 改出来的,用了个叫混合专家(MoE)的架构,总参数有 6710 亿,但实际干活时只调大概 训练过程:数据加聪明算法 先打基础 DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始,这是个在 14.8 万亿 token 上预训练的模型,数学、代码、Lean ProverBench:DeepSeek 新出的测试,325 个题,有 AIME 2024、2025 的题,具体成绩没公布,但应该比 V1.5 好。 跟别人比 比起其他证明模型,V2 领先不少。

    53910编辑于 2025-05-04
  • 来自专栏AgenticAI

    如何使用vLLM部署DeepSeek V2 Lite模型

    conda activate base pip install modelscope 然后我们访问modelscope找到我们要下载的模型,比如DeepSeek V2 Lite模型[2]。 开始部署 使用如下命令,开始部署DeepSeek V2 Lite Chat模型。 /DeepSeek-V2-Lite-Chat/' quant_path = 'hub/deepseek-ai/DeepSeek-V2-Lite-Chat-awq-int4/' quant_config V2 16B模型的过程。 参考资料 [1] ModelScope: https://modelscope.cn/models [2] DeepSeek V2 Lite模型: https://modelscope.cn/models

    1.9K10编辑于 2025-03-18
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?(从推理角度分析)

    作者丨233 来源丨https://www.zhihu.com/question/655172528/answer/3491439374 编辑丨GiantPandaCV 计算量 DeepSeek-V2DeepSeek-V2是60层,而Llama 3 70B是80层,而MLA是GQA(8 group)的9/32,因此context_size是27/128。 DeepSeek-V2是每层576维,60层,6bit量化。 Attention SPDA部分,DeepSeek-V2 M=128(等于总head数),Llama 3 70B M=8(等于每group的head数),L3显然可以只加载一次,DS2则有点难度。 注:以上计算假设d = n_h d_h,但实际上DeepSeek-V2设定d = 5120, n_h = 128, d_h = 128。

    78910编辑于 2025-02-03
  • 来自专栏技术专栏全家桶

    模型DeepSeek-OCR2快速入门实战教程

    DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像的含义动态重排图像的各个部分 项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 论文地址:https://github.com/deepseek-ai/DeepSeek-OCR-2 /blob/main/DeepSeek_OCR2_paper.pdf 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 DeepSeek OCR DeepSeek OCR模型已经能够实现: 1、语义级解析:不仅识别文字,还能理解其上下文逻辑(如表头对应数据、公式与变量的关联); 2、结构级还原:能够自动将PDF文档转化为结构化的Markdown /DeepSeek-OCR-2.git cd DeepSeek-OCR-2 创建 Conda 环境: conda create -n deepseek-ocr2 python=3.12.9 -y conda

    3.2K10编辑于 2026-02-03
  • 来自专栏AIGC新知

    DeepSeek发布新模型,不是R2,而是Prover-V2-671B数学证明模型

    就在刚刚,Deepseek在huggingface发了新模型,既不是R2,也不是V4! 而是倒退版本、从来没有听过的DeepSeek-Prover-V2-671B模型,新的专家模型DeepSeek-Prover-V2-671B是基于DeepSeek-V3架构的一个专门用于数学证明的大型语言模型,具有以下特点: 模型规模巨大:参数量约为671B(6710亿参数),这从模型分片数量( : 这是模型的核心配置文件,定义了DeepSeek-V3/Prover-V2的架构参数 包含模型结构参数:671B参数的超大模型,有61层,7168维隐藏层,128个注意力头 采用MoE架构:包含256 ,设置默认参数值 继承自Hugging Face的PretrainedConfig类,支持与Transformer库的集成 DeepSeek-Prover-V2-671B应该是DeepSeek最新发布的针对数学证明领域的顶级模型 这种专业化大模型代表了当前AI研究的一个重要方向:为特定领域开发超大规模的专家模型

    64700编辑于 2025-05-01
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 比如输入以下将文件转换为markdown格式输出: prompt = "<image>\n<|grounding|>Convert the document to markdown. " 以下是一些案例: 案例2解析图标 : 看来DeepSeek深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • 来自专栏深度学习自然语言处理

    幻方发布全球最强MOE大模型DeepSeek-V2

    介绍 今天,我们介绍了DeepSeek-V2,这是一个强大的专家混合(MoE)语言模型,其特点是训练经济且推理高效。它总共包含236B个参数,每个token激活21B个。 我们在包含8.1万亿token的多样化和高质量语料库上预训练了DeepSeek-V2。随后,我们通过监督式微调(SFT)和强化学习(RL)的过程来充分释放模型的潜力。 chat模型 我们在AlpacaEval 2.0和MTBench上评估了我们的模型,展示了DeepSeek-V2-Chat-RL在英语对话生成上的竞争力。 如图所示,DeepSeek-V2在LiveCodeBench上展示了相当的熟练程度,其Pass@1得分超过了其他几个复杂的模型。这一性能突出了模型在处理实时编码任务方面的有效性。 4. DeepSeek-V2基础/聊天模型的使用受模型许可证的约束。DeepSeek-V2系列(包括基础和聊天)支持商业用途。 9.

    1.1K10编辑于 2025-02-03
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 推理模型 推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G

    1K10编辑于 2025-03-10
  • 来自专栏

    最新最强,DeepSeek模型v2的技术指标评测

    最近,来自杭州的深度求索发布了第二代开源MoE模型DeepSeek-V2,从各项指标来看,都具备了领先水平,无论与开源模型,还是闭源模型对比,都处于第一梯队,是GPT-4, 文心4.0, Qwen1.5 参数规模与性能 DeepSeek-V2包含236B(十亿)参数,每个Token激活2.1B参数,支持长达128K的上下文长度。 API价格 DeepSeek-V2的API定价为每百万输入Tokens 1元(0.14美元),每百万输出Tokens 2元(0.28美元),具有竞争力的价格。 模型架构 DeepSeek-V2采用了MoE架构,特别是它对Transformer架构中的自注意力机制进行了创新,提出了MLA(Multi-head Latent Attention)结构,并使用MoE 在当前主流的大模型服务中,我认为要具备以下几点才能称得上好模型:1. 开源,2. 价格低,3. 对中文的理解能力强,4. 在架构上支持更大的上下文窗口和更牛的性能。

    8.1K10编辑于 2024-05-13
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 DeepSeek-VL2:自动处理1000份/天,错误率0.03%。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46520编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main 2.

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek2、本地部署DeepSeek 1、首先要下载安装Ollama。 在本地运行Llama 3.3、DeepSeek-R1、Phi-4、Mistral、Gemma 2模型。 根据所属平台,下载指定的Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2.6K60编辑于 2025-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 参考2 第三章 赛事分类与级别认定 第七条 根据学科竞赛的组织机构、专业度、社会影响和获 - 4 - 奖难度等方面综合考虑,将竞赛分为国家级、省部级、地厅级和 校级赛事。 mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的大模型问答系统:搭建知识库后:模型输出写在最后:✅ 本项目搭建了一个简单的知识库问答系统,用户可以将自己的私人知识库进行搭建,基于RAG技术实现问答系统

    1.1K31编辑于 2025-07-19
  • 来自专栏服务器运维日常

    DeepSeek 模型:究竟该如何抉择?

    无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。 那么不同的模型有什么区别?具体如何选择模型? 二、DeepSeek “满血版”模型 1、DeepSeek-V3:全能创作王 DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。 2DeepSeek-R1:超级推理大师 DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。 以上2模型,通常就是人们说的满血版,功能确实强大,但部署的硬件成本也是极高的,大多数的个人和中小企业恐无力承担。 2、Distill-Qwen-7B:基础级 DeepSeek-R1-Distill-Qwen-7B 拥有 70 亿参数,在性能和资源需求之间找到了一个很好的平衡点。

    1.9K21编辑于 2025-02-23
  • 来自专栏算法一只狗

    DeepSeek-OCR 2:让模型“先学会怎么看”,再学会读

    那么这一次新的DeepSeek-OCR-2模型解决的是什么问题呢?我们先来快速回顾一下DeepSeek-OCR是什么,然后你就知道为什么会有OCR-2模型的出现了。 但是现在的OCR模型只能够按照同一个顺序进行扫描读取,容易造成理解错误。因此DeepSeek-OCR-2的核心要解决的问题其实就是:能不能在把图像交给LLM之前,就先“学会怎么读这张图”? 模型架构DeepSeek-OCR2延续DeepSeek-OCR的整体范式,但彻底升级了Encoder。 2.模型效果更强从实验结果来看,DeepSeek-OCR2在不牺牲视觉压缩效率的前提下,实现了明显的性能跃升。 更具代表性的是其对文档阅读逻辑的改进:在衡量阅读顺序合理性的R-order编辑距离指标上,DeepSeek-OCR2将误差从0.085显著压缩至0.057,表明模型不仅“看得更准”,而且“读得更对”,能够更准确地恢复复杂文档中的真实阅读顺序

    52540编辑于 2026-01-29
领券