首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 4。 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩,压缩后的KVEntriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。 默认hc_mult=4模型入口处会把embedding复制成4条流:展开代码语言:PythonAI代码解释hidden_states=inputs_embeds.unsqueeze(2).expand(

    21310编辑于 2026-05-09
  • DeepSeek-V4模型架构与成本分析

    使用缓存输入时,差距进一步扩大:DeepSeek-V4-Pro成本约为某模型5.5的十分之一,约为某机构模型4.7的八分之一。更极致的近零定价属于DeepSeek-V4-Flash(非Pro模型)。 基准测试对比:DeepSeek-V4-Pro接近,但某模型5.5和某机构模型4.7在多数共享测试中仍领先DeepSeek-V4-Pro-Max最好被理解为一个重大的开放权重跃升,而非对所有最新闭门前沿系统的全面击败 但这并非与某机构更新的某模型5.5或某机构更新的某机构模型4.7的直接对比。仅看DeepSeek-V4与最新闭源模型的对比,情况更为克制。 最终,在可直接跨公司发布表格比较的基准上,DeepSeek-V4-Pro-Max似乎并未推翻某模型5.5或某机构模型4.7的地位。 DeepSeek-V4不仅仅是一个新模型;它是现状的挑战。

    89810编辑于 2026-04-25
  • DeepSeek V4模型技术参数与性能分析

    中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本,这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新,后者曾席卷AI领域。 该公司表示,DeepSeek V4 Flash和V4 Pro均为混合专家(Mixture-of-Experts)模型,每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。 DeepSeek表示,由于架构改进,这两个模型DeepSeek V3.2更高效、性能更佳,并且在推理基准上几乎“缩小了”与当前领先模型(无论是开放还是闭源)的差距。 在编程竞赛基准中,DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。 V4 Flash和V4 Pro都仅支持文本,不像许多闭源同行那样支持理解并生成音频、视频和图像。值得注意的是,DeepSeek V4比当今任何前沿模型都便宜得多。

    73710编辑于 2026-04-25
  • 来自专栏Hello工控

    如何在Claude Code里面用上DeepSeek V4 Pro模型

    由于Claude Code的账户使用限制以及国内众所周知的原因,确实不是那么好直接使用CC的Opus模型。 但是,DeepSeek这次模型的升级,从官宣上看,跟这些顶级模型只有2-3个月的差距。 所以,我们可以把DeepSeek模型集成到CC里面去使用,当做日常的AI助手完全没问题。 01 安装前准备 在安装Claude之前,需要的前提是Node.js。 最后就是把Claude环境和模型配置下: 上图就是我们申请的DeepSeek API key。具体申请步骤参考: 把DeepSeek V4接入RealPLC,实现PLC自动编程! ="deepseek-v4-flash" $env:CLAUDE_CODE_SUBAGENT_MODEL="deepseek-v4-flash" $env:CLAUDE_CODE_EFFORT_LEVEL 我们为了确认链接成功,可以问下它是谁,用的是哪家大模型,确定回复为deepseek-v4-pro。那么,这个时候你就可以愉快地使用这个CC和Deepseek V4 Pro开启AI编程对话之旅了。

    7.9K10编辑于 2026-04-28
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • DeepSeek免费超越GPT-4

    核心性能提升 性能表现优异,直逼国际一流 数学、编程、逻辑推理测试中,成绩国内领先 整体表现已接近 GPT-4 和谷歌最新模型 AIME 数学竞赛准确率从 70% 大幅提升至87.5% 思考过程更加深入 总结展望 国产 AI 的重要突破 DeepSeek-R1 这次升级展现了国产 AI 在推理能力上的重大进步: 性能达到国际先进水平:多项测试接近 GPT-4 表现 完全免费开源:对开发者和研究者友好 实用性强 //huggingface.co/deepseek-ai/DeepSeek-R1-0528 与之前的 DeepSeek-R1 版本一致,此次开源仓库(包括模型权重)统一采用 MIT License,允许用户利用模型输出 、通过模型蒸馏等方式训练其他模型。 数据库 点击阅读 2.AI知识库的真相 点击阅读 3.Cherry Studio 本地知识库搭建教程 点击阅读 4.RAG知识库痛点与优化 点击阅读 5.数据库接入大模型实战 点击阅读 6.免费域名

    27510编辑于 2026-04-29
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 推理模型 推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G

    1K10编辑于 2025-03-10
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    DeepSeek,作为国产开源大模型的领军者,凭借其MIT许可证免费商用、性能对标GPT-4、全栈开源三大特性,迅速成为金融机构的热门选择。 但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46520编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • DeepSeek-V4 实战——我用国产大模型重写了3个项目

    朋友问:你用国产大模型替代 GPT-4 了吗? 我:替代了,而且重写了3个项目。 朋友:效果怎么样? 我:性能接近,成本降了90%,但踩了几个坑。 一、为什么从 GPT-4 切到 DeepSeek-V4 ▪ 成本账 先看数据: 模型 输入价格(缓存命中/未命中) 输出价格 相对 GPT-5.5 GPT-5.5 ¥8.8/M ¥17.6/M 基准 Claude ),DeepSeek-V4 完全够用。 ▪ 我踩过的坑 坑4模型名字写错。 原因: DeepSeek-V4模型名是 deepseek-v4-pro 和 deepseek-v4-flash,不是 deepseek-v4。 Opus 4.7 更好 多模态: 需要 Image/Video/Audio 能力,DeepSeek-V4 目前只支持文本 特殊场景: 比如医疗、法律等需要特定领域微调的模型 ▪ 我的建议 先试跑: 拿小数据集试跑

    42411编辑于 2026-05-09
  • 来自专栏ZED IDE

    Zed IDE正式支持:中文大模型DeepSeek V4,终于不用折腾了

    一句话概括:Zed的AI模型列表里,现在可以直接选deepseek-v4-pro和deepseek-v4-flash。 模型适合干啥响应节奏上下文V4Flash日常编码、即时问答、轻量补全快,像打字一样跟手384KV4Pro复杂推理、代码审查、方案设计稍慢,但逻辑密度高384K配置?不用写。鉴权? 三个细节,让"能用"变成"好用"加模型名字谁都会,但下面这三点,才是我觉得"这个团队懂开发者"的原因:1.旧入口自动清理deepseek-chat和deepseek-reasoner被移除了。 中文模型的"本地化"优势,不只是语言用了一段时间后,我发现一个有趣的现象:在处理中文技术语境时,DeepSeek的理解和生成质量明显更自然。 deepseek-v4-pro开始提问小提醒:首次使用建议从Flash开始,熟悉响应节奏后再尝试Pro的深度模式。

    1.4K10编辑于 2026-05-07
  • 来自专栏Hello工控

    VS Code集成Claude Code,搭配DeepSeek V4 Pro模型,直接开干!

    目前,我用了Google的Antigravity、OpenAI的Codex以及Claude Code结合国产模型。 结合我的使用,谈点一些经验和大家分享。 但是,不知道啥原因,Antigravity的免费额度也用不了,重装后发现也没办法再用opus及Gemini 3.1Pro的模型,甚至是Gemini 3 Flash的也没法使用。 但是,如何让这些AI各自发挥自身的功能和强项,非常考验你自身的使用经验,Opencode的免费模型还是可以在某些场合能够解决一些问题的,但是不能做大型代码的更改。 03 CC+DeepSeek 最近,由于DeepSeek V4的上线和发布,我也是第一时间跟进,把V4 Pro接入到Claude,同时安装了VS的CC扩展: 直接在扩展里搜索Claude就会弹出,需要注意选择 如果我们之前已经在CLI环境配置过DeepSeek模型,如何在Claude Code里面用上DeepSeek V4 Pro模型

    4.1K60编辑于 2026-05-11
  • DeepSeek V4 领衔实测:国产 AI 大模型工程代码能力大测评!

    整体来看,在这个实验项目中,各模型的表现结果能够呈现出明显差距。第一梯队是 deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7。 其中,deepseek-v4-pro 上限最高、稳定性最强,是实验项目中国产模型综合表现最均衡的一个;deepseek-v4-flash 效率最突出,速度和 Token 消耗都控制得很好;minimax-m2.7 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 本质上,它决定的是:模型能不能沿着一条可控的路径把问题解决掉。deepseek-v4-pro、deepseek-v4-flash 和 minimax-m2.7 在这一维度上的优势比较明显。 deepseek-v4-flash 在这一维度上表现最佳,deepseek-v4-pro 和 qwen3.6-plus 紧随其后。这类模型通常能够较快收敛到可用结果,整体路径较短。

    2.3K20编辑于 2026-05-06
  • 来自专栏Java面试教程

    DeepSeek-V4,终于发布,很强!

    刚刚,DeepSeek 官方公众号发文:DeepSeek-V4 预览版:迈入百万上下文普惠时代。 全新 DeepSeek-V4 的预览版本正式上线。 模型按大小分为两个版本: DeepSeek-V4-Flash,更快更便宜一点,在处理简单的任务上面和 Pro 的版本没太大差距,但如果在难度系数更大的任务上,推荐使用 Pro 的版本。 现在登录官网什么,就已经是 V4了。 根据官方的报道,DeepSeek-V4-Pro:性能比肩顶级闭源模型,什么叫做比肩顶级闭源模型。 大家看看下面的对比图。 这 3 家,每年在 AI 大模型上面投入的资金、人才密度,比 DeepSeek 要多多少倍,而 DeepSeek 只是一家小公司,还是开源的。 4、V4-Pro版本的世界知识储备,已大幅领先其他开源模型,仅次于顶尖闭源模型Gemini-Pro-3.1 5、深度适配华为昇腾算力:V4将运行在华为最新的昇腾(Ascend)芯片上。

    98330编辑于 2026-04-27
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main 4.

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 在本地运行Llama 3.3、DeepSeek-R1、Phi-4、Mistral、Gemma 2等模型。 根据所属平台,下载指定的Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2.6K60编辑于 2025-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 参考2 第三章 赛事分类与级别认定 第七条 根据学科竞赛的组织机构、专业度、社会影响和获 - 4 - 奖难度等方面综合考虑,将竞赛分为国家级、省部级、地厅级和 校级赛事。 参考3 4.奖金发放:学校归口管理职能部门根据最终确定的奖励情 况,按要求报送相关奖励方案,由财务处发放奖金。 模型部署mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer =

    1.1K31编辑于 2025-07-19
  • 来自专栏服务器运维日常

    DeepSeek 模型:究竟该如何抉择?

    无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。 那么不同的模型有什么区别?具体如何选择模型? 二、DeepSeek “满血版”模型 1、DeepSeek-V3:全能创作王 DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。 2、DeepSeek-R1:超级推理大师 DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。 三、DeepSeek 蒸馏模型 这张表格展示了不同模型在多种任务和评测指标上的表现: 模型列:左侧一列列出了不同的语言模型,如GPT - 4o - 0513、Claude - 3.5 - Sonnet 4、Distill-Qwen-14B :进阶高手(推荐) DeepSeek-R1-Distill-Qwen-14B 拥有 140 亿参数,是一位能力全面提升的 “进阶高手”,在推理能力上更上一层楼。

    1.9K21编辑于 2025-02-23
领券