首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏猫头虎博客专区

    开源大模型DeepSeek.ai火遍全球:9条让DeepSeek颠覆通用大模型的事实

    DeepSeek.ai火遍全球的几个事实: DeepSeek 不是套壳不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 ( R1-Zero: Deepseek 在 V3 基础模型上, 仅通过强化学习 (Reinforcement Learning) 训练, 而不加入 SFT (Supervised fine tuning) 因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。 DeepSeek 让开源模型和闭源模型一样好, 并且效率还更高, 花钱买 OpenAI 的 API 的必要性降低了, 私有部署和自主微调会为下游应用提供更大的发展空间, 未来一两年, 大概率将见证更丰富的推理芯片产品

    1.2K10编辑于 2025-02-02
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • 来自专栏机器学习与统计学

    模型解决机器学习问题,实测,DeepSeek-R1 排名第9

    大家好,我是Ai学习的老章 经常在外冲浪,看到很多优秀的技术文章,独享不如分享 我会使用DeepSeek-R1+科技类翻译大师prompt翻译出来,大家一起学习 如有翻译偏差,请大家指教。 模型必须将 9 个打乱的灰度图像块(每个 9x9 像素)重新排列以重建原始的 27x27 图像。 图像块洗牌(简单) 模型必须排列 9 个洗牌的灰度图像块(每个 9x9 像素),以重建原始的 27x27 图像。所有块都保证来自同一张连贯的图像( 任务提示[6] )。训练集包含 1000 张图像。 模型必须将 9 个乱序的 RGB 图像块(每个 9x9 像素)重新排列,这些图像块来自一个更大的 64x64 图像的随机 27x27 子集。 模型必须仅使用26个标记样本和大量未标记数据进行分类。 无监督手写数字识别 一个半监督学习任务,模型必须仅使用 26 个标记样本和大量未标记数据进行分类( 任务提示[9] )。

    26410编辑于 2025-07-21
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 推理模型 推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G

    1K10编辑于 2025-03-10
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 一体机方案:如恒生电子“光子大模型一体机DeepSeek版”,打包软硬件,价格约$50,000起,但省去集成烦恼。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46420编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • 来自专栏Python与算法之美

    9模型的评估

    模块中的交叉验证相关方法可以评估模型的泛化能力,能够有效避免过度拟合。 二,分类模型的评估 模型分类效果全部信息: confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果: accuracy 正确率。通用分类评估指标。 模型对某种类别的分类效果: precision 精确率,也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率,也叫查全率。模型识别出全部正样本的能力。 三,回归模型的评估 回归模型最常用的评估指标有: r2_score(r方,拟合优度,可决系数) explained_variance_score(解释方差得分) ? ? 留出法 为了解决过拟合问题,常见的方法将数据分为训练集和测试集,用训练集去训练模型的参数,用测试集去测试训练后模型的表现。

    1K31发布于 2020-07-17
  • 来自专栏福大大架构师每日一题

    deepseek VS chatgpt (400)-- 算法导论25.2 9

    deepseek: 要计算通用有向图 ( G = (V, E) ) 的传递闭包 ( G^* = (V, E^) ),可以通过以下步骤实现,其时间复杂度为 ( f(|V|, |E|) + O(V + E^

    30210编辑于 2025-02-19
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    这一系列令人咋舌的事件,让DeepSeek这个名字,瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的大语言模型的名称。 DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • DeepSeek模型MOE结构代码详解

    其实在DeepSeek-R1爆火之前,DeepSeek V2在我们行业就已经妇孺皆知了,它独特的MOE结构值得研究一下。 这样的话,既能让模型学习更多的知识(多个“专家”),又能减少推理计算量(选择部分“专家”进行计算)。 output shape: {output.shape}") # torch.Size([64, 256])初始化函数定义首先,定义了Expert类,也就是“专家”,可以看到,专家是由线性层和激活函数构成的简单模型 sample_indices: tensor([0, 0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9], device='npu:4再通过下面的代码就可以把idxes取出来了:expert_samples = sample_indices[expert_mask]也顺便把概率权重取出来:expert_weights

    45720编辑于 2025-04-21
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩,压缩后的KVEntriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。 Transformer每层hidden是:[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream:[batch,seq,hc_mult,hidden]默认hc_mult=4模型入口处会把

    21310编辑于 2026-05-09
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B

    3.5K12编辑于 2025-01-26
  • 来自专栏IT从业者张某某

    大语言模型-1.3-GPT、DeepSeek模型介绍

    2021年,WebGPT(搜索能力) 2022年2月,InstructGPT(人类对齐) 2022年11月,ChatGPT(对话能力) 2023年3月,GPT-4(推理能力、多模态能力) 2024年9月 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言大模型DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型DeepSeek-VL ➢ 推理大模型DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破 为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放

    1.3K00编辑于 2025-03-15
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB 极致的训练/推理性价比 DeepSeekV2 的激活参数量 21B,总参数量 236B,激活参数占比不到 9%,于此对应的是: - Mixtral-8x7B 激活参数量 13B,总参数量 46B,激活参数占比 相较于目前的 Dense 模型和之前最流行的 MoE 模型, DeepSeekV2 的 Expert token 训练量 和 Attention token 训练量的差距是最大的: LLaMa3 训练 本质上 LLaMa3 以及其他所有 Dense 开源模型,都是在复现 LLaMa2 的基础上卷数据,其中 LLaMa3 是卷数据卷的最狠的,因此也是模型能力最强的 8B/70B 模型。 也为 DeepSeek 是一个中国 team 感到自豪。 - The End -

    97920编辑于 2025-02-03
  • 来自专栏DotNet NB && CloudNative

    DeepSeek API Client:轻松接入 DeepSeek AI 模型的 .NET 开发利器

    今天,我们来介绍一款名为 DeepSeek.ApiClient 的 .NET 库,它为我们提供了一种简单而强大的方式,用于与 DeepSeek 的 AI 模型进行交互。 概述 DeepSeek.ApiClient 是一个专为与 DeepSeek API 交互而设计的 .NET 库。它允许我们轻松地向 DeepSeek 的 AI 模型发送请求,并接收智能的响应。 功能 • 动态支持 DeepSeek 模型 • 依赖注入(DI)无缝集成 • 自定义系统消息专业的技术助手”,从而让模型生成更符合场景的响应。 使用枚举选择模型 还可以通过枚举直接指定模型: string response = await deepSeekClient.SendMessageAsync("解释 SOLID 原则", DeepSeekModel.V3 正是这样一款工具,不仅简化了与 DeepSeek API 的交互,还提供了强大的功能支持。

    55800编辑于 2025-04-18
  • 来自专栏服务端技术杂谈

    特斯拉将搭载豆包大模型DeepSeek模型

    8月22日,字节跳动方面发布消息称,特斯拉与火山引擎已于近日达成合作,在国内,火山引擎将为特斯拉提供大模型服务,助力特斯拉智能座舱交互体验升级。 全新上市的特斯拉Model Y L车型将搭载豆包大模型DeepSeek模型,两款模型均通过火山引擎接入。 其中,豆包大模型将承担语音命令功能,如导航设定、媒体播放操控、空调温度调节等,同时,还具备车主手册查询功能;DeepSeek模型则提供AI语音闲聊服务 。

    24310编辑于 2026-03-11
  • 来自专栏星哥的AI自留地

    免费使用腾讯云模型能力,DeepSeek满血模型白送

    免费使用腾讯云模型能力,DeepSeek满血模型白送宝子们,是不是总感觉做项目、搞开发的时候,AI模型能力得付费使用,成本高到让人心疼?别慌! 今天给大伙带来一个好消息,腾讯云直接把DeepSeek模型能力免费!这可太香了!咱不用再为预算不够、模型能力受限干着急啦,直接冲就完事儿! 您可通过多款原子能力组建您专属的模型服务,调用文档解析、拆分、embedding、多轮改写等服务进行组装,定制企业专属 AI 业务。 简单来说,这个东西就像是给企业和开发者提供了一套“AI工具箱”,可以灵活地组建和开发模型应用,以满足特定业务需求。 点击新建一个对话框,并且选择腾讯云TI的模型,选择模型结尾总之,腾讯云这波操作太给力了,把DeepSeek满血模型免费送到咱们面前。能帮咱们的项目、应用直接开挂。宝子们还等啥呢?

    1.1K10编辑于 2026-04-23
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2.6K60编辑于 2025-05-08
领券