首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 推理模型 推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G

    1K10编辑于 2025-03-10
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 11-7 RBF核函数

    本系列是《玩转机器学习教程》一个整理的视频笔记。在上一小节详解介绍了什么是核函数,并且以多项式核函数为例介绍了核函数的实际含义。本小节具体来介绍另外一种比较特殊的核函数:高斯核函数,高斯核函数是在SVM算法中使用最多的一种核函数。

    6.4K30发布于 2020-10-09
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 一体机方案:如恒生电子“光子大模型一体机DeepSeek版”,打包软硬件,价格约$50,000起,但省去集成烦恼。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46420编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    这一系列令人咋舌的事件,让DeepSeek这个名字,瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的大语言模型的名称。 DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型。 ,提交给 DeepSeek 求解。 其思考过程默认折叠,可展开查看详细推理步骤。经过一段时间,模型给出了完整的解题思路和正确答案。

    2.6K60编辑于 2025-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 promptmessages = [ {"role": "user", "content": f"""请根据以下参考内容回答问题: {retrieved} 问题:{query}"""}]4️⃣ 模型部署 mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained 5️⃣ 界面设计编者基于PYQT5模块设计了一个支持知识库搭建的大模型问答系统:搭建知识库后:模型输出写在最后:✅ 本项目搭建了一个简单的知识库问答系统,用户可以将自己的私人知识库进行搭建,基于RAG技术实现问答系统

    1.1K31编辑于 2025-07-19
  • 来自专栏服务器运维日常

    DeepSeek 模型:究竟该如何抉择?

    无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。 那么不同的模型有什么区别?具体如何选择模型? 二、DeepSeek “满血版”模型 1、DeepSeek-V3:全能创作王 DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。 2、DeepSeek-R1:超级推理大师 DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。 三、DeepSeek 蒸馏模型 这张表格展示了不同模型在多种任务和评测指标上的表现: 模型列:左侧一列列出了不同的语言模型,如GPT - 4o - 0513、Claude - 3.5 - Sonnet 相反,如果你的硬件配置较高,预算充足,那么可以选择性能更强大的模型,如 DeepSeek-R1-14B 或 DeepSeek-R1-32B。

    1.9K21编辑于 2025-02-23
  • DeepSeek模型MOE结构代码详解

    其实在DeepSeek-R1爆火之前,DeepSeek V2在我们行业就已经妇孺皆知了,它独特的MOE结构值得研究一下。 这样的话,既能让模型学习更多的知识(多个“专家”),又能减少推理计算量(选择部分“专家”进行计算)。 output shape: {output.shape}") # torch.Size([64, 256])初始化函数定义首先,定义了Expert类,也就是“专家”,可以看到,专家是由线性层和激活函数构成的简单模型

    45720编辑于 2025-04-21
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩,压缩后的KVEntriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。 Transformer每层hidden是:[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream:[batch,seq,hc_mult,hidden]默认hc_mult=4模型入口处会把

    21310编辑于 2026-05-09
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B

    3.5K12编辑于 2025-01-26
  • 来自专栏IT从业者张某某

    大语言模型-1.3-GPT、DeepSeek模型介绍

    ,综合模态能力显著提升 ➢ 支持统一处理和输出文本、音频、图片、视频信息 o系列模型 ➢ 推理任务上能力大幅提升 ➢ 长思维链推理能力 o-series ➢ 类似人类的“慢思考”过程 1.3.2DeepSeek 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言大模型DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型DeepSeek-VL ➢ 推理大模型DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破 为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放

    1.3K00编辑于 2025-03-15
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB 相较于目前的 Dense 模型和之前最流行的 MoE 模型, DeepSeekV2 的 Expert token 训练量 和 Attention token 训练量的差距是最大的: LLaMa3 训练 本质上 LLaMa3 以及其他所有 Dense 开源模型,都是在复现 LLaMa2 的基础上卷数据,其中 LLaMa3 是卷数据卷的最狠的,因此也是模型能力最强的 8B/70B 模型。 技术报告中明确了 Pipeline Parallel Size 是 16,但模型的结构是 60 层 Transformer Layer: DeepSeekV2 模型 config 而 60 层是不能整除 也为 DeepSeek 是一个中国 team 感到自豪。 - The End -

    97920编辑于 2025-02-03
  • 来自专栏DotNet NB && CloudNative

    DeepSeek API Client:轻松接入 DeepSeek AI 模型的 .NET 开发利器

    今天,我们来介绍一款名为 DeepSeek.ApiClient 的 .NET 库,它为我们提供了一种简单而强大的方式,用于与 DeepSeek 的 AI 模型进行交互。 概述 DeepSeek.ApiClient 是一个专为与 DeepSeek API 交互而设计的 .NET 库。它允许我们轻松地向 DeepSeek 的 AI 模型发送请求,并接收智能的响应。 功能 • 动态支持 DeepSeek 模型 • 依赖注入(DI)无缝集成 • 自定义系统消息专业的技术助手”,从而让模型生成更符合场景的响应。 使用枚举选择模型 还可以通过枚举直接指定模型: string response = await deepSeekClient.SendMessageAsync("解释 SOLID 原则", DeepSeekModel.V3 正是这样一款工具,不仅简化了与 DeepSeek API 的交互,还提供了强大的功能支持。

    55800编辑于 2025-04-18
  • 来自专栏服务端技术杂谈

    特斯拉将搭载豆包大模型DeepSeek模型

    8月22日,字节跳动方面发布消息称,特斯拉与火山引擎已于近日达成合作,在国内,火山引擎将为特斯拉提供大模型服务,助力特斯拉智能座舱交互体验升级。 全新上市的特斯拉Model Y L车型将搭载豆包大模型DeepSeek模型,两款模型均通过火山引擎接入。 其中,豆包大模型将承担语音命令功能,如导航设定、媒体播放操控、空调温度调节等,同时,还具备车主手册查询功能;DeepSeek模型则提供AI语音闲聊服务 。

    24310编辑于 2026-03-11
  • 来自专栏AgenticAI

    DeepSeek模型MODEL1曝光!

    DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。 根据Github泄漏的信息,这款模型并非简单的版本迭代,而是一次重大的架构革新,展现了DeepSeek在AI领域的持续创新能力。 (V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决 条件记忆机制:将20-25%参数用于记忆存储,效果最佳 显存效率提升:显著降低内存占用 推理精度优化:在保持高性能的同时提升准确性 发布计划 据消息透露,DeepSeek计划在2月中旬春节前后发布下一代旗舰模型 参考来源 新浪财经 - DeepSeek模型MODEL1曝光 作享智库 - DeepSeek FlashMLA源码库更新 GitHub - DeepSeek FlashMLA

    69310编辑于 2026-01-22
  • 免费使用DeepSeek-R1模型???

    近期,DeepSeek官网遭遇不明来源的大规模网络攻击,导致部分用户无法正常访问服务,并且API开放平台已经一个星期无法访问。 我们可以使用硅基流动作为临时通道,用户可通过该平台稳定调用DeepSeek R1模型。 我这里不演示了) 进入软件点击左下角设置,模型选择硅基流动填入秘钥 点击下方管理添加DeepSeek-R1模型,这样就配置完成了 我们来用这个24点扑克游戏题验证一下是不是真正的DeepSeek-R1模型

    46410编辑于 2025-07-14
领券