搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏人工智能
DeepSeek 主要模型介绍
前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗？ DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型，旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家（MoE），是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型，旨在融合视觉和语言信息，提升人工智能在图文理解与生成任务中的表现。
1.3K75编辑于 2025-03-27
来自专栏猫头虎博客专区
LeetCode 6-10 题详解 Java版 ( 万字图文详解 LeetCode 算法题6-10 =====＞＞＞＜建议收藏＞)
今天我们一起学习了LeetCode 6-10 题的算法分析,感谢大家阅读,觉得不错记得收藏哦! 喜欢请点个 + 关注
25710编辑于 2024-04-07
来自专栏python、mysql、go知识点积累
07-02 django 6-10
字段查询 all():返回模型类对应表格中的所有数据。条件格式：模型类属性名__条件名=值注意：此处是模型类属性名，不是表中的字段名关于 filter 具体案例如下：判等 exact。 BookInfo.objects.filter(id__gt = 3).count() 模型类关系一对多关系例：图书类-英雄类 models.ForeignKey() 定义在多的类中。
98540发布于 2020-04-14
来自专栏AgenticAI
刚刚DeepSeek开源新模型DeepSeek-OCR
就在3个小时前，DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR，一个只有3B大小的文档解析新模型，该模型的目标是探索视觉文本压缩的边界。在生产环境中，DeepSeek-OCR能够以单个A100-40G GPU的计算能力，每天生成 200k+ 页的训练数据，供大语言模型或视觉语言模型使用。该模型是一个以LLM视角探索研究视觉编码器作用的模型，性能强悍，编辑距离越小越好，看起来和dots.ocr不相上下。深感数据量不够，于是顺手训练了一个自己的文档解析模型来扩充自己的数据？模型地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR
50010编辑于 2025-11-29
来自专栏运维小路
DeepSeek-模型(model)介绍
国产大模型DeepSeek之所以火爆，就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。注：这里的B指出的是参数，参数越大，代表能力越强，一个B代表10亿参数。推理模型推理模型是指训练完成后，模型应用阶段的过程。此时模型参数已固定，用于对新的输入数据（未见过的数据）进行预测或分类。包括我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。蒸馏模型 DeepSeek到目前为止开源的的模型有多个，其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版，还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型，显存占用都是到116G
1K10编辑于 2025-03-10
来自专栏C语言例题100题
C语言经典例题100（6-10）
思路：使用循环嵌套来写这个代码，我们首先要让i=1的时候，做一遍1的乘法运算，也就是说我们的j<=i，所以我们第二个for循环就可以写成是让j也从1开始遍历，范围要小于等于i，以此递增。
31810编辑于 2025-06-04
来自专栏openclaw系列
如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册
但热潮之下，一个关键问题亟待解答：如何科学、全面地评估DeepSeek模型的性价比？本文旨在破解这一难题。一体机方案：如恒生电子“光子大模型一体机DeepSeek版”，打包软硬件，价格约$50,000起，但省去集成烦恼。 9.2模型效率革命MoE架构：DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化：RTX4090可流畅运行7B模型，硬件门槛大幅降低。参考资料：恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能？》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》
46520编辑于 2026-04-05
DeepSeek模型：原理、回答机制与模型因子
随着大语言模型（LLM）的快速发展，DeepSeek作为一款领先的开源大模型，以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子，并通过表格和流程图的形式进行对比分析。一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型，其核心设计借鉴了GPT系列模型的成功经验，同时在训练数据、模型架构和优化策略上进行了创新。三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计，还受到多个模型因子的影响。以下是几个关键的模型因子及其作用：四、与其他模型的对比分析为了更好地理解DeepSeek的特点，我们将其与其他主流大语言模型（如GPT-4、Llama2）进行对比：从表中可以看出，DeepSeek在开源性
2.7K10编辑于 2025-03-20
来自专栏大数据成长之路
Hadoop源代码分析【6-10】
小结 Hadoop源代码分析【6-10】主要为大家科普了RPC实现通信的流程，以及 DataNode在升级 / 回滚/ 提交时底层的变化。
69620发布于 2021-01-27
来自专栏小陈运维
使用Ollama部署deepseek大模型
使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型，也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约
2.8K20编辑于 2025-02-04
来自专栏AllTests软件测试
本地部署AI大模型DeepSeek
这一系列令人咋舌的事件，让DeepSeek这个名字，瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司（中国杭州深度求索）及其推出的大语言模型的名称。 DeepSeek的核心产品，是一系列强大的大语言模型。官方网址： https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 2、搜索并安装DeepSeek模型。搜索大语言模型： https://ollama.com/search 可以看到DeepSeek-R1。深度求索（DeepSeek）的第一代推理模型，性能与OpenAI-o1相当，其中包括六个基于Llama和通义千问（Qwen）从DeepSeek-R1提炼而来的稠密模型。
87410编辑于 2025-02-10
DeepSeek模型MOE结构代码详解
其实在DeepSeek-R1爆火之前，DeepSeek V2在我们行业就已经妇孺皆知了，它独特的MOE结构值得研究一下。这样的话，既能让模型学习更多的知识（多个“专家”），又能减少推理计算量（选择部分“专家”进行计算）。 output shape: {output.shape}") # torch.Size([64, 256])初始化函数定义首先，定义了Expert类，也就是“专家”，可以看到，专家是由线性层和激活函数构成的简单模型
45820编辑于 2025-04-21
来自专栏AI工程落地
DeepSeek V4模型原理
CompressedSparseAttention（CSA）这个Attention有三块功能构成：1.KVCompressor负责把N个token的KV压缩成1个，在DeepSeekV4系列模型里，N= 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算，DeepSeekV4Flash模型的k=512，Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩，压缩后的KVEntriy内部的token之间是无法相互看到的，而且语言模型对最近的token是高度依赖的。 Transformer每层hidden是：[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream：[batch,seq,hc_mult,hidden]默认hc_mult=4模型入口处会把
21310编辑于 2026-05-09
来自专栏全栈开发那些事
6-10 二分查找 (20分)
L是用户传入的一个线性表，其中ElementType元素可以通过>、==、<进行比较，并且题目保证传入的数据是递增有序的。函数BinarySearch要查找X在Data中的位置，即数组下标（注意：元素从下标1开始存储）。找到则返回下标，否则返回一个特殊的失败标记NotFound。
30920编辑于 2023-02-27
来自专栏小陈运维
使用Ollama部署deepseek大模型
使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型，也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B
3.5K12编辑于 2025-01-26
来自专栏IT从业者张某某
大语言模型-1.3-GPT、DeepSeek模型介绍
，综合模态能力显著提升 ➢ 支持统一处理和输出文本、音频、图片、视频信息 o系列模型 ➢ 推理任务上能力大幅提升 ➢ 长思维链推理能力 o-series ➢ 类似人类的“慢思考”过程 1.3.2DeepSeek 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架：HAI-LLM ➢ 语言大模型：DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型：DeepSeek-VL ➢ 推理大模型：DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM（发布于2023年6月） ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放
1.3K00编辑于 2025-03-15
来自专栏GiantPandaCV
如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？
/DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例，总显存大小共 640GB 相较于目前的 Dense 模型和之前最流行的 MoE 模型， DeepSeekV2 的 Expert token 训练量和 Attention token 训练量的差距是最大的： LLaMa3 训练本质上 LLaMa3 以及其他所有 Dense 开源模型，都是在复现 LLaMa2 的基础上卷数据，其中 LLaMa3 是卷数据卷的最狠的，因此也是模型能力最强的 8B/70B 模型。技术报告中明确了 Pipeline Parallel Size 是 16，但模型的结构是 60 层 Transformer Layer： DeepSeekV2 模型 config 而 60 层是不能整除也为 DeepSeek 是一个中国 team 感到自豪。 - The End -
97920编辑于 2025-02-03
来自专栏DotNet NB && CloudNative
DeepSeek API Client：轻松接入 DeepSeek AI 模型的 .NET 开发利器
今天，我们来介绍一款名为 DeepSeek.ApiClient 的 .NET 库，它为我们提供了一种简单而强大的方式，用于与 DeepSeek 的 AI 模型进行交互。概述 DeepSeek.ApiClient 是一个专为与 DeepSeek API 交互而设计的 .NET 库。它允许我们轻松地向 DeepSeek 的 AI 模型发送请求，并接收智能的响应。功能 • 动态支持 DeepSeek 模型 • 依赖注入（DI）无缝集成 • 自定义系统消息专业的技术助手”，从而让模型生成更符合场景的响应。使用枚举选择模型还可以通过枚举直接指定模型： string response = await deepSeekClient.SendMessageAsync("解释 SOLID 原则", DeepSeekModel.V3 正是这样一款工具，不仅简化了与 DeepSeek API 的交互，还提供了强大的功能支持。
55800编辑于 2025-04-18
来自专栏Gorit 带你学全栈系列
编程入门、进阶100例（6-10题）
本期用先用java去实现代码，后面我会慢慢补全c语言和python的代码题目索引六、温度转换问题 6.1 问题描述 6.2 示例 6.3 代码实现七、求阶乘之和 7.1 问题描述 7.2 示例 7.3 代码实现八、打印水仙花数 8.1 打印100~1000之间的水仙花数 8.2 示例 8.3 代码实现九、求100~200以内的素数 9.1 问题描述 9.2 示例 9.3 代码实现十、实现冒泡排序 10.1 问题描述 10.2 示例 10.3 代码实现六、温度转换问题 6.1 问题描述输
63210编辑于 2021-12-09
来自专栏服务端技术杂谈
特斯拉将搭载豆包大模型和DeepSeek大模型
8月22日，字节跳动方面发布消息称，特斯拉与火山引擎已于近日达成合作，在国内，火山引擎将为特斯拉提供大模型服务，助力特斯拉智能座舱交互体验升级。全新上市的特斯拉Model Y L车型将搭载豆包大模型与DeepSeek模型，两款模型均通过火山引擎接入。其中，豆包大模型将承担语音命令功能，如导航设定、媒体播放操控、空调温度调节等，同时，还具备车主手册查询功能；DeepSeek模型则提供AI语音闲聊服务。
24310编辑于 2026-03-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

DeepSeek 主要模型介绍

LeetCode 6-10 题详解 Java版 ( 万字图文详解 LeetCode 算法题6-10 =====＞＞＞＜建议收藏＞)

07-02 django 6-10

刚刚DeepSeek开源新模型DeepSeek-OCR

DeepSeek-模型(model)介绍

C语言经典例题100（6-10）

如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册

DeepSeek模型：原理、回答机制与模型因子

Hadoop源代码分析【6-10】

使用Ollama部署deepseek大模型

本地部署AI大模型DeepSeek

DeepSeek模型MOE结构代码详解

DeepSeek V4模型原理

6-10 二分查找 (20分)

使用Ollama部署deepseek大模型

大语言模型-1.3-GPT、DeepSeek模型介绍

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

DeepSeek API Client：轻松接入 DeepSeek AI 模型的 .NET 开发利器

编程入门、进阶100例（6-10题）

特斯拉将搭载豆包大模型和DeepSeek大模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

DeepSeek 主要模型介绍

LeetCode 6-10 题 详解 Java版 ( 万字 图文详解 LeetCode 算法题6-10 =====＞＞＞ ＜建议收藏＞)

07-02 django 6-10

刚刚DeepSeek开源新模型DeepSeek-OCR

DeepSeek-模型(model)介绍

C语言经典例题100（6-10）

如何评估DeepSeek模型的性价比？——DeepSeek性价比评估手册

DeepSeek模型：原理、回答机制与模型因子

Hadoop源代码分析【6-10】

使用Ollama部署deepseek大模型

本地部署AI大模型DeepSeek

DeepSeek模型MOE结构代码详解

DeepSeek V4模型原理

6-10 二分查找 (20分)

使用Ollama部署deepseek大模型

大语言模型-1.3-GPT、DeepSeek模型介绍

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

DeepSeek API Client：轻松接入 DeepSeek AI 模型的 .NET 开发利器

编程入门、进阶100例（6-10题）

特斯拉将搭载豆包大模型和DeepSeek大模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LeetCode 6-10 题详解 Java版 ( 万字图文详解 LeetCode 算法题6-10 =====＞＞＞＜建议收藏＞)