首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏码农编程进阶笔记

    DeepSeek 10 分钟快速上手!

    安装 DeepSeek DeepSeek 支持多种操作系统,以下是安装方法: Windows 访问 DeepSeek 官网,下载最新版本的安装包。 双击安装包,按照提示完成安装。 配置 DeepSeek DeepSeek 的配置文件为 config.yaml,通常位于用户主目录下的 .deepseek 文件夹中。 启动 DeepSeek 在终端或命令行中输入以下命令启动 DeepSeekdeepseek 2. 数据查询 DeepSeek 支持使用 SQL 语法查询数据,以下是一些示例: 简单查询 deepseek query "SELECT * FROM mytable" 条件查询 deepseek query 例如,安装机器学习插件: deepseek plugin install deepseek-ml 安装后,可以使用插件提供的功能,如模型训练和预测: deepseek ml --train --model

    1.7K10编辑于 2025-02-18
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 该模型是一个以LLM视角探索研究视觉编码器作用的模型,性能强悍,编辑距离越小越好,看起来和dots.ocr不相上下。 深感数据量不够,于是顺手训练了一个自己的文档解析模型来扩充自己的数据? 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    50010编辑于 2025-11-29
  • 来自专栏人工智能

    DeepSeek 主要模型介绍

    前言DeepSeek 系列模型涵盖了从通用语言模型到特定领域应用的模型。每一代模型设计的特点都不一样。本文将介绍 DeepSeek 系列的主要模型及其特点。准备好了吗? DeepSeek-R1DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。 DeepSeek-CoderDeepSeek-Coder 是一个高性能的代码生成模型,旨在提升软件开发过程中的自动化程度和效率。 DeepSeek-V3DeepSeek-V3 是深度求索公司推出的第三代大规模混合专家(MoE),是当前语言模型领域的顶尖代表之一。 DeepSeek-VLDeepSeek-VL 是多模态模型,旨在融合视觉和语言信息,提升人工智能在图文理解与生成任务中的表现。

    1.3K75编辑于 2025-03-27
  • 来自专栏运维小路

    DeepSeek-模型(model)介绍

    国产大模型DeepSeek之所以火爆,就是因为他用很小的代价(500W+美元)训练出来的模型达到了ChatGPT等闭源模型的性能。而DeepSeek把训练的模型开源并且允许商用。 目前国内很多厂商都使用DeepSeek的671B模型搭建了模型来供普通用户使用。 注:这里的B指出的是参数,参数越大,代表能力越强,一个B代表10亿参数。 蒸馏模型 DeepSeek到目前为止开源的的模型有多个,其中最火爆DeepSeek-R1,因为他不仅发布了671B的满血版,还发布了蒸馏版。 vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G (VllmWorkerProcess pid=195) INFO 03-09 10:10:40 worker.py:267] model weights take 15.41GiB; non_torch_memory

    1K10编辑于 2025-03-10
  • 来自专栏openclaw系列

    如何评估DeepSeek模型的性价比?——DeepSeek性价比评估手册

    但热潮之下,一个关键问题亟待解答:如何科学、全面地评估DeepSeek模型的性价比?本文旨在破解这一难题。 数据中心PUE(能源使用效率)每降低0.1,可节省电费5-10%。2.2.2人力成本运维团队:需1-2名MLOps工程师维护集群。开发团队:需2-3名AI工程师进行业务对接与微调。 9.2模型效率革命MoE架构:DeepSeek-MoE用20%的激活参数实现100%的性能。4-bit量化:RTX4090可流畅运行7B模型,硬件门槛大幅降低。 参考资料:恒生电子《光子大模型一体机DeepSeek版白皮书》中信证券《DeepSeek下一代新模型有望延续高性价比开源模型路线》百度智能云《如何评估DeepSeek模型在实际项目中的性能?》 CSDN《DeepSeek结合2026算力趋势优化金融风控模型实战》重庆农商行官方新闻稿《成功实现DeepSeek模型的部署应用》

    46420编辑于 2026-04-05
  • DeepSeek模型:原理、回答机制与模型因子

    随着大语言模型(LLM)的快速发展,DeepSeek作为一款领先的开源大模型,以其卓越的性能和广泛的应用场景吸引了众多开发者和研究者的关注。 本文将深入探讨DeepSeek的工作原理、回答生成机制以及其关键模型因子,并通过表格和流程图的形式进行对比分析。 一、DeepSeek的工作原理DeepSeek是一种基于Transformer架构的大语言模型,其核心设计借鉴了GPT系列模型的成功经验,同时在训练数据、模型架构和优化策略上进行了创新。 三、DeepSeek的关键模型因子DeepSeek的表现不仅取决于其架构设计,还受到多个模型因子的影响。 以下是几个关键的模型因子及其作用:四、与其他模型的对比分析为了更好地理解DeepSeek的特点,我们将其与其他主流大语言模型(如GPT-4、Llama2)进行对比:从表中可以看出,DeepSeek在开源性

    2.7K10编辑于 2025-03-20
  • 来自专栏IT技术分享社区

    模型系列:Win10环境下部署DeepSeek图文教程

    如何可以流畅的体验呢,当然最好的方式是本地部署DeepSeek-R1模型,这样就不用担心访问超时的情况了。这里基于Win10操作系统来本地部署DeepSeek-R1大模型,感兴趣的一起来看看吧! 一、安装ollama要运行deepSeek-r1前提先要安装一个能运行大模型的工具,这里选择ollama。 二、安装DeepSeek-R1模型运行ollama打开PowerShell命令行窗口。因为是个人电脑,本身电脑配置就不高,这样选择最基础的模型参数1.5B来进行安装。 5.3 运行DeepSeek-R1参数模型电脑配置要求大家可以参考下面的表格,给出的电脑配置要求。避免因为配置问题运行不了。 R1 模型版本CPUGPU内存存储1.5BIntel Core i5/AMD Ryzen 5 及以上无强制要求,有 1GB 及以上显存可提升性能最低 8GB,推荐 16GB+至少 10GB,建议留更多缓存空间

    3K91编辑于 2025-02-10
  • 来自专栏nobody

    使用DeepSeek必备的10个技巧

    这个春节,DeepSeek太火了,无须赘述。 今天,我们直接讲干货。用10个问题带大家了解:DeepSeek是什么,怎么用,如何与DS高质量对话,以及一些隐藏技巧。 比如昨晚春晚的扭秧歌机器人,以及2025年春节DeepSeek爆火的舆情。 而DeepSeek,是少有的支持推理+联网的模型。 然后,再用推理模型来深度优化。 10、R1的3个开放 对于R1模型DeepSeek做到了3个开放: 1)思维链全开放。无论是应用端还是API,都可以看到完整、透明的思考过程。 为进一步平权,于是他们就蒸馏出了6个小模型,并开源给社区。最小的为1.5B参数,10G显存可跑。 HuggingFace链接: https://huggingface.co/deepseek-ai 写在最后 以上10个技巧,希望能对你使用DeepSeek有所帮助。

    3.1K50编辑于 2025-02-06
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型 前置条件 使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 模型,也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1:1.5b # 7B Qwen DeepSeek R1 # 所需空间大约 4.7G ollama run deepseek-r1:7b # 8B Llama DeepSeek R1 # 所需空间大约 4.9G ollama run deepseek-r1:8b # 14B Qwen DeepSeek R1 # 所需空间大约 9G ollama run deepseek-r1 :14b # 32B Qwen DeepSeek R1 # 所需空间大约 20G ollama run deepseek-r1:32b # 70B Llama DeepSeek R1 # 所需空间大约

    2.8K20编辑于 2025-02-04
  • 来自专栏AllTests软件测试

    本地部署AI大模型DeepSeek

    这一系列令人咋舌的事件,让DeepSeek这个名字,瞬间成为了全球AI领域的焦点。 DeepSeek是一家专注于人工智能技术的公司(中国杭州深度求索)及其推出的大语言模型的名称。 DeepSeek的核心产品,是一系列强大的大语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 2、搜索并安装DeepSeek模型。 搜索大语言模型: https://ollama.com/search 可以看到DeepSeek-R1。 深度求索(DeepSeek)的第一代推理模型,性能与OpenAI-o1相当,其中包括六个基于Llama和通义千问(Qwen)从DeepSeek-R1提炼而来的稠密模型

    87410编辑于 2025-02-10
  • 来自专栏前端必修课

    低价大模型 DeepSeek 实用指南

    火爆全网的国产大模型 DeepSeek,其 API 价格仅为同类模型的几十分之一。 DeepSeek 网页端与 API 应用场景 DeepSeek 网页端界面简洁直观,但 API 使用需要一定技巧。 注册后曾赠送 10 元额度(2025 年 1 月时有赠送,目前可能已取消)。 接着创建 API Key,作为 API 调用凭证。点击“API keys”,再点击“创建”。 输入名称后点击创建。 Cherry Studio 配置 DeepSeek 安装完成后打开软件,点击左下角设置按钮,选择“模型服务”为 DeepSeek,并粘贴之前获取的 API Key。 最后开启开关,配置即完成。 开始使用 DeepSeek AI 对话 随后可在左侧助手栏直接进行 AI 对话。 顶部菜单栏可选择模型DeepSeek Chat 为基础对话模型DeepSeek Reasoner(R1)为推理模型

    2.6K60编辑于 2025-05-08
  • 来自专栏大模型成长之路

    【大模型学习 | RAG & DeepSeek 实战】

    Deepseek & RAG 实战 编者常常有许多材料需要阅读查阅,但自己又比较懒,为此,想在大模型的学习过程中基于RAG技术将本地知识库与大模型结合起来,加快自身的效率。 在本次的项目设计,需要达成以下目标: 开源大模型的本地部署及使用 (以Deepseek为例); PDF文本分析 ➕ 相似prompt检索提取 (关键); 将检索到的信息与原prompt结合作为输入,得到结果 - 8 -(境外生排位第一)获得省部级及以上学科竞赛奖项,奖励金额', '可提高 10%。' paragraphs)相似检索结果请根据以下参考内容回答问题:参考1 4.鼓励境外生积极参与学科竞赛活动,境外生个人或团体 - 8 - (境外生排位第一)获得省部级及以上学科竞赛奖项,奖励金额 可提高 10% mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-llm-7b-chat'# 加载预训练的分词器和模型tokenizer = AutoTokenizer.from_pretrained

    1.1K31编辑于 2025-07-19
  • 来自专栏服务器运维日常

    DeepSeek 模型:究竟该如何抉择?

    无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。 那么不同的模型有什么区别?具体如何选择模型? 二、DeepSeek “满血版”模型 1、DeepSeek-V3:全能创作王 DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。 2、DeepSeek-R1:超级推理大师 DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。 三、DeepSeek 蒸馏模型 这张表格展示了不同模型在多种任务和评测指标上的表现: 模型列:左侧一列列出了不同的语言模型,如GPT - 4o - 0513、Claude - 3.5 - Sonnet 相反,如果你的硬件配置较高,预算充足,那么可以选择性能更强大的模型,如 DeepSeek-R1-14B 或 DeepSeek-R1-32B。

    1.9K21编辑于 2025-02-23
  • DeepSeek模型MOE结构代码详解

    其实在DeepSeek-R1爆火之前,DeepSeek V2在我们行业就已经妇孺皆知了,它独特的MOE结构值得研究一下。 这样的话,既能让模型学习更多的知识(多个“专家”),又能减少推理计算量(选择部分“专家”进行计算)。 output shape: {output.shape}") # torch.Size([64, 256])初始化函数定义首先,定义了Expert类,也就是“专家”,可以看到,专家是由线性层和激活函数构成的简单模型 ,num_experts是8,所以probs是个10行8列的矩阵。 举个例子,10个专家,10个样本,如果所有样本都分到1个专家,那么损失函数值为10x1+0+0...+0=10,如果平均分给10个专家,那么损失函数值为1x0.1+1x0.1+...+1x0.1=1。

    45720编辑于 2025-04-21
  • 来自专栏AI工程落地

    DeepSeek V4模型原理

    CompressedSparseAttention(CSA)这个Attention有三块功能构成:1.KVCompressor负责把N个token的KV压缩成1个,在DeepSeekV4系列模型里,N= 2.LightningIndexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeekV4Flash模型的k=512,Pro模型的k=1024。 3.因为KVCompressor会把多个token压缩,压缩后的KVEntriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。 Transformer每层hidden是:[batch,seq,hidden]DeepSeekV4的mHC会把它扩成多条hiddenstream:[batch,seq,hc_mult,hidden]默认hc_mult=4模型入口处会把

    21310编辑于 2026-05-09
  • 来自专栏小陈运维

    使用Ollama部署deepseek模型

    使用Ollama部署deepseek模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 模型,也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1 :1.5b# 7B Qwen DeepSeek R1# 所需空间大约 4.7Gollama run deepseek-r1:7b# 8B Llama DeepSeek R1# 所需空间大约 4.9Gollama run deepseek-r1:8b# 14B Qwen DeepSeek R1# 所需空间大约 9Gollama run deepseek-r1:14b# 32B Qwen DeepSeek R1# 所需空间大约 20Gollama run deepseek-r1:32b# 70B Llama DeepSeek R1# 所需空间大约 43Gollama run deepseek-r1:70b# 671B

    3.5K12编辑于 2025-01-26
  • 来自专栏IT从业者张某某

    大语言模型-1.3-GPT、DeepSeek模型介绍

    ,综合模态能力显著提升 ➢ 支持统一处理和输出文本、音频、图片、视频信息 o系列模型 ➢ 推理任务上能力大幅提升 ➢ 长思维链推理能力 o-series ➢ 类似人类的“慢思考”过程 1.3.2DeepSeek 系列模型的技术演变 DeepSeek系列模型发展历程 ➢ 训练框架:HAI-LLM ➢ 语言大模型DeepSeek LLM/V2/V3、Coder/Coder-V2、Math ➢ 多模态大模型DeepSeek-VL ➢ 推理大模型DeepSeek-R1 DeepSeek 实现了较好的训练框架与数据准备 ➢ 训练框架 HAI-LLM(发布于2023年6月) ➢ 大规模深度学习训练框架 DeepSeek-V3和DeepSeek-R1均达到了同期闭源模型的最好效果 ➢ 开源模型实现了重要突破 为什么 DeepSeek 会引起世界关注 ➢ 打破了OpenAI 闭源产品的领先时效性 progress) 为什么 DeepSeek 会引起世界关注 ➢ 中国具备实现世界最前沿大模型的核心技术 ➢ 模型开源、技术开放

    1.3K00编辑于 2025-03-15
  • 来自专栏【腾讯云开发者】

    10秒一键启动DeepSeek!超酷!

    再也不用担心繁琐的环境配置,真正实现“点一下就能跑模型”。 下周三,腾讯云工程师还将现场演示教你 DeepSeek 丝滑部署的 N 种方式,记得预约直播! 快速开始 CNB 已内置支持 1.5b/7b/8b/14b/32b 等 DeepSeek 模型, 无需等待下载,可快速体验。 操作步骤很简单: 1. fork 整个仓库: https://cnb.cool/examples/ecosystem/deepseek 2. 选择想体验模型对应的分支,点击云原生开发。 3. 约 5~10 秒后,进入远程开发,在命令行输入以下命令即可体验对应模型,即可与 DeepSeek 进行对话。 deepseek-r1:1.5b 进阶部署 如需部署并长期使用,推荐通过云应用快速部署 DeepSeek -End-

    1.3K31编辑于 2025-02-08
  • 来自专栏技术人生黄勇

    DeepSeek10 万亿美元大战略

    梁文锋(DeepSeek CEO)的眼光显然更长远:他们有望实现 1 万亿美元的估值,同时助力打造一个价值 10 万亿美元的产业! DeepSeek 的创新清单: • 当大家还在死磕密集模型时,DeepSeek 转向了训练难度更大的专家混合模型(MoE)。 DeepSeek 在这条路上已经走了足够久,并且发现了自己的终极命运:不是卖编程套餐,而是赋能一个 10 万亿美元的中国 AI 硬件生态系统,同时为自己实现 1 万亿美元的估值。 不过,他们正在着眼于一个价值 10 万亿美元的长期目标,旨在推动替代性硬件生态系统的发展。 通过与这些厂商紧密合作,DeepSeek 将帮助其硬件平台更好地满足各种人工智能应用的需求。 考虑到所有西方国家(包括东亚盟友)的 AI 相关股票的总体估值远远超过 10 万亿美元。

    15210编辑于 2026-05-26
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB 一般 GQA 中的 , 因此: 总的推理加速效果为: 不到 LLaMa3 的 1/10 ~~ 目前最稀疏 MoE 的训练难度 DeepSeekV2 的极致性价比引入的代价就是训练难度大幅增加。 相较于目前的 Dense 模型和之前最流行的 MoE 模型, DeepSeekV2 的 Expert token 训练量 和 Attention token 训练量的差距是最大的: LLaMa3 训练 本质上 LLaMa3 以及其他所有 Dense 开源模型,都是在复现 LLaMa2 的基础上卷数据,其中 LLaMa3 是卷数据卷的最狠的,因此也是模型能力最强的 8B/70B 模型。 也为 DeepSeek 是一个中国 team 感到自豪。 - The End -

    97920编辑于 2025-02-03
领券