首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 免费使用DeepSeek-R1模型???

    我们可以使用硅基流动作为临时通道,用户可通过该平台稳定调用DeepSeek R1模型。 我这里不演示了) 进入软件点击左下角设置,模型选择硅基流动填入秘钥 点击下方管理添加DeepSeek-R1模型,这样就配置完成了 我们来用这个24点扑克游戏题验证一下是不是真正的DeepSeek-R1模型

    35910编辑于 2025-07-14
  • 来自专栏全栈开发日记

    本地部署DeepSeek-R1模型

    二、一键部署DeepSeek模型 Ollama内置了主流模型库,直接通过命令行拉取即可。 下载DeepSeek模型 (根据需求选择模型版本,如deepseek-r1:7b、deepseek-math-7b等) ollama pull deepseek-r1:7b 注:首次下载需等待模型文件拉取 启动模型服务 (根据需求选择模型版本,如deepseek-r1:7b、deepseek-math-7b等) ollama run deepseek-r1:7b • 看到 >>> Send a message 查看已安装模型 ollama list 3. 删除模型 ollama rm deepseek-r1:7b 4. 性能调优 • 增加GPU支持:安装CUDA驱动后,启动时添加 --gpu 参数。 • 回复速度慢:关闭其他占用显存的程序,或尝试更小规模的模型(如deepseek-7b)。 通过Ollama,DeepSeek大模型的部署和调用变得前所未有的简单!

    2.5K10编辑于 2025-02-10
  • 来自专栏灵墨AI探索室

    快速入门 DeepSeek-R1模型

    国内最新的神级人工智能模型已经正式发布,没错,它就是备受瞩目的DeepSeek-R1模型。今天,我们将对DeepSeek进行一个简单的了解,并探索如何快速使用和部署这个强大的工具。 ,model='deepseek-reasoner'才是DeepSeek-R1模型。 ollama run deepseek-r1 当然,你可以选择启动的模型参数。 :14bollama run deepseek-r1:32bollama run deepseek-r1:70b 参数越大,模型效果越好。 总结 总之,DeepSeek-R1模型凭借其强大的性能和开源优势,为开发者带来了前所未有的机遇。无论是通过API快速接入,还是借助Ollama在本地部署,都能轻松实现智能化升级。

    1.7K30编辑于 2025-02-04
  • 来自专栏码农编程进阶笔记

    什么是DeepSeek-R1蒸馏模型

    您可以在下面的帖子中了解整个过程: 什么是DeepSeek-R1蒸馏模型DeepSeek-R1蒸馏模型是通过蒸馏过程创建的较大DeepSeek-R 1模型的更小、更高效的版本。 由于DeepSeek-R1模型的尺寸巨大,即671B个参数,它不可能在消费级设备上运行,因此是蒸馏模型。 蒸馏模型旨在保留DeepSeek-R1发现的强大推理模式,即使它们的参数较少。 5.蒸馏模型的优点: 效率:蒸馏模型比原始DeepSeek-R1更小,计算效率更高,使其更容易在资源受限的环境中部署。 如何使用DeepSeek-R1蒸馏模型

    1K00编辑于 2025-04-26
  • 来自专栏清羽飞扬

    windows本地部署DeepSeek-R1模型

    好的,下面是一个更加官方且规范的版本: 前期要求 硬件要求 在本地部署DeepSeek-R1模型之前,请确保你的电脑的硬件符合以下要求: 处理器:支持x86_64架构的Intel或AMD处理器。 个人要求 为确保能够顺利完成DeepSeek-R1模型的部署,建议具备以下个人技能: 命令行基础:能够理解并处理命令行中的错误信息,具备基本的调试能力,能够定位并解决常见的配置问题。 首先拉取deepseek的模型,有如下几种选择,请按照电脑要求自行选择: ollama pull deepseek-r1:1.5b # 轻量化选择 ollama pull deepseek-r1: of reasoning models with comparable performance to OpenAI-o1 等待一段时间,模型拉取成功后,就可以开始跑了,通过以下命令,这里以deepseek-r1 对于需要快速响应、低延迟的应用场景,deepseek-r1:7b无疑是一个理想的选择。 随着技术的不断发展,相信会有更多的开发者探索并扩展其应用场景,创新出更多有趣且实用的玩法。

    1.6K10编辑于 2025-02-09
  • 安全AI模型DeepSeek-R1的技术突破

    安全AI模型的诞生某科技机构与浙江大学合作开发了符合内容安全标准的人工智能模型"DeepSeek-R1-Safe"。该模型不会生成"有毒有害言论、政治敏感内容以及煽动非法行为"。 模型性能对比该模型的AI能力在知识深度、数学推理和反事实文本生成等基准测试中,与原始DeepSeek-R1的差距在1%以内。 反事实文本生成衡量了模型想象真实事实的有说服力替代方案的能力,帮助其处理假设场景。 某科技机构在DeepSeek失败的地方取得了成功,使用Ascend 1000芯片创建了等效模型。DeepSeek-R1-Safe代表了首个在中国推出的基于1000卡集群训练的大规模模型。 某国AI初创公司的研究还发现,DeepSeek-R1经常隐藏影响其答案的真实因素。这是在1月份首个模型推出以来曝光的一系列安全问题之上的新发现。

    36410编辑于 2025-10-07
  • 来自专栏云云众生s

    在Amazon Bedrock上部署DeepSeek-R1模型

    在 Amazon Bedrock 部署 DeepSeek-R1 模型,解锁强大 AI 应用! 通过利用 Bedrock 的自定义模型导入,开发人员可以将像 DeepSeek-R1 这样的预训练模型引入到安全、高可用性和低延迟的环境中,该环境针对生产工作负载进行了优化。 在本指南结束时,您将拥有一个在 Amazon Bedrock 上运行的完全可操作的 DeepSeek-R1 模型,该模型能够为各种 AI 驱动的应用程序提供高质量的响应。 模型兼容性。Amazon Bedrock 支持 Llama 2 等架构,使其与 DeepSeek-R1 Distill 模型兼容。 步骤 2:下载 DeepSeek-R1 模型 接下来,从 Hugging Face 下载 DeepSeek-R1 Distill Llama 模型: from huggingface_hub import

    1.1K00编辑于 2025-03-16
  • 来自专栏深度学习与python

    观点 | 从Deepseek-R1 看 2025 模型的未来

    年初以来,DeepSeek 的爆火引发了行业震动,各大模型厂商纷纷预告下一代大模型的研发计划,包括 OpenAI 的 GPT-4.5 和 GPT-5、Anthropic 的 Claude 4,以及国内众多 ——《论语》 尽管增加推理时间可以提升模型的表现,但如果无法有效利用外部知识、合理剪枝计算,并优化记忆管理与推理状态维护,模型可能陷入无效循环,徒然消耗算力。 高效推理、个性化输出 以及长期知识 推理模型和基础模型的融合 随着 Latent space 推理和 Test time 范式的进一步发展,大模型架构正面临根本性重构——推理模块与基础语言模型的深度融合将成为下一代模型的标配 联合训练与融合 基础模型与推理模块将通过 latent space 链接,最终融合成单一统一模型,既具备通用文本生成能力,也能高效进行多步推理。 其训练范式可能会类似之前的多模态模型,采用冻结基础模型,使用 RL Post train,在全参数协同优化的方案。

    32710编辑于 2025-02-26
  • 来自专栏算法一只狗

    o3-mini和DeepSeek-R1模型对比

    图片 在具体效果中,o3-mini 在数学、编程和科学方面的表现和o1 相当,但它比o1推理模型提供更快的响应速度。 图片 在代码能力上也取得了比o1模型要好的成绩。 图片 那么这次OpenAI这么快推出o3-mini,主要就是为了应对DeepSeek-R1推理模型。 那么这两个模型的能力到底怎么样呢? 图片 从整体价格上,o3-mini的价格已经和DeepSeek-R1价格相当了,同时比o1模型的价格便宜了13倍以上,确实优化得还不错。 图片 从上面三个维度来看,这两个模型其实能力差不多。 但是DeepSeek能够一下子追上大模型的天花板,确实令人惊讶。希望下一个推理大模型,DeepSeek能够正式追上并超越o3模型,做到行业的天花板~

    2.9K21编辑于 2025-02-05
  • 腾讯多款产品接入DeepSeek-R1模型,请体验

    腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等多款腾讯产品,在接入混元大模型的同时,接入DeepSeek-R1模型,欢迎体验。 腾讯AI助手「腾讯元宝」,目前已支持免费使用DeepSeek-R1满血版模型。混元深度思考模型T1(Thinker)也在元宝上线,提供测试体验,用户可以选用不同的模型解决复杂问题。 微信搜一搜正在灰度测试接入DeepSeek,上线「AI搜索」入口,用户可免费使用DeepSeek-R1满血版模型。入口位置:微信对话框顶部搜索,点击「AI搜索」。 腾讯的AI智能工作台ima.copilot(简称ima),更新至最新版本后,在使用搜、读、写和知识库的时候,可以选择腾讯混元大模型DeepSeek-R1满血版模型。 体验入口:腾讯文档小程序、网页版AI全屏页、移动端、桌面端QQ浏览器正式接入DeepSeek-R1模型满血版。支持深度思考、联网搜索、多轮对话、历史记录回溯。

    1.3K10编辑于 2025-02-17
  • 来自专栏自然语言处理

    一文深入了解DeepSeek-R1模型架构

    本文深入探讨了 DeepSeek-R1 模型架构。让我们从输入到输出追踪 DeepSeek-R1 模型,以找到架构中的新发展和关键部分。 DeepSeek-R1 基于 DeepSeek-V3-Base 模型架构。本文旨在涵盖其设计的所有重要方面。 1. 输入上下文长度 DeepSeek-R1的输入上下文长度为128K。 DeepSeek-R1 从其基础模型 DeepSeek-V3-Base 继承了 128K 上下文长度。最初,DeepSeek-V3 使用 4K 上下文长度进行预训练。 它在计算上是高效的,并且无需大量重新训练即可扩展模型上下文长度。 2. 总层数 DeepSeek-R1 由一个嵌入层、其后的 61 个变换器层以及输出阶段的多个预测头组成。 在 DeepSeek 系列模型中,MoE 架构首次在 DeepSeekMoE 模型中引入,并且正在 DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1 中使用。

    5.2K21编辑于 2025-02-14
  • 来自专栏Dance with GenAI

    图解DeepSeek-R1模型—推理型大语言模型(LLM)的训练秘密

    本文目录: ●大型语言模型(LLM)训练方式回顾 ●DeepSeek-R1 训练配方 ●1 - 长推理链监督式微调(SFT)数据 ●2 - 一个中期高质量推理 LLM(但在非推理任务上表现较差)。 ●DeepSeek-R1 训练配方 DeepSeek-R1 遵循这一通用配方。第一步的详细信息来自之前关于 DeepSeek-V3 模型的论文。 冷启动:与 DeepSeek-R1-Zero 不同,为了防止从基础模型开始的 RL 训练的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集了一小部分长推理链数据,以微调模型作为初始 RL ●模型架构 与 GPT2 和 GPT 3 问世之初的模型一样,DeepSeek-R1 是一堆 Transformer 解码器块。它由 61 个这样的块组成。 》 至此,你应该已经掌握了围绕 DeepSeek-R1 模型的主要训练方法

    1.5K20编辑于 2025-02-07
  • 来自专栏AI粉嫩特攻队

    在windows主机本地快速部署使用deepseek-r1模型

    简介 Ollama(用于下载和启动大模型) Ollama 专注于本地大型语言模型(LLM)的快速、极简安装和使用,例如 LLaMA 3.3 和 DeepSeek-R1。 它是基于 Qwen2.5-14B 模型进行蒸馏微调后得到的,使用了 DeepSeek-R1 生成的样本。 5.上述过程完成后,打开powershell命令行工具,执行如下命令下载deepseek-r1:14b大模型模型文件较大,需要等待一定时间。 ollama pull deepseek-r1:14b 查看Ollama下载好的模型列表 下载完成后,可通过如下命令检查是否能看到下载好的模型 ollama list 使用Ollama启动模型 ollama run deepseek-r1:14b 该命令会启动 DeepSeek-R1 模型,并启动一个 REPL(交互式终端),你可以接着在命令行直接输入问题,模型会根据问题生成回答。

    1K10编辑于 2025-05-15
  • 来自专栏山河已无恙

    如何高效使用DeepSeek-R1:推理大模型调优指南

    写在前面 博文内容为参考由 together.ai 整理的一些 DeepSeek-R1 调优指南 文章做了节译,理解不足小伙伴帮忙指正 :),生活加油 我看远山,远山悲悯 持续分享技术干货,感兴趣小伙伴可以关注下 ^_^ 如何高效使用DeepSeek-R1:推理大模型提示工程调优指南 LLM 中 DeepSeek-R1 与传统非推理模型的交互方式存在本质差异。 但与通用大模型不同,推理型模型需要特殊的交互策略,博文内容列举几个常见的优化手段,帮助开发者构建高效的交互范式。 最终答案:\boxed{a^2 + b^2 = c^2} 思维链强制触发 当模型出现跳步推理时,使用指令格式:"请以分步推导方式解释量子纠缠现象,每步思考需用【】标注" 模型评估方法论 多解择优策略 随着模型迭代升级,建议定期更新最佳实践指南。 博文部分内容参考 © 文中涉及参考链接内容版权归原作者所有,如有侵权请告知 :)

    97510编辑于 2025-03-04
  • 来自专栏深度学习与python

    图解 DeepSeek-R1

    作者 | JAY ALAMMAR 译者 | 王强 策划 | Tina DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。 2DeepSeek-R1 训练配方 DeepSeek-R1 遵循这个通用配方。 冷启动与 DeepSeek-R1-Zero 不同,为了防止基础模型出现 RL 训练早期不稳定的冷启动阶段,对于 DeepSeek-R1,我们构建并收集少量长 CoT 数据来微调模型,使其作为初始 RL 6架构 就像 GPT2 和 GPT 3 诞生之初时的那些模型一样,DeepSeek-R1 是 Transformer 解码器块的堆栈。它由 61 个 Transformer 解码器块组成。 ) DeepSeekMoE:混合专家语言模型迈向终极专业化(https://arxiv.org/pdf/2401.06066) 7总结 这篇文章应该能让你对 DeepSeek-R1 模型有了基本的认知。

    45410编辑于 2025-02-18
  • 来自专栏人工智能应用

    如何在电脑上部署DeepSeek-r1模型来使用

    本期小白教程,轻松给你电脑安装上DeepSeek-r1模型,在自己的电脑上使用DeepSeek-r1,反应很快还免费。 ollama安装好了 第2步:运行DeepSeek模型 进入 ollama 的 deepseek-r1 介绍页面 根据自己的硬件情况,选择一个合适的版本,复制命令到cmd运行即可(建议32b及以上) 复制 :ollama run deepseek-r1:32b  命令去运行 首次安装会比较慢是正常的。 可以重复运行ollama run deepseek-r1:32b  命令去下载。 运行完命令可在控制台直接对话,如下图(Windows),linux同样的命令: 这样你可以在自己本地的电脑上独立使用DeepSeek-r1模型了。

    92810编辑于 2025-02-07
  • 极速部署个人计算机 DeepSeek-R1 推理模型

    引言 2025的春节,国内外的科技圈子,甚至全民热话,都是深度求索的 DeepSeek-R1 模型模型已成为中国科技历史上的一笔浓墨重彩的里程碑事件。 从腊月二十九到大年初一,三天时间我尽可能全面、仔细的盘点和研究了一遍 DeepSeek-R1 模型,本篇就简明扼要的给大家来一篇个人计算机快速部署 DeepSeek-R1 推理模型的教程,网络好的话十分钟搞定 DeepSeek-R1:基础款大模型,参数巨多(比如千亿级),像全能学霸,但需要高性能服务器才能跑。 访问 Ollama 的 DeepSeek-R1 依赖库地址:https://ollama.com/library/deepseek-r1 2. 选择 Tag:7b 或者 8b 3.

    28210编辑于 2025-07-14
  • 来自专栏深度学习和计算机视觉

    最新「大模型简史」整理!从Transformer(2017)到DeepSeek-R1(2025)

    2025年DeepSeek-R1的发展历程,涵盖了BERT、GPT系列、多模态模型、推理模型等关键进展,展示了LLMs在规模、性能、成本和多模态能力上的巨大进步,以及对AI领域和社会的深远影响。 成本高效的推理模型DeepSeek-R1 (2025) LLMs通常需要极其庞大的计算资源来进行训练和推理。 这些模型使用原始DeepSeek-R1生成的合成数据进行微调,确保在推理任务中表现出色,同时足够轻量化以便本地部署。 DeepSeek 蒸馏DeepSeek模型 DeepSeek-R1在各种基准测试中表现出竞争力,包括数学、编码、常识和写作。 DeepSeek-R1 (2025):代表了成本效率的一大飞跃,DeepSeek-R1利用专家混合架构(MoE)和优化算法,与许多美国模型相比,运营成本降低了多达50倍。

    4.6K10编辑于 2025-03-06
  • 来自专栏程序猿DD

    免费使用 deepseek-r1:671B 参数满血模型

    虽然借助类似Ollama这样的工具可以帮我们快速的自己部署deepseek,但是由于我们个人的计算资源有限,在本地无法部署具备671b参数的deepseek-r1满血模型。 那么是否有方法来低成本的使用671b参数的满血模型呢?有的!下面就给大家介绍一个白嫖的671b参数满血模型的方法! 免费使用deepseek-r1:671B参数满血模型先准备一个腾讯云账号,进入腾讯云知识引擎原子能力: https://console.cloud.tencent.com/lkeap目前该产品的DeepSeek 系列模型(包含671B参数的 deepseek-v3 和 deepseek-r1)正在免费限时提供服务:点击“开通大模型知识引擎”根据自身情况,选择调用方式去获取API KEY。 使用OpenAI的SDK调用如果上面你选择了penai的api key,那么接下来就可以使用OpenAI的SDK去调用deepseek-r1:671B参数的模型了。

    3.4K30编辑于 2025-02-10
  • 来自专栏腾讯云原生团队

    在 TKE 上部署 AI 大模型(以 DeepSeek-R1 为例)

    概述 本文介绍如何在 TKE 上部署 AI 大模型,以 DeepSeek-R1 为例,使用 Ollama 或 vLLM 运行大模型并暴露 API,然后使用 OpenWebUI 提供交互界面。 ,可以看成是大模型领域的 Docker,可以下载所需的大模型并暴露 Ollama API,极大的简化了大模型的部署。 vLLM 的镜像执行一个脚本去下载我们需要的 AI 大模型,本例中下载的是 DeepSeek-R1模型,修改 LLM_MODEL 以替换大语言模型。 如果使用 Ollama,可以在 Ollama 模型库 查询和搜索需要的模型;如果使用 vLLM,可以在 Hugging Face 模型库 和 ModelScope 模型库 查询和搜索需要的模型(国内环境可以用 ollama image: ollama/ollama:latest env: - name: LLM_MODEL value: deepseek-r1

    1.3K10编辑于 2025-02-18
领券