首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法一只狗

    DeepSeek 开源的FlashMLA到底是什么

    DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。 它其实总结下来就是两个关键的信息适配DeepSeek中自研的MLA,能够有效加速MLA的推理速度。其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。 而DeepSeek-V2提出的MLA(Multi-Head Latent Attention),在KV缓存数量上略大于GQA(2.25组),但具备恢复完整MHA效果的能力。 从部署使用上看,其用法相当简单,只需要安装对应的依赖,然后像下面一样调用即可DeepSeek团队在首日就开源了FlashMLA,相信在接下来的几天内,社区会有更多实践和应用落地。 DeepSeek正用行动证明,他们不仅仅是开源的践行者,更是AI技术普惠化的推动者。

    30710编辑于 2025-03-18
  • 来自专栏爱可生开源社区

    是什么原因导致慢 SQL?问问 ChatDBA 和 DeepSeek

    下面让我们正式进入《一问一实验:AI 版》第 63 期,看看 ChatDBA 最新效果以及与热门大模型 DeepSeek-R1 在 慢 SQL 优化方面 的效果对比(结尾)。 ChatDBA 与 DeepSeek 解决数据库故障的能力对比。 问题 是什么导致了慢 SQL?如何优化? ChatDBA VS DeepSeek DeepSeek 的回答 登录 DeepSeek 官网,提出相同的问题。 DeepSeek-R1 回答首先给出了对问题的分析,然后给出了修改 SQL 语句创建复合索引以及强制索引提示两个解决方,但并未考虑到临时表参数对慢查询的影响。 上下滑动查看交互截图 对比总结 ChatDBA 相较于 DeepSeek-R1 的优势总结如下: 1.

    33010编辑于 2025-06-17
  • 来自专栏一臻AI

    DeepSeek之后,10万一个的Manus到底是什么

    从"AI会说"到"AI会做"的飞跃 如果说ChatGPT和DeepSeek只是会说话的AI,那Manus就是真正会干活的AI。 以前你对AI说:"帮我分析这些简历。" 但现在DeepSeek基本干掉了提示词工程,Manus又干掉了复杂的RPA+智能体+AI工作流...留给低端牛马打工人的时间,似乎确实不多了。 那我们该怎么办? 与其焦虑,不如拥抱变化。 1. 继DeepSeek之后,又一个让全球瞩目的国产AI产品诞生了。 创始人是90后,之前做过壹伴助手这个产品(很多公众号作者都在用),然后卖掉后继续创业,现在又带来了Manus这个颠覆性产品。

    22810编辑于 2025-03-07
  • 来自专栏Linux运维技术之路

    Deepseek 和Open Ai 大模型最大区别是什么

    DeepSeek 和 OpenAI 的大模型(如 GPT 系列)在技术路线、架构设计和应用场景上存在显著区别。以下是两者的主要差异: 1. 模型架构 • DeepSeek: • 使用 MoE(Mixture of Experts,混合专家)架构,如 DeepSeek-V3 具有 6710 亿参数,但每次推理只激活 370 亿参数。 参数量和计算效率 • DeepSeek: • 参数量巨大(如 DeepSeek-V3 有 6710 亿参数),但通过 MoE 架构实现高效计算,每次推理只激活部分参数(如 370 亿)。 训练数据规模 • DeepSeek: • 在 14.8 万亿 token 的数据上进行了预训练,数据规模庞大。 开源与商业化 • DeepSeek: • 目前未完全开源,更多用于特定领域或商业化场景。

    3.9K10编辑于 2025-02-04
  • 来自专栏C++

    DeepSeekDeepSeek概述 | 本地部署deepseek

    1 -> 概述 DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。 推动行业变革:DeepSeek的成功挑战了传统的“大力出奇迹”的AI发展模式,为行业提供了新的发展思路和方向,激发了更多的创新和探索。 2.2 -> 部署deepseek-r1模型 回到ollama官网点击左上角的Models进入如下界面。 这样本地部署deepseek就算完成啦

    3.4K32编辑于 2025-02-08
  • 来自专栏AI技术探索和应用

    打破信息差,小白也可以知道最近大火的DeepSeek是什么

    什么是DeepSeekDeepSeek的官网:https://www.deepseek.com/ DeepSeek是一款基于深度学习技术的人工智能平台,它能够模拟人类的思维过程,通过大量的数据学习和自我优化,从而提供精准的预测和决策支持 开源 Github开源地址:https://github.com/deepseek-ai HuggingFace模型地址:https://huggingface.co/deepseek-ai DeepSeek-R1 Deepseek的应用场景 DeepSeek的应用场景非常广泛,几乎涵盖了所有行业。以下是一些典型的应用案例: 金融领域:DeepSeek可以分析市场趋势,预测股票价格,帮助投资者做出更明智的决策。 教育领域:DeepSeek可以根据学生的学习情况,提供个性化的学习建议,提高学习效果。 Deepseek的未来展望 Deepseek的出现,标志着AI技术进入了一个新的阶段。

    1.9K21编辑于 2025-02-24
  • 来自专栏程序员修炼之路

    AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?

    发展历史 2023 年 11 月 2 日:DeepSeek 发布了首个开源模型 DeepSeek Coder,这是一个支持多种编程语言的代码生成和调试模型。 2023 年 11 月 29 日:DeepSeek 发布了参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。 最新产品:DeepSeek-R1 产品介绍 DeepSeek-R1 是 DeepSeek 于 2025 年 1 月 20 日发布的最新 AI 推理模型,性能直逼 OpenAI 的 o1 正式版。 总结 DeepSeek 作为一家新兴的 AI 科技公司,通过不断创新和技术突破,推出了多款高性能、低成本的 AI 模型,如 DeepSeek Coder、DeepSeek LLM、DeepSeek-V3 和 DeepSeek-R1。

    60110编辑于 2025-02-04
  • (数智化)招标采购行业未来的趋势是什么DeepSeek这样答

    最近,DeepSeek-R1这款开源推理模型火了! 此外,平台已成功对接DeepSeek大模型,将借助DeepSeek在自然语言处理、机器学习、推理等能力,将AI能力融入招采全流程,赋能智能招采问答、采购文件智能编制及审查、围串标分析、大数据分析决策等应用场景

    47010编辑于 2025-02-21
  • 来自专栏人工智能

    DeepSeek R1(32k) 中的 32k 是什么含义?

    的典型应用场景长文本总结(如论文、技术文档)多轮复杂对话(如客服、心理咨询)长代码文件的分析与生成对比参考GPT-4标准版:8k上下文GPT-4Turbo:128k上下文Claude3:200k上下文DeepSeek 扩展知识:Token是什么?1token≈0.75个英文单词或1.5个汉字,32ktoken约等于24,000英文单词或48,000汉字。 窗口限制的影响若输入超过32k,模型会遗忘超出部分的信息,因此超长文本需要分段处理或选择更大窗口的模型(如DeepSeek128k版本)。

    22300编辑于 2026-03-08
  • 来自专栏猫头虎博客专区

    什么是DeepSeek?如何入门DeepSeek

    什么是DeepSeek?如何入门DeepSeek? 一、DeepSeek是什么? python=3.8 conda activate deepseek # 安装核心库 pip install deepseek-sdk torch>=2.0 2.2 快速体验 通过API调用基础功能 /DeepSeek-7B.git # 启动推理服务 python -m deepseek.serve --model-path . 模型中心:hub.deepseek.com 社区论坛:forum.deepseek.ai 实战教程: 《DeepSeek智能对话机器人开发入门》 《使用DeepSeek-CODEPILOT构建编程助手 》 四、常见问题解答 Q:需要多强的算力才能运行DeepSeek

    13.3K1012编辑于 2025-02-27
  • 来自专栏C++

    DeepSeekdeepseek可视化部署

    1 -> 前文 【DeepSeekDeepSeek概述 | 本地部署deepseek 通过前文可以将deepseek部署到本地使用,可是每次都需要win+R输入cmd调出命令行进入到命令模式,输入命令 ollama run deepseek-r1:latest。 点击使用自己的 API Key 或本地模型 点击第一个Chatbox AI 进入该界面后,点击CHATBOX AI,选择其他的模型提供方 选择Ollama API这个模型提供方 点击模型,会显示已经部署到本地的deepseek 首先,我得明白快速幂算法是什么。好像它是一种计算a的b次方的方法,特别适用于大指数的情况,这样可以避免时间复杂度太高。 那快速幂的基本思想是什么呢?

    88720编辑于 2025-02-12
  • 来自专栏C++

    DeepSeek】如何在WPS中使用deepseek

    1 -> 背景 随着人工智能技术的发展,大语言模型如ChatGPT、DeepSeek等不断涌现,为提升办公效率提供了新的途径。 2 -> 意义 推动办公智能化:WPS与DeepSeek的结合,推动了办公软件向智能化方向发展,为用户提供了更加智能、高效的办公解决方案。 功能多样化:除了基本的文本处理功能,DeepSeek还支持聊天、文生图、创作等功能,为用户提供了更多的创作可能性和便捷的交互体验。 个性化定制:用户可以根据自己的需求选择不同的DeepSeek模型(如deepseek-chat或deepseek-reasoner),并进行个性化的配置,以适应不同的工作场景。 3 -> 本地部署deepseek 相关文章: 【DeepSeekDeepSeek概述 | 本地部署deepseek 4 -> WPS引入deepseek 下载Office AI 以联想应用商店为例

    92810编辑于 2025-02-15
  • 来自专栏人工智能

    DeepseekDeepSeek-R1训练方式分析

    本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning1 .纯强化学习训练的语言模型 DeepSeek-R1-Zero研究者首先提出了一个完全基于强化学习(RL)训练的模型DeepSeek-R1-Zero,该模型不依赖任何有监督微调(SFT)数据。 通过RL训练,DeepSeek-R1-Zero展现出了令人印象深刻的推理能力和自主学习能力。 2.引入冷启动数据的RL模型DeepSeek-R1尽管DeepSeek-R1-Zero取得了优异的性能,但也存在着输出可读性差、语言混用等问题。 DeepSeek-R1已经在这条道路上迈出了坚实的一步。

    88810编辑于 2025-02-12
  • 来自专栏技术

    实践DeepSeek

    作为一名长期关注和实践人工智能技术的爱好者,我体验了腾讯云大模型知识引擎与 DeepSeek 的结合应用,接下来说一下我的感受吧! 腾讯云大模型知识引擎与 DeepSeek腾讯云大模型知识引擎是面向企业客户及合作伙伴的基于大模型的知识应用构建平台。 DeepSeek - R1 是 671B 模型,它经过强化学习训练,在推理过程中会进行大量的反思和验证,思维链长度可达数万字。 DeepSeek - V3 则是 671B 参数的 MoE 模型,在百科知识、数学推理等多项任务上表现突出。 在模型设置中,我毫不犹豫地选择了 “DeepSeek - R1/V3” 模型,并开启了 “联网搜索” 开关。

    17710编辑于 2025-03-20
  • 来自专栏编程杂记

    DeepseekDeepSeek-R1诞生过程

    本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 1.纯强化学习训练的语言模型 DeepSeek-R1-Zero 研究者首先提出了一个完全基于强化学习(RL)训练的模型DeepSeek-R1-Zero,该模型不依赖任何有监督微调(SFT)数据。 通过RL训练,DeepSeek-R1-Zero展现出了令人印象深刻的推理能力和自主学习能力。 2.引入冷启动数据的RL模型DeepSeek-R1 尽管DeepSeek-R1-Zero取得了优异的性能,但也存在着输出可读性差、语言混用等问题。 DeepSeek-R1已经在这条道路上迈出了坚实的一步。 总结 DeepSeek-R1-Zero是一个完全基于强化学习(RL)训练的模型在没有任何有监督数据的情况下,通过自我进化掌握了强大的推理能力。

    39310编辑于 2025-02-13
  • 来自专栏AgenticAI

    刚刚DeepSeek开源新模型DeepSeek-OCR

    就在3个小时前,DeepSeek突然在HuggingFace上传新模型DeepSeek-OCR,一个只有3B大小的文档解析新模型,该模型的目标是探索视觉文本压缩的边界。 在生产环境中,DeepSeek-OCR能够以单个A100-40G GPU的计算能力,每天生成 200k+ 页的训练数据,供大语言模型或视觉语言模型使用。 markdown格式输出: prompt = "<image>\n<|grounding|>Convert the document to markdown. " 以下是一些案例: 案例2解析图标: 看来DeepSeek 模型地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

    34110编辑于 2025-11-29
  • 来自专栏奶奶看了都会

    DeepSeek过时了?全网刷屏的Manus到底是什么?这样写申请秒过审核

    1.Manus是什么? Manus的官网地址:https://manus.im/ Manus是一个通用AI智能体,它连接思维与行动:它不仅思考,还能交付成果。 2. Manus能做什么?

    60010编辑于 2025-03-11
  • DeepSeek认知之旅

    DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图的形式整理到白板文件中,供大家学习使用。 其中每篇论文的脑图都记录了对应的研究背景、核心贡献、研究方法、评估结果以及一些非常重要的讨论和洞见,用全局视角从这份文件中或可窥得DeepSeek获得如此巨大成功的一些小线索。

    12600编辑于 2025-02-24
  • 来自专栏码匠的流水账

    DeepSeek Prompt指南

    序 本文主要研究一下如何写出更适合DeepSeek的Prompt 官方提示库 DeepSeek API 文档-提示库提供了一些DeepSeek 提示词样例。 对于非代码接入的场景,具体可以使用腾讯元器创建一个智能体,通过这个智能体来优化Prompt,再使用优化后的Prompt去DeepSeek执行 [图片] 如果是代码接入的,直接一次调用就可以 from >" ) completion = client.chat.completions.create( model="deepseek-chat", messages=[ 小结 使用AI来回答问题,Prompt的好坏很大程度决定了DeepSeek回答的内容,但是普通人要去学习那些Prompt有些费劲,把这个也交给DeepSeek一举两得。 doc DeepSeek API 文档-提示库

    1.6K10编辑于 2025-02-20
  • 来自专栏礼拜八不工作

    iPhoneMirroring与DeepSeek

    有些人看到标题可能会奇怪为什么这个博主要把,iPhoneMirroring与DeepSeek放在一起,该不是又是一个蹭流量博主吧。 第二个主题 :DeepSeek的写作能力探讨 对于 DeepSeek的写作能力,我想如果你阅读过第一篇主题,并且还被它给“骗了”那大概我们能达成一个共识,就是对于文章的撰写,它已经进化到一个不可思议的地步了 在我使用其他AI工具的时候,提示词完全是我给出,而DeepSeek的步骤是,先根据我给出的提示词,进行解释与联想,生成更多,更详细的提示词。 好处肉眼可见,生成的文章质量高了不止一筹,当然这并不是我说其他的AI工具生成的不够好,而是在用户数据输入这个步骤,DeepSeek的创作团队想的更多。 最后,强力推荐下 DeepSeek ,国产且强力又好用,希望你看了这篇文章之后,也去尝试下这个应用。

    96610编辑于 2025-02-04
领券