首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法一只狗

    DeepSeek 开源的FlashMLA到底是什么

    DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。 它其实总结下来就是两个关键的信息适配DeepSeek中自研的MLA,能够有效加速MLA的推理速度。其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。 而DeepSeek-V2提出的MLA(Multi-Head Latent Attention),在KV缓存数量上略大于GQA(2.25组),但具备恢复完整MHA效果的能力。 从部署使用上看,其用法相当简单,只需要安装对应的依赖,然后像下面一样调用即可DeepSeek团队在首日就开源了FlashMLA,相信在接下来的几天内,社区会有更多实践和应用落地。 DeepSeek正用行动证明,他们不仅仅是开源的践行者,更是AI技术普惠化的推动者。

    32210编辑于 2025-03-18
  • 来自专栏福大大架构师每日一题

    deepseek VS chatgpt (400)-- 算法导论25.2 9

    deepseek: 要计算通用有向图 ( G = (V, E) ) 的传递闭包 ( G^* = (V, E^) ),可以通过以下步骤实现,其时间复杂度为 ( f(|V|, |E|) + O(V + E^

    25910编辑于 2025-02-19
  • 来自专栏大模型系列

    万字长文详解DeepSeekDeepSeek是什么-超长上下文

    成立不到三年,DeepSeek已发布包括DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL、DeepSeek-R1等多个重量级模型,在代码生成、混合专家架构、多模态理解与推理能力等方面实现多项突破 本文将从技术演进、核心架构、开源生态、应用场景、产业影响五大维度,全面剖析DeepSeek的技术内核与发展路径。一、DeepSeek是什么? 阶段三:迈向通用智能——DeepSeek-VL与DeepSeek-R1(2025–2026)DeepSeek-VL:支持图文理解、OCR、视觉问答等多模态任务。 参考资料:DeepSeek官网:https://www.deepseek.comGitHub仓库:https://github.com/deepseek-aiHuggingFace模型库:https:/ /huggingface.co/deepseek-ai腾讯云《3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进》百度开发者中心《DeepSeek模型全解析:核心差异与应用场景指南》

    2.7K60编辑于 2026-04-06
  • k9s 是什么?有什么功能?

    k9s 是什么? K9s 是一个命令行工具,用于通过一个图形化的终端界面(类似于图形化用户界面但在命令行中)来管理 Kubernetes 集群。 手动安装 K9s(Windwos) 访问 K9s Releases 页面。 找到最新版本的 K9s,下载适用于 Windows 的压缩包文件。 解压后,会得到一个 k9s.exe 文件。 将 k9s.exe 添加到系统 PATH 将解压得到的 k9s.exe 文件复制到你想要存放的文件夹中,例如 C:\Program Files\K9s。 打开一个新的命令行窗口(cmd 或 PowerShell),输入以下命令来验证安装: k9s version 启动 K9s 安装完成后,直接在命令行中输入 k9s 即可启动。 K9s 会自动连接到配置文件 ~/.kube/config 中定义的集群,并显示相关资源的状态。 k9s

    16710编辑于 2026-02-03
  • 来自专栏爱可生开源社区

    是什么原因导致慢 SQL?问问 ChatDBA 和 DeepSeek

    下面让我们正式进入《一问一实验:AI 版》第 63 期,看看 ChatDBA 最新效果以及与热门大模型 DeepSeek-R1 在 慢 SQL 优化方面 的效果对比(结尾)。 ChatDBA 与 DeepSeek 解决数据库故障的能力对比。 问题 是什么导致了慢 SQL?如何优化? ChatDBA VS DeepSeek DeepSeek 的回答 登录 DeepSeek 官网,提出相同的问题。 DeepSeek-R1 回答首先给出了对问题的分析,然后给出了修改 SQL 语句创建复合索引以及强制索引提示两个解决方,但并未考虑到临时表参数对慢查询的影响。 上下滑动查看交互截图 对比总结 ChatDBA 相较于 DeepSeek-R1 的优势总结如下: 1.

    35110编辑于 2025-06-17
  • 来自专栏一臻AI

    DeepSeek之后,10万一个的Manus到底是什么

    从"AI会说"到"AI会做"的飞跃 如果说ChatGPT和DeepSeek只是会说话的AI,那Manus就是真正会干活的AI。 以前你对AI说:"帮我分析这些简历。" 但现在DeepSeek基本干掉了提示词工程,Manus又干掉了复杂的RPA+智能体+AI工作流...留给低端牛马打工人的时间,似乎确实不多了。 那我们该怎么办? 与其焦虑,不如拥抱变化。 1. 继DeepSeek之后,又一个让全球瞩目的国产AI产品诞生了。 创始人是90后,之前做过壹伴助手这个产品(很多公众号作者都在用),然后卖掉后继续创业,现在又带来了Manus这个颠覆性产品。

    23310编辑于 2025-03-07
  • 来自专栏猫头虎博客专区

    开源大模型DeepSeek.ai火遍全球:9条让DeepSeek颠覆通用大模型的事实

    DeepSeek.ai为什么会成功? DeepSeek.ai成功的原因是什么DeepSeek.ai有哪些不为人知的秘密? DeepSeek.ai火遍全球的几个事实: DeepSeek 不是套壳不是蒸馏美国的大模型。 虽然中国有些大模型是套壳和蒸馏的, 但 DeepSeek 不是。 核心架构还是基于 Transformer, deepseek 在架构、工程设计上进行了创新和工艺提升, 实现效率优化。 deepseek 在特定场景下能同时预测多个 token, 来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯, 也能减少一些重复中间步骤, 在数学、代码和文本摘要场景能提升效率。 因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。

    1.1K10编辑于 2025-02-02
  • 来自专栏coderidea

    软件质量的“四个9”和“五个9是什么意思?

    在软件开发领域,人们经常听说“四个9”和“五个9”这两个术语,但它们究竟是什么意思呢?这两个标准是用来衡量软件可用性的,本文将深入探讨它们的含义,并为你提供相关示例,以帮助更好地理解这些概念。 “四个9是什么? 首先,让我们来了解一下“四个9是什么。它指的是软件系统的可用性达到99.99%。这意味着软件系统在一年中的可用时间高达99.99%。 “五个9是什么? 接下来,我们来了解“五个9”的含义。它代表的是软件系统的可用性达到99.999%。这意味着软件系统在一年中的可用时间高达99.999%。 实际示例 为了更好地理解“四个9”和“五个9”的含义,我们可以通过一些实际示例来说明。假设你是一家医疗设备制造公司的工程师,你的设备需要达到“五个9”的可用性标准。 结论 “四个9”和“五个9”是软件质量中用来衡量可用性的标准。它们代表了软件系统的可用性水平,对于不同领域和应用具有不同的重要性。

    2.3K20编辑于 2023-10-24
  • 来自专栏大模型系列

    DeepSeek是什么?一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法

    一句话总结:DeepSeek 是由中国初创公司“深度求索”开发的一系列完全开源、免费商用的大语言模型,以 DeepSeek-Coder(代码模型) 起家,现已扩展至 MoE 架构、多模态与智能体领域,目标是成为 引言:从“现象级模型”到“AI 基础设施”的跃迁 2023 年底,当中国 AI 行业陷入“百模大战”的同质化竞争时,一个成立不足一年的团队——深度求索(DeepSeek),凭借三款产品迅速出圈: DeepSeek-Coder :性能超越 CodeLlama-34B 的开源代码大模型; DeepSeek-MoE:以稀疏激活实现“小成本、大性能”的混合专家模型; DeepSeek-VL:支持图文理解的多模态模型。 2.2 DeepSeek V4:下一代架构的三大支柱(技术前瞻,截至 2026 年 3 月) 虽然 V4 尚未正式发布,但 DeepSeek 在 2025–2026 年发布的三篇论文已勾勒出其技术蓝图: 这为 DeepSeek 这类独立实验室留下了宝贵的发展窗口。 结语:开源不是终点,而是新范式的起点 DeepSeek 的故事,是一个关于 技术理想主义如何在商业现实中扎根 的范本。

    4.3K40编辑于 2026-03-27
  • 来自专栏Linux运维技术之路

    Deepseek 和Open Ai 大模型最大区别是什么

    DeepSeek 和 OpenAI 的大模型(如 GPT 系列)在技术路线、架构设计和应用场景上存在显著区别。以下是两者的主要差异: 1. 模型架构 • DeepSeek: • 使用 MoE(Mixture of Experts,混合专家)架构,如 DeepSeek-V3 具有 6710 亿参数,但每次推理只激活 370 亿参数。 参数量和计算效率 • DeepSeek: • 参数量巨大(如 DeepSeek-V3 有 6710 亿参数),但通过 MoE 架构实现高效计算,每次推理只激活部分参数(如 370 亿)。 训练数据规模 • DeepSeek: • 在 14.8 万亿 token 的数据上进行了预训练,数据规模庞大。 开源与商业化 • DeepSeek: • 目前未完全开源,更多用于特定领域或商业化场景。

    4K10编辑于 2025-02-04
  • 来自专栏C++

    DeepSeekDeepSeek概述 | 本地部署deepseek

    1 -> 概述 DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。 推动行业变革:DeepSeek的成功挑战了传统的“大力出奇迹”的AI发展模式,为行业提供了新的发展思路和方向,激发了更多的创新和探索。 2.2 -> 部署deepseek-r1模型 回到ollama官网点击左上角的Models进入如下界面。 这样本地部署deepseek就算完成啦

    3.5K32编辑于 2025-02-08
  • 来自专栏Lcry个人博客

    运维常说的 5个9、4个9、3个9 的可靠性,到底是什么鬼?

    X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。 下面就展示了这几个9的允许中断的时间表: 3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。 扩展一下: 1个9:(1-90%)*365=36.5天 ,表示该系统在连续运行1年时间里最多可能的业务中断时间是36.5天。 2个9:(1-99%)*365=3.65天,表示该系统在连续运行1年时间里最多可能的业务中断时间是3.65天。 现在知道我们平常看见购买主机产品上说的99.9%可用是什么意思了吧?

    7.4K30编辑于 2022-11-29
  • 来自专栏电子工程师成长日记

    DeepSeek学嵌入式9:74HC595的使用

    DeepSeek问答截图: 设计介绍 51单片机简介 51单片是一种低功耗、高性能CMOS-8位微控制器,具有8K可编程Flash存储器,使得其为众多嵌入式控制应用系统提供高灵活、超有效的解决方案。

    64810编辑于 2025-04-27
  • 来自专栏AI技术探索和应用

    打破信息差,小白也可以知道最近大火的DeepSeek是什么

    什么是DeepSeekDeepSeek的官网:https://www.deepseek.com/ DeepSeek是一款基于深度学习技术的人工智能平台,它能够模拟人类的思维过程,通过大量的数据学习和自我优化,从而提供精准的预测和决策支持 开源 Github开源地址:https://github.com/deepseek-ai HuggingFace模型地址:https://huggingface.co/deepseek-ai DeepSeek-R1 Deepseek的应用场景 DeepSeek的应用场景非常广泛,几乎涵盖了所有行业。以下是一些典型的应用案例: 金融领域:DeepSeek可以分析市场趋势,预测股票价格,帮助投资者做出更明智的决策。 教育领域:DeepSeek可以根据学生的学习情况,提供个性化的学习建议,提高学习效果。 Deepseek的未来展望 Deepseek的出现,标志着AI技术进入了一个新的阶段。

    2K21编辑于 2025-02-24
  • 来自专栏路人甲Java

    SpringMVC返回null是什么意思?| SpringMVC系列第9

    目前为止,springmvc 系列中,已经介绍了大量 Controller 的用法,大家有没有注意到,目前所有 controller 中的方法接收到请求之后,都是有返回值的,返回值主要有 2 种类型:

    1.1K50发布于 2021-07-23
  • 来自专栏编码前线

    JAVA面试50讲之9:动态代理的原理是什么

    关于Java中的动态代理,我们首先需要了解的是一种常用的设计模式—代理模式,而对于代理,根据创建代理类的时间点,又可以分为静态代理和动态代理。

    75020发布于 2019-01-23
  • 来自专栏程序员修炼之路

    AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?

    发展历史 2023 年 11 月 2 日:DeepSeek 发布了首个开源模型 DeepSeek Coder,这是一个支持多种编程语言的代码生成和调试模型。 2023 年 11 月 29 日:DeepSeek 发布了参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。 最新产品:DeepSeek-R1 产品介绍 DeepSeek-R1 是 DeepSeek 于 2025 年 1 月 20 日发布的最新 AI 推理模型,性能直逼 OpenAI 的 o1 正式版。 总结 DeepSeek 作为一家新兴的 AI 科技公司,通过不断创新和技术突破,推出了多款高性能、低成本的 AI 模型,如 DeepSeek Coder、DeepSeek LLM、DeepSeek-V3 和 DeepSeek-R1。

    62410编辑于 2025-02-04
  • (数智化)招标采购行业未来的趋势是什么DeepSeek这样答

    最近,DeepSeek-R1这款开源推理模型火了! 此外,平台已成功对接DeepSeek大模型,将借助DeepSeek在自然语言处理、机器学习、推理等能力,将AI能力融入招采全流程,赋能智能招采问答、采购文件智能编制及审查、围串标分析、大数据分析决策等应用场景

    48310编辑于 2025-02-21
  • 来自专栏芋道源码

    DeepSeek 全面指南:95% 的人都不知道的9个技巧(建议收藏)

    其实问题不在工具,很多人的使用姿势就搞错了,用大炮打蚊子,白白浪费DeepSeek的强大功能。 接下来,我将为大家分享9个实用技巧,你会发现DeepSeek远比想象中更强大。 DeepSeek的三种模式 DeepSeek有三大适用模式:基础模型(V3)、深度思考(R1)、联网搜索。 1. 基础模型(V3) 基础模型(V3)是DeepSeek的标配,没有勾选默认就是基础模型。 告别提示词 很多AI熟手可能会囤一堆提示词模板,但是,DeepSeek 完全不用准备提示词,只要简单明了地描述你的需求,DeepSeek 就能理解并给出精准的答案。 将对话信息整理成清单格式 例如,我先问DeepSeek:“如何写好提示词?” 对于如何提供上下文,我还是不明白,我可以继续追问DeepSeek。 最后我让DeepSeek把对话整理成详细的清单格式。 以上9个技巧,希望能帮助你更好地使用DeepSeek。欢迎大家在评论区分享你的使用技巧,一起探讨、学习。

    6.3K52编辑于 2025-02-03
  • 来自专栏机器学习与统计学

    大模型解决机器学习问题,实测,DeepSeek-R1 排名第9

    大家好,我是Ai学习的老章 经常在外冲浪,看到很多优秀的技术文章,独享不如分享 我会使用DeepSeek-R1+科技类翻译大师prompt翻译出来,大家一起学习 如有翻译偏差,请大家指教。 模型必须将 9 个打乱的灰度图像块(每个 9x9 像素)重新排列以重建原始的 27x27 图像。 图像块洗牌(简单) 模型必须排列 9 个洗牌的灰度图像块(每个 9x9 像素),以重建原始的 27x27 图像。所有块都保证来自同一张连贯的图像( 任务提示[6] )。训练集包含 1000 张图像。 模型必须将 9 个乱序的 RGB 图像块(每个 9x9 像素)重新排列,这些图像块来自一个更大的 64x64 图像的随机 27x27 子集。 无监督手写数字识别 一个半监督学习任务,模型必须仅使用 26 个标记样本和大量未标记数据进行分类( 任务提示[9] )。由于未标记数据集中的类别分布不均,使得任务更加复杂。

    22910编辑于 2025-07-21
领券