首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法一只狗

    DeepSeek 开源的FlashMLA到底是什么

    DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。 它其实总结下来就是两个关键的信息适配DeepSeek中自研的MLA,能够有效加速MLA的推理速度。其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。 而DeepSeek-V2提出的MLA(Multi-Head Latent Attention),在KV缓存数量上略大于GQA(2.25组),但具备恢复完整MHA效果的能力。 从部署使用上看,其用法相当简单,只需要安装对应的依赖,然后像下面一样调用即可DeepSeek团队在首日就开源了FlashMLA,相信在接下来的几天内,社区会有更多实践和应用落地。 DeepSeek正用行动证明,他们不仅仅是开源的践行者,更是AI技术普惠化的推动者。

    39210编辑于 2025-03-18
  • DeepSeek V4是什么?能做什么?

    DeepSeek V4不只是聊天机器人,它是能真正干活的AI助手。 一、DeepSeek V4是什么? 读取指定目录下所有xlsx文件 2. 合并到一个新文件 3. 添加一列显示文件来源 4. 找出Top 5畅销产品 2. 分析月度趋势 3. 找出异常值 4. 调研竞品 2. 写需求文档 3. 设计数据库 4. 写核心代码 5. 访问 https://chat.deepseek.com 注册 2. 试试简单的任务(写代码、总结文档) 3. 熟悉后尝试复杂任务(Agent流程) 4.

    2K10编辑于 2026-04-28
  • DeepSeek R2 要来了?

    虽然官方还没正式官宣,但这两天科技圈已经被DeepSeek R2的传闻刷屏了!从X(原推特)到科技论坛,各路消息满天飞——有说这周就要发布的,有爆料技术参数的,甚至还有讨论华为芯片的。 用户@kimmonismus神秘兮兮地说"DeepSeek R2越来越近了",@imjustnewatai更是直接押注"本周必发"。 Wccftech等外媒虽然跟风报道,但连个发布日期都说不准,DeepSeek官微更是安静如鸡。 行业地震正在进行时 别看R2还没露脸,它家前作R1早就把市场搅得天翻地覆了。 MIT协议真香 直接叫板GPT-4 V3 2025.3升级 6710亿 文本图片视频全拿下 硬件效率吊打同行 R2(网传) 可能本周 1.2万亿核弹 价格低到友商想报警 华为芯+推理视觉双修 写在最后 :不管真假,DeepSeek已经赢了 就算R2的爆料最后被"打脸",DeepSeek这套组合拳也够漂亮。

    45311编辑于 2025-06-09
  • 来自专栏大模型系列

    万字长文详解DeepSeekDeepSeek是什么-超长上下文

    本文将从技术演进、核心架构、开源生态、应用场景、产业影响五大维度,全面剖析DeepSeek的技术内核与发展路径。一、DeepSeek是什么? 三、核心技术架构解析1.混合专家(MoE)架构DeepSeek-V2/V3采用动态路由MoE:包含8个专家子网络(每个约16B参数)。门控网络根据输入Token动态选择Top-2专家。 2.超长上下文支持支持128Ktokens上下文窗口(部分版本达1M)。采用ALiBi(AttentionwithLinearBiases)或YaRN位置编码,有效缓解长度外推问题。 适配)中间检查点(供学术研究训练动态)2.开发者友好提供Docker镜像、API封装、LangChain插件。 2.推动技术民主化开源+免费商用策略,让中小企业、高校、个人开发者都能平等地使用最先进AI技术。3.未来方向Agent智能体:构建可自主规划、执行、反思的AI代理。

    6.3K60编辑于 2026-04-06
  • 来自专栏TestOps云层

    TestOps是什么2

    2.快速构建测试所需测试数据的自动化平台 能够通过平台快速的完成各个系统所需要的各种数据的生成还原工作,解决测试中涉及到的测试数据问题。 最后补上一张图,关于DevOps、TestDev、TestOps的关系 TestOps是什么(1)

    68440编辑于 2022-04-02
  • 来自专栏GiantPandaCV

    如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2

    /DeepSeek-V2/blob/main/config.json-ai/DeepSeek-V2/blob/main/config.json 以 A800 8x80G 单节点为例, 总显存大小共 640GB DeepSeekV2DeepSeek-67B 的 KVCache 估计 计算成本上,理论计算量为 FLOPs=2ND,则两者的比值是: 实际的推理成本比值是 带宽读取时间 + 计算时间,无论是 Memory 按照 DeepSeek V2 的设计,Attention 部分的 weight 大小是大于 6 个 Expert 的 weight 的,即激活参数中,Attention 占比超过 50%。 @罗福莉 这样设计的好处是什么?如果要最小化缝隙的话,可能 62 或者 63 (64-1) 更合适? (不做限制的话,最多可以到 6 个 GPU 上) DeepSeek MoE 部分, Ns=2,Kr=6 总共的 Expert 数量是 162 个。

    1K20编辑于 2025-02-03
  • 来自专栏AI SPPECH

    11:DeepSeek-OCR-2 深度解析

    作者: HOS(安全风信子) 日期: 2026-02-05 主要来源平台: ModelScope 摘要: DeepSeek-OCR-2 作为 DeepSeek 团队开源的第二代 OCR 模型,基于 团队推出的 DeepSeek-OCR-2 正是为了解决这些痛点而生。 根据 ModelScope 平台的最新动态,DeepSeek-OCR-2 采用了全新的技术架构,实现了语义推理级的文档理解能力,为各类文档处理场景提供了更强大的解决方案。 2. 架构 DeepEncoder V2DeepSeek-OCR-2 的核心特征提取架构,相比第一代有了显著改进: # DeepEncoder V2 核心实现 class DeepEncoderV2( -2 文档理解服务") as demo: gr.Markdown("# DeepSeek-OCR-2 文档理解服务") gr.Markdown("基于DeepSeek-OCR-2的文档理解服务

    1K10编辑于 2026-02-08
  • 来自专栏全栈程序员必看

    J2EE是什么?_servlet是什么

    J2EE是Sun公司提出的多层(multi-diered),分布式(distributed),基于组件(component-base)的企业级应用模型(enterpriese application

    2.6K30编辑于 2022-11-10
  • 来自专栏一臻AI

    DeepSeek之后,10万一个的Manus到底是什么

    从"AI会说"到"AI会做"的飞跃 如果说ChatGPT和DeepSeek只是会说话的AI,那Manus就是真正会干活的AI。 以前你对AI说:"帮我分析这些简历。" 自动解压文件包中的简历,逐一阅读分析并生成评分报告 2. 访问指定网站,探索所有功能并制作详细的产品体验报告 3. 阅读Github上的代码,理解项目结构并绘制系统架构图 4. 直接操作计算机的能力(浏览网页、执行代码等) 2. 安全隔离的虚拟机环境(保护数据安全) 3. 多模态内容生成(可输出PPT/HTML/音视频) 4. 了解它:即使申请不到内测码,也要关注Manus的发展动向和使用场景 2. 思考自己的不可替代性:AI可以写代码、分析数据,但它无法替代人类的创造力和情感共鸣 3. 继DeepSeek之后,又一个让全球瞩目的国产AI产品诞生了。 创始人是90后,之前做过壹伴助手这个产品(很多公众号作者都在用),然后卖掉后继续创业,现在又带来了Manus这个颠覆性产品。

    28510编辑于 2025-03-07
  • 来自专栏爱可生开源社区

    是什么原因导致慢 SQL?问问 ChatDBA 和 DeepSeek

    ChatDBA 与 DeepSeek 解决数据库故障的能力对比。 问题 是什么导致了慢 SQL?如何优化? 交互轮次 2/3 根据上一轮 ChatDBA 给出的排查命令进行操作,并将排查结果反馈给 ChatDBA。 2. 为什么要检查数据类型与隐式转换? ChatDBA VS DeepSeek DeepSeek 的回答 登录 DeepSeek 官网,提出相同的问题。 2. 更细致的性能调优建议 包含了如 InnoDB Buffer Pool 命中率、锁等待情况等系统指标的排查与优化建议,体现了从数据库内部机制角度的深入理解。

    43410编辑于 2025-06-17
  • 来自专栏网络虚拟化

    如何评价 Deepseek 新发布的 DeepSeek-Prover-V2-671B 模型?

    2025 年 4 月,DeepSeek 放大招,推出了 DeepSeek-Prover-V2-671B,参数高达 6710 亿,专为在 Lean 4 语言里证明数学定理而生。 DeepSeek-Prover-V2-671B 的横空出世可是个大跃进,实力已经能跟一些人类专家过过招了。 模型架构:大而灵活 混合专家的路子 DeepSeek-Prover-V2-671B 是从 DeepSeek-V3-Base 改出来的,用了个叫混合专家(MoE)的架构,总参数有 6710 亿,但实际干活时只调大概 训练过程:数据加聪明算法 先打基础 DeepSeek-Prover-V2-671B 从 DeepSeek-V3-Base 开始,这是个在 14.8 万亿 token 上预训练的模型,数学、代码、Lean 最后说两句 DeepSeek-Prover-V2-671B 是 AI 证明数学定理的一个大步。它的 MoE 架构、智能训练和开源让人眼前一亮,在 MiniF2F、PutnamBench 上成绩亮眼。

    55610编辑于 2025-05-04
  • 来自专栏全栈程序员必看

    j2ee java是什么意思,j2ee是什么

    熟悉Java的人有很多,但对于j2ee,很多人估计都是次听说了。那么这个j2ee是什么呢?它和Java有着什么千丝万缕的联系呢? 1、j2ee是什么? 要想知道j2ee是什么,必须先知道Java的三大分支。 j2ee组件和“标准的” Java类的不同点在于:它被装配在一个j2ee应用中,具有固定的格式并遵守j2ee规范,由j2ee服务器对其进行管理。 2、j2ee具有哪些优势? ①简化结构 由于j2ee基于Java编程语言,它提供了编写一次,随处运行的可移植性,遵循j2ee标准的所有服务器都支持该模型。另外,j2ee还支持异构环境。 以上就是小编今天带来的j2ee是什么意思的 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

    1.6K30编辑于 2022-11-07
  • 来自专栏华仔的技术笔记

    libp2p是什么

    libp2p is used by IPFS as its networking library. libp2p被用作IPFS的网络层。 libp2p汇集了各种传输和点对点协议,使开发人员可以轻松构建大型,强大的p2p网络。开发者构建一个p2p网络并不是一件容易的事情。 资源: https://libp2p.io/ https://github.com/libp2p https://github.com/libp2p/libp2p 技术文档:https://github.com /libp2p/specs ? image.png The whole of IPFS is made up of libp2p modules 整个IPFS是由libp2p等模块构成,libp2p是一个模块化网络堆栈。 ?

    2.2K30发布于 2018-07-03
  • 来自专栏大模型系列

    DeepSeek是什么?一文看懂国产开源大模型 DeepSeek 的功能、特点与使用方法

    一句话总结:DeepSeek 是由中国初创公司“深度求索”开发的一系列完全开源、免费商用的大语言模型,以 DeepSeek-Coder(代码模型) 起家,现已扩展至 MoE 架构、多模态与智能体领域,目标是成为 :性能超越 CodeLlama-34B 的开源代码大模型; DeepSeek-MoE:以稀疏激活实现“小成本、大性能”的混合专家模型; DeepSeek-VL:支持图文理解的多模态模型。 如 API 签名、事实)以 O(1) 复杂度从记忆表检索分离“知识”与“推理”,在 27B 验证模型中提升复杂推理基准 4%流形约束超连接(mHC)控制超深网络中的信号放大倍数(从 3000× 压至 2× 2.3 DualPath 推理框架:智能体时代的“加速引擎”(2026 年 2 月发布) 如果说 V4 是“大脑”,那么 DualPath 就是让大脑高速运转的“血液循环系统”。 这为 DeepSeek 这类独立实验室留下了宝贵的发展窗口。 结语:开源不是终点,而是新范式的起点 DeepSeek 的故事,是一个关于 技术理想主义如何在商业现实中扎根 的范本。

    7.7K40编辑于 2026-03-27
  • 来自专栏Linux运维技术之路

    Deepseek 和Open Ai 大模型最大区别是什么

    模型架构 • DeepSeek: • 使用 MoE(Mixture of Experts,混合专家)架构,如 DeepSeek-V3 具有 6710 亿参数,但每次推理只激活 370 亿参数。 2. 参数量和计算效率 • DeepSeek: • 参数量巨大(如 DeepSeek-V3 有 6710 亿参数),但通过 MoE 架构实现高效计算,每次推理只激活部分参数(如 370 亿)。 训练数据规模 • DeepSeek: • 在 14.8 万亿 token 的数据上进行了预训练,数据规模庞大。 开源与商业化 • DeepSeek: • 目前未完全开源,更多用于特定领域或商业化场景。 • OpenAI: • 部分模型(如 GPT-2)已开源,但最新模型(如 GPT-4)仅通过 API 提供服务,商业化程度高。

    4.3K10编辑于 2025-02-04
  • 来自专栏算法一只狗

    DeepSeek R2:值得等待的“惊喜”之作?

    自从DeepSeek R1-0528横空出世、斩获一众基准测试冠军后,R2何时来袭成为了互联网的热议的话题。 二、R1-0528:一次大版本迭代相比此前的小版本修补,DeepSeek R1-0528包含了多项重量级改进,使其在多项任务中重回第一梯队:这个小版本的更新具有以下新的优点: 长思考能力增强:支持30– 三、R2:不只是更大,更要更妙那么,R2何时推出?答案或许并不重要——关键是,它能否给我们带来真正的惊喜。 工具调用与多模态落地 与DeepSeek Vision无缝融合,支持图像、视频等多模态输入输出。真正可用的Agent能力,而非“会调用API”的花架子。 R2如果在发布时间上慢上一些,却能在实用性与创新性上带来质变,那等待就是值得的。DeepSeek团队已经用R1-0528向我们展示了“深耕而非堆叠”的力量。

    1.4K30编辑于 2025-07-12
  • 来自专栏DeeSeek

    DeepSeek 入门指导手册——从入门到精通【2

    基础对话篇:轻松交流,从交朋友开始有效提问的五个黄金法则法则 1:明确需求错误示例:「帮我写点东西」正确姿势:「我需要一封求职邮件,应聘新媒体运营岗位,突出 3 年公众号运营经验」法则 2:提供背景错误示例 输入:“请解释 DeepSeek,然后/简化”,对比简化前后的差异。效率飞跃篇:文件处理与复杂任务五分钟学会文档分析操作流程:点击“回形针”图标上传文件(支持 PDF、Word、TXT 等格式)。 建议改为‘基于改进 YOLOv5 的未知物体自适应抓取系统研究’,创新点更明确”文献速览:上传 10 篇 PDF 文献后输入:“请用表格对比各文献的研究方法,按‘创新点/局限/可借鉴处’三列整理”阶段 2: 往往依赖于海量样本的持续输入(Wang et al., 2022)”期刊匹配引擎匹配指令:基于我的研究:领域:人工智能辅助教育创新点:动态知识点图谱构建数据量:10 万+用户样本推荐:3 个冲刺期刊(IF 3-5)2

    87910编辑于 2025-02-25
  • 来自专栏菩提树下的杨过

    spring-ai 学习系列(2)-调用远程deepseek

    上一节学习了spring-ai调用本地ollama,这次继续学习调用远程deepseek 一、pom依赖调整 加入openai的依赖 1 <dependency> 2 <groupId>group.springframework.ai artifactId>spring-ai-openai-spring-boot-starter</artifactId> 4 </dependency> 二、yaml配置调整 其中api-key换成真实的deepseek api key(注:没有的,参考本文最后的截图,去deepseek官网申请1个,非常便宜,早饭吃根油条的钱,就能体验很久) spring: ai: openai: api-key : sk-*** base-url: https://api.deepseek.com chat: options: model: deepseek-chat 如果要实现类似功能,可参考 全自助使用Cursor生成的DeepSeek Demo java 项目 文中代码:https://github.com/yjmyzz/spring-ai-sample/tree

    77110编辑于 2025-08-22
  • DeepSeek-OCR-2 开源 OCR 模型的技术

    DeepSeek在自然语言处理领域掀起波澜之后,其于2026年1月27日开源的DeepSeek-OCR-2再次引发行业关注。 一、DeepSeek-OCR-2:视觉因果流的革新1.1核心创新:DeepEncoderV2DeepSeek-OCR-2最引人注目的创新在于其DeepEncoderV2视觉编码器。 1.2模型规格与性能指标DeepSeek-OCR-2参数量3B视觉编码器DeepEncoderV2(基于Qwen2-0.5B)语言解码器DeepSeek3B-MoE-A570M支持分辨率动态分辨率,最高 显存可部署支持语言130+含14种高频小语种三、技术对比:DeepSeek-OCR-2vsHunyuanOCR对比维度DeepSeek-OCR-2HunyuanOCR参数规模3B1B架构理念视觉因果流, 参考链接DeepSeek-OCR-2:https://github.com/deepseek-ai/DeepSeek-OCR-2HunyuanOCR:https://github.com/Tencent-Hunyuan

    94810编辑于 2026-02-07
  • 来自专栏C++

    DeepSeekDeepSeek概述 | 本地部署deepseek

    1 -> 概述 DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。 2 -> 本地部署deepseek 2.1 -> 安装ollama ollama官网 点击Download下载 选择对应的操作系统,本次以Windows操作系统为例 点击Download for Windows 2.2 -> 部署deepseek-r1模型 回到ollama官网点击左上角的Models进入如下界面。 这样本地部署deepseek就算完成啦

    4K32编辑于 2025-02-08
领券