DeepSeek之前开源的FlashMLA,其github仓库代码已经来带了6000+的stars数量了,果然DeepSeek团队才是真正的OpenAI。 它其实总结下来就是两个关键的信息适配DeepSeek中自研的MLA,能够有效加速MLA的推理速度。其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。 而DeepSeek-V2提出的MLA(Multi-Head Latent Attention),在KV缓存数量上略大于GQA(2.25组),但具备恢复完整MHA效果的能力。 在H800 SXM5硬件环境下,搭配CUDA 12.6,在内存受限条件下可实现3000 GB/s的带宽与580 TFLOPS的浮点性能,展现了极致的硬件适配优化。 DeepSeek正用行动证明,他们不仅仅是开源的践行者,更是AI技术普惠化的推动者。
成立不到三年,DeepSeek已发布包括DeepSeek-Coder、DeepSeek-MoE、DeepSeek-VL、DeepSeek-R1等多个重量级模型,在代码生成、混合专家架构、多模态理解与推理能力等方面实现多项突破 本文将从技术演进、核心架构、开源生态、应用场景、产业影响五大维度,全面剖析DeepSeek的技术内核与发展路径。一、DeepSeek是什么? 阶段三:迈向通用智能——DeepSeek-VL与DeepSeek-R1(2025–2026)DeepSeek-VL:支持图文理解、OCR、视觉问答等多模态任务。 参考资料:DeepSeek官网:https://www.deepseek.comGitHub仓库:https://github.com/deepseek-aiHuggingFace模型库:https:/ /huggingface.co/deepseek-ai腾讯云《3年,从0到全球领跑:万字长文拆解DeepSeek大模型技术演进》百度开发者中心《DeepSeek模型全解析:核心差异与应用场景指南》
下面让我们正式进入《一问一实验:AI 版》第 63 期,看看 ChatDBA 最新效果以及与热门大模型 DeepSeek-R1 在 慢 SQL 优化方面 的效果对比(结尾)。 ChatDBA 与 DeepSeek 解决数据库故障的能力对比。 问题 是什么导致了慢 SQL?如何优化? ChatDBA VS DeepSeek DeepSeek 的回答 登录 DeepSeek 官网,提出相同的问题。 DeepSeek-R1 回答首先给出了对问题的分析,然后给出了修改 SQL 语句创建复合索引以及强制索引提示两个解决方,但并未考虑到临时表参数对慢查询的影响。 上下滑动查看交互截图 对比总结 ChatDBA 相较于 DeepSeek-R1 的优势总结如下: 1.
从"AI会说"到"AI会做"的飞跃 如果说ChatGPT和DeepSeek只是会说话的AI,那Manus就是真正会干活的AI。 以前你对AI说:"帮我分析这些简历。" 但现在DeepSeek基本干掉了提示词工程,Manus又干掉了复杂的RPA+智能体+AI工作流...留给低端牛马打工人的时间,似乎确实不多了。 那我们该怎么办? 与其焦虑,不如拥抱变化。 1. 继DeepSeek之后,又一个让全球瞩目的国产AI产品诞生了。 创始人是90后,之前做过壹伴助手这个产品(很多公众号作者都在用),然后卖掉后继续创业,现在又带来了Manus这个颠覆性产品。
一句话总结:DeepSeek 是由中国初创公司“深度求索”开发的一系列完全开源、免费商用的大语言模型,以 DeepSeek-Coder(代码模型) 起家,现已扩展至 MoE 架构、多模态与智能体领域,目标是成为 引言:从“现象级模型”到“AI 基础设施”的跃迁 2023 年底,当中国 AI 行业陷入“百模大战”的同质化竞争时,一个成立不足一年的团队——深度求索(DeepSeek),凭借三款产品迅速出圈: DeepSeek-Coder :性能超越 CodeLlama-34B 的开源代码大模型; DeepSeek-MoE:以稀疏激活实现“小成本、大性能”的混合专家模型; DeepSeek-VL:支持图文理解的多模态模型。 2.2 DeepSeek V4:下一代架构的三大支柱(技术前瞻,截至 2026 年 3 月) 虽然 V4 尚未正式发布,但 DeepSeek 在 2025–2026 年发布的三篇论文已勾勒出其技术蓝图: 这为 DeepSeek 这类独立实验室留下了宝贵的发展窗口。 结语:开源不是终点,而是新范式的起点 DeepSeek 的故事,是一个关于 技术理想主义如何在商业现实中扎根 的范本。
模型架构 • DeepSeek: • 使用 MoE(Mixture of Experts,混合专家)架构,如 DeepSeek-V3 具有 6710 亿参数,但每次推理只激活 370 亿参数。 参数量和计算效率 • DeepSeek: • 参数量巨大(如 DeepSeek-V3 有 6710 亿参数),但通过 MoE 架构实现高效计算,每次推理只激活部分参数(如 370 亿)。 训练数据规模 • DeepSeek: • 在 14.8 万亿 token 的数据上进行了预训练,数据规模庞大。 5. 技术路线 • DeepSeek: • 采用 MoE 架构,注重模型的可扩展性和计算效率。 • 通过动态路由机制优化资源利用。 开源与商业化 • DeepSeek: • 目前未完全开源,更多用于特定领域或商业化场景。
1 -> 概述 DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。 推动行业变革:DeepSeek的成功挑战了传统的“大力出奇迹”的AI发展模式,为行业提供了新的发展思路和方向,激发了更多的创新和探索。 2.2 -> 部署deepseek-r1模型 回到ollama官网点击左上角的Models进入如下界面。 这样本地部署deepseek就算完成啦
5 是 HTML5 的简称,是一种用于构建交互式 web 内容的标记语言和应用程序编程接口 (API)。它允许开发者使用更少的代码创建功能更强大的 web 体验。 H5 的主要特点: 多设备兼容:H5 适用于各种设备,包括台式机、笔记本电脑、平板电脑和智能手机。 高性能:H5 采用了本地代码编译技术,使 web 应用的性能接近原生应用。 离线支持:H5 允许 web 应用在离线时使用本地存储,从而提高用户体验。 易于维护:H5 的代码更容易维护和更新,因为它是基于开放标准。 H5 的应用场景: H5 的应用场景广泛,包括: 移动 web 应用:H5 可用于创建响应式、跨平台的移动 web 应用。 游戏:H5 可用于开发轻量级的浏览器游戏。 教育:H5 可用于创建交互式学习体验。 商业营销:H5 可用于创建吸引用户的交互式营销活动。 社交媒体:H5 可用于在社交媒体平台上创建分享和互动的体验。
什么是DeepSeek? DeepSeek的官网:https://www.deepseek.com/ DeepSeek是一款基于深度学习技术的人工智能平台,它能够模拟人类的思维过程,通过大量的数据学习和自我优化,从而提供精准的预测和决策支持 开源 Github开源地址:https://github.com/deepseek-ai HuggingFace模型地址:https://huggingface.co/deepseek-ai DeepSeek-R1 Deepseek的应用场景 DeepSeek的应用场景非常广泛,几乎涵盖了所有行业。以下是一些典型的应用案例: 金融领域:DeepSeek可以分析市场趋势,预测股票价格,帮助投资者做出更明智的决策。 教育领域:DeepSeek可以根据学生的学习情况,提供个性化的学习建议,提高学习效果。 Deepseek的未来展望 Deepseek的出现,标志着AI技术进入了一个新的阶段。
DeepSeek 前几天发布了 V3.2 的正式版公告。 标准版的DeepSeek - V3.2适用于日常场景,而DeepSeek - V3.2 - Speciale 则具备较强的指令跟随、数学证明和逻辑验证能力。 官方数据显示,其综合推理能力已达到 GPT-5 水平,仅微弱差距次于 Gemini-3.0-Pro,但是其成本却远低于GPT-5。 DeepSeek-V3.2-Speciale:为极限难题而生这是一个不计成本、追求极致智力的版本。它结合了 DeepSeek-Math-V2 的定理证明能力,专门用来搞研究的。 这个结论不好说对不对,但 v3.2 标准版对标 GPT-5,Speciale 版在竞赛中横扫金牌,证明了开源模型在顶级智力任务上已经具备了与闭源巨头(OpenAI, Google)正面硬刚的实力。
DeepSeek作为一款强大的AI工具,能够帮助用户快速生成所需的H5抽奖代码,极大地提高了开发效率。 本文将详细介绍如何利用DeepSeek实现深度问答,快速编写一个功能完备的H5抽奖页面,并附上实际代码和案例,确保内容有理有据、逻辑清晰、通俗易懂。 二、DeepSeek简介 DeepSeek是一款功能强大的AI工具,支持从简单的文本生成到复杂的数据分析等多种任务。它不仅能够帮助用户快速生成文章、报告等内容,还能够处理代码辅助、数据分析等专业任务。 对于H5抽奖页面的生成,DeepSeek同样表现出色。用户只需通过自然语言描述需求,DeepSeek即可快速生成相应的HTML、CSS和JavaScript代码。 六、总结与展望 通过利用DeepSeek的深度问答功能,我们可以快速生成一个功能完备的H5抽奖页面。这一过程不仅简化了传统开发方式中的繁琐步骤,还提高了开发效率和代码质量。
发展历史 2023 年 11 月 2 日:DeepSeek 发布了首个开源模型 DeepSeek Coder,这是一个支持多种编程语言的代码生成和调试模型。 2023 年 11 月 29 日:DeepSeek 发布了参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本。 最新产品:DeepSeek-R1 产品介绍 DeepSeek-R1 是 DeepSeek 于 2025 年 1 月 20 日发布的最新 AI 推理模型,性能直逼 OpenAI 的 o1 正式版。 总结 DeepSeek 作为一家新兴的 AI 科技公司,通过不断创新和技术突破,推出了多款高性能、低成本的 AI 模型,如 DeepSeek Coder、DeepSeek LLM、DeepSeek-V3 和 DeepSeek-R1。
最近,DeepSeek-R1这款开源推理模型火了! 5.绿色采购与可持续发展l 环境数据分析:AI和大数据可以帮助企业评估供应商的环境影响,推动绿色采购和可持续发展。 5.技术依赖与系统风险过度依赖风险:过度依赖AI和大数据技术可能导致系统故障时业务中断,企业需要在技术与人工干预之间找到平衡。技术更新压力:AI和大数据技术发展迅速,企业需要不断更新技术以保持竞争力。 此外,平台已成功对接DeepSeek大模型,将借助DeepSeek在自然语言处理、机器学习、推理等能力,将AI能力融入招采全流程,赋能智能招采问答、采购文件智能编制及审查、围串标分析、大数据分析决策等应用场景
深度求索在2025年1月20日开源了其第一代推理模型 DeepSeek-R1,性能对标 OpenAI o1 模型。云应用支持 DeepSeek-R1 快速部署。 1.安装Deepseek我们需要在腾讯云服务器上进行部署,打开地址:https://app.cloud.tencent.com/detail/SPU_BHDIEHIJCA8003,点开Deepseek的应用安装页面点击安装应用按钮 然后点击下一步:确定资源3.确认订单信息在确定订单页面,需要提前在账户里充钱,至少要求运行一个小时需要的余额,这里我的余额不足,无法点击下一步,我们给老马充点钱之后,就可以继续下一步了4.等待安装接着我们等待5分钟左右 ,Deepseek就安装好了5.使用Deepseek1.安装完成后,我们点击打开应用按钮,即可打开Web界面2.打开页面后,在Web界面的欢迎页,点击开始使用3.初次使用时,需要创建管理员账号4.我们可以在用户设置的 General里将系统语言设置为中文5.接着我们就可以开始愉快的对话了,R1大模型就是具有深度思考能力的,V3模型是普通模型,不具备深度思考能力Ollama API支持云应用部署的版本,已经支持了Ollama
以下为谈及中国DeepSeek时的对话内容: Do you think there was a bit, when DeepSeek appeared and sort of exploded and 此外,这让我开始真正重新思考我们在免费层面中提供什么,现在免费层面将包括 GPT-5,这很酷。 竞争与行业动态 竞争方面,DeepSeek 的免费层和链式思维功能非常流行,引发关注。 OpenAI 计划在免费层中包含 GPT-5,并考虑开源模型,这可能改变 AI 行业的定价和开放策略(X post LG AI Research)。 GPT-5 预期:Altman 暗示 GPT-5 即将推出,不会让用户等待太久,继 GPT-4.5 发布仅两周后透露这一消息。
volatile是什么? volatile可参考之前写过的文章:java中volatile关键字 老王:小陈啊,上一章节结束之前让你看一下volatile,现在研究得怎么样了? (5)此时工作线程B需要用到共享变量 i 了,即使工作内存里面有副本,但是每次还是会重新从主内存中读取最新的值,这个时候读取到 i = 1了 小陈:上面就是我知道的,volatile在java内存模型层次是怎么保证可见性的 3.线程安全之可见性、有序性、原子性是什么? 4.什么是MESI缓存一致性协议?怎么解决并发的可见性问题? JAVA并发专题《练气篇》 5.volatile怎么保证可见性? 6.什么是内存屏障?
关于切片,我们有太多的疑问 要回答上面这些问题,首先需要明白——网络切片到底是什么。 让我们从5G的前辈,3G和4G开始说起吧。 4G标准的QoS等级定义 到了5G时代,这一切又都发生了变化。 因为5G不再只用于人和人之间的通信,而是怀揣着万物互联的梦想而降生。 5G,实际上是一张拥有三副面孔的“多重人格网络”。 ? 5G网络的三大场景及其QoS需求 参照上面这张图,我们来看看三大场景对于5G网络的需求: 增强型移动宽带(eMBB):需要关注峰值速率,容量,频谱效率,移动性,网络能效等这些指标,和传统的3G和4G类似 跟3G和4G不同,5G对网络切片进行了全面的设计,可以对各类资源及QoS进行端到端的管理,横贯无线、承载与核心网,并使之成为5G网络的基本特征之一。 总而言之,如果说4G网络是一套菜刀,虽然锋利但用途单一;那么,5G网络就是一把瑞士军刀,灵活方便、用途广泛、功能强悍。 这把军刀到底有多强,随着5G的临近,就让我们亲自去见证吧! ?
关于切片,我们有太多的疑问 要回答上面这些问题,首先需要明白——网络切片到底是什么。 让我们从5G的前辈,3G和4G开始说起吧。 4G标准的QoS等级定义 到了5G时代,这一切又都发生了变化。 因为5G不再只用于人和人之间的通信,而是怀揣着万物互联的梦想而降生。 5G,实际上是一张拥有三副面孔的“多重人格网络”。 ? 5G网络的三大场景及其QoS需求 参照上面这张图,我们来看看三大场景对于5G网络的需求: 增强型移动宽带(eMBB):需要关注峰值速率,容量,频谱效率,移动性,网络能效等这些指标,和传统的3G和4G类似 跟3G和4G不同,5G对网络切片进行了全面的设计,可以对各类资源及QoS进行端到端的管理,横贯无线、承载与核心网,并使之成为5G网络的基本特征之一。 总而言之,如果说4G网络是一套菜刀,虽然锋利但用途单一;那么,5G网络就是一把瑞士军刀,灵活方便、用途广泛、功能强悍。 这把军刀到底有多强,随着5G的临近,就让我们亲自去见证吧! ?
4月8日上午,中国移动、中国电信、中国联通联合举行线上发布会,宣布共同发布《5G消息白皮书》,推出“5G消息”业务。 ? 有人甚至惊呼:“这是三大运营商在借助5G向微信发起绝地反击”,“社交通讯工具又将掀起一场新的革命!” 那么问题来了。这个“5G消息”,到底是个什么来头呢?怎么突然就冒出来了? “5G消息”,其实和5G并没有什么关系。它既不是5G特有的功能,也不是5G时代新开发出来的业务。它的真实身份,是2008年就已经诞生的RCS业务。 于是,就有了这次“5G消息”业务的联合发布。 之所以叫“5G消息”,主要是希望借助5G的品牌,体现RCS业务和传统消息业务之间的代差。 RCS的功能特点 接下来我们说说RCS的功能特点。 GSMA也已将RCS纳入5G终端的必选功能。相信随着5G建设的深入,RCS很快会成为大家手机中的标配。 5G消息究竟会如何发展?让我们拭目以待吧! —— The End ——
的典型应用场景长文本总结(如论文、技术文档)多轮复杂对话(如客服、心理咨询)长代码文件的分析与生成对比参考GPT-4标准版:8k上下文GPT-4Turbo:128k上下文Claude3:200k上下文DeepSeek 扩展知识:Token是什么?1token≈0.75个英文单词或1.5个汉字,32ktoken约等于24,000英文单词或48,000汉字。 窗口限制的影响若输入超过32k,模型会遗忘超出部分的信息,因此超长文本需要分段处理或选择更大窗口的模型(如DeepSeek128k版本)。