首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • Claude Opus 4.8 发布了

    →那Opus4.8上AWS是一个很自然的升级路径。推理延迟降低了,分发更广了,企业合规这关过了。这很有价值。如果你把Agent当IronMan机器人让它自己决定做什么,跟外部系统交互,后果不可逆。 真正的问题是:当Opus4.8犯错的时候,你的系统有没有能力检测到它在犯错?四、为什么AWS这件事比你想象的重要从Software3.0的角度看,LLM是新的操作系统内核。 图源:Anthropic官方X(Twitter)账号@claudeai五、给工程师的实操建议如果你是AI工程师,正在评估要不要把Opus4.8集成到你的agenticpipeline里:第一步不是急着调 Don'tbeahero先用最简单的方式跑通一个端到端pipeline验证Opus4.8在你真实任务上的表现然后再考虑scalingAWS给了你高速公路。但你得自己造车。

    12710编辑于 2026-05-29
  • Claude Opus 4.7深夜上线,评分碾压

    序言:AI 进化步入工业化深水区就在昨晚,当科技圈还在讨论算力缺口时,Anthropic 毫无预热地发布了其最新基座模型:Claude Opus 4.7。 尽管它的功能不如刚公布的最强模型 Claude Mythos Preview 全面,但在多项基准测试中,它的表现都优于 Opus 4.6。 表1:Claude 家族内部核心指标对比测评维度Opus 4.6 (旧版)Opus 4.7 (最新版)技术增幅SWE-bench Pro (代码工程)53.4%64.3%提升 20.4%GPQA (研究生推理 表2:Claude Opus 4.7 与 GPT-5.4 核心对标指标维度GPT-5.4 (Turbo版)Claude Opus 4.7胜出者复杂财务逻辑核算准确率81.5%89.7%Claude 胜代理任务自主成功率 ,但在关乎生产力的严谨逻辑核算与代理化任务执行上,Claude Opus 4.7 已经展现出了更强的专业性。

    2.2K30编辑于 2026-04-17
  • Claude Opus 4.7 来了,编程能力又炸了

    今天继续聊 Claude —— Anthropic 刚刚正式发布了 Claude Opus 4.7,编程能力这次又是一次暴击Benchmark 一览下图是 Anthropic 给出的跨领域 benchmark 对比,Opus 4.7 在大多数任务上超过了 Opus 4.6,以及 GPT-5.4 和 Gemini 3.1 Pro:Claude Opus 4.7 跨领域 Benchmark 对比它比 Opus (implicit-need tests)的模型视觉能力:分辨率翻了 3 倍多这次 Opus 4.7 的视觉升级幅度相当大之前的 Claude 模型能接受的图片分辨率,现在 Opus 4.7 可以接受最长边 加入白名单这条路子我觉得挺对的:先在能力较弱的模型上验证防护机制是否有效,积累经验后,再逐步向更强的 Mythos 级别模型开放安全性测评Claude Opus 4.7 行为审计评分在安全对齐方面,Opus / 百万 tokens**输出:**$25 / 百万 tokens**支持平台:Claude 全产品线Claude API(模型 ID:claude-opus-4-7)Amazon BedrockGoogle

    70320编辑于 2026-04-17
  • 来自专栏程序小小事

    Claude Opus 4.8 vs GPT-5.5,到底该用谁?

    因此,Claude Opus 4.8 的定位很直白——不是换架构的大改,是把该补的短板补上。 Claude Opus 4.8跑分涨了,但别只盯着榜单 官方数据我帮你们捋了一遍! Claude Opus 4.8 在这块下了功夫。官方说,代码缺陷悄悄溜过去的概率,降到 4.7 的四分之一。 Devin 的 CEO 用过之后说,工具调用干净多了,注释啰嗦的毛病也好了。 更适合 Claude Opus 4.8 更适合 GPT-5.5 / Codex 大型代码仓库开发与维护 大量依赖终端(Terminal)的工作流 长时间无人值守的 Agent 任务 Web 搜索与信息研究 写在最后 根据Anthropic官方态度的猜测,Mythos 估计几周后也要来了,有人猜 Claude Opus 4.8 可能是 Mythos 正式登场前最后一个 Opus

    83110编辑于 2026-06-01
  • 来自专栏天意生信俱乐部

    Claude Opus 4.1 模型发布!编程实力遥遥领先!

    刚刚,Claude Opus 4.1 正式发布! 目前,国内一站式AI工具平台——天意科研云,已上线 Claude Opus 4.1 模型,无需魔法即可使用。 天意科研云地址:ai.dftianyi.com Anthropic 在发布 Claude Opus 4 不久后,昨天凌晨再次推出 Claude Opus 4.1,编程能力再次提升。 这几乎等同于提前敲响了 “Claude 5” 的前奏,虽然没有明说,但暗示意味十足。而 Opus 4.1 很可能只是一个过渡模型,但其能力已经足够惊艳。 在 SWE-bench Verified 基准测试中,Opus 4.1 以 74.5% 的成绩领先,超越了Claude Opus 4、Gemini 2.5 Pro、ChatGPTo3,在编码任务中排名第一 不仅如此,Opus 4.1 在逻辑推理与智能体相关任务中的能力也得到了明显提升。但加量不加价,Opus 4.1 的定价与 Claude Opus 4 保持一致。

    71120编辑于 2025-08-07
  • 来自专栏开源项目与最新讯息

    Anthropic Claude Opus 4.8 核心升级与工程落地实践

    美国时间 2026 年 5 月 28 日,Anthropic 正式推出了其旗舰模型的最新迭代版本——Claude Opus 4.8。 本文将从技术性能测试、核心特性演进、企业工程化落地以及社区反馈等维度,对 Claude Opus 4.8 进行一次全面的客观拆解。 Claude Code 引入“动态工作流”(Dynamic Workflows) 针对开发者生态,由 Opus 4.8 驱动的命令行工具 Claude Code 迎来重大升级。 Claude Opus 4.8 并没有带来科幻电影式的技术飞跃,但它完成了一项更为重要的任务:将大语言模型从一个“聪明的空谈者”,打造成一个“靠谱的交付者”。 Claude Opus 4.8 核心升级与工程落地实践 | 联合库UNhub Newsroom 新闻工作室

    48610编辑于 2026-05-29
  • 来自专栏技术人生黄勇

    Claude 发布 Opus 4.8 还是最强的大模型吗?

    SuperCLUE团队基于中文大模型测评基准体系对Claude Opus 4.8 进行了测评,以下是测评结果与分析。 二、Claude-Opus-4.8在幻觉控制任务中取得87.48分,占据榜单第一,相较于Opus 4.7提升超过6分。 三、Claude-Opus-4.8在科学推理任务中取得77.19分,占据榜单第一,相较于Opus 4.7提升8.77分。 四、Claude-Opus-4.8对比Claude-Opus-4.7。 Claude-Opus-4.8 在幻觉控制、科学推理和代码生成上均有较大幅度的提升。 五、推理速度和性价比相较于Opus 4.7并无明显变化。 Claude-Opus-4.8的推理耗时(97.76秒/题)相较于上个版本(99.34秒/题)几乎持平,依旧位于高效能区间。

    52530编辑于 2026-06-01
  • 我的天,Claude 又大更新了Opus 4.7 ,评分碾压 !

    想不到,风口浪尖上的 Claude 又大更新了。 周四晚间,Anthropic 宣布旗下最新款基础模型 Claude Opus 4.7 全面上市。 定价与 Opus 4.6 相同:每百万个输入 token 5 美元,每百万个输出 token 25 美元。开发者可通过 Claude API 使用。 Claude Code 负责人 Boris Cherny 介绍了 Claude Opus 4.7 的一些最新特性。 Anthropic 还编写了迁移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus id=qwen3.6-35b-a3b https://simonwillison.net/2026/Apr/16/qwen-beats-opus/ 最后,想要在国内直接使用Claude Opus 4.7

    40610编辑于 2026-04-17
  • Claude 4.5 Sonnet Opus Haiku:性能对比与选型指南

    Claude4.5系列作为先进的语言模型,推出了三款子模型:Sonnet、Opus和Haiku,每一款模型都在不同的应用场景中展现出独特的优势。 本文将从性能、成本、应用场景这三大核心维度对Claude4.5三款模型进行对比分析,帮助大家在多模型环境中做出最佳选择。 一、Claude4.5Sonnet、Opus、Haiku核心对比1.Sonnet4.5:平衡性与性价比Sonnet4.5提供了一个理想的性能与成本平衡,适用于中等复杂度的文本生成任务。 Opus4.5:响应时间较长,但支持更高的并发和复杂任务。Haiku4.5:响应时间极快,适合高频请求和短文本任务。三、如何选择合适的Claude4.5模型? 四、总结Claude4.5系列通过Sonnet、Opus和Haiku提供了不同的模型选择,满足了从常规创作到高并发、大规模任务的多种需求。

    14.1K70编辑于 2026-01-26
  • Claude Sonnet 和 Opus 的区别:深入剖析与选型指南​

    在人工智能飞速发展的当下,Anthropic 推出的 Claude 系列模型备受瞩目,其中 Claude Sonnet 和 Opus 更是凭借各自独特的优势,在不同领域展现出强大的实力。 本文将从多个维度对 Claude Sonnet 和 Opus 进行详细对比,为您的选择提供有力依据。​ 从基准测试结果来看,在衡量真实软件工程任务解决能力的 SWE-bench 测试中,Claude 4 Sonnet 的得分甚至略高于 Claude 4 Opus,展现出在常规编程任务上的强大实力。 数学推理能力​在数学推理方面,Claude Opus 展现出了深厚的功底。 ,那么 Claude Opus 将是您的不二之选。

    9.3K10编辑于 2025-08-04
  • 来自专栏机器学习与统计学

    Claude Opus 蒸馏 Qwen3.6-27B,v2 来了

    Claude Opus 蒸馏Qwen3.6-35B-A3B,开源了,消费级显卡轻松跑 继续挖有意思的社区项目 —— Qwopus3.6-27B-v2 作者 Jackrong 上来就给出了一个很贼的思路: 商用闭源模型(Claude、GPT)只会给你看高度压缩的"推理气泡",你想蒸馏? Trace Inversion 数据 作者训了一个专门的反向解码器 Trace-Inverter-4B(底座是 Qwen3-4B-Instruct),干一件事: 压缩气泡(Claude 输出) step-by-step 的 Learnable CoT 然后把还原出来的 CoT 嵌进 <think> 标签,和原 prompt / response 重新拼成 SFT 样本,最终产出两个数据集: claude-opus -4.6-traceInversion-9000x:9,000 条高质量逐步推理轨迹 claude-opus-4.7-traceInversion-5000x:5,000 条复杂多轮逻辑和数学样本 2.

    69610编辑于 2026-05-26
  • 来自专栏猫头虎博客专区

    Claude 4 系列 Opus 4 与 Sonnet 4正式发布:Claude 4新特性都有哪些?

    随着 Claude 4 系列(Opus 4 与 Sonnet 4)的正式发布,Anthropic 把自家大模型从“会聊天”推进到“能当自主代理”──不仅推理更深、上下文更长,还内置代码执行、多模态理解、 一、Claude 4 系列概述 发布时间:2025 年 5 月 23 日 型号:旗舰 Opus 4 与高性价比 Sonnet 4,皆为“混合推理(hybrid-reasoning)”模型 定位:持续数小时的自主任务 四、生态集成现状 平台 集成方式 亮点 Amazon Bedrock anthropic.claude-opus-4 / anthropic.claude-sonnet-4 服务器无锁切换模型、支持代理链规划 六、价格与可用性 Opus 4:付费套餐可用,Token 单价较 Opus 3 提升约 20 %,但同等任务总成本下降 35 %(推理效率提升) 。 七、竞争格局速览 模型 代码能力 长上下文 多模态 代理化 Claude Opus 4 ★★★★★ 1 M ✅ ★★★★★ GPT-4o (OpenAI o3) ★★★★☆ 128 k ✅ ★★★★☆

    7.1K110编辑于 2025-05-25
  • Claude Code 实战指南(三):Opus 4.6 规划与遗留代码重构

    阅读本文 在 2026 年的 AI 编程生态中,Claude Opus 4.6 凭借其卓越的上下文理解力,成为架构设计与复杂协议编写的首选。 为了榨干多模型的异构性能,可以采用了 ‘Planner-Executor(规划-执行)’ 范式:利用 Opus 4.6 这种‘重型大脑’构建顶层蓝图(SPEC.md),再驱动 Claude Sonnet 核心原则是:在物理和认知层面严格隔离 “规划” 与 “执行” —— 由 Opus 4.6 负责深度规划,Sonnet 4.5 负责精准执行。 阶段一:Opus 4.6 深度规划与规范生成 在 Claude Code中使用 Opus 4.6 模型,核心目标是输出可落地的 SPEC.md 规范文件(唯一真实数据源)。 结语 结合 Claude Opus 4.6 的深度规划能力、Sonnet 4.5 的精准执行能力,再辅以 “特征测试锁行为、Esc+Esc 快速回滚、Git Worktree 沙箱隔离、Agent Teams

    24110编辑于 2026-05-18
  • 来自专栏AI大模型

    Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解

    :展开代码语言:BashAI代码解释node-vStep2:安装ClaudeCodeCLI展开代码语言:BashAI代码解释#使用国内镜像源加速安装npminstall-g@anthropic-ai/claude-code 通过灵芽API等合规中转服务,我们可以稳定调用Opus4.5。Step1:选购与获取Key前往中转服务商(如灵芽API)。获取以sk-开头的令牌。 确认模型权限:确保该令牌有权限调用claude-opus-4-5-20251101。Step2:环境变量配置(Windows/Mac通用)这里我们直接将目标指向中转商的高速节点。 你会发现Opus4.5的思考深度远超普通模型,虽然经过中转会有1-3秒的初始等待,但其输出的代码质量是目前业界的“天花板”。 A:Opus4.5的定价依然昂贵。如果你的项目包含大量文件,ClaudeCode会读取大量Context。

    12.5K50编辑于 2026-01-22
  • Claude Opus 4.6 能否从单兵作战到多智能体协作

    这不仅是Claude系列中最强大的模型,更通过引入"AgentTeams"(智能体团队)功能,标志着AIagent从单兵作战正式迈向多智能体协作的新时代。 这意味着用户可以将混乱的原始数据扔给Claude,它会自动识别模式、构建表格、应用公式。ClaudeinPowerPoint(研究预览):Claude直接作为侧边栏集成到PowerPoint中。 用户可以在PowerPoint内直接与Claude协作制作演示文稿,Claude会读取布局、字体和幻灯片母版,保持品牌一致性。无论是从模板构建还是从描述生成完整演示文稿,都能无缝融入现有的设计体系。 ThomsonReuters的测试案例最为直观:在40个网络安全调查中,Opus4.6在38次盲测中击败了Claude4.5。 6.3定价与可用性可用性:已上线claude.ai、API及主流云平台。模型标识符为claude-opus-4-6。定价:5/5/5/25每百万输入/输出token(与Opus4.5持平)。

    84401编辑于 2026-02-18
  • 来自专栏沉浸式AI

    Claude Code 作者 Boris Cherny 分享 Opus 4.7 的六条经验

    Cherny 分享了他自己用 Opus 4.7 的六条经验。 核心观点是:Opus 4.7 擅长跑长任务(深度研究、复杂重构、迭代到性能达标),但你得先把工作流调过来,否则只能用到它一半的能力。 花点时间调整,它就是一次跨度很大的提升。 1. 文档:https://code.claude.com/docs/en/permissions 3. Recaps,长任务回归利器 Recaps 是这周早些时候上的,专门为 Opus 4.7 铺路。 用 /effort 调思考强度 Opus 4.7 换成了自适应思考,不再用思考预算。调节模型想多想少,用 effort 等级。 给 Claude 一个验证自己工作的方式 这条是 Boris 强调最重的一点:一直以来这都能让 Claude 的产出翻 2-3 倍,4.7 上更关键。

    40510编辑于 2026-04-29
  • 来自专栏算法一只狗

    Claude Opus 4.8 发布:补上 4.7 的短板,押注 Agent 工作流

    Opus4.7是2026年4月16日发布,Opus4.8是2026年5月28日发布,中间大约6周。说实话,这种小版本更新速度这么快,只能说明Anthropic确实有点着急。 而且大家发现Opus4.7效果有点拉,所以Anthropic只能快速迭代一个新的版本。 2)长任务协作更稳Anthropic强调Opus4.8在agentictask里判断力更好:会问更关键的问题。 Effortcontrol更清晰Opus4.8默认是higheffort。 为什么这一次这么快发布了Opus4.8?4.8很明显是在补4.7的真实使用问题。

    49330编辑于 2026-05-29
  • 来自专栏算法一只狗

    Claude Opus 4.7 发布:更像一个真正能干活的模型了

    Opus4.7对高分辨率图像的处理更强,长边最高支持2576像素(约375万像素),是此前Claude模型的三倍以上。 Claude系列模型一直在强化tooluse、computeruse、agentworkflow能力。 官方模型总览也把Claude系列定位成适合推理、视觉分析、工具使用、computeruse的一类模型。其他方面的优化文档推理上和长上下文推理上,Opus4.7都是最高的。 还有一个是迁移带来的影响~Opus4.7是Opus4.6的直接升级版,但有两点变化值得提前关注,因为都会影响Token消耗。 过去让Claude连续跑几个小时,往往到最后才发现中间某个环节出了问题;现在,它更有能力在过程里自己发现、自己纠偏。这意味着,很多原本必须人工兜底的时刻,又往后退了一层。

    94110编辑于 2026-04-18
  • Claude Opus 4.6开始提供“快速模式”,开发者能优化什么?

    真正的问题通常是:延迟过高高并发堆积P99 波动严重峰值时节点暴涨昨日(2月8日),Claude Opus 4.6上线了一个极速模式(Fast mode),性能一致,速度却达到了正常模式下的2.5 倍!

    51610编辑于 2026-02-09
  • 来自专栏DeepHub IMBA

    Claude Opus 4.7 系统 Prompt 泄露:其中的10 个核心设计决策解读

    Claude 4.7刚发布不久他的Prompt就已经被Hack出来了,仔细看 Claude 的系统设计会发现一件有意思的事:它不只追求聪明,还在试图约束自身的行为。 Claude 反其道而行。 一旦它察觉到自己正把一个有风险的请求重新包装成看起来合理的东西,这种"包装"本身就会触发警报,直接拒绝回答。 Claude 被明确告知——不要信任这种本能。 重构等于风险信号而非解决方案,乐于助人在这里反而成了一种潜在弱点,模型必须持续质疑自身的推理过程。 很多系统在缺乏充分依据的情况下仍然表现得胸有成竹——Claude 的设计方向正好相反,它被要求像研究者一样行事,而非像权威一样宣判。 prompt: https://www.reddit.com/r/ClaudeAIJailbreak/comments/1sn091h/claude_opus_47_system_prompt_full_extraction

    30710编辑于 2026-04-21
领券