项目背景Anthropic 作为 AI 领域的领军企业,推出了 Skills 开源仓库,为开发者提供了一系列强大的 AI 能力增强模块。 Anthropic Skills。 全面的中文翻译我们对 Anthropic Skills 仓库中的所有技能模块进行了专业翻译,覆盖:技能描述和使用场景工作流程和操作指南代码示例和最佳实践参考文档和资源链接2. Anthropic Skills,通过网站可以在 10 分钟内了解所有可用技能及其用途。 项目链接中文文档站:https://ai-skills.332020520.xyz/Anthropic 原仓库:https://github.com/anthropics/skills
Anthropic 发布了一篇关于 Agent 的文章《Building effective agents》,这篇文章分享了 Anthropic 从与客户共建 agents 的过程中学到的经验,并为开发者们提供如何构建有价值的 SWE-bench(https://www.anthropic.com/research/swe-bench-sonnet) 是一个用于评估大型语言模型(LLM)在软件工程任务中的表现的基准测试平台。 Anthropic Computer Use Demo(https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo )是一个帮助开发者快速开始使用 Anthropic 的 Claude AI模型进行操作电脑的例子。 原文地址:https://www.anthropic.com/research/building-effective-agents
他反驳的对象,是Dario Amodei——Anthropic CEO,Claude的缔造者,最近刚和五角大楼吵完架的男人。 两个人吵的,是一个让所有人睡不着觉的问题:AI到底会不会抢走我的工作? 在知识工作者和创意领域——管理顾问、客服、平面设计师——已经出现了一些岗位被替代的迹象,但这些只是整体就业市场中相对较小的一部分。 当Anthropic发布一份关于「AI经济影响」的报告,而撰写报告的人同时就是生产这些AI系统的人时,这里面存在明显的利益冲突。
本文将从Anthropic的深度分享中,提炼出五个最令人惊讶、最具影响力的核心教训,它们将彻底改变你对AI智能体评估的看法。 然而,Anthropic的经验恰恰相反:等到智能体规模化后才开始构建评估,你会遇到更大的困难。更重要的是,评估的价值会随着时间复利增长。早期投入不仅不会拖慢你,反而会成为未来加速迭代的引擎。 以Anthropic提到的 Opus 4.5 模型为例,在一个预订航班的测试任务中,它没有遵循预设的流程,而是通过发现政策中的一个漏洞,为用户找到了一个更好的解决方案。 Anthropic指出,这种方法“过于僵化,会导致测试过于脆弱”,因为它会惩罚那些评估设计者未曾预料到的、同样有效的创新方法。 例如,Anthropic在对Opus 4.5模型进行CORE-Bench基准测试时,通过人工审查记录发现,其分数从最初的42%跃升至95%。原因何在?
刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。 带着这些疑问,Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」,用以识别模型活动模式和信息流动轨迹。 为了解释这一研究,Anthropic 今天连发了两篇论文。 实验过程中,Anthropic 研究者对在模型中的发现感到惊讶:在诗歌案例中,他们原本打算证明模型不会提前规划,结果却发现它确实会提前规划。 参考链接: https://www.anthropic.com/research/tracing-thoughts-language-model © THE END 转载请联系本公众号获得授权
核心能力:在 OpenClaw 中无缝接入 Anthropic 的 Claude 系列模型(包括最新的 Claude 4.6)。 获取密钥登录 Anthropic Console -> Settings -> API Keys -> Create Key。2. 一键配置 (CLI)# 交互式配置openclaw onboard# 选择 "Anthropic API key" 并粘贴密钥# 或非交互式 (适合脚本/CI)export ANTHROPIC_API_KEY openclaw onboard --anthropic-api-key "$ANTHROPIC_API_KEY"3. 精细化缓存管理:对“知识库问答”类 Agent 设置 cacheRetention: "long"。
Claude Managed Agents 架构图 Anthropic 在发布 Managed Agents 公测时,核心不是再造一个 “更会聊天的 Agent”,而是把 Agent 运行时拆成稳定层。 Anthropic 关于长时程 Agent Harness 的工程实践示意 从官方文档看,Managed Agents 在产品层定义为 Agent、Environment、Session、Events
就在昨晚,Anthropic 发布了最新 Claude 4 模型[1] x 帖子 目前有这两种:Claude Sonnet 4 和 Claude Opus 4。 1] Claude 4 模型: https://x.com/AnthropicAI/status/1925591525372961127 [2] Claude 4 官方介绍: https://www.anthropic.com
这种设计有利于依赖注入的颗粒度控制和 Tree-Shaking(死代码消除),但在需要多模态交互(例如:先语音转文本,再文本对话,最后生成图片)的场景下,增加了对象生命周期管理的复杂度。 依赖注入与配置模式 在现代 ASP.NET Core 微服务架构中,SDK 如何注册到依赖注入(DI)容器,直接影响到应用程序的性能(连接池管理)和可测试性。 机制:对话的历史状态、上下文窗口的管理、RAG 文档的检索以及代码解释器的运行,全部由 OpenAI 的服务器托管。SDK 仅仅是一个遥控器,用于发送“创建线程”、“添加消息”、“运行”等指令。 优势:极大地减轻了客户端的状态管理负担;能够处理超过客户端内存限制的超长上下文。 劣势:厂商锁定(Vendor Lock-in) 严重。 依赖 Assistants API 进行服务端状态管理的应用。 需要多模态(画图、语音)一体化能力的场景。
直到我发现了 Anthropic Skills,瞬间感觉世界清净了——AI 不用你重复讲,它就知道你想要什么。想象一下,以前要半小时才能搞定的财务报告,现在 10 分钟就搞定,你能不心动吗? 偶然发现的惊喜前阵子,我在和 Claude(Anthropic 的大模型)折腾各种任务:做 PPT、分析 Excel、生成报告……提示写到手抽筋,输出常常走偏。
4月8日Anthropic正式对外披露了新一代模型Mythos,但这已经不是一次常规意义上的前沿模型更新。 至少在SWE-BenchPro上,Anthropic公布的Mythos是77.8%,OpenAI公布的GPT-5.4是57.7%,Google公布的Gemini3.1Pro是54.2%,Anthropic 很多时候,它恰恰是为了让漏洞管理从“知道这里有问题”推进到“知道问题到底有多大、该怎么修、修完了没有”。Mythos的分量,就体现在它把这条链路明显往前推了。 [7]再回头看Glasswing,关注点可以暂时从“Anthropic又拉了很多大公司站台”移开,而在于Anthropic对这个模型的对齐风险理解,这个模型的能力已经超过了目前最佳控制手段的范围,不能只按普通产品发布来处理 [2]Anthropic.Effectiveharnessesforlong-runningagents.2025-11-26.https://www.anthropic.com/engineering
很多时候,它恰恰是为了让漏洞管理从“知道这里有问题”推进到“知道问题到底有多大、该怎么修、修完了没有”。 Mythos 的分量,就体现在它把这条链路明显往前推了。 参考文献 [1] Anthropic. 2] Anthropic. [3] Anthropic. [7] Anthropic.
修复进展 Anthropic 已经回滚了 Opus 4.1,问题基本解决。负责人表示性能已明显改善。 但用户反馈显示还有问题:语音模式经常中断,容量限制错误持续出现。 Anthropic 本想提高效率和吞吐量,结果意外影响了响应质量。 更糟糕的是,Claude Opus 4.0 也受到同样影响。 参考:https://status.anthropic.com/incidents/h26lykctfnsz
核心AgentLoop:为什么"OneLoop&Bash"就够了3.12层渐进式包装机制4.工具系统:40+工具的工业级设计5.Prompt工程:分层缓存+动态组装6.权限系统:四层防御纵深7.上下文管理 这不是代码混乱的标志——它是整个AgentLoop的心脏,所有的流式处理、工具调度、上下文压缩、子代理管理都在这个文件中协调。 ,worktree管理目录,通过ID绑定s03Planning的回报率惊人。 这表明Anthropic正在构建一个类似"AppStoreforAgentSkills"的系统——远程技能可以被动态发现、加载和执行。 真正的Anthropic内部版本有守护进程、协调器、主动通知、语音模式、远程技能搜索等完整能力。外部发布版本是经过大量feature-gating后的精简版。
今日凌晨敌对Anthropic发布他们的Sonnet 4.5青春版haiku 4.5,性能相当于Sonnet 4,但是价格只有1/3,并且速度更快! 性能方面,Anthropic死磕SWE-bench啊,Haiku 4.5比Sonnet 4.0高1个百分点达到73.3%! 主要博主个人制裁了anthropic,不太好评价这个haiku 4.5能力。 你怎么看呢?
adversarial-review—对抗式审查,专门挑战弱点和设计权衡/codex:rescue—将任务移交给Codex子Agent处理/codex:status/codex:result/codex:cancel—管理后台任务还支持 第一步:确认Node.js版本打开终端,输入:展开代码语言:ShellAI代码解释node-v如果版本低于v18.18.0,先升级Node.js(推荐用[nvm]管理版本):展开代码语言:ShellAI 代码解释nvminstall20nvmuse20第二步:安装并登录ClaudeCode展开代码语言:ShellAI代码解释npminstall-g@anthropic-ai/claude-codeclaudelogin 不是因为他们想帮Anthropic,是因为ClaudeCode的日活太高,他们打不过,所以选择加入。"这是极其冷静的商业判断。
Anthropic 为什么要做 Managed Agents Anthropic 最近介绍了他们在 Claude 平台上推出的一项能力:Managed Agents。 因此,Anthropic 希望做一套更稳定的 Agent 运行方式:即使未来 harness 变了、sandbox 变了、上下文管理策略变了,系统也不需要推倒重来。 这种方式的好处很直接: •文件编辑就是容器内直接 syscall •没有明显的服务边界需要设计 •一开始实现起来比较顺手 但很快,他们撞上了经典的基础设施问题:你不是在管理一群可以替换的实例,而是在照料一只不能出事的宠物 客户如果想让 Claude 访问自己 VPC 里的资源,要么跟 Anthropic 网络打通,要么把 Anthropic 的 harness 直接跑进自己的环境里。 Managed Agents 给出的答案是: •用 session / harness / sandbox 这样的稳定接口做解耦 •让 上下文存储 与 上下文管理 分层 •把 brain 和 hands
缺点:需要更好的上下文管理(如前面提到的卸载机制),以保证主智能体的上下文依然干净。
Anthropic最近提出了Skills(智能体技能)概念。 本质是增加了一个Skill.md的文件/文件夹,智能体可以动态的发现和加载这些技能,从而让智能体在特定任务中表现的更好。 Anthropic的Skills采用了同样的模式,将技能视为不同的文件夹,每个文件夹都有一个Skill.md文件,其中包含Yaml和Markdown指令。
Boris 又发了一份 Anthropic 内部的 Claude Code 使用心得。 看完觉得挺实用,记录几条: 1.