Shadow:Skill把Prompt和脚本、Tool整合在一起,想要设计好用的skill,需要深刻理解原理,把适合的任务放入到Prompt、脚本和Tool。良好架构的Skill,可以提升执行效率和准确性。
这篇论文研究得出:模型自己写的Skill没用。推荐阅读⬇️
导读:Agent Skills 正在成为 LLM 智能体的标配,但它们真的有效吗?最新发布的 SkillsBench 基准测试给出了令人意外的答案: curated Skills 平均提升 16.2%,但模型自生成的 Skills 不仅无用甚至有害。本文深度解读 SkillsBench 核心发现与设计原则。
随着 Claude Code、Gemini CLI 等 agent-centric 工具的爆发,Agent Skills(智能体技能)已成为增强 LLM 代理能力的热门方案。然而,社区中存在着一个 fundamental tension(根本张力):
虽然 Skills 生态系统迅速增长,但缺乏标准方法来衡量它们是否真的有效。
近日,一项名为 SkillsBench 的研究填补了这一空白。作为首个将 Skills 作为一级评估对象的基准测试,它通过 7,308 条轨迹的大规模实证评估,揭示了 Agent Skills 效能的真相。

图 1: Agent 架构栈与不同配置下的解决率
SkillsBench 不仅仅是一个任务集,它是一个以 Skills 为中心的评估框架。

图 2: SkillsBench pipeline overview
研究团队采用了社区驱动的开源贡献模式,105 位来自学术界和工业界的贡献者提交了任务,并经过严格的自动化验证与人工审查,确保任务具有真实世界复杂性且防止作弊。
经过大规模实验,SkillsBench 得出了四个关键发现,其中一些结果可能颠覆你的认知。
人工策划的 Skills 平均将通过率提高了 16.2 个百分点 (pp)。然而,这种提升在不同领域和配置间差异巨大:
洞察:Skills 的有效性高度依赖于特定领域知识在模型预训练中的稀缺程度。领域越 specialized(如临床数据协调),Skills 带来的提升越大。
这是本研究最令人震惊的发现之一。当被提示在解决问题前先生成 procedural knowledge 时:
Skills 的设计复杂度直接影响效能:
建议:过于详尽的文档会增加 context burden,agent 难以从中提取 actionable guidance。 concise, stepwise guidance(简洁的逐步指导)配合 working example 往往更有效。
Skills 可以部分补偿模型容量的限制:

SkillsBench 涵盖了 11 个领域,数据显示 Skills 的效益存在显著的异质性:
领域 | 提升幅度 (Δ) | 原因分析 |
|---|---|---|
Healthcare | +51.9pp | specialized procedural knowledge,预训练覆盖少 |
Manufacturing | +41.9pp | 特定工作流知识稀缺 |
Mathematics | +6.0pp | 模型预训练覆盖较好 |
Software Eng. | +4.5pp | 模型已有强 prior,Skills 可能引入冲突 |
在任务层面,提升最大的任务包括 mario-coin-counting (+85.7pp) 和 sales-pivot-analysis (+85.7pp),这些任务涉及预训练中罕见的具体程序性知识。

基于 SkillsBench 的分析,我们在构建 Agent Skills 时应遵循以下原则:
SkillsBench 的建立标志着 Agent 评估进入了一个新阶段:从评估“模型能做什么”转向评估“增强能让模型多做多少”。
虽然当前结果基于 terminal-based 任务,但它为 principled Skills design(原则性技能设计)提供了实证基础。未来,随着多模态技能和 GUI 环境代理的发展,这一基准框架有望进一步扩展。
对于从业者而言,核心启示很明确:Skills 是强大的杠杆,但杠杆的支点必须是高质量的人类知识。
📚 论文信息
(本文基于学术论文内容整理,旨在传播前沿技术资讯)