LEANCAT:Lean 中形式化范畴论的基准套件(第一部分:1-范畴)
LEANCAT: A BENCHMARK SUITE FOR FORMAL CATE-GORY THEORY IN LEAN (PART I: 1-CATEGORIES)
https://www.arxiv.org/pdf/2512.24796


摘要
大语言模型(LLMs)在形式化定理证明方面取得了快速进展,但当前的基准测试未能充分衡量现代数学中所依赖的抽象能力和基于库的推理能力。与 FATE 对前沿代数的强调相呼应,我们推出了 LeanCat1——一个面向范畴论形式化的 Lean 基准测试。范畴论是数学结构的统一语言,也是现代证明工程的核心层,本基准旨在对结构性、接口级推理能力进行压力测试。第一部分“1-范畴”包含 100 个完全形式化的陈述级任务,通过 LLM 辅助结合人工评分的方式,按主题归类并划分为三个难度等级(简单、中等、高难)。当前最佳模型在 pass@1 下解决 8.25% 的任务(按难度分别为 32.50% / 4.17% / 0.00%),在 pass@4 下解决 12.00%(50.00% / 4.76% / 0.00%)。我们还评估了使用 LeanExplore 搜索 Mathlib 的 LeanBridge 方法,发现其性能持续优于单模型基线。LeanCat 旨在作为一个紧凑、可复用的检查点,用于追踪人工智能与人类在 Lean 中实现可靠、研究级形式化方面的进展。
1 引言 近期大语言模型(LLMs)与智能体训练(agentic training)的进展重新激发了端到端形式化定理证明的前景。在形式化方面,诸如 OpenAI 早期基于 Lean 的证明器(Polu 等,2022)和 DeepMind 的 AlphaProof(Hubert 等,2025)等系统表明,结合形式验证反馈的强化学习能够生成非平凡的 Lean 证明。更近的工作中,专用证明器如 Seed-Prover 1.5(Chen 等,2025)进一步显示,大规模智能体强化学习与测试时扩展(test-time scaling)可显著提升在既有基准上的形式化成功率。这些成果表明,形式化证明生成已不再局限于玩具领域,而紧密的工具反馈循环(检索–生成–验证)可能成为决定性因素。
尽管神经定理证明取得了稳步进展,当前的形式化基准仍未能充分考察基于库的、高度抽象的推理能力。广泛使用的数据集如 miniF2F(Zheng 等,2022)和 FIMO(Liu 等,2023)主要源自奥数风格的问题,而面向大学水平的套件如 ProofNet(Azerbayev 等,2022)和 PutnamBench(Tsoukalas 等,2024)则聚焦于本科竞赛或教材内容。这些基准虽具价值,但往往奖励的是简短巧妙的技巧或计算能力,而非在丰富抽象框架内持续、系统的推理。相比之下,现代研究型数学以高度普遍性书写,围绕可复用的接口组织,并深度依赖庞大的定义与引理库——其成功较少依赖单一关键洞察,而更多取决于对抽象结构的驾驭、定义的管理,以及在长程推理中连贯地组合库知识的能力。
范畴论为这种能力提供了一个天然的压力测试:作为现代数学的接口语言——范畴、函子、自然变换、伴随、极限/余极限、单子等——其形式化证明通常依赖于图式推理(diagrammatic reasoning)和泛性质(universal-property)推理,即构造具有正确自然性或唯一性保证的态射,并证明各类结构族之间的交换性。然而,现有形式化基准极少直接针对这一抽象层次。
为弥合这一空白,我们提出了 LeanCat——一个包含 100 道在 Lean 4(mathlib)中形式化的范畴论问题的基准,旨在检验自动证明器是否能在成熟的库内部运作并组合高层抽象,而非仅解决孤立的谜题。LeanCat 通过将前沿从抽象代数转向范畴论,补充了以代数为核心的基准(如 FATE 系列,Jiang 等,2025)。
我们的基线评估揭示了一个显著的抽象鸿沟:在五个强模型中,表现最佳者在 pass@1 下仅达到 8.25%,在 pass@4 下为 12%;一旦任务涉及库导航和长程抽象管理,准确率便从“简单”到“高难”急剧下降(见图 1)。我们还观察到,生成看似合理的自然语言论证与生成可编译的 Lean 代码之间存在持续差距,凸显出明显的“自然语言到形式化”瓶颈(见图 2)。

据我们所知,LeanCat 是范畴论基准系列的首个组成部分。本文聚焦于 1-范畴理论。我们设想未来将扩展至更丰富的结构,例如幺半范畴(monoidal categories)、富范畴(enriched)与辫范畴(braided)设定,乃至最终的 2-范畴及高阶范畴接口。
除基准测试外,我们认为这一方向对以下两方面具有重要意义:(i) 对人类数学而言,通过厘清哪些抽象库级推理环节仍难以形式化,以及数学库在何处需要加强;(ii) 对人工智能而言,通过迫使模型在抽象感知规划、相关引理检索和基于编译反馈的稳健精调等方面取得进展。
我们的主要贡献总结如下:
• LeanCat 基准(1-范畴):我们提出了 LeanCat,包含 100 道在 Lean 4(mathlib 4.19.0)中形式化的范畴论问题。任务涵盖八个主题簇(从基本范畴性质到单子),精心设计以覆盖可复用的抽象接口,而非竞赛式技巧。
• 难度标注流程:我们提出一种结合模型评估与专家判断的分级方法。每道题目均获得多个 1–10 分的评分(来自先进 LLM 的尝试和人类形式化者),并通过赋予人类评分更高权重进行聚合,最终划分为“简单/中等/高难”三类(数量分别为 20/42/38)。
• 基线评估:我们在统一条件下对当前最先进的证明器进行基准测试。评估(第 3–4 节)包括 ChatGPT-5.1 和 ChatGPT-5.2(OpenAI, 2025a;b)、Claude 4.5(Anthropic, 2025)、Google 的 Gemini 3 Pro(Gemini Team, Google, 2025)、高级思维链推理器 DeepSeek-V3.2-Thinking 与 DeepSeek-V3.2-Speciale(Liu 等, 2025),以及智能体模型 Kimi K2(Kimi K2 Team 等, 2025)。在 pass@1 下,最佳模型解决 8.25% 的 LeanCat 任务;在 pass@4 下,最佳成绩为 12%。我们按难度提供详细分解,并识别出主要失败模式(库缺失、抽象不匹配、多步推理停滞)。
• 通过 LeanBridge 实现检索增强证明:我们评估了一种“检索–分析–生成–验证”循环,该流程整合了 mathlib 检索(通过 LeanExplore)与编译器反馈,展示了工具增强的工作流如何在部分问题上提升鲁棒性。
2 LeanCat 基准设计
2.1 基准结构与内容
数据来源:我们的基准问题分为两大部分:抽象部分与具体部分:
每个 LeanCat 问题在陈述层面是自包含的:提供定理的形式化陈述(通常附有非正式描述,如上文“问题列表”所示),且所有必需的定义均存在于 Lean 环境中(或已在 Mathlib 中预置,或作为问题设置的一部分引入)。在可能的情况下,我们借鉴了范畴论文献中的已知定理;许多任务被专门设计或调整,以检验 AI 证明器可能遇到的边界情况与接口交互。在若干高难度案例中,相关引理并不现成可用,迫使人工形式化者推导中间结果。这一特性使 LeanCat 成为对自动证明器的特别严苛测试——它们不能仅依赖现有库事实的机械套用。

LeanCat 包含 100 个范畴论定理陈述,每个均完全形式化于 Lean 4(即每个问题以 Lean 定理声明形式给出,所需定义与上下文均已提供)。问题按八个主题簇组织,反映范畴论的核心领域:
2.2 精选工作流
LeanCat 通过一个三阶段工作流构建而成,融合了专家筛选、LLM 辅助起草与严谨的人工验证:
陈述级任务。LeanCat 是一个陈述级基准:每项任务仅包含一个需证明的独立定理,而非逐步引导至最终目标的中间引理序列。此设计旨在评估通用的、基于库的证明能力——检索、定义管理、抽象导航——而非奖励针对特定问题的提示工程。
范围与难度。总体而言,LeanCat 在范畴论主题覆盖上广博,在深度上深入:即使看似简单的定理也可能需要分层抽象与对可复用接口的细致运用,从而映射数学家在大型形式化库内工作的实际方式。
形式化标准。所有基准文件遵循严格统一的规范:(i) 每个 Lean 文件在最终定理后恰好包含一个 sorry;(ii) 自然语言问题描述(LaTeX 格式)作为注释紧跟在形式化语句之前;(iii) 宇宙层级被明确固定,以避免范畴论发展中常见的歧义与不稳定性。
2.3 难度标注流程
我们并未单纯依赖问题作者的直觉,而是实施了一套系统化的“LLM+人工”评分流程,以10分制对问题难度进行评分,再将分数划分为三个等级:简单、中等和高难。该方法旨在同时捕捉人类专家与自动化求解器的视角,其精神类似于 FATE 的精选流程(结合专家判断与模型反馈进行难度排序)。
我们的流程如下:
这种联合标注程序比单一专家分类提供了更丰富的洞察。它有效地将大模型作为“第二意见评分者”。由此产生的难度标签已在分析中证明具有实用价值:例如,最佳模型所解决的全部七个问题(第4节)均来自“简单”集合;而得分 ≥9(即“最难的高难”题)的所有问题,在所有模型中均无一成功——这是我们的难度排名与实际可解性相一致的量化证据。

3 实验与结果 3.1 评估协议
我们在 LeanCat 上采用标准化的 pass@k 协议评估证明器性能,该协议借鉴了代码生成与自动定理证明领域的先前工作。具体而言,对于每个模型–问题对,我们在相同的提示和工具设置下最多采样 k 次独立的证明尝试;只要其中任意一次尝试能够成功编译并通过验证,即视为该问题已解决。我们同时报告 pass@1 和 pass@4:pass@1 反映单次尝试的可靠性,而 pass@4 则体现有限采样和迭代多样性带来的收益。除非另有说明,所有评估均在相同条件下进行(包括相同的模型设置、上下文长度限制和验证流程),以确保模型间的可比性。
环境与输入:每个 LeanCat 问题均以统一格式提供给模型:我们给出完整的 Lean 形式化陈述(包括精确的定理名称、假设和结论),以及相关上下文,如导入的库和定义。因此,模型所看到的形式化目标与人类使用 Lean 时所见完全一致。不提供任何非形式化提示或分解后的中间引理——模型必须仅凭定理陈述和标准库知识自行构造证明。该设置模拟了一个现实场景:AI 证明器被要求在仅给定定义的情况下证明一个新定理。
自动证明生成: 语言模型作为证明器:对于基于 API 的大语言模型(如 GPT-5.2、Claude、Gemini),我们直接提示模型生成 Lean 证明脚本。为保持评估一致性,我们采用与 FATE-Eval(Jiang 等,2025)相同的提示模板(见清单 1)。模型输出一个证明项或策略脚本,随后我们将其送入 Lean 进行验证。

验证:若 Lean 定理证明器接受某次证明尝试作为给定陈述的有效证明,则该尝试被视为成功。我们对 Lean 进行了自动化封装,以自动检查模型输出。如果模型输出不完整或不正确(无法通过类型检查),则该次尝试计为失败。在 pass@k 评估中,模型不会“看到”验证结果;每次尝试彼此独立。
Pass@k 计算:我们计算 pass@1 为模型在单次尝试中生成正确证明的问题所占比例。pass@4 则为在四次尝试中至少有一次成功的问题所占比例。由于 LeanCat 包含 100 道问题,这些百分比可直接对应解决的问题数量。我们注意到,LeanCat 中的所有问题权重大致相等(每道题均为一个独立定理),因此简单的通过率是衡量整体能力的有效指标。我们还分别统计每个难度类别(简单/中等/高难)内的 pass@1,以观察性能随难度增加而下降的情况。
我们采用统一的评估设置:每次尝试的输出上限为 50,000 个 token,Lean 验证时间限制为 5 分钟;所有模型均在同一 Lean 环境(Lean 4 + Mathlib 4.19.0)下运行,以确保一致性。若模型超出 token 预算或未能在时限内完成验证,则该次尝试计为失败。然而在实践中,这些资源限制很少成为决定性因素:大多数尝试要么迅速找到证明(通常在 30 秒内,除 DeepSeek 等推理模型外),要么几乎立即陷入停滞(往往仅生成几十个 token 后即失败)。
我们强调,pass@4 并非意在模拟真实使用场景(现实中不会对每个定理运行模型四次);而是提供一种乐观的上界估计——假设我们能从少量模型尝试中完美挑选出最佳结果。在理想情况下(各次尝试相互独立),pass@4 可能显著高于 pass@1。但如我们将看到的,LeanCat 中的提升幅度相当有限。这表明,当模型在一次尝试中失败时,除非采用不同策略进行引导,否则重复尝试通常会得到相似的结果。
初步数据显示,对于表现最好的模型,从 pass@1 到 pass@4 仅增加了 1–2 道题的解决数量,进一步印证了 LeanCat 任务的高难度。
LeanBridge:LeanBridge 实现了一个“检索–分析–生成–验证”循环,通过集成 Mathlib 检索和验证器反馈来增强大语言模型。给定一个问题,我们首先使用其自然语言陈述作为查询,通过 LeanExplore 检索相关的 Mathlib 实体(如定义、引理)。随后,将检索到的代码片段作为上下文提供给模型,用于分析并生成 Lean 证明代码。
每份生成的证明脚本都会在一个干净的 Lean 环境中进行检查;只有当脚本能通过类型检查且不包含 sorry 或 admit 时,才被视为候选解。为防止出现表面“通过”但语义不符的浅层证明,所有被接受的候选解还需由人类专家进一步审核,确保其在语义上与原始问题陈述一致。
若验证失败,LeanBridge 会解析编译器返回的错误信息,判断是否需要进一步检索;然后将新检索到的信息与验证器反馈一并加入上下文,并提示模型修改证明。除非另有说明,该循环在以下两个阶段均最多执行 4 次迭代:(i) 自然语言到形式化陈述的转换,以及 (ii) 自然语言定理的证明生成。

3.2 基线结果与分析
我们在上述协议下评估了五个最先进的模型在 LeanCat 上的表现。主要发现总结如下:
总体而言,这些基线结果证实:相较于早期的 Lean 基准,LeanCat 对当前基于 LLM 的证明器要困难得多。即使进行多次尝试,中等/高难题的成功率依然稀少,这指向对改进的库检索、更好的抽象感知证明规划以及更可靠的策略探索的需求。
4 讨论与未来工作
LeanCat 作为基准(及其系列): LeanCat 旨在成为抽象数学中基于大语言模型的定理证明的一个可复用检查点。本文介绍了 LeanCat-1(1-范畴理论),并将其视为更广泛的 LeanCat 系列的首个组成部分。我们计划后续扩展至更丰富的范畴接口,例如幺半范畴(monoidal categories)和高阶范畴结构(如双范畴 / 严格 2-范畴),这些结构已在 Mathlib 生态系统中有所体现。
库集成: 所有 LeanCat 问题均在 Lean 4 中形式化;随着解决方案被发现,它们可被合并回 Mathlib,从而形成一个反馈循环:基准 → 解决方案 → 更强大的库与求解器 → 剩余更难的前沿问题。
LeanCat 所强调的能力: 我们的结果凸显了当前自动证明器面临的三个持续性瓶颈:(i) 库感知能力(查找并应用正确的 Mathlib 引理);(ii) 抽象控制能力(保持在恰当的范畴层级进行推理,而非滑向逐点/元素级推理);(iii) 长程一致性(在多个相互依赖的步骤中维持连贯的证明计划)。
未来工作与更广泛影响: 在基准方面,我们将把 LeanCat 从 1-范畴扩展至更多主题簇和多定理任务,并逐步覆盖更高层次的抽象——例如增设“幺半范畴”轨道和“2-范畴”轨道(其中幺半范畴可通过单对象双范畴的视角理解),从而在抽象程度提升时更精细地诊断证明器失败的具体环节。
在求解器方面,有前景的方向包括:对 Mathlib 的更强检索能力、将证明分解为辅助引理的分层策略,以及多智能体流水线(规划器/验证器/引理建议器)。
对人类数学而言,我们期望 LeanCat 式的检查点能帮助识别库中缺失的接口和可复用引理,指导形式化工作的优先级;对人工智能而言,它们为提升“抽象感知规划”和“基于库的推理”能力提供了具体目标。
最后,将 LeanCat 移植到其他证明助手(如 Coq 或 Isabelle)将支持跨系统的比较,并促进证明工程方法的迁移与共享。
原文:https://www.arxiv.org/pdf/2512.24796