首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯开源的专栏

    不蒸馏也超强?揭秘端到端文档OCR模型 POINTS-Reader

    在端到端方案中,POINTS-Reader提出了一套高度可扩展的数据生成方案,包含两个核心阶段:统一格式预热阶段(Uniform Format Warm-up Stage)和迭代自我改进阶段(Iterative Self-improvement 第二阶段:迭代式自我提升阶段 (Iterative Self-improvement Stage, ISS) 目标是将第一阶段在合成数据上训练的模型,自适应地迁移到真实世界文档上,并持续提升模型和数据质量 Iterative Self-improvement 阶段,过滤的手段至关重要 可以发现,在这个阶段对模型生成的数据从各个维度进行过滤,例如表格、公式,可以显著提升数据的质量,从而提升模型的性能。 Iterative Self-improvement 阶段,随着迭代次数多增加,数据的质量和模型的性能也持续提升 从上图可以看出,随着迭代的进行,数据的质量在持续的提升(F1-score 不断增加),但是增长的数据变缓了

    43110编辑于 2025-09-11
  • 来自专栏Python进阶之路

    OS-Copilot:实现具有自我完善能力的通用计算机智能体

    AI 缩小了人类间的知识和技术差距 论文标题:OS-Copilot: Towards Generalist Computer Agents with Self-Improvement 论文链接:https

    35400编辑于 2024-05-25
  • 大模型“自学”后能力反下降,Llama/Mistral都没逃过

    上海交通大学GAIR团队最新研究表明,在常识理解、数学推理和代码生成等复杂任务中,AI经过多轮“自我提升”后,可能会出现一种称为“自我提升逆转”(self-improvement reversal)的现象 Self-Improvement Reversal in Post-training》已获得了 ICML 2024 (AI for Math Workshop) 的Honorable Mention Award

    33310编辑于 2024-07-22
  • 来自专栏SeanCheney的专栏

    《生命3.0》(Life 3.0)序章 Omega团队第1章 时代的对话第2章 智能的产生

    goals are aligned with ours Cyborg —— Human-machine hybrid Intelligence explosion —— Recursive self-improvement

    1.7K80发布于 2018-04-24
  • 来自专栏MixLab科技+设计实验室

    AGI倒计时:两年 ?OpenAI、Anthropic都有类似的观点

    这就是传说中的递归自我提升(Recursive Self-Improvement),那个曾经只存在于论文里的“科幻”概念,正在变成现实。

    17610编辑于 2026-03-25
  • 来自专栏企鹅号快讯

    解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus

    模块三:Continual self-improvement(持续自我强化) 比赛中人类高手会寻找Libratus的漏洞,并展开有针对性的攻击。

    1.1K100发布于 2018-02-11
  • 来自专栏技术汇总专栏

    信息论视角下的 AI Agent 主动学习与数据选择策略

    在当前的AIAgent(智能体)架构中,模型不再只是被动训练的“黑盒”,而是具备:自主决策(Action)持续学习(ContinualLearning)自我改进(Self-Improvement)的能力

    20210编辑于 2025-12-25
  • 来自专栏大数据文摘

    大咖丨每年都立下新年Flag的小扎,今年又留给自己什么样的挑战?

    This will be a serious year of self-improvement and I'm looking forward to learning from working to fix

    42520发布于 2018-05-24
  • 来自专栏量子位

    德扑人机大战差点没搞成,这是几个你不知道的细节……

    Continual Self-improvement(持续自我强化)是冷扑大师背后的核心模块之一。

    75550发布于 2018-03-30
  • 来自专栏机器之心

    中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

    Stage2:拒绝采样自我增强(Rejected Sample based Self-improvement) 数据准备过程涉及对综合数据集的系统采样。

    29410编辑于 2025-04-15
  • 每周AI论文速递(240415-240419)

    Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing 通过想象、搜索和批评实现大语言模型的自我提升 尽管大语言模型

    16400编辑于 2025-04-08
  • 来自专栏机器之心

    大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点

    ✨ 曙光初现:批判增强与定理提示可带来性能提升 尽管当前模型在逻辑严谨性上的表现仍不理想,扩大模型规模或延长推理过程也难以显著提升推理质量,但研究团队仍发现了一些确实有效的改进策略: 自我批判提升(Self-improvement

    32410编辑于 2025-06-23
  • 来自专栏芋道源码

    聊聊DeepSeek-R1的技术路径

    这一点也基本决定了未来模型的训练中使用优质模型蒸馏的数据集,或模型self-improvement会成为重要的训练路径。

    35300编辑于 2025-03-06
  • OpenAI与DeepMind竞速 “AI自我进化”,留给人类的控制权还剩多少?

    说实话,作为一名长期跟踪AI进化的观察者,我个人觉得,我们可能真的站在了一个名为“递归自我改进”(Recursive Self-Improvement,简称RSI)的悬崖边上。

    32110编辑于 2026-02-03
  • 来自专栏量子位

    AI赌神称霸德扑的秘密,刚刚被《科学》“曝光”了

    模块三:Continual self-improvement(持续自我强化) 比赛中人类高手会寻找Libratus的漏洞,并展开有针对性的攻击。

    97460发布于 2018-03-22
  • 来自专栏机器之心

    大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

    论文地址:https://arxiv.org/abs/2304.08466 最近的论文《Better Language Models of Code through Self-Improvement》就是关于这一方向的研究

    86510编辑于 2023-05-22
  • 来自专栏DeepHub IMBA

    9月大型语言模型研究论文总结

    Enable Language Models to Implicitly Learn Self-Improvement From Data https://arxiv.org/abs/2310.00898

    75621编辑于 2023-10-23
  • 来自专栏AiCharm

    LLM遍地开花,盘点过去一个月那些开源的LLM和数据集

    论文地址:https://arxiv.org/abs/2304.08466 最近的论文《Better Language Models of Code through Self-Improvement》就是关于这一方向的研究

    1.1K30编辑于 2023-06-07
  • 来自专栏技术人生黄勇

    让 OpenClaw 帮你干活(四):Proactive Agent 技能让AI眼里有活

    自我改进 (Self-Improvement Guardrails) 安全演进,防止偏离 Agent 可以从每次交互中学习,更新自己的行为规则。

    2700编辑于 2026-03-30
  • 来自专栏量子位

    独家 | 在CMU对话德扑AI团队:解密1+2技术架构,不攻反而不败

    模块三:Continual self-improvement(持续自我强化) 比赛中人类高手会寻找Libratus的漏洞,并展开有针对性的攻击。

    99650发布于 2018-03-22
领券