首页
学习
活动
专区
圈层
工具
发布

AI自动研究正在出现,研究的意义可能要被重写

很难想象,一个还在熬夜调参、改代码、跑实验、写日志的研究生,看到这套 AI 自动研究方案时,心情会有多复杂。

因为它做的事情,其实正是很多研究生日常最熟悉、也最耗时间的那部分工作:

改代码、跑训练、看结果、决定保留还是推翻,然后再来一轮。

最近看到了Andrej Karpathy的Autoresearch 项目。

https://github.com/karpathy/autoresearch

这个项目的idea非常非常的简单,就是给它训练环境,然后让它自主做实验。

它会自己修改代码,训练 5 分钟,检查结果有没有变好,决定保留还是丢弃,然后继续重复这个过程。理论上,它一天内可以跑288次迭代实验。

01

项目核心设计

这个项目最核心的一点在于:你不再像研究者平时那样直接去改 Python 文件。相反,你是把自己的研究思路、约束条件和目标,写进 program.md 这样的文档里。也就是说,你不再直接“下场写实现”,而是在定义一套规则,让 AI 按这套规则自己去试、去跑、去分析结果。

整个闭环其实很清晰:

修改 训练 检查结果 保留/放弃 继续迭代

02

设计思路的价值

这里最有意思的一点是,它把“研究”这件事拆成了一个可以持续自动运行的试错系统。如果结果不错,就沿着这个方向继续迭代;如果结果不行,就立刻砍掉,换下一组实验。

我看到已经有人用这套方法,一晚上把性能拉高了非常多。当然,这里面一个特别重要的前提是: 规则要简单,起点也要简单。

添加图片注释,不超过 140 字(可选)

因为说到底,你其实是在利用 AI 最擅长的一件事: 在明确目标下,不眠不休地穷举、试错和重复。人的优势是提出问题、设计方向、设定评价标准;AI 的优势则是只要规则清楚,它就可以在极高频率下持续迭代。

从这个角度看,这套方法的核心并不是“AI 替你做研究”,而是:

你给它一个足够清晰的奖励机制和试错空间,它就能自己把实验跑成一个闭环。

所以我会觉得,这套方法本质上和 RL 其实有点像。只不过它不是经典意义上的参数更新式强化学习,而更像是把“研究流程本身”做成了一套强化迭代系统。

关键设计设定

尤其是它这里有一个很关键的设定:每次试错的时间成本是固定的,就是 5 分钟。给你 5 分钟去试。没有结果,直接砍掉。有结果,继续往前走。

这件事的价值在于,它把原来很模糊、很依赖研究者个人状态的实验过程,变成了一种节奏稳定、反馈明确、可以批量展开的自动化研究方法。特别是这个地方,规则要简单,起点也要简单。

03

项目相关衍生

对了,已经有人把这套做成skill了。

GitHub - davebcn87/pi-autoresearch: Autonomous experiment loop extension for pi

如果你有无限token,那么理论上你就拥有了无限idea。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ObCZs6edfVL0Xm3PxmJrAxAQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券