首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >论文太多,我写了个自动总结arXiv气象论文的工具

论文太多,我写了个自动总结arXiv气象论文的工具

作者头像
用户11172986
发布2026-04-24 18:30:13
发布2026-04-24 18:30:13
610
举报
文章被收录于专栏:气python风雨气python风雨

开门见山:我写了一个AI工具,它会自动做以下这些事:

  • 搜索arXiv上近期所有与大气科学领域AI应用相关的论文;
  • 阅读这些论文,并为每篇论文写一篇详略得当的“读后感”;
  • 写一篇报告,列出以上所有论文的综述,推荐关键论文。

如果你在课题组或研究岗位,也许这是你和你的小伙伴们经常做的事。但现在,仅需一行代码,就可以让AI来做(到80%?)!

代码上传到了GitHub:https://github.com/jinwx/arxiv_ai_weather。

unsetunset示例unsetunset

我们先来看看这个工具会跑出什么结果。

综合报告

工具帮我总结了2025年6月arXiv上所有AI大气科学论文,做成表格:

其中包括论文标题,AI总结的关键词,推荐星级,也可以直接点击右侧链接去阅读原文。

AI还将在这部分根据所有论文的内容,分析近期的技术趋势,推荐亮点论文,并给出推荐语。我还尝试让AI做一些未来方向的思考:

论文总结

对于每篇论文,AI还会生成详细的阅读报告。我按经验写了详细的提示词。AI会给出:

  • “脱水版”的摘要。大部分人应该不想看“AI正在改变天气预报”或“我国地处东亚季风区,气候异常影响因子极为复杂”之类的八股了。
  • 数据和模型。这部分提示词经过精心设计,否则AI会顺着作者的原文说一些不明不白的天书。
  • 结果。简单总结下结果,比如IFS又又又被击败了。
  • Q&A和Recommend Score:这两个部分让AI有机会再总结下前面没有说清楚的部分或论文的亮点。

这是6月刚发布的模型PRIMER的Q&A部分:

成功命中了我比较关心的两个问题。

当然,这份代码还可以改进:

  • 比如AI经过RLHF后,实在太礼貌了……我跑了几个月的论文,几乎没给论文打过小于4的推荐分。需要进一步调整提示词。
  • 目前整个流程采用纯英文。原因是我个人认为AI在纯英文环境下表现更好。很快我会在最后再加一道翻译的工序(上面的截图是翻译后的结果)。

unsetunset方法unsetunset

使用这个工具的方法很简单,只需要一行代码:

是的,运行这个脚本就可以让AI打工了。当然,你也可以指定时间范围:

代码语言:javascript
复制
python main.py --start-date 2025-05-01 --end-date 2025-05-31

对了,你需要一个语言模型服务的API。目前我只按照自己使用的习惯,实现了对OpenRouter的支持。当然:

  • 欢迎给这个项目提交PR,一起让它支持更多功能或服务。
  • 欢迎关注我的公众号,会定期发布AI生成的总结。

unsetunset动机unsetunset

在arXiv上刷论文时,偶然意识到两件事:

  • 近年来,和AI相关的高影响大气科学论文几乎都会先发布到arXiv上,而且都带着physics.ao-ph类目;
  • 这些论文加起来也没有太多,AI一次性读完一个月的并没有什么负担;但又不算少,一个人读完挺费劲。

既然如此,那让AI先筛选总结下,岂不是能快速概览整个领域的进展,并有目的地选择论文?

另外,我经常把arXiv上的论文塞给AI,每次都要经过多轮会话才能得到想要的答案。与其如此,不如把提示词放到一个项目中,统一迭代,避免每读一篇论文就要和AI的反复纠缠。

这是这个项目的初衷。

需要说明的是,我曾经想过三个实现方案:

  • Script。选定时间范围,AI按预先定义好的方式执行论文解读。也就是当前的方案。
  • Agent。在运行过程中,支持用户以自然语言形式发布指令,类似Claude Code的互动式体验。
  • MCP。将功能写为MCP服务(详见公众号上一篇)。

后两个更加复杂,且难以控制。不仅是代码本身,更关键的是:你很难预测用户会跟AI聊些什么,进而很难预测工具的表现,因此要实现多层、多角度的流程控制。而且,MCP还需要用户安装一个客户端。显然,因为AI大气科学这个方向的“冷门”,给了我们做一个专用工具的机会。

因此,我决定先从这个看似死板的小项目开始。

unsetunset实现unsetunset

代码实现并不复杂,在Copilot的帮助下,大半天就可以完成。

为了让大家放心使用(或阅读),详细介绍下流程:

  • 根据用户指定的时间范围,通过arXiv的API获取physics.ao-ph类别的论文目录。
  • 将论文标题和摘要发送给AI,筛选出其中和AI、深度学习相关的论文并下载。
  • 将每篇论文分别发送给AI,按预先定义的结构和要求生成论文总结。
  • 将所有论文总结打包发送给AI,按预先定义的结构和要求生成该时段的综合报告。

AI的“幻觉”不可避免,但经过仔细调试,我的观察是已经不会犯低级错误。具体的提示词和代码逻辑如何,请参见GitHub项目。

unsetunset说明unsetunset

必须再次说明,目前该工具仅支持使用OpenRouter的API。在此也正好向大家推荐它。

简而言之,OpenRouter集成了几乎所有你能想到的模型服务(ChatGPT,Gemini,Claude,DeepSeek等),通过统一的API来调用。也就是说,你不需要再单独为每家模型付费。

OpenRouter按token(使用量)计费。对于大部分人来说,可能这样产生的费用甚至少于单独某一家的包月费用。更关键的是,它支持国内的信用卡(但需要支持Visa或Mastercard)。被Anthropic封了好几次的同学们,值得一试。

API怎么像ChatGPT的网页或客户端那样使用呢?这就要推荐另一个工具:Cherry Studio,OpenRouter的最佳搭档。支持OpenRouter这类的API,只要简单的几步配置,就可以在熟悉的对话框里和AI聊天了。网络搜索、附件、MCP等功能一应俱全,而且更方便的是,你可以在同一个窗口内和不同的AI聊天,甚至将同一个问题一次性发给多个AI。

具体使用方式,由于和本文无关,这里不再赘述。

unsetunset尾声unsetunset

这个工具我将在未来长期使用,因此会不断维护它(比如调整提示词)。欢迎大家使用并多提意见、Issues和Pull Requets。

至于未来更复杂的实现——如果你有好的想法, 也欢迎交流!

如果你对本项目的实现和效果更有兴趣,请移步GitHub,上面有提示词,25年6月arXiv论文的综合报告,和一篇5星推荐论文的总结示例。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 气python风雨 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • unsetunset示例unsetunset
    • 综合报告
    • 论文总结
  • unsetunset方法unsetunset
  • unsetunset动机unsetunset
  • unsetunset实现unsetunset
  • unsetunset说明unsetunset
  • unsetunset尾声unsetunset
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档