论文太多，我写了个自动总结arXiv气象论文的工具

用户11172986

发布于 2026-04-24 18:30:13

610

文章被收录于专栏：气python风雨气python风雨

开门见山：我写了一个AI工具，它会自动做以下这些事：

搜索arXiv上近期所有与大气科学领域AI应用相关的论文；
阅读这些论文，并为每篇论文写一篇详略得当的“读后感”；
写一篇报告，列出以上所有论文的综述，推荐关键论文。

如果你在课题组或研究岗位，也许这是你和你的小伙伴们经常做的事。但现在，仅需一行代码，就可以让AI来做（到80%？）！

代码上传到了GitHub：https://github.com/jinwx/arxiv_ai_weather。

unsetunset示例unsetunset

我们先来看看这个工具会跑出什么结果。

综合报告

工具帮我总结了2025年6月arXiv上所有AI大气科学论文，做成表格：

其中包括论文标题，AI总结的关键词，推荐星级，也可以直接点击右侧链接去阅读原文。

AI还将在这部分根据所有论文的内容，分析近期的技术趋势，推荐亮点论文，并给出推荐语。我还尝试让AI做一些未来方向的思考：

论文总结

对于每篇论文，AI还会生成详细的阅读报告。我按经验写了详细的提示词。AI会给出：

“脱水版”的摘要。大部分人应该不想看“AI正在改变天气预报”或“我国地处东亚季风区，气候异常影响因子极为复杂”之类的八股了。
数据和模型。这部分提示词经过精心设计，否则AI会顺着作者的原文说一些不明不白的天书。
结果。简单总结下结果，比如IFS又又又被击败了。
Q&A和Recommend Score：这两个部分让AI有机会再总结下前面没有说清楚的部分或论文的亮点。

这是6月刚发布的模型PRIMER的Q&A部分：

成功命中了我比较关心的两个问题。

当然，这份代码还可以改进：

比如AI经过RLHF后，实在太礼貌了……我跑了几个月的论文，几乎没给论文打过小于4的推荐分。需要进一步调整提示词。
目前整个流程采用纯英文。原因是我个人认为AI在纯英文环境下表现更好。很快我会在最后再加一道翻译的工序（上面的截图是翻译后的结果）。

unsetunset方法unsetunset

使用这个工具的方法很简单，只需要一行代码：

是的，运行这个脚本就可以让AI打工了。当然，你也可以指定时间范围：

python main.py --start-date 2025-05-01 --end-date 2025-05-31

对了，你需要一个语言模型服务的API。目前我只按照自己使用的习惯，实现了对OpenRouter的支持。当然：

欢迎给这个项目提交PR，一起让它支持更多功能或服务。
欢迎关注我的公众号，会定期发布AI生成的总结。

unsetunset动机unsetunset

在arXiv上刷论文时，偶然意识到两件事：

近年来，和AI相关的高影响大气科学论文几乎都会先发布到arXiv上，而且都带着physics.ao-ph类目；
这些论文加起来也没有太多，AI一次性读完一个月的并没有什么负担；但又不算少，一个人读完挺费劲。

既然如此，那让AI先筛选总结下，岂不是能快速概览整个领域的进展，并有目的地选择论文？

另外，我经常把arXiv上的论文塞给AI，每次都要经过多轮会话才能得到想要的答案。与其如此，不如把提示词放到一个项目中，统一迭代，避免每读一篇论文就要和AI的反复纠缠。

这是这个项目的初衷。

需要说明的是，我曾经想过三个实现方案：

Script。选定时间范围，AI按预先定义好的方式执行论文解读。也就是当前的方案。
Agent。在运行过程中，支持用户以自然语言形式发布指令，类似Claude Code的互动式体验。
MCP。将功能写为MCP服务（详见公众号上一篇）。

后两个更加复杂，且难以控制。不仅是代码本身，更关键的是：你很难预测用户会跟AI聊些什么，进而很难预测工具的表现，因此要实现多层、多角度的流程控制。而且，MCP还需要用户安装一个客户端。显然，因为AI大气科学这个方向的“冷门”，给了我们做一个专用工具的机会。

因此，我决定先从这个看似死板的小项目开始。

unsetunset实现unsetunset

代码实现并不复杂，在Copilot的帮助下，大半天就可以完成。

为了让大家放心使用（或阅读），详细介绍下流程：

根据用户指定的时间范围，通过arXiv的API获取physics.ao-ph类别的论文目录。
将论文标题和摘要发送给AI，筛选出其中和AI、深度学习相关的论文并下载。
将每篇论文分别发送给AI，按预先定义的结构和要求生成论文总结。
将所有论文总结打包发送给AI，按预先定义的结构和要求生成该时段的综合报告。

AI的“幻觉”不可避免，但经过仔细调试，我的观察是已经不会犯低级错误。具体的提示词和代码逻辑如何，请参见GitHub项目。

unsetunset说明unsetunset

必须再次说明，目前该工具仅支持使用OpenRouter的API。在此也正好向大家推荐它。

简而言之，OpenRouter集成了几乎所有你能想到的模型服务（ChatGPT，Gemini，Claude，DeepSeek等），通过统一的API来调用。也就是说，你不需要再单独为每家模型付费。

OpenRouter按token（使用量）计费。对于大部分人来说，可能这样产生的费用甚至少于单独某一家的包月费用。更关键的是，它支持国内的信用卡（但需要支持Visa或Mastercard）。被Anthropic封了好几次的同学们，值得一试。

API怎么像ChatGPT的网页或客户端那样使用呢？这就要推荐另一个工具：Cherry Studio，OpenRouter的最佳搭档。支持OpenRouter这类的API，只要简单的几步配置，就可以在熟悉的对话框里和AI聊天了。网络搜索、附件、MCP等功能一应俱全，而且更方便的是，你可以在同一个窗口内和不同的AI聊天，甚至将同一个问题一次性发给多个AI。

具体使用方式，由于和本文无关，这里不再赘述。