
在过去几年里,我们见证了大型语言模型(LLM)的爆发式增长。从GPT系列到各种开源模型,它们在通用对话、编程、数学解题等领域的能力已经让人叹为观止。然而,AI领域存在一个公开的秘密:这些模型在真正硬核、高度专业的科学研究领域,表现往往不尽如人意。
这篇来自上海人工智能实验室的论文,《Intern-S1: A SCIENTIFIC MULTIMODAL FOUNDATION MODEL》,正是为了攻克这一难题而来。它不仅发布了一个名为Intern-S1的全新模型,更系统性地展示了一套将AI从“通才”培养成“科学专才”的完整方法论。

在深入技术细节之前,我们必须先理解Intern-S1试图解决的问题有多么重要。
问题的核心:数据稀疏与能力不均
AI模型的强大,源于海量数据的滋养。在通用领域,互联网提供了近乎无限的文本和图像数据。但在专业科学领域,情况截然不同:

1. 数据“低资源”:
高质量、结构化的科学数据(如精确的分子结构、实验记录、高能物理的碰撞数据)相比于网络上的猫猫狗狗图片和日常对话,数量上是九牛一毛。
2. 模态多样且复杂:
科学研究远不止于文本。它涉及图像(显微镜图像、天文图像)、符号(数学公式、化学方程式)、序列数据(基因序列、时间序列信号)等多种模态。如何让模型统一理解这些高度专业的“语言”,是一个巨大的挑战。
3. 推理链条长且严谨:
科学发现需要严密的逻辑推理、假设验证和实验设计。这要求模型具备超长的推理链条和高度的准确性,远非简单的问答可比。
论文中的图2一针见血地指出了这个问题:尽管最顶尖的开源模型在通用任务(如MMLU-Pro、GPQA)上的性能不断攀升,但它们在科学任务(如SmolInstruct、ChemBench)上的表现却增长乏力,甚至陷入停滞。这表明,通用能力的提升,并不能自动转化为专业科学能力的增强。

Intern-S1的发布,带来了几个关键的创新点,它们共同构成了其强大的科学能力。
1. “通才-专才”一体化设计:
Intern-S1并非一个只懂科学的“偏科生”。它是一个拥有2410亿总参数(280亿激活参数)的庞大混合专家(MoE)模型,在训练之初就同时兼顾了通用知识和科学知识。这种设计确保了它在深入科学领域的同时,不会丧失与世界进行常识性交互和理解的能力。
2. 海量科学数据驱动:
这是Intern-S1成功的基石。模型在总计5万亿(5T)tokens的数据上进行了持续预训练,其中超过一半(2.5T tokens)是专门搜集和清洗的科学数据。这个数据规模在开源科学模型中是前所未有的,为其注入了深厚的科学“血液”。
3. 架构层面的科学适配:
认识到科学语言的特殊性,Intern-S1在模型架构上进行了两项关键创新:
4. 先进的强化学习框架:
为了让模型从“知道”科学知识,进化到“会用”科学知识解决问题,Intern-S1采用了一套名为 “奖励混合 (Mixture-of-Rewards, MoR)” 的强化学习框架。该框架能在一个统一的流程中,同时对超过1000种不同类型的任务进行优化,效率极高。
简单来说,Intern-S1的成功秘诀可以归结为:海量的专业数据 + 为科学优化的模型架构 + 高效的“能力训练”方法。接下来,我们将逐一拆解这些技术细节。
这一部分是技术含量最高,也是最精彩的。我们将深入探索Intern-S1是如何从模型、数据、训练三个层面构建起来的。
Intern-S1的架构是一个精心设计的多模态系统,其核心组件包括一个MoE语言模型、视觉编码器、时间序列编码器,以及最具创新性的动态分词器。

这是理解Intern-S1的关键。标准的分词器(Tokenizer)是LLM的“眼睛”,它负责将文本切分成模型能理解的最小单元(token)。但这些分词器通常是为自然语言设计的。当它们遇到像化学中的SMILES分子式(例如C1CCCCC1代表环己烷)时,就会水土不服。
C1CCCCC1拆成'C', '1', 'C', 'C'... 这样的单个字符。这极其低效,就像让一个只懂英语的人去逐个字母地背诵化学式,完全无法理解其结构含义。这不仅浪费了大量的计算资源,也阻碍了模型学习其内在的化学规律。<SMILES>...</SMILES>)来判断某段字符串是自然语言、SMILES分子式,还是FASTA蛋白质序列。
2️⃣切换“词典”:一旦识别出这是一段SMILES分子式,它就会切换到一个专门为SMILES设计的“化学词典”(即专用的分词策略)来进行分词,将有意义的化学基团作为一个整体。
3️⃣统一表示:最后,它将不同部分(自然语言、化学式等)经过各自最优分词后的token序列拼接起来,送入模型。论文中的图4用数据证明了这一设计的优越性。在处理SMILES数据时,Intern-S1的分词器压缩比达到了2.64,而其他主流模型(如Qwen3, DeepSeek-R1)仅在1.5左右。这意味着Intern-S1可以用远少于对手的token来表示相同的化学信息,效率提升超过70%!这在处理动辄数万亿token的预训练中,节省的计算成本是惊人的。

这套多模态架构,使得Intern-S1成为了一个能够同时处理文本、图像和时间序列数据的“六边形战士”,为解决复杂的跨模态科学问题奠定了基础。
如果说架构是骨架,那么数据就是血肉。Intern-S1在数据工程上的投入,堪称“史诗级”。

科学知识主要沉淀在海量的PDF论文中。但PDF的解析是个大难题,尤其是包含复杂公式、图表的页面。

1️⃣初筛:首先用一个低成本、高速度的解析器(如MinerU)处理所有页面。
2️⃣“疑难杂症”检测:然后,用一个专门的检测器去识别哪些页面包含了大量的数学公式和符号标记——这些正是低成本解析器最容易出错的地方。
3️⃣专家会诊:只有这些被标记为“疑难”的页面,才会被送入一个高成本、高质量的VLM解析器(如InternVL)进行精细化处理。
4️⃣合并归档:最后,将两种解析结果进行后处理和合并。
通过这种“普通门诊+专家会诊”的分层策略,Intern-S1在保证了科学文献解析质量的同时,极大地控制了成本。数据显示,对于学术图书馆的文献,只有约5%的页面需要“专家会诊”,成本效益极高。
网络数据虽然庞大,但信噪比极低。如何从中淘出高质量的科学数据?
Intern-S1的“域名打包”策略 (图8):它不把网页当成独立的个体,而是以 网站域名(URL Domain) 为单位进行处理。

1️⃣抽样调查:对于一个网站(比如某个大学的物理系网站),系统会随机抽取几百个页面。
2️⃣LLM法官 (LLM-as-Judge):将这些抽样页面喂给一个强大的LLM“法官”进行质量评估,打上“高质量”、“低质量但内容有用”、“无用”等标签。
3️⃣批量决策:根据这个域名的整体评估结果,系统会做出统一决策:
这种“先评审,后打包处理”的模式,使得数据处理的成本被大幅摊薄,能够以可接受的代价,对海量网络数据进行精细化管理。
拥有了好的架构和数据,如何高效地训练模型,并激发其解决问题的能力,是最后也是最关键的一环。

Intern-S1的训练过程井然有序,分为文本预训练、图文预训练、监督微调和强化学习四个阶段。其中一个有趣的发现是批量大小预热 (Batch Size Warmup)。研究团队通过实验(图10)发现,在训练初期使用较小的批量(Batch Size),模型性能更好;而在后期,切换到更大的批量则能提升训练效率。因此,他们采取了先小后大的策略,实现了性能和效率的双赢。

预训练让模型变得“博学”,而强化学习则教它如何“致用”。Intern-S1的RL阶段是其成为科学问题解决者的关键。
奖励混合 (MoR) 框架 (图12):这是RL阶段的核心。面对数千种任务,如何设定奖励机制是一个难题。MoR框架将任务分为两类:

通过这个统一的框架,Intern-S1可以在一个训练流中,同时学习解决数学题、写代码、进行科学对话等多种技能。
通过以上这一整套精密、环环相扣的方法论,Intern-S1被成功地锻造成为了一个面向科学发现的强大工具。
Intern-S1在一系列通用和科学领域的权威基准测试中,交出了一份惊艳的成绩单。
在表2 (General Reasoning Benchmarks) 中,我们可以看到:

Intern-S1在所有8个通用基准上,都是表现最好的开源多模态模型。
在MMLU-Pro(83.5)和GPQA(77.3)等考验综合知识的测试中,它与最强的纯语言模型Deepseek-R1(83.4 / 80.6)不相上下。
在AIME2025数学竞赛(86.0)和MathVista视觉数学(81.5)上,它甚至超越了许多强大的对手,后者更是取得了全场最佳成绩。
这证明了Intern-S1的“通才-专才”设计是成功的。它在专攻科学的同时,没有以牺牲通用能力为代价。
这部分是Intern-S1真正大放异彩的地方。
纯文本科学任务 (表3):

多模态科学任务 (表4):

这些数据无可辩驳地证明,Intern-S1成功地弥合了开源模型在科学领域的性能鸿沟,并在多个细分方向上树立了新的SOTA(State-of-the-art)标准。 其在数据和架构层面的创新,被证明是极其有效的。
总而言之,Intern-S1不仅仅是一个性能强大的新模型,它更像是一份详细的“蓝图”,告诉我们如何系统性地构建一个能够深入科学腹地的AI。它标志着开源AI力量在硬核科研领域的一次华丽“亮剑”,也让我们离“AI科学家”的梦想,又近了一步。
论文名称:Intern-S1: A Scientific Multimodal Foundation Model
第一作者:上海 AI Lab
论文链接:https://arxiv.org/abs/2508.15763
最新日期:2025年8月21日
github:https://github.com/InternLM/Intern-S1.git