那些被你扔在硬盘角落的老模型，可能是新任务最快的起跑线
 
每个算法工程师的硬盘里，都躺着成百上千个历史checkpoint——上周跑的法律问答模型、上个月做的金融情感分析、去年调优的代码生成器……它们像乐高积木块，散落在角落里吃灰。
 
但如果我告诉你，这些被你遗忘的“老古董”可以像乐高一样拼起来，在特定条件下，新模型的训练耗时有望降低37%
 
3月10日上传至arXiv的一篇新论文，提出了一个名为 “Mashup Learning”（混搭学习） 的方法，彻底颠覆了我们对微调初始化的认知.
## 

## 1 被浪费的“历史遗产”

 
在传统的微调流程中，我们是这样工作的：
 1. 
接到新任务A
  2. 
从预训练权重（如BERT、LLaMA）开始初始化
 
   3. 
   在任务A的数据上训练
 
   4. 
   保存checkpoint，然后……再也不打开
 
等到接到任务B，我们又重复上述流程，仿佛之前的训练从未发生过。
 
研究人员在论文中指出了这个显而易见的浪费：训练每个数据集都会产生一组新的模型权重，导致大量checkpoint被保存在本地或开源平台上。然而，这些训练产物很少被后续实验复用，尽管它们包含了针对潜在相似任务改进的模型能力。
 
一个惊人的数据：仅在Hugging Face Hub上，就有超过2000个微调版本的Llama 3.1-8B-Instruct模型。这些模型来自不同的任务、不同的领域、不同的开发者，但它们都被当作“展品”而非“原材料”。
## 

## 2 Mashup Learning：拼乐高的艺术

 
Mashup Learning的核心思想非常简单：用历史checkpoint构造更好的初始化权重。
具体流程分为三步：
 
第一步：检索
 
针对目标任务，在历史checkpoint库中搜索最相关的“前辈”。研究者使用了一种高效的检索机制——用目标任务训练数据的一小部分子集，计算每个历史checkpoint的损失值，选出损失最低的top-k个checkpoint。
 
关键发现：只需要256个样本就足以提供可靠的筛选信号，更大的评估集带来的收益会递减。超过此点后性能不会持续提升，且该样本量适合单一评估批次，保持筛选效率。
![image](https://developer.qcloudimg.com/http-save/yehe-11874468/a80c2a63102e5239f661ad23f2db8873.png)
第二步：合并
 
将选出的几个历史checkpoint通过模型合并（model merging）技术聚合起来。最简单的做法是直接平均参数，但更高级的合并方法（如DARE-TIES）可以解决不同checkpoint之间的参数冲突，取得更好效果。
 
第三步：微调
 
将合并后的模型作为目标任务的初始化权重，然后进行常规微调。
就这么简单。整个流程不需要修改训练代码，不需要额外标注数据，只需要一个历史checkpoint库和一个检索合并的预处理步骤。
## 

## 3 硬核数据：不是“快40%”，是“省37%时间”

 
为了验证Mashup Learning的有效性，研究团队在8个标准LLM基准测试、4种不同模型、两组历史checkpoint集合上进行了系统实验。
 
实验设置非常严谨：
                 ● 模型：Gemma-3 4B、Gemma-3 1B、Gemma-2 2B、Mistral-7B-Instruct-v0.2
                 ● 基准：8个常用的LLM评估数据集
                 ● 对比对象：从预训练权重开始的常规微调
 
核心结果如下：
                 ● 准确率提升：Mashup Learning在目标任务上的平均准确率提高了0.5–5个百分点
                 ● 训练步数减少：要达到与从零训练相同的准确率，Mashup Learning需要的训练步数减少了41–46%
                 ● 总耗时降低：最关键的是——在8个基准测试和特定模型组合下，计入检索合并开销后，达到相同准确率所需的总耗时最高可减少37%。
 
论文摘要中明确写道：“包括所有选择和合并开销在内，Mashup Learning匹配从零训练准确率所需的总耗时减少了高达37%。”
## 

## 4 为什么能这么快？

 
这个方法背后的原理其实揭示了深度学习的一个深层性质。
 
第一，参数空间的低维结构。近年研究发现，同一模型的多个训练版本所处的参数空间具有低维结构，这意味着不同任务上学到的“知识”可以被有效组合。
 
第二，元任务的线性叠加。另一支研究发现，不同的下游任务可以通过元任务的线性组合来表征。也就是说，模型反复在不同的元任务组合上训练——法律问答=语言能力+法律知识+推理能力，金融情感分析=语言能力+金融术语+情感判断。既然这些元任务被反复训练，那么它们的组合产物（历史checkpoint）自然可以被拆解重组。
 
第三，合并即预训练。论文作者提出一个直观的理解：合并多个针对相似任务的checkpoint，相当于让模型“预习”了一遍目标任务所需的各项能力，虽然这种预习是在参数空间而非数据空间完成的。
## 

## 5 实操指南：怎么用起来？

 
如果你想把Mashup Learning用在自己的项目中，这里有一份快速上手指南：
 
你需要什么：
                 ● 一个历史checkpoint库（可以是自己保存的，也可以从Hugging Face下载）
                 ● 所有checkpoint必须与目标模型使用相同的架构
                 ● 如果使用LoRA，还需要确保target modules、rank等超参数一致
 
选择checkpoint的策略：
                 ● 最简单有效的方法：用目标任务的一小部分训练数据（256条足矣）计算每个历史checkpoint的损失，选损失最低的top-k
                 ● 如果验证集可用，也可以用任务相关指标（如准确率）替代损失，效果可能更好
 
合并方法的选择：
                 ● 最简单的平均即可见效
                 ● 想要更好效果？DARE-TIES是目前实验表现最佳的方法
                 ● 如果需要计算任务向量（task vectors），需要保留基础模型的初始权重
 
选多少个checkpoint最合适？
 
论文实验显示，选5-10个checkpoint合并效果较好，具体数量需要根据实际情况调整。
 
## 💡重要提示：该方法的效果高度依赖于你拥有的历史checkpoint质量。如果你的历史模型与目标任务关联度极低，或者模型架构不一致，效果可能会打折扣。建议在尝试前，确保你的checkpoint库足够丰富，并先在小规模任务上进行验证。

 
## 6 局限与展望

 
作为一篇arXiv预印本，Mashup Learning也存在一些值得注意的局限：
 
实验范围有限。目前实验主要聚焦在Transformer架构的语言模型上，尚未在其他模态（如图像、多模态）和架构上进行验证。
需要架构一致。所有历史checkpoint必须与目标模型架构完全相同，这限制了跨架构复用的可能性。
开源社区的价值。论文作者特别提到：“这些checkpoint可以从开源仓库（如Hugging Face Hub）获取，也可以在内部收集。”随着开源模型的日益丰富，这个方法的潜力会越来越大。
## 

## 从“炼丹”到“工程”

 
这篇文章的意义，不仅在于提出了一个具体的加速方法，更在于它预示了大模型开发范式的转变：
 
Mashup Learning为我们提供了一种利用“历史遗产“的新视角。它并非要推翻现有的微调流程，而是为其增添了一个高效的“预处理“环节。当我们将这些闲置的checkpoint重新利用起来，大模型的开发或许能从“每一次都从头炼一炉丹“，逐渐转向“组合已有的高纯度原料“。
 
如果你正在管理大量模型 checkpoint 并尝试高效微调，平台可提供一站式实验与部署支持，方便快速复现与迭代这类前沿训练范式。

那些被你扔在硬盘角落的老模型，可能是新任务最快的起跑线 每个算法工程师的硬盘里，都躺着成百上千个历史checkpoint——上周跑的法律问答模型、上个月做的金融情感分析、去年调优的代码生成器……它们像乐高积木块，散落在角落里吃灰。 但如果我告诉你，这些被你遗忘的“老古董”可以像乐高一样拼起来，在特定条件下，新模型的训练耗时有望降低37% 3月10日上传至arXiv的一篇新论文，提出了一个名为 “Mashup Learning”（混搭学习） 的方法，彻底颠覆了我们对微调初始化的认知.

把历史模型当“乐高”拼：一种新的微调加速范式

算法工程师常闲置大量历史模型checkpoint，造成资源浪费。3月10日arXiv论文提出Mashup Learning混搭学习，通过检索、合并历史模型权重再微调，可使新模型训练耗时最高降低37%，准确率小幅提升，为大模型高效微调提供新范式。

技术架构师

人工智能

算法

职业发展

MashupLearning技术让历史模型checkpoint重获新生，通过检索合并旧模型权重，新任务训练时间最高可减少37%。这项AI技术革新能大幅提升模型微调效率，适用于BERT、LLaMA等Transformer架构，为算法工程师提供更高效的模型开发方案。

深度学习

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

把历史模型当“乐高”拼：一种新的微调加速范式-腾讯云开发者社区-腾讯云

把历史模型当“乐高”拼：一种新的微调加速范式

把历史模型当“乐高”拼：一种新的微调加速范式

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐