多模态大模型持续学习,综述+Benchmark+方法+Codebase一网打尽

本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。

近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战。为了应对这一问题,中国科学院自动化研究所联合中国科学院香港院 AI 中心系统性地研究了生成式 AI 和多模态大模型的持续学习,提出了一系列综述、方法、Benchmark 和 Codebase,为相关领域的研究者和实践者提供了全面支持。

生成式 AI 的持续学习综述

论文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

论文链接:https://arxiv.org/pdf/2506.13045项目主页:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models

研究动机:以大模型为代表的生成式 AI 模型的快速发展让现代智能系统具备了理解和生成复杂内容的能力,甚至在部分领域达到了接近人类的表现。然而,这些模型依旧面临着“灾难性遗忘”问题,即在学习新任务时,往往会导致已学任务性能的显著下降。为解决这一挑战,大量的研究提出了多种方法以增强生成式 AI 在实际应用中的适应性和扩展性。本文系统性地综述了生成式 AI 的持续学习方法,涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型(Diffusion Models)。

图 1:生成式 AI 中的持续学习示意图

研究内容:本文围绕生成式 AI 的持续学习问题,系统性地综述了不同模型的训练目标、应用场景及技术方法。研究涵盖大语言模型在理解与生成中的知识保留与任务适应、多模态大模型处理跨模态数据时的抗遗忘能力、视觉语言动作模型在机器人动态环境中的行为迁移与适应,以及扩散模型针对个性化生成需求的增量学习。这些模型的持续学习方法主要包括架构扩展、正则化和回放策略,旨在平衡新任务学习与旧任务性能的保持。此外,研究还探讨了评估指标(整体性能、遗忘程度、泛化能力)和未来方向(高效机制、强化学习范式、多模态扩展等),为生成式 AI 的持续学习提供了全面参考。

图 2:持续学习方法分类图

多模态大模型持续学习:Benchmark 与方法

传统的持续学习任务多聚焦于单模态场景,如图像或文本分类,但随着应用需求的复杂化,多模态任务逐渐成为核心。为此,我们提出了一系列新的 Benchmark 和方法,旨在推动多模态大模型持续学习的发展。

论文 1:[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

论文链接:https://arxiv.org/pdf/2503.12941代码链接:https://github.com/Ghy0501/HiDe-LLaVA数据链接:https://huggingface.co/datasets/HaiyangGuo/UCIT

研究动机:本文认为当前的多模态大模型的持续学习面临两大关键挑战:一是现有评测基准普遍存在与预训练数据重叠的问题,导致评估结果失真;二是传统方法难以平衡新任务学习与旧任务遗忘之间的矛盾。为此,本研究提出构建全新的UCIT评测基准,通过严格的 zero-shot 筛选机制,构建了全新的无信息泄露风险数据集。同时创新性地提出层次化解耦学习策略,旨在解决持续指令微调中的灾难性遗忘问题,为多模态大模型的持续学习提供可靠的评估框架和解决方案。

研究方法:本文通过 CKA 相似性分析揭示了模型不同层级的任务特性差异:顶层具有任务特异性,其余层则保持任务通用性。基于此,本文提出的HiDe-LLaVA采用分层处理机制:在顶层引入多模态锚点驱动的动态专家选择模块,实现任务自适应;在其余层采用参数融合策略保留跨任务共享知识。实验结果表明,该方法可以有效缓解模型的灾难性遗忘现象,并且有效平衡了模型性能与计算资源效率。

目前该研究已被ACL 2025主会接收,相关代码及数据已全部开源。

图 3:HiDe-LLaVA 模型框架示意图。

论文 2:[ICCV 2025] Federated Continual Instruction Tuning

论文链接:https://arxiv.org/pdf/2503.12897代码链接:https://github.com/Ghy0501/FCIT数据链接:https://huggingface.co/datasets/MLLM-CL/FCIT

研究动机:当前多模态大模型的指令微调面临集中训练成本高、实用性差的问题,而现有联邦学习方案在动态环境中难以实现持续学习与知识保留的平衡。为此,本文首次提出联邦连续指令微调(FCIT)基准,以解决分布式环境下持续学习的关键挑战。FCIT 基准包含同质(各客户端学习相同任务)和异质(各客户端学习不同任务)两种现实场景,通过 4 种实验设置和 12 个精选数据集,全面评估模型在非独立同分布数据和灾难性遗忘情况下的表现,为多模态大模型的联邦持续学习研究提供标准化评测框架。

图 4:FCIT 设定示意图

研究方法:为应对 FCIT 中的挑战,我们提出了DISCO框架,结合了 动态知识梳理(DKO) 和 子空间选择激活(SSA) 两种策略。DKO 利用全局服务器的动态缓存,存储并组织任务特定的参数,减少任务间和阶段间的冲突;SSA 则通过匹配输入特征与动态缓存中的任务子空间,选择性激活相关输出,同时过滤无关信息。实验结果表明,DISCO 在解决数据异质性和灾难性遗忘方面显著提升了模型性能,全面超越现有方法,并在 FCIT 基准上取得了最好的表现。

目前该研究已被ICCV 2025接收,相关代码及数据已全部开源。

论文 3:[EMNLP 2025]ModalPrompt: Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

论文链接:https://arxiv.org/pdf/2410.05849代码链接:https://github.com/AuroraZengfh/ModalPrompt

研究动机:为缓解多模态大模型持续学习任务中的灾难性遗忘现象,本文认为现有解决方案存在显著局限性:基于数据回放的方法面临隐私泄露风险和存储成本压力,而模型扩展策略则不可避免地引发计算资源的线性增长。值得注意的是,当前研究尚未充分探索多模态数据在持续学习中的协同监督潜力。而当前领域内缺乏专门针对多模态特性的持续学习框架,因此需要开发一种既能利用图像-文本双重监督、又能避免计算膨胀的新方法,以实现高效且隐私安全的知识持续积累。

图 5:ModalPrompt 模型框架示意图

研究方法:本文提出ModalPrompt框架,利用多模态监督,通过构建任务特定的图像文本原型提示,结合双模态引导提示选择和多任务提示融合机制,实现了在无回放数据的情况下有效保留旧任务知识并提升新任务性能。此外,该方法通过动态提示选择降低计算复杂度,使推理速度提升 1.42 倍,同时显著减少存储和训练成本。

目前该研究已被EMNLP 2025主会接收,相关代码已全部开源。

论文 4. MLLM-CL: Continual Learning for Multimodal Large Language Models

论文链接:https://arxiv.org/pdf/2506.05453代码链接:https://github.com/bjzhb666/MLLM-CL数据链接:https://huggingface.co/datasets/Impression2805/MLLM-CL

研究动机:本文认为现有的多模态大模型连续指令微调评测基准主要关注独立同分布(IID)场景下的领域知识评估,缺乏对模型基础能力(如 OCR、数学推理等)在非 IID 场景下的系统性评测。为此,本文提出了一个新的多模态大模型持续学习基准MLLM-CL,涵盖领域持续学习(DCL) 和能力持续学习(ACL) 两种设置,分别针对同分布(IID)和非同分布(non-IID)场景下的领域知识和基础能力学习进行评估。

图 6:MLLM-CL 基准示意图

研究方法:为解决灾难性遗忘问题,本文提出了MR-LoRA,通过领域或能力特定的 LoRA 模块实现参数隔离,避免任务间干扰,并设计了基于 MLLM 自身的多模态理解能力的路由选择器,仅需少量样本微调即可精准匹配输入与最优专家模块。实验表明,该方法在领域持续学习(DCL)和能力持续学习(ACL)任务上显著优于传统回放或模型扩展方法。

论文 5. LLaVA-c: Continual Improved Visual Instruction Tuning

论文链接:https://arxiv.org/pdf/2506.08666

研究动机:多模态大模型(如 LLaVA-1.5)在连续指令微调中面临的两大核心挑战:首先,传统的多任务联合训练存在任务平衡困难(需人工调整数据比例)和扩展成本高(新增任务需全量重训练)的固有缺陷;其次,现有持续学习方法虽能增量学习新任务,但普遍存在 “基础模型退化” 现象——模型过度拟合任务特定指令(如强制单字回答),丧失处理多样化指令的通用能力。

图 7:LLaVA-c 模型框架示意图

研究方法:本文提出了LLaVA-c,通过两个核心技术改进 LLaVA-1.5 模型:1)谱感知巩固(SAC),基于奇异值分解的模型融合策略有效克服新旧知识冲突,相比传统的模型混合策略提升了任务兼容性;2)无监督查询正则化(UIR),通过约束未标注文本指令的特征空间偏移(L2 距离损失)防止基础模型退化,在零额外标注成本下保持指令跟随能力。本文在预训练和指令微调两阶段上都验证了所提出方法的有效性,在通用评价基准和下游任务指标上均取得了最优的性能,并且首次实现持续学习效果超越多任务联合训练。

多模态大模型持续学习:代码仓库

论文:MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

论文链接:https://arxiv.org/pdf/2508.07307代码仓库:https://github.com/Ghy0501/MCITlib

研究动机:随着多模态大模型持续学习研究的蓬勃发展,各类创新方法和评估基准不断涌现,但研究社区始终缺乏一个系统化、标准化的开发与评测平台。为填补这一关键空白,我们推出了MCITlib,一个开源的多模态持续指令微调代码仓库。MCITlib 集成了当前领域内 8 种主流算法,精心挑选了两个高质量基准(UCIT 和 DCL),有效避免信息泄露,为研究者提供了一个统一、公平的实验环境,便于全面评估不同方法的优劣。

图 8:开源代码仓库 MCITlib

未来,MCITlib 也将持续进行更新,扩展更多模型、任务和评测维度,为多模态大模型持续学习研究提供坚实助力。

总结与展望

赋予以多模态大模型为代表的生成式 AI 持续学习的能力是迈向人工智能通用化的重要一步。我们希望通过系统的综述、完善的 Benchmark、前沿的方法和开源的工具,能够为这一领域的研究者和应用开发者提供更多支持。未来,我们团队将继续深耕多模态大模型持续学习领域,探索更广泛的应用场景,持续推动该领域技术的发展与创新。

暂无介绍....

延伸阅读:

阿里国际站B2B中小企业峰会在美国开幕,AI成了关注焦点

9月5日,阿里国际站在美国举办全球最大的B2B中小企业峰会CoCreate2025。当天,全球有近800万中小企业观看了...

摸鱼小能手
2025年9月5日
奢侈品虚假抢购、AI专家虚假宣传……一批直播电商违法违规案例公布

消费者在直播间付款成功的奢侈品包,被告知未抢拍成功,原来是公司采用虚假抢购方式进行虚假营销;采用AI虚拟数字人技术生成老...

八卦小灵通
2025年9月5日
10.88亿美元!恒瑞医药再次“NewCo”出海

9月5日,恒瑞医药宣布与美国Braveheart Bio公司就其自主研发的心肌肌球蛋白(Myosin)小分子抑制剂HRS...

摸鱼小能手
2025年9月5日
NAND 原厂闪迪 Sandisk 针对全部渠道通路和消费类产品涨价 10%

IT之家 9 月 5 日消息,综合 CFM 中国闪存市场和《电子时报》两方报道,NAND 闪存原厂之一的闪迪 Sandi...

娱乐早知道
2025年9月5日
吉利银河星耀 6 内饰图公布,今晚全球首秀

IT之家 9 月 5 日消息,吉利银河星耀 6 将于今晚迎来全球首秀,官方现已公布这款电混家轿的内饰图。从图上可以看到,...

八卦小灵通
2025年9月5日