全面升级!书生·万象3.5发布,多模态感知能力超越GPT-5

新民晚报记者获悉,近日,上海人工智能实验室(上海AI实验室)开源通用多模态大模型书生·万象3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。

InternVL3.5本次开源有9种尺寸的模型,参数涵盖10亿-2410亿,可满足各场景需求。其中,旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获77.7分,为开源模型中最高分;多模态通用感知能力超越GPT-5,文本能力领跑主流开源多模态大模型。与InternVL3.0相比,InternVL3.5在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上实现显著提升。

上海AI实验室透露,本次升级,研究团队重点强化了InternVL3.5面向实际应用的智能体与文本思考能力,在GUI交互、具身空间推理和矢量图形处理等多个关键场景实现从“理解”到“行动”的跨越,并得到多项权威评测验证。

可根据文字指令编辑矢量图文件。指令示例:在番茄的脸上涂一滴眼泪;左为输入,右为输出

不只是评测成绩亮眼,InternVL3.5在智能办公、机器人训练、AI for Science等实际场景中也展示出强劲实力。例如,InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台,精确识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化,有效提升办公效率;在AI for Science场景中,模型可协助科研人员进行分子结构解析、材料性能预测等复杂推导。

问题:上面大方框中的纸折叠成一个正方形盒子之后,形成的箭头的形状,应该是下面A、B、C、D中的哪个?回答中间思考过程略

在架构方面,InternVL3.5的基础架构遵循了业界成熟的“ViT-MLP-LLM”范式,并创新提出视觉分辨率路由(ViR),有效解决多模态模型的视觉模块因高分辨率输入导致的效率瓶颈这一普遍性难题。科研人员解释,ViR的创新之处在于它能基于图像语义内容进行自适应计算。

另外值得一提的是,在传统的多模态模型推理部署方案中,视觉编码器和语言模型通常串行执行,部署在同一个或同一组GPU上。然而,这两部分的计算特性截然不同,视觉编码器的计算会阻塞语言模型的执行,导致GPU资源利用率低下。基于此,研究团队提出视觉—语言解耦部署(DvD)方案:将视觉编码器与语言模型分置于不同GPU,并结合BF16精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行——这一突破不仅意味着性能上的飞跃,更成为推动高分辨率、强推理能力的多模态大模型在实际场景中落地应用的关键工程成果。

作为上海AI实验室书生大模型体系的重要组成部分,InternVL聚焦视觉模型技术的创新与突破,凭借领先性能和低算力消耗的优势,InternVL全系列全网下载量已突破2300万次。

原标题:《全面升级!书生·万象3.5发布,多模态感知能力超越GPT-5》

栏目编辑:马丹 题图来源:东方IC 图片来源:上海AI实验室 图片编辑:新民晚报 郜阳

来源:作者:新民晚报 郜阳

暂无介绍....

延伸阅读:

英国团队研发 PRIMA 电子眼,临床试验 84%失明患者恢复阅读能力

IT之家 10 月 21 日消息,近期,英国伦敦大学学院(UCL)与穆菲尔德眼科医院(Moorfields Eye Ho...

娱乐早知道
2025年10月21日
OpenAI加强Sora保护措施,严格禁止未经授权使用名人肖像和声音

IT之家 10 月 21 日消息,今日,OpenAI、美国演员工会-美国电视和广播艺人联合会(SAG-AFTRA)、演员...

摸鱼小能手
2025年10月21日
告别误触:苹果 iOS 26.1 Beta 4 可禁用锁屏滑动拍照手势

IT之家 10 月 21 日消息,科技媒体 MacRumors 昨日(10 月 20 日)发布博文,报道称在 iOS 2...

娱乐早知道
2025年10月21日
苹果 iOS 26.1 Beta 4 新增“透明度”选项,修复“看不清”问题

IT之家 10 月 21 日消息,科技媒体 Mac Observer 昨日(10 月 20 日)发布博文,报道称在 iO...

娱乐早知道
2025年10月21日
中概股深夜大涨,爱奇艺涨超8%,阿里巴巴涨近4%,苹果市值一夜大涨万亿元

记者丨刘雪莹编辑丨江佩霞美东时间周一,美股三大股指均收涨超1%,重回历史高位附近。纳斯达克中国金龙指数收涨2.39%,热...

摸鱼小能手
2025年10月21日