全面升级!书生·万象3.5发布,多模态感知能力超越GPT-5
新民晚报记者获悉,近日,上海人工智能实验室(上海AI实验室)开源通用多模态大模型书生·万象3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。
InternVL3.5本次开源有9种尺寸的模型,参数涵盖10亿-2410亿,可满足各场景需求。其中,旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获77.7分,为开源模型中最高分;多模态通用感知能力超越GPT-5,文本能力领跑主流开源多模态大模型。与InternVL3.0相比,InternVL3.5在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上实现显著提升。
上海AI实验室透露,本次升级,研究团队重点强化了InternVL3.5面向实际应用的智能体与文本思考能力,在GUI交互、具身空间推理和矢量图形处理等多个关键场景实现从“理解”到“行动”的跨越,并得到多项权威评测验证。
可根据文字指令编辑矢量图文件。指令示例:在番茄的脸上涂一滴眼泪;左为输入,右为输出
不只是评测成绩亮眼,InternVL3.5在智能办公、机器人训练、AI for Science等实际场景中也展示出强劲实力。例如,InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台,精确识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化,有效提升办公效率;在AI for Science场景中,模型可协助科研人员进行分子结构解析、材料性能预测等复杂推导。
问题:上面大方框中的纸折叠成一个正方形盒子之后,形成的箭头的形状,应该是下面A、B、C、D中的哪个?回答中间思考过程略
在架构方面,InternVL3.5的基础架构遵循了业界成熟的“ViT-MLP-LLM”范式,并创新提出视觉分辨率路由(ViR),有效解决多模态模型的视觉模块因高分辨率输入导致的效率瓶颈这一普遍性难题。科研人员解释,ViR的创新之处在于它能基于图像语义内容进行自适应计算。
另外值得一提的是,在传统的多模态模型推理部署方案中,视觉编码器和语言模型通常串行执行,部署在同一个或同一组GPU上。然而,这两部分的计算特性截然不同,视觉编码器的计算会阻塞语言模型的执行,导致GPU资源利用率低下。基于此,研究团队提出视觉—语言解耦部署(DvD)方案:将视觉编码器与语言模型分置于不同GPU,并结合BF16精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行——这一突破不仅意味着性能上的飞跃,更成为推动高分辨率、强推理能力的多模态大模型在实际场景中落地应用的关键工程成果。
作为上海AI实验室书生大模型体系的重要组成部分,InternVL聚焦视觉模型技术的创新与突破,凭借领先性能和低算力消耗的优势,InternVL全系列全网下载量已突破2300万次。
原标题:《全面升级!书生·万象3.5发布,多模态感知能力超越GPT-5》
栏目编辑:马丹 题图来源:东方IC 图片来源:上海AI实验室 图片编辑:新民晚报 郜阳
来源:作者:新民晚报 郜阳
延伸阅读:
12999元起华为Mate X7开售:全新玄武架构,首次比肩直板旗舰影像
IT之家 12 月 5 日消息,华为 Mate X7 折叠屏手机今日 10:08 正式开售,官方定价 12999 元起。...
科技昨夜今晨1205:外卖平台新国标发布
“科技昨夜今晨”时间,大家好,现在是 2025 年 12 月 5 日星期五,今天的重要科技资讯有:1、消息称豆包手机第一...
奥尔特曼上诉失败,OpenAI首款AI硬件恐因侵权被迫改名
IT之家 12 月 5 日消息,科技媒体 9to5Mac 今天(12 月 5 日)发布博文,报道称 OpenAI 与前苹...
菜鸟驿站上新“源选集市”,阿里再战社区团购?
阿里悄然又上线了一个社区团购业务。近日,记者发现,菜鸟驿站上线了一个新业务“源选集市”,官网页面信息显示,这个业务主打“...
苹果官宣年度最佳APP大奖,可视化AI规划工具Tiimo登顶
苹果公司周四正式公布了2025年度App Store大奖名单,延续了其表彰过去一年各类最佳应用与游戏的传统。可视化AI规...
