百度、OpenAI双双发力高智能AI！先来实测一波原生全模态文心5.0

娱乐早知道
科技前沿
2025年11月14日

机器之心报道

作者：杜伟

就在今天，大洋两岸两家顶尖的大模型厂商在「追求高智能 AI」这件事上不谋而合，引发了业界广泛关注。

OpenAI 凌晨更新了 GPT-5 系列大模型，上线了 GPT-5.1 Instant 和 GPT-5.1 Thinking。

而在上午以「效果涌现｜AI in Action」为主题的 2025 百度世界大会上，新一代文心大模型 5.0 正式发布。此次文心 5.0 最大的看点在于采用了「原生全模态统一建模」技术，持续推高智能天花板。

百度创始人李彦宏

这种原生融合的设计使得文心 5.0 不同于业界多数采用后期融合的多模态模型，支持文本、图像、音频、视频等多种信息的联合输入与输出，实现了原生的全模态统一理解与生成。

在原生全模态架构的加持下，文心 5.0 基础能力全面升级，在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有了强大的理解、逻辑、记忆和说服力。

文心5.0四大亮点能力

在总参数规模上，文心 5.0 达到了系列最高的2.4 万亿，并位列业界已公开模型之首。

从跑分成绩来看，在 40 余项权威基准的综合评测中，文心 5.0 Preview的语言与多模态理解能力与 Gemini-2.5-Pro、GPT-5-High 等模型持平，图像与视频生成能力与垂直领域专精模型相当，达到全球领先水平。

全模态任务表现突出

这些结果证明了原生全模态大模型的能力和潜力。未来，「百度会持续投入、研发更前沿的模型，推高智能天花板。」李彦宏在会上进一步表示。

模型发布即上线，文心 5.0 Preview 已经同步上线文心 App，用户可以直接体验。同时，开发者和企业用户也可以在百度智能云千帆大模型平台调用文心 5.0 API 服务。

机器之心提前上手体验了一番，结果是否符合预期？咱们接着往下看。

一手实测：文心 5.0 Preview 多轮实战效果

榜单数据固然亮眼，但真实测试往往更能揭示模型的真面目。我们进行了多轮实战，也让这份榜单多了几分现实参照。

测试地址：https://yiyan.baidu.com

深夜 OpenAI 突然上线了 GPT-5.1 系列模型，主打一个高情商。于是我们不禁好奇：文心 5.0 Preview 的情商表现，又能卷到什么程度？我们先来个大模型情商测试热场。

最近 AI 圈真是卷到飞起，作为编辑的我也常常被节奏推着走，压力一点都不小。于是我去问了文心 5.0 Preview 的建议 —— 没想到它像一位久违的老朋友一样，先是认真倾听，然后用一种近乎共情的语气安慰我：「听到你这么说，我能感觉到你肩上的担子有多重。」

那一刻，你会突然意识到：原来 AI 也能给到一种被理解的感觉。也许，这才是下一代模型真正的竞争点。

文心 5.0 Preview 不只有高情商，智商也同样在线。无论是视频理解、图片理解与生成，还是复杂推理、代码能力，它都展现出了更成熟、更强悍的综合实力。

视频理解

相比文字或图片，视频考验的不仅是模型的多模态理解能力，更是其在时间连续性与内容一致性上的真正实力。这一波测试看看文心 5.0 Preview 的表现能否撑得起全模态之名？

经常刷短视频的小伙伴可能有过这样的感受，看到一段精彩片段，却怎么都找不到原始电影？你先别急，不妨先问问文心 5.0 Preview。凭借其强大的多模态理解 & 推理能力，它不仅能洞悉片段背后的语义逻辑，还能对用户提出的各种刁钻问题逐一作答。

比如我们上传如上视频，然后问「视频出自哪部电影？」文心 5.0 Preview 思考了几秒，快速对画面中的人物、背景、对白进行解析，紧接着给出了准确的答案

更有意思的是，当我们继续提出要求「给这个视频生成 10 条弹幕」，文心 5.0 Preview 又一次展现了它的理解深度。它没有简单地堆砌「哈哈哈」或「太精彩了」这类模板化评论，而是根据剧情语气、人物关系和情绪张力，生成了风格各异的弹幕，没有出现用词不当，过分油腻的语句：

即使你问的问题更细节一点，文心 5.0 Preview 依然能稳稳 hold 住。比如我们继续追问：「视频中戴帽子的人穿了什么衣服？」对于这个问题，文心 5.0 Preview 需要先锁定目标人物，识别谁是戴帽子的人。这一步并不简单，因为画面中有三位主角，角度、光线、甚至镜头切换都有干扰。最终，文心 5.0 Preview 精准地给出了答案。

接下来，我们让文心 5.0 Preview 进入创作环节。我们输入指令：「我是一位 AI 博主，请为这段视频生成一段宣传文案，200 字左右。」

文心 5.0 Preview 根据视频内容，迅速展开分析，并提取视频核心亮点，不多时就生成了一段语义完整、语气自然的文案。它不仅准确抓住了视频的核心，语言风格也贴合 AI 博主的身份：既有科技感，又保留了人情味。最后还贴心地标注了字数，控制在 200 字左右，几乎可以直接发布。

看完这一轮输出，我们不得不承认：写文案这个活，它真的能干。

接下来，我们又输入了一段满是弹幕的电影片段，让文心 5.0 Preview 来分析这些弹幕。我们输入提示：「弹幕大家说的最多的是什么？」几秒钟后，文心 5.0 Preview 就总结出弹幕的整体情绪走势：

不过，看到这满屏飞舞的弹幕，大家大概也都忍不住想吐槽。所以我们索性让文心 5.0 Preview 来吐槽一次：「吐槽这个视频，有哪些槽点？」

文心 5.0 Preview 从情感表达、弹幕、场景与剧情等方面全都给出了颇为犀利的评价。不过吐槽归吐槽，文心 5.0 Preview 再一次展现出高情商，没有毒蛇影评，没有情绪化调侃，更像是带人类幽默感的专业点评。

图片理解 + 生成

最近，网络上兴起了一股邪修吃法，比如固体杨枝甘露、奶皮子糖葫芦…… 一个比一个离谱。看得我不禁好奇：这些奇特组合到底是怎么做成的？于是，我们把图片交给文心 5.0 Preview，让它来解构一下。

文心 5.0 Preview 一通思考后，有条不紊地展开分析，从食材搭配、熬糖工艺到制作步骤都讲得清清楚楚。但更难得的是，它还会贴心提醒你可能会踩的坑、鼓励你慢一点。这种既专业又温柔的语气，让你按着它的步骤来做糖葫芦时，不仅有信心，还觉得有人在旁边陪着你。

家养的绿植生病了，随手一拍，交给文心 5.0 Preview，并输入提示：「这颗植物怎么了，如何治疗？」，很快就能得到答案。

文本理解 + 生成

接下来，我们考察文心 5.0 Preview 的文本理解 + 生成能力

输入提示：「假如你是一名编辑，请以林黛玉的风格，总结一下今年的工作情况。」文心 5.0 Preview 稍作思考后，不仅准确抓住了林黛玉的柔婉语调与敏感自省，还非常贴心地替你处理了情绪的分寸感 —— 既不矫情，也不生硬。

既然文心 5.0 Preview 的文本生成能力如此出色，那它在理解复杂文本比如学术论文方面，又能达到什么程度呢？我们挑选了一篇陶哲轩的最新论文，将全文输入，并让文心 5.0 Preview 总结要点。这次我们选择语音输入提示：「总结文章要点」，文心 5.0 Preview 转录得非常快。

几秒钟后，它的回答令人惊讶地精准。看来，以后解读论文的活可以放心交给文心 5.0 Preview 了。

论文链接：https://arxiv.org/pdf/2511.02864v1

多模态理解

文心 5.0 Preview 在多模态理解上可谓是一次质的提升，在高效处理单一的文、图、视、音任务之外，还能进行模态间的联合理解与对比分析。比如来个高难度的测试，我们输入两个视频，让模型进行比较。提示为：「这是两部动画视频，请评价各自是什么风格、有什么优势？」

在这一轮测试中，文心 5.0 Preview 展现出了极强的多模态识别与理解能力。它先精准地识别出两个短片的来源，分别来自《海绵宝宝》和《千与千寻》，随后自动分析每部影片中的主要角色特征。更进一步，文心 5.0 Preview 指出两部作品在视觉语言与情感表达上的差异。整个过程无需提示，它能自主展开推理。

这种能力让人看到，文心 5.0 Preview 已不只是看懂画面的模型，而是在以更接近人类影评人思维的方式去理解与分析作品。

代码能力与工具调用

在这一项测试中，我们提出要求：「使用 Three.js 或 A-Frame，生成一个 3D 网页的代码。要求：场景中有一个自转的地球模型，并且有一个卫星模型围绕地球公转。」

可以看出，文心 5.0 Preview 生成的地球纹理清晰、细致，背景星空氛围感强；卫星轨道运动简洁直观，整体呈现干净利落。

再来一个，输入提示：「用 HTML 构建一个网站，展示太阳系的 3D 模拟。」

从可视化结果来看，文心 5.0 Preview 生成的太阳系 3D 模拟界面整体完成度相当不错，并且星空背景 + 行星轨道的视觉效果很有沉浸感，鼠标拖拽、滚轮缩放等非常符合用户习惯。

最后，我们还测试了文心 5.0 Preview 的工具调用能力。比如输入提示：「我们周末想去河北玩两天，两个大人，一个 5 岁的小朋友，推荐交通方便的景点。」

短短几秒钟，文心 5.0 Preview 便完成了景点筛选与排序。值得一提的是，文心 5.0 Preview 在生成过程中主动调用了网页，将外部信息动态整合到页面中，为用户提供更有价值的参考。

测试到这里，我们可以对文心 5.0 Preview 做一个整体性评价了：无论是视频语义解析、图像识别，还是文本创作、代码生成，模型展现出了稳定均衡的能力，尤其在跨模态理解与推理方面表现亮眼。作为全能型选手的文心 5.0 Preview 正在让原生全模态走向真实可感的落地。

原生全模态背后的技术能力

文心 5.0 在一系列文、图、视、音任务上的实测结果，直观验证了原生全模态模型所带来的性能提升。不过发展到如今的范式，尤其是从拼接融合到统一建模，需要克服的挑战不少。

在多模态模型的进化过程中，主流方案长期采用「后期融合」路径，先分别训练语言、图像、语音或视频等单模态模型，再通过特征拼接或跨注意力机制在高层实现信息融合。这类方案工程实现相对简单，也能较快获得初步的跨模态理解与生成能力，但由于不同模态间的语义表征没有在同一空间中学习，难以实现真正的语义对齐与一致推理。

相比之下，文心 5.0 的原生融合使得文、图、视、音等多模态信息在同一语义空间中学习，这样一来既可以捕捉模态间的深层语义关联，也能够实现更加连贯与一致的多模态输出。具体来讲，文心 5.0 主要在以下几个方面实现了突破：

首先是原生全模态建模：从训练之初便同时引入了文本、图片、视频、音频等多模态数据，在底层实现了不同模态间的统一表征与建模。相比后期融合，原生建模使得文心 5.0 在语义一致性、生成泛化性和跨模态推理上均有显著优势。

其次是理解与生成一体化：这是多模态模型长期存在的核心技术难题。实现二者的一体化，需要系统性地解决训练目标冲突（判别 vs 生成）、模态信息分布差异、训练与推理效率等挑战。文心 5.0 通过精细建模多模态语义特征，让理解与生成相互促进、彼此增强，从而在复杂任务中具备了更强上下文理解与表达能力。

为了进一步保证理解与生成一体化，文心 5.0 采用了统一的自回归架构与超稀疏混合专家（MoE）模型结构。前者通过对不同模态的训练目标进行离散化建模，实现多模态特征在同一架构下的高效融合与协同优化，大幅提升全模态统一建模能力。后者依托飞桨深度学习框架进行超大规模 MoE 模型训练，并利用多模态统一专家架构与超稀疏激活机制（2.4 万亿总参数中激活比低于 3%），在保持模型强大性能的同时大幅降低训练与推理成本。

更具体来讲，文心 5.0 基于飞桨自研的多模态编码器分离异步训练架构，并结合动态自适应显存卸载、细粒度通信计算重叠编排专家并行调度和 FP8 混合精度训练，实现了万亿级参数模型的高效训练。同时采用多级分离的全模态统一高性能推理框架，配合专家均衡调度、投机解码与低比特量化等优化算法，有效提升全模态推理的吞吐与能效比，显著降低推理成本。

最后，文心 5.0加强了长程任务与智能体能力。通过大规模工具环境合成长程任务轨迹数据并结合基于思维链和行动链的端到端多轮强化学习训练，其在工具调用、规划决策等需要自主推理与执行能力的任务中表现更优。

百度首席技术官王海峰

可以说，文心 5.0 的原生全模态既着眼于不同模态间的协同理解与生成，也兼顾算力效率与智能体化，为下半场大模型技术的演进提供了可行路径。

既是「back」，也是新起点

过去一段时间，由于受到 Scaling Laws 收益趋缓的影响，大语言模型的能力提升显然不如前几年那样显著。单纯地扩大参数规模、训练数据与算力投入，已经无法很好地维持以往的增长曲线。因此，大模型厂商求变，底层架构的创新成为核心突破口之一。

在国内，百度较早地对这一行业趋势做出了回应，上代原生多模态基础大模型文心 4.5 能够对文字、图片、视频和音频等内容进行综合理解。业界其他玩家也在原生多模态方向上进行了探索。

此次，文心 5.0 进一步瞄准「原生全模态」和「理解与生成一体化」，重塑模型学习范式，从理解语言逐步迈向理解世界。

当然，在全球大模型竞争焦点逐渐转向「谁更通用、谁更集成」的当下，百度选择走「原生全模态」路线，其意义也远不止一次技术架构层面的创新。作为文心系列最新成果，文心 5.0 体现了百度在大模型领域的技术延续与演进，从语言理解到多模态融合再到推理、智能体，方向明确、路径清晰。

在今天的百度世界大会上，百度无形中向外界释放了一个明确的信号：其正通过底层架构的重塑和产品化落地的提速，重新回到 AI 竞争舞台的中心。

同时，可以预见，百度将以新一代文心大模型为起点，加速「模型 – 应用 – 生态」的一体化布局，在深化大模型落地内容生产、搜索推荐、办公协作、云服务、自动驾驶、智能体等核心业务的进程中，构建起一个以原生全模态能力为底座的智能生态体系。

文中视频链接：https://mp.weixin.qq.com/s/fzdtOPvLjjG_fVd0h-MAyA

#openai #原生全模态 #文心 #智能体 #百度 #知名企业 #高智能ai

娱乐早知道

暂无介绍....

医械网	工业品资讯
广告位	广告位

百度、OpenAI双双发力高智能AI！先来实测一波原生全模态文心5.0

娱乐早知道

首台、最大、突破！本周，大国重器交出亮眼成绩单

最前线｜大疆无人机在沙漠新能源基地应用：超大规模电站运维效率提升26倍

延伸阅读:

宇宙的真相：或许从未真正“对称”过

荣耀Power2震撼登场：万元级续航怪兽携三色美学亮相

七鲜小厨全国扩张在即：品质快餐新模式加速落地

华为发布高性能长寿命SSD：eKitStor Xtreme 201重塑消费级存储标准

格科微电子突破影像边界：双款50MP传感器引领手机摄影新纪元