苹果发布全新视觉AI模型UniGen 1.5，实现图像理解、生成与编辑一体化

摸鱼小能手
科技前沿
2025年12月19日

近日，苹果公司研究团队推出了一款名为UniGen 1.5的多模态人工智能模型。该模型在图像处理领域实现了重大突破，将图像理解、生成和编辑三大功能整合到一个统一框架中。相较于传统方法依赖多个独立模型分别处理不同任务，UniGen 1.5通过单一系统完成所有操作，大幅提升了效率和准确性。

UniGen 1.5的核心优势在于其统一架构设计。研究人员表示，这种结构让模型能够利用强大的图像理解能力来优化生成效果，从而提供更高质量的视觉输出。在图像编辑方面，用户常常面临指令模糊或复杂的问题，而UniGen 1.5通过引入“编辑指令对齐”技术解决了这一难题。该技术并非直接修改图片，而是要求模型先根据原图和用户指令预测目标图像的详细描述。这种“先思考后创作”的方式，使模型在生成图像前能更深入地理解用户的意图，从而提升编辑精度。

此外，UniGen 1.5还在强化学习层面进行了创新。研究团队开发了一套适用于图像生成和编辑的统一奖励系统，有效克服了以往因任务跨度大而难以实现统一标准的问题。这一机制确保了模型在处理不同类型视觉任务时，能够保持一致的质量水平，增强了系统的稳定性和适应性。

在实际测试中，UniGen 1.5展现出卓越的性能。它在GenEval和DPG-Bench等基准测试中分别获得0.89和86.83的高分，显著优于其他热门方法如BAGEL和BLIP3o。在图像编辑专项测试ImgEdit中，其综合得分为4.31，不仅超越了OminiGen2等开源模型，还与GPT-Image-1等闭源模型表现相当。

尽管表现优异，UniGen 1.5仍存在一些局限性。例如，由于离散去标记器在控制细节方面存在不足，模型在生成含文字的图像时容易出错。研究人员指出，这将是未来改进的重要方向之一。此外，在某些编辑场景中，模型可能会出现主体特征变化的问题，如猫的毛发纹理改变或鸟的羽毛颜色偏差，这些问题也需要进一步优化。

图A展示了UniGen 1.5在文本转图像生成和图像编辑任务中的失败案例。以上内容来源于苹果论文。随着技术的不断进步，相信UniGen 1.5将在未来带来更多令人期待的突破。

#ai模型 #unigen #深度思考按钮 #知名企业 #绘图 #苹果公司 #视觉

摸鱼小能手

暂无介绍....

医械网	工业品资讯
广告位	广告位

苹果发布全新视觉AI模型UniGen 1.5，实现图像理解、生成与编辑一体化

摸鱼小能手

对话大晓机器人王晓刚：从数字世界到物理世界的智能进化之路

智能对话新体验：ChatGPT 推出置顶功能，提升信息管理效率

延伸阅读:

环球问策之AI篇：从“人工”到“智能” AI Agent如何颠覆出海营销的底层逻辑？

2027年互联网AI机器人流量要超人类？Cloudflare CEO发声

大型无人货运飞机W5000藏着哪些黑科技？一文揭秘

MiniMax M2.7国服第一！龙虾自我进化，海外开发者疯狂刷屏

浙江入选8个全国优秀实践案例，数量全国第一