谷歌 Gemini 2.5 Flash 升级 AI 修图功能，多项任务优于 GPT-4o

IT之家 8 月 27 日消息，科技媒体 The Decoder 昨日（8 月 26 日）发布博文，报道称谷歌 DeepMind 推出全新 Gemini 2.5 Flash 图像编辑模型，在 Gemini 应用中可根据文字指令，在保持人物与动物的外观一致的情况下，提高修改图片的精度。

IT之家援引博文介绍，与此前的原生图像生成工具相比，它在根据文字进行图像修改时的准确率更高，甚至在多项任务中优于 ChatGPT 所用的 GPT-4o，让其能更好地基于复杂文字编辑图像。

新模型的亮点是“角色一致性”功能。在生成多张图像后，即便人物姿势、背景或光线发生变化，也能保持同一人、动物或物体的外观一致。这对于创建系列照片、产品多角度展示尤其有价值，适合品牌素材与产品目录的批量制作。

Gemini 2.5 Flash 支持精准的局部文字编辑，用户无需手动圈选即可完成背景虚化、去除瑕疵、添加颜色或移除物体等操作。

该模型能一次融合最多三张图像，例如将产品照与室内照片结合成逼真的场景。它还支持“风格迁移”，将一种纹理、颜色或图案应用到另一物体上，同时保持形状与细节完整。基于“现实推理”的功能更可模拟简单因果，如生成气球飞向仙人掌及随后的结果画面。

Gemini 2.5 Flash 已在 Gemini 应用中上线，用户需将模型切换至“Flash”才能使用图像编辑功能，生成的图像附有可见水印及不可见的 SynthID 数字水印。

开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 试用，费用为每百万输出 token 30 美元，单张图像成本约 0.039 美元。

暂无介绍....

医械网	工业品资讯
广告位	广告位