谷歌 Gemini 2.5 Flash 升级 AI 修图功能,多项任务优于 GPT-4o

IT之家 8 月 27 日消息,科技媒体 The Decoder 昨日(8 月 26 日)发布博文,报道称谷歌 DeepMind 推出全新 Gemini 2.5 Flash 图像编辑模型,在 Gemini 应用中可根据文字指令,在保持人物与动物的外观一致的情况下,提高修改图片的精度。

IT之家援引博文介绍,与此前的原生图像生成工具相比,它在根据文字进行图像修改时的准确率更高,甚至在多项任务中优于 ChatGPT 所用的 GPT-4o,让其能更好地基于复杂文字编辑图像。

新模型的亮点是“角色一致性”功能。在生成多张图像后,即便人物姿势、背景或光线发生变化,也能保持同一人、动物或物体的外观一致。这对于创建系列照片、产品多角度展示尤其有价值,适合品牌素材与产品目录的批量制作。

Gemini 2.5 Flash 支持精准的局部文字编辑,用户无需手动圈选即可完成背景虚化、去除瑕疵、添加颜色或移除物体等操作。

该模型能一次融合最多三张图像,例如将产品照与室内照片结合成逼真的场景。它还支持“风格迁移”,将一种纹理、颜色或图案应用到另一物体上,同时保持形状与细节完整。基于“现实推理”的功能更可模拟简单因果,如生成气球飞向仙人掌及随后的结果画面。

Gemini 2.5 Flash 已在 Gemini 应用中上线,用户需将模型切换至“Flash”才能使用图像编辑功能,生成的图像附有可见水印及不可见的 SynthID 数字水印。

开发者可通过 Gemini API、Google AI Studio 与 Vertex AI 试用,费用为每百万输出 token 30 美元,单张图像成本约 0.039 美元。

暂无介绍....

延伸阅读:

周浩能给千问带来什么?答案就在他为Gemini所做的工作之中

林俊旸深夜发文“告别”千问,在AI圈中引起轩然大波,也让“周浩”这个名字进入公众视野。2026年1月,周浩低调加入阿里,...

娱乐早知道
2026年3月6日
OpenAI发布最新模型GPT-5.4

新华社旧金山3月5日电(记者吴晓凌)美国开放人工智能研究中心(OpenAI)5日宣布推出人工智能模型GPT-5的最新升级...

娱乐早知道
2026年3月6日
MWC 2026:当AI拥有“身体”,中国掌握"造物权"

2026年,从虚拟世界走向现实世界,AI有了新的叙事。两个月前的CES上,物理AI成为全球科技的焦点,上千家展商展示了众...

娱乐大事件
2026年3月6日
江河联评丨郑州 合肥 成都 西安 四帆竞发智能车

江河奔腾,两会聚智。郑州、合肥、成都、西安,被誉为中西部新能源汽车 “四大黑马城市”。四城同处内陆腹地,各握一手好牌。《...

娱乐早知道
2026年3月6日
联想系新机测试2亿像素长焦,1.5K屏幕推进遇阻?

IT之家 3 月 6 日消息,博主 @数码闲聊站 今天在微博表示,联想系新机正在测试 2 亿像素大底潜望长焦,最快今年就...

摸鱼小能手
2026年3月6日