智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image

娱乐早知道
科技前沿
2026年1月14日

IT之家 1 月 14 日消息，智谱今日宣布联合华为开源新一代图像生成模型GLM-Image，模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的 SOTA 多模态模型。

GLM-Image 采用自主创新的“自回归 + 扩散解码器”混合架构，实现了图像生成与语言模型的联合。

IT之家附 GLM-Image 核心亮点如下：

架构革新，面向“认知型生成”的技术探索：采用“自回归 + 扩散编码器”混合架构，兼顾全局指令理解与局部细节刻画，克服了海报、PPT、科普图等知识密集型场景生成难题，向探索以 Nano Banana Pro 为代表的新一代“知识 + 推理”的认知型生成模型迈出一步。首个在国产芯片完成全程训练的 SOTA 模型：模型自回归结构基座基于昇腾 Atlas 800T A2 设备与昇思 MindSpore AI 框架，完成了从数据预处理到大规模训练的全流程构建，验证了在国产全栈算力底座上训练前沿模型的可行性。文字渲染开源 SOTA：在 CVTG-2K（复杂视觉文本生成）和 LongText-Bench（长文本渲染）榜单获得开源第一，尤其擅长汉字生成任务性价比与速度优化：API 调用模式下，生成一张图片花费 0.1 元，速度优化版本即将更新。

据智谱官方介绍，通过改进 Tokenizer 策略，GLM-Image 能够自适应处理多种分辨率，原生支持从 1024×1024 到 2048×2048 尺寸的任意比例图像的生成任务，无需重新训练。

GLM-Image 在文字渲染的权威榜单中达到开源 SOTA 水平。

GLM-Image 在实际的复杂图文任务中测试表现如下：

场景一：科普插画

GLM-Image 更擅长绘制包含复杂逻辑流程与文字说明的科普插画及原理示意图。

场景二：多格图画

在生成电商图、漫画等多格图画时，GLM-Image 能够保持风格和主体的一致性，并保障多处文字生成的准确率。

场景三：社交媒体图文封面

GLM-Image 适用于制作社交媒体封面及内容等排版复杂的图片，让您的创作更自由丰富。

场景四：商业海报

GLM-Image 能够生成构图富有设计感、文字嵌入准确的节日海报与商业宣传图。

场景五：写实摄影

在文字渲染以外，GLM-Image 也同样擅长生成各种景别和尺寸的人像、宠物、风景、静物。

IT之家附 GLM-Image 体验和开源地址如下：

在线体验：https://bigmodel.cn/trialcenter/modeltrial/imageAPI 接入：https://docs.bigmodel.cn/cn/guide/models/image-generation/glm-imageGitHub：https://github.com/zai-org/GLM-ImageHugging Face：https://huggingface.co/zai-org/GLM-Image魔搭社区：https://modelscope.cn/models/ZhipuAI/GLM-Image

#glm #image #sota #人工智能模型 #华为 #国产芯片训练 #智谱 #知名企业

娱乐早知道

暂无介绍....

医械网	工业品资讯
广告位	广告位

智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image

娱乐早知道

42岁吴昕现身哈尔滨：棉帽子+羽绒服+阔腿裤，保暖又时髦，像30岁

真我Neo8震撼亮相：三款未来感配色揭晓，定义电竞旗舰新标杆

延伸阅读:

阿里游戏云，连续五年市场份额第一

英伟达推出全球首个开源量子AI模型，助攻开发量子芯片

Uber启动战略转向，斥百亿美元巨资买自动驾驶车辆、投资相关企业

TA是新基建的数能中枢，让每一度电都成为数字经济“燃料”｜新民·科技前沿

三星推出新款T7/T9 microSD存储卡，精简产品阵容为T/P双系列