智谱携手华为发布全栈国产化多模态生成模型GLM-Image
在人工智能加速迈向自主可控的新阶段,中国科技企业再次迈出关键一步。2024年1月14日,智谱AI联合华为正式开源新一代多模态图像生成模型GLM-Image。该模型不仅在性能上达到当前行业领先水平(SOTA),更实现了从底层硬件到训练框架的全面国产化,成为我国首个完全基于国产芯片完成全流程训练的高性能多模态大模型。
此次发布的GLM-Image依托华为昇腾Atlas 800T A2计算设备与自主研发的昇思MindSpore AI框架,完成了从原始数据处理、模型架构设计到大规模分布式训练的完整闭环。这一突破标志着我国在高端AI算力基础设施和核心算法协同优化方面取得实质性进展,为构建安全、高效、可持续的人工智能技术生态提供了坚实支撑。
在技术架构层面,GLM-Image创新性地融合了“自回归语言建模”与“扩散机制图像解码”的双重优势,提出了一种全新的混合生成范式。该设计使得模型不仅能精准理解自然语言指令,还能高质量生成细节丰富、语义一致的图像内容。例如,在输入“一只穿宇航服的熊猫在火星上看极光”这类复杂描述时,模型可准确捕捉主体、动作、场景及风格要素,输出符合逻辑且具视觉美感的画面。
这种“认知型生成”能力的实现,得益于模型对图文对齐关系的深度建模。传统生成模型往往将文本理解与图像合成割裂处理,导致生成结果偏离语义或缺乏创造性。而GLM-Image通过统一表征空间与跨模态注意力机制,使语言与视觉信息在多个层次上动态交互,从而提升整体生成质量与可控性。
值得一提的是,该模型的研发过程充分体现了软硬协同的设计理念。昇腾AI芯片针对矩阵运算和张量处理进行了深度优化,配合MindSpore框架的自动并行与内存复用技术,显著提升了训练效率与资源利用率。在同等规模下,训练速度相较通用GPU平台提升近30%,同时功耗降低约25%。这不仅降低了研发成本,也为未来在边缘端部署轻量化版本奠定了基础。
开源是推动技术普惠的重要方式。智谱与华为此次选择将GLM-Image向全球开发者开放,涵盖模型权重、训练代码及推理接口,旨在构建一个开放、协作的国产AI创新生态。教育机构、科研团队及中小企业均可基于该模型进行二次开发,应用于数字艺术创作、智能设计辅助、虚拟场景构建等多个领域。
业内专家指出,GLM-Image的诞生不仅是技术成果的展示,更是国家战略科技力量协同攻关的典范。在全球AI竞争日益激烈的背景下,掌握从芯片到框架再到模型的全链条自主权,已成为保障技术主权与产业安全的关键。此次合作验证了国产AI基础设施支撑前沿研究的能力,也为后续更大规模的认知智能系统研发积累了宝贵经验。
展望未来,智谱AI表示将持续深化与华为等本土科技企业的合作,探索更多面向实际应用场景的多模态解决方案。同时,团队计划推出支持视频生成、三维建模及交互式编辑的进阶版本,进一步拓展“认知型生成”技术的边界。可以预见,随着国产软硬件体系的不断成熟,中国将在全球人工智能创新版图中扮演更加重要的角色。
延伸阅读:
新型神经网络让AI实现类人概念形成、理解与交流
来源:科技日报科技日报记者 陆成宽人类擅长从具体经验中总结出抽象概念,比如见过几次狗,脑子里就有了“狗”的概念。之后再看...
OpenAI宣布完成新一轮融资,券商预计还将承担4-5年的净流出
来源:环球网【环球网财经综合报道】日前,OpenAI宣布完成新一轮1100亿美元融资,公司整体估值达到7300亿美元。O...
