香港中文大学DraCo让机器学会"打草稿再完善"的创作方式

这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:2512.05112v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们人类画画时,通常会先画一个粗糙的草图,然后不断修改完善,最终得到满意的作品。但现在的AI绘画系统却像是闭着眼睛一次性画完整幅画,经常会出现各种错误,比如画出橙色的苹果却说成是白色的,或者把左右位置搞反了。香港中文大学的研究团队想到一个绝妙的主意:为什么不让AI也学会人类这种”先打草稿,再修改完善”的创作方式呢?

这个想法催生了一项名为DraCo(Draft-as-CoT)的突破性技术。DraCo的工作原理就像一位认真的画家:首先快速画出一幅低分辨率的草图,然后仔细观察这幅草图是否符合要求,发现问题后进行针对性的修改,最终输出高质量的完整作品。这种方法不仅大大提高了AI绘画的准确性,还特别擅长创作那些在现实中很少见的奇特组合,比如白色的橙子或者紫色的椅子。

研究团队发现,传统的AI绘画系统面临两个核心难题。第一个难题是规划过于抽象。传统系统只能通过文字来理解和规划要画的内容,这就像让一个从未见过汽车的人仅凭文字描述来画汽车,结果往往差强人意。第二个难题是罕见组合的生成困难。由于训练数据中很少出现”白色的橙子”这样的奇特组合,AI系统往往会固执地画出常见的橙色橙子,而忽视用户的特殊要求。

一、技术原理:三步走的创作流程

DraCo的工作流程可以比作一个三阶段的绘画过程。在第一阶段”草图绘制”中,系统根据用户的文字描述快速生成一幅384×384像素的低分辨率草图。这个阶段的重点不是细节,而是确保基本的构图和主要元素都能体现出来,就像画家先用铅笔快速勾勒出大致轮廓。

第二阶段是”草图验证”,这是DraCo最独特的创新点。系统会像一位挑剔的艺术评论家一样,仔细观察自己画的草图,将其与原始要求进行对比。如果发现草图中的橙子是橙色的,但用户要求的是白色,系统就会明确指出:”需要将橙子的颜色从橙色改为白色。”这个过程完全依靠系统自身的视觉理解能力,不需要外部的评判标准。

第三阶段是”修正完善”,系统根据第二阶段的分析结果,对草图进行针对性的修改,同时将分辨率提升到1024×1024像素,生成最终的高质量图像。这个过程既保持了草图中正确的部分,又精确修正了存在问题的地方,还增加了丰富的细节。

二、技术创新:专门的引导机制

为了让这套三步流程更好地工作,研究团队开发了一种名为DraCo-CFG的专门引导机制。传统的AI绘画系统在生成图像时,通常只考虑用户的文字描述这一个条件。但DraCo需要同时考虑多个条件:原始的文字描述、草图的视觉信息,以及修改指令。

DraCo-CFG巧妙地将这些不同的条件分层处理。它设计了三种不同的生成模式:无条件生成(完全随机)、仅基于草图的生成(保持草图的基本结构)、以及完全条件生成(综合考虑所有信息)。通过数学上的精确组合,系统能够既保持草图的正确部分,又根据修改指令进行精准调整。

这种设计的妙处在于避免了条件之间的相互干扰。就像调音台上的不同频道,每个条件都有自己独立的”音量控制”,技术人员可以根据需要调高某个条件的影响力,而不会意外地影响其他条件。

三、训练数据:DraCo-240K数据集的构建

为了让AI学会这种草图修改的能力,研究团队精心构建了一个包含24万个训练样本的数据集,称为DraCo-240K。这个数据集的建设过程就像开办一所专门的”AI绘画修改学校”,需要提供大量的”修改前后对比案例”。

数据集涵盖三大类修改能力。第一类是”一般修正”,包括替换物体、改变背景、调整颜色等基本操作,就像教学生如何把画中的苹果改成梨,或者把蓝天改成夕阳。第二类是”实例操控”,专门训练系统处理同类物体的精确控制,比如画面中有五只猫,用户要求只保留三只,系统需要准确识别并删除指定的两只。第三类是”布局重组”,训练系统理解和调整物体之间的空间关系,比如将原本在左边的椅子移到右边。

数据集的制作过程高度自动化。研究团队使用了多种AI工具的组合:利用强大的视觉模型来检测和分割图像中的物体,使用编辑模型来进行精确的图像修改,然后用语言模型来生成相应的文字描述和修改指令。这种自动化流程确保了数据集的规模和质量,同时避免了人工标注的巨大成本。

四、实验验证:显著的性能提升

研究团队在多个权威测试平台上验证了DraCo的效果,结果相当令人兴奋。在GenEval这个综合性评测中,DraCo相比基础模型取得了8%的显著提升,达到了86%的整体准确率。更重要的是,在最具挑战性的”颜色属性”任务中,DraCo的表现特别突出,准确率达到76%,远超其他方法。

在专门测试罕见组合生成能力的ImagineBench上,DraCo同样表现优异,相比基础模型提升了0.91分,相比纯文本规划方法提升了0.18分。这些数字背后代表的是AI在理解和生成非常规图像内容方面的重大进步。

更有说服力的是定性分析结果。研究团队展示了大量的对比案例,DraCo生成的图像不仅在视觉质量上更加清晰细腻,在内容准确性方面也明显优于其他方法。特别是在处理复杂的空间关系、精确的物体计数、以及罕见的颜色组合时,DraCo展现出了其他方法难以匹敌的优势。

五、技术细节:关键设计选择的智慧

研究过程中的一些技术细节选择体现了团队的深思熟虑。比如草图分辨率的选择,团队测试了128×128、384×384和1024×1024三种分辨率。128×128太小,无法表达足够的语义信息,系统连基本的物体都难以识别;1024×1024太大,不仅增加了计算负担,还失去了”草图快速预览”的初衷。384×384恰好平衡了表达能力和效率。

另一个关键选择是在验证阶段只使用视觉特征而不使用低级图像特征。传统的图像编辑系统会保留所有的图像细节信息,但DraCo deliberately选择忽略这些细节,专注于高层次的语义理解。这种设计让系统能够进行更大胆的修改,不会被草图中的小瑕疵所束缚。

训练过程中的数据组织也很有讲究。系统不仅学习如何进行修改,还学习什么时候不需要修改。当草图已经完美匹配用户要求时,系统会明确说明”无需修改”,然后直接进行超分辨率处理。这种正负样本的平衡训练让系统学会了更准确的判断能力。

六、应用前景:从实验室到现实世界

DraCo技术的意义远超纯粹的技术突破,它为AI绘画领域带来了全新的思路。这种”计划-验证-修正”的范式可能会成为未来AI创作系统的标准流程,不仅适用于图像生成,也可能扩展到视频、3D模型等其他创作领域。

对于普通用户而言,DraCo意味着AI绘画工具将变得更加可靠和精确。用户不再需要反复尝试不同的描述来获得满意的结果,系统能够更好地理解和实现用户的创意想法,特别是那些独特或非常规的创意。

从商业角度来看,这项技术有望推动AI绘画应用在更多专业领域的普及,比如广告设计、产品展示、教育插图等。当AI能够可靠地生成用户要求的精确内容时,它就能真正成为创作者的得力助手,而不仅仅是一个需要”运气”的创意工具。

研究团队也坦诚地指出了当前技术的局限性。DraCo目前专门针对静态图像设计,要扩展到视频或3D内容还需要额外的技术发展。而且,虽然系统在大多数情况下表现优秀,但在处理极其复杂或抽象的创作要求时仍有提升空间。

说到底,DraCo代表了AI绘画技术发展的一个重要里程碑。它证明了让AI模仿人类创作思维的可行性和有效性,也为这个快速发展的领域指明了新的方向。随着技术的不断完善,我们有理由期待AI创作工具能够真正理解和实现人类的创意想法,成为每个人都能使用的强大创作伙伴。

Q&A

Q1:DraCo技术是如何工作的?

A:DraCo采用三步创作流程:先生成低分辨率草图,然后分析草图与要求的差异,最后进行针对性修改并提升分辨率。这种方式模仿了人类画家的创作过程,能够更准确地生成用户想要的图像。

Q2:DraCo相比传统AI绘画有什么优势?

A:DraCo在生成准确性上有显著提升,特别擅长创作罕见的颜色组合和处理复杂的空间关系。在权威测试中,它比基础模型提升了8%的准确率,在颜色属性任务中表现尤为出色。

Q3:普通用户什么时候能用上DraCo技术?

A:目前DraCo还处于研究阶段,论文已于2025年12月发布。虽然研究团队在GitHub上提供了项目信息,但要成为普通用户可以直接使用的商业产品还需要一段时间的开发和优化。

暂无介绍....

延伸阅读:

香港中文大学DraCo让机器学会"打草稿再完善"的创作方式

这项由香港中文大学MMLab实验室的姜东志、张人瑞等研究团队开发的技术发表于2025年12月,论文编号为arXiv:25...

娱乐大事件
2025年12月11日
我国科学家揭示白羽肉鸡“抗病密码”

记者从中国农业科学院获悉,中国农业科学院北京畜牧兽医研究所鸡遗传育种创新团队近日通过整合多组学数据,系统筛选了白羽肉鸡与...

摸鱼小能手
2025年12月11日
腾讯实验室发布智能机器人导航突破:让AI像人类一样理解空间

这项由腾讯AI实验室的王正成、林子川、杨艺君、傅浩波、叶德恒等研究人员共同完成的研究,发表于2024年12月的arXiv...

八卦小灵通
2025年12月11日
商务部:加大AI、大数据、云计算等技术应用 推动二手商品流通线上线下深度融合

智通财经APP获悉,12月11日,商务部召开例行新闻发布会。商务部新闻发言人何亚东表示,近年来,我国二手商品市场规模持续...

摸鱼小能手
2025年12月11日
小米米家首款自产中央空调亮相武汉智能家电工厂,双风轮双出风

IT之家 12 月 11 日消息,小米首座大家电工厂 —— 武汉小米智能家电工厂一期已竣工投产,小米集团合伙人 / 总裁...

娱乐大事件
2025年12月11日
🧟 AI 助手