何恺明新作：通用“扩散+Transformer”新范式——Just image Transformers

现有去噪（Denoising）扩散模型并非以经典意义上的方式“去噪”，即它们不直接预测干净图像。相反，神经网络预测的是噪声或含噪量。

在这项工作中，ResNet 之父、麻省理工学院（MIT）副教授何恺明团队认为，预测干净数据和预测含噪量有着根本性的不同。根据流形假设，自然数据应位于一个低维流形上，而含噪量则不在此流形上。

基于这一假设，他们提倡回归到第一性原理，让神经网络直接预测干净图像。

这使得表观容量不足的网络能够在高维空间中有效运行，一个简单的 Vision Transformer（ViT）——直接作用于由原始像素组成的大尺寸图像 patch——也可以有效地用于扩散建模。

[让我看看]他们认为，在像素上使用简单、大尺寸 patch 的 Transformer 可以成为强大的生成式模型，无需使用 tokenizer、无需预训练、无需额外损失函数和表征对齐，并将这一方法定义为：Just image Transformers（JiT）。

研究表明，JiT（patch 尺寸为 16、32）在 256 和 512 分辨率 ImageNet 上取得了具有竞争力的结果，而在这种情况下，预测高维含噪量可能会导致灾难性失败。

通过将网络映射到流形基础，这项研究回归本质，为在原始自然数据上基于 Transformer 的扩散模型构建了一个自洽的范式。

[强]研究团队还表示，这项工作标志着在原生数据上实现自包含的“扩散 + Transformer”哲学迈出了重要一步。

[哇]除了计算机视觉之外，这种哲学在涉及自然数据（如蛋白质、分子或天气）的其他领域中也是非常可取的，因为在这些领域中设计 tokenizer 是非常非常困难的。

通过最小化领域特定的设计，这一源自计算机视觉的通用“扩散 + Transformer”范式有望得到更广泛的应用。

#大模型 #人工智能 #AI #扩散模型 #何恺明 #学术 #论文 #科技

暂无介绍....

医械网	工业品资讯
广告位	广告位