何恺明新作:通用“扩散+Transformer”新范式——Just image Transformers
现有去噪(Denoising)扩散模型并非以经典意义上的方式“去噪”,即它们不直接预测干净图像。相反,神经网络预测的是噪声或含噪量。
在这项工作中,ResNet 之父、麻省理工学院(MIT)副教授何恺明团队认为,预测干净数据和预测含噪量有着根本性的不同。根据流形假设,自然数据应位于一个低维流形上,而含噪量则不在此流形上。
基于这一假设,他们提倡回归到第一性原理,让神经网络直接预测干净图像。
这使得表观容量不足的网络能够在高维空间中有效运行,一个简单的 Vision Transformer(ViT)——直接作用于由原始像素组成的大尺寸图像 patch——也可以有效地用于扩散建模。
[让我看看]他们认为,在像素上使用简单、大尺寸 patch 的 Transformer 可以成为强大的生成式模型,无需使用 tokenizer、无需预训练、无需额外损失函数和表征对齐,并将这一方法定义为:Just image Transformers(JiT)。
研究表明,JiT(patch 尺寸为 16、32)在 256 和 512 分辨率 ImageNet 上取得了具有竞争力的结果,而在这种情况下,预测高维含噪量可能会导致灾难性失败。
通过将网络映射到流形基础,这项研究回归本质,为在原始自然数据上基于 Transformer 的扩散模型构建了一个自洽的范式。
[强]研究团队还表示,这项工作标志着在原生数据上实现自包含的“扩散 + Transformer”哲学迈出了重要一步。
[哇]除了计算机视觉之外,这种哲学在涉及自然数据(如蛋白质、分子或天气)的其他领域中也是非常可取的,因为在这些领域中设计 tokenizer 是非常非常困难的。
通过最小化领域特定的设计,这一源自计算机视觉的通用“扩散 + Transformer”范式有望得到更广泛的应用。
#大模型 #人工智能 #AI #扩散模型 #何恺明 #学术 #论文 #科技
延伸阅读:
三行代码就能手搓一个AI应用!蚂蚁OceanBase开源其首款AI数据库
AI时代,真是啥都要快。三行代码构建一个AI应用,现在就这样被蚂蚁OceanBase游刃有余地实现了。熟悉数据库的朋友都...
苹果下一任CEO候选名单曝光:3位高级副总裁成热门人选
据TechWeb,苹果公司正在为库克明年卸任CEO做准备,董事会和高管团队正在加快寻找合适的接班人。目前,苹果下一任CE...
vivo S50 Pro mini手机官宣全球首批搭载第五代骁龙8移动平台
IT之家 11 月 19 日消息,vivo 通信科技有限公司产品经理韩伯啸今日宣布,vivo S50 Pro mini ...
快手Q3成绩单公布:经调整净利润50亿元 可灵AI营业收入超过3亿元
11月19日,快手-W(01024.HK)公布第三季度业绩。财报显示,本季度快手总营收同比增长14.2%至356亿元,其...
派特鲜生退场,侯毅:不建议再开宠物食品实体门店
盒马创始人侯毅的二次创业项目派特鲜生提前退场。11月17日晚,侯毅在一场直播中确认,计划在12月中旬关闭所有派特鲜生线下...
