8年后，Transformers被Meta改写了：多了一个隐藏“心智”！

Meta 科学家改写了 Transformers 的思考方式！

[让我看看]改进的 Transformers 不再只是预测「下一个 token」，还拥有了自身意图。

在一篇新发表的论文中，Meta 研究科学家 François Fleuret 构建了一个生成过程依赖于潜变量的 Transformer 模型——Free Transformer。

有 X 网友评价道，Free Transformer 为大语言模型（LLM）赋予了一个隐藏的“心智”，使得模型能够在开始“说话”之前自行决定如何生成，“打破了自 2017 年以来大多数 LLM 都遵循的核心规则”。

[强]据论文描述，要实现这一点，编码器 Transformer 在生成阶段只需要一个随机源，但在训练阶段则需要一个编码器，从而构成一个条件变分自编码器（conditional VAE）。

Free Transformer 就是这样一种“Transformer VAE”。它通过让编码器和解码器共享一半的层结构，并仅为解码器增加一个专属模块，从而减轻了计算开销。

这个额外的模块不是因果结构（non-causal）的，因此编码器可以看到完整的序列。与标准 VAE 类似，编码器向解码器传递的信息量由 KL 散度项来控制。

在合成序列上的实验表明，当 KL 散度增大时，模型确实会越来越多地利用潜变量 Z，直到最终出现坍塌（collapse）。

使用 FAIR 框架及不同规模基础模型进行的实验表明，这一方法能够有效提升模型在 GSM8K、MMLU 和 HumanEval 等标准基准测试上的性能。

#大模型 #LLM #论文 #学习 #transformers

paper：https://arxiv.org/abs/2510.17558

暂无介绍....

医械网	工业品资讯
广告位	广告位