Transformer的高下文学习能耐是哪来的?
有实际根基 ,高下咱们就能妨碍深度优化了。文学
为甚么 transformer 功能这么好 ?它给泛滥狂语言模子带来的高下高下文学习 (In-Context Learning) 能耐是从何而来 ?在家养智能规模里 ,transformer 已经成为深度学习中的文学主导模子,但人们对于它卓越功能的高下实际根基却不断钻研缺少 。
最近,文学来自 Google AI 、高下苏黎世联邦理工学院 、文学Google DeepMind 钻研职员的高下新钻研试验为咱们揭开谜底。在新钻研中 ,文学他们对于 transformer 妨碍了逆向工程 ,高下追寻到了一些优化措施。文学论文《Uncovering mesa-optimization algorithms in Transformers》:
论文链接:https://arxiv.org/abs/2309.05858
作者证实,高下最小化通用自回归损失会发生在 Transformer 的文学前向传递中运行的基于辅助梯度的优化算法。这种天气最近被称为「mesa 优化(mesa-optimization)」。高下此外 ,钻研职员发现所患上的 mesa 优化算法展现出高下文中的小样本学习能耐,与模子规模无关。因此,新的服从对于此前狂语言模子中泛起的小样本学习的道理妨碍了填补。
钻研职员以为 :Transformers 的乐成基于其在前向传递中实现 mesa 优化算法的架构倾向:(i) 界说外部学习目的 ,以及 (ii) 对于其妨碍优化。
。该钻研的贡献搜罗 :
演绎综合了 von Oswald 等人的实际 ,并揭示了从实际上,Transformers 是若何经由运用基于梯度的措施优化外部构建的目的来自回归预料序列下一个元素的 。
经由试验对于在重大序列建模使命上磨炼的 Transformer 妨碍了逆向工程 ,并发现强有力的证据表明它们的前向传递实现为了两步算法:(i) 早期自留意力层经由火组以及复制标志构建外部磨炼数据集 ,因此隐式地构建外部磨炼数据集 。界说外部目的函数 ,(ii) 更深条理优化这些目的以天生预料。
与 LLM 相似 ,试验表明重大的自回归磨炼模子也可能成为高下文学习者