比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构 ,而且在今世减速器上具备很高的更好更强硬件功能。
从 BERT、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子,更好更强Transformer 正以所向无敌之势席卷这个天下,更好更强但人们也不禁会问:Transformer 是更好更强仅有抉择吗?
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底,而且还提出了一种新的更好更强替换技术:Monarch Mixer。克日,更好更强该团队在 arXiv 宣告了相关论文以及一些魔难点模子及磨炼代码 。更好更强顺带一提 ,更好更强该论文已经落选 NeurIPS 2023 并取患上 Oral Presentation 资历 。更好更强
论文地址 :https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
该措施去掉了 Transformer 中高老本的更好更强留意力以及 MLP ,代之以富裕展现力的更好更强 Monarch 矩阵 ,使之在语言以及图像试验中以更低的更好更强老本取患了更优的展现。
这并非斯坦福大学第一次提出 Transformer 的替换技术 。往年六月该校的另一个团队还曾经提出过一种名为 Backpack 的技术 ,参阅机械之心文章《斯坦福磨炼 Transformer 替换模子:1.7 亿参数 ,能除了偏、可控可批注性强》。尽管 ,这些技术要取患上真正的乐成