介绍
MatMul-Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformer 库兼容的 MatMul-Free LM 实现。
缩放定律
我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平地比较,每个操作的处理方式都相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放预测表现出更陡峭的下降,这表明我们的架构在利用额外的计算来提高性能方面更有效。
github: https://github.com/ridgerchu/matmulfreellm
论文:[2406.02528] Scalable MatMul-free Language Modeling (arxiv.org)