不含 MatMul 的 LM

介绍

MatMul-Free LM 是一种语言模型架构,无需矩阵乘法 (MatMul) 运算。此存储库提供了与 🤗 Transformer 库兼容的 MatMul-Free LM 实现。

缩放定律

我们评估了缩放定律如何拟合 Transformer++ 和我们的模型中的 370M、1.3B 和 2.7B 参数模型。为了公平地比较,每个操作的处理方式都相同,尽管我们的模型在某些层中使用了更有效的三元权重。有趣的是,与 Transformer++ 相比,我们模型的缩放预测表现出更陡峭的下降,这表明我们的架构在利用额外的计算来提高性能方面更有效。

github: https://github.com/ridgerchu/matmulfreellm

论文:[2406.02528] Scalable MatMul-free Language Modeling (arxiv.org)

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部