SliceGPT:通过删除行和列来压缩大型语言模型

Microsoft 在这篇论文中提出了非常好的建议 – “SliceGPT:通过删除行和列来压缩大型语言模型”

对于LLAMA2-70B、OPT 66B和Phi-2模型,SliceGPT可以去除高达25%的模型参数(包括嵌入),同时分别保持密集模型99%、99%和90%的零样本任务性能。

在 24GB 消费级 GPU 上,LLAMA2-70B 上的推理总计算量减少到密集模型的 64%;在 40GB A100 GPU 上将其降低到 66%。 ———

稀疏化是资源约束问题的解决方案,最近的研究表明,经过训练的模型可以在事后进行稀疏化。

现有的稀疏化技术需要额外的数据结构,并且使用当前硬件提供有限的加速。

SliceGPT Paper 提出了一种新的训练后稀疏化方案,该方案将每个权重矩阵替换为更小(密集)的矩阵,从而降低了网络的嵌入维度。

论文地址:https://arxiv.org/abs/2401.15024

github:https://github.com/microsoft/TransformerCompression

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部