SliceGPT：通过删除行和列来压缩大型语言模型

Microsoft 在这篇论文中提出了非常好的建议 – “SliceGPT：通过删除行和列来压缩大型语言模型”

对于LLAMA2-70B、OPT 66B和Phi-2模型，SliceGPT可以去除高达25%的模型参数（包括嵌入），同时分别保持密集模型99%、99%和90%的零样本任务性能。

在 24GB 消费级 GPU 上，LLAMA2-70B 上的推理总计算量减少到密集模型的 64%;在 40GB A100 GPU 上将其降低到 66%。 ———

稀疏化是资源约束问题的解决方案，最近的研究表明，经过训练的模型可以在事后进行稀疏化。

现有的稀疏化技术需要额外的数据结构，并且使用当前硬件提供有限的加速。

SliceGPT Paper 提出了一种新的训练后稀疏化方案，该方案将每个权重矩阵替换为更小（密集）的矩阵，从而降低了网络的嵌入维度。

相关文章