Microsoft 在这篇论文中提出了非常好的建议 – “SliceGPT:通过删除行和列来压缩大型语言模型”
对于LLAMA2-70B、OPT 66B和Phi-2模型,SliceGPT可以去除高达25%的模型参数(包括嵌入),同时分别保持密集模型99%、99%和90%的零样本任务性能。
在 24GB 消费级 GPU 上,LLAMA2-70B 上的推理总计算量减少到密集模型的 64%;在 40GB A100 GPU 上将其降低到 66%。 ———
稀疏化是资源约束问题的解决方案,最近的研究表明,经过训练的模型可以在事后进行稀疏化。
现有的稀疏化技术需要额外的数据结构,并且使用当前硬件提供有限的加速。
SliceGPT Paper 提出了一种新的训练后稀疏化方案,该方案将每个权重矩阵替换为更小(密集)的矩阵,从而降低了网络的嵌入维度。