使用GPU内存和CPU内存装载大模型

这里测试的是开源模型是 meta-llama/Llama-3.1-405B-Instruct,属于开源模型里面最大的。

1. 默认方法

代码如下,这个方法可以加载起来模型,但是在推理的时候会非常慢。

2. 使用 BitsAndBytesConfig

这个方法可以把更多的权重加载到GPU里面,这样速度会快很多,下面是8个24G的GPU内存的内存映射代码。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部