在单个 4GB GPU 上运行 Meta-Llama-3-8B-Instruct – 使用 airllm 和分层推理

0. 原理

分层推理本质上是“分而治之”的方法

这没有使用量化、蒸馏、修剪或其他模型压缩技术

大型语言模型之所以体积大，占用大量内存，主要是因为它们的结构包含许多“层”。从LLM嵌入投影层开始，然后是许多相同的变压器层。 8B 型号有32 层。但是在推理过程中，每一层都是独立的，只依赖于前一层的输出。因此，在运行层后，可以释放其内存，仅保留层的输出。基于这一概念，AirLLM实现了分层推理。如何在基于LLMTransformer的推理过程中，各层是按顺序执行的。上一层的输出是下一层的输入。一次只执行一个图层。因此，完全没有必要将所有层都保留在 GPU 内存中。我们可以在执行该层时从磁盘加载所需的任何层，执行所有计算，然后完全释放内存。这样一来，每层所需的 GPU 内存仅为一个 transformer 层的参数大小，即完整型号的 1/32，约为 417MB。

然后使用闪存深度优化cuda内存访问，实现多倍加速按层分片模型文件。

使用 HuggingFace Accelerate 提供的元设备功能。当您通过元设备加载模型时，实际上不会读取模型数据，只会加载代码。内存使用率为 0。

提供使用“压缩”参数进行量化的选项 “压缩”：支持的选项：4 位、8 位用于 4 位或 8 位块级量化

引用连接：https://github.com/lyogavin/Anima

1. 推理 Meta-Llama-3-8B-Instruct

1.1 查看 config.json

{
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": true,
  "vocab_size": 128256
}

{

"architectures": [

"LlamaForCausalLM"

"attention_bias": false,

"attention_dropout": 0.0,

"bos_token_id": 128000,

"eos_token_id": 128001,

"hidden_act": "silu",

"hidden_size": 4096,

"initializer_range": 0.02,

"intermediate_size": 14336,

"max_position_embeddings": 8192,

"model_type": "llama",

"num_attention_heads": 32,

"num_hidden_layers": 32,

"num_key_value_heads": 8,

"pretraining_tp": 1,

"rms_norm_eps": 1e-05,

"rope_scaling": null,

"rope_theta": 500000.0,

"tie_word_embeddings": false,

"torch_dtype": "bfloat16",

"transformers_version": "4.40.0.dev0",

"use_cache": true,

"vocab_size": 128256

}

模型类型 (model_type): llama
隐藏层激活函数 (hidden_act): silu
隐藏层大小 (hidden_size): 4096
中间层大小 (intermediate_size): 14336
最大位置嵌入数 (max_position_embeddings): 8192
注意力头数 (num_attention_heads): 64
隐藏层数 (num_hidden_layers): 32
键值头数 (num_key_value_heads): 8
词汇表大小 (vocab_size): 128256
初始化范围 (initializer_range): 0.02
注意力丢失 (attention_dropout): 0.0
标准化余弦阈值 (rms_norm_eps): 1e-05
绑定词嵌入 (tie_word_embeddings): false
张量数据类型 (torch_dtype): bfloat16
Transformers版本 (transformers_version): 4.40.0.dev0
是否使用缓存 (use_cache): true
起始标记ID (bos_token_id): 128000
结束标记ID (eos_token_id): 128001
Rope theta值 (rope_theta): 500000.0

从配置文件里的参数 num_hidden_layers 为 80，标识模型权重有80层

1.2 尝试加载

参照 airllm 的例子，加载 Meta-Llama-3-8B-Instruct

from airllm import AutoModel

MAX_LENGTH = 128
# could use hugging face model repo id:
model = AutoModel.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")
input_text = [
        'What is the capital of United States?',
        #'I like',
    ]

input_tokens = model.tokenizer(input_text,
    return_tensors="pt", 
    return_attention_mask=False, 
    truncation=True, 
    max_length=MAX_LENGTH, 
    padding=False)
           
print(f'input_tokens:{len(input_tokens.input_ids[0])}')
           
generation_output = model.generate(
    input_tokens['input_ids'].cuda(), 
    max_new_tokens=20,
    use_cache=True,
    return_dict_in_generate=True)

print(f'output_tokens:{len(generation_output.sequences[0])}')
output = model.tokenizer.decode(generation_output.sequences[0])
print(output)

from airllm import AutoModel

MAX_LENGTH = 128

# could use hugging face model repo id:

model = AutoModel.from_pretrained("meta-llama/Meta-Llama-3-8B-Instruct")

input_text = [

'What is the capital of United States?',

#'I like',

]

input_tokens = model.tokenizer(input_text,

return_tensors="pt",

return_attention_mask=False,

truncation=True,

max_length=MAX_LENGTH,

padding=False)

print(f'input_tokens:{len(input_tokens.input_ids[0])}')

generation_output = model.generate(

input_tokens['input_ids'].cuda(),

max_new_tokens=20,

use_cache=True,

return_dict_in_generate=True)

print(f'output_tokens:{len(generation_output.sequences[0])}')

output = model.tokenizer.decode(generation_output.sequences[0])

print(output)

运行结果

python test_airllm_8B.py
>>>> bitsandbytes installed
>>>> cache_utils installed
found index file...
  0%|                                      | 0/35 [00:00<?, ?it/s]Loading shard 1/4
saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.embed_tokens.safetensors
  3%|███▋                                  | 1/35 [00:39<22:19, 39.39s/it]
saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.0.safetensors
  6%|███████                               | 2/35 [00:55<14:09, 25.74s/it]
saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.1.safetensors
  9%|██████████▉                           | 3/35 [01:12<11:40, 21.88s/it]
saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.2.safetensors
 11%|██████████████▌                       | 4/35 [01:29<10:16, 19.87s/it]
saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.3.safetensors

...

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/lm_head.safetensors
100%|███████████████████ | 35/35 [10:02<00:00, 17.23s/it]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
input_tokens:8
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:18<00:00,  3.95s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:20<00:00,  4.01s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:19<00:00,  3.98s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:16<00:00,  3.90s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.92s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:20<00:00,  4.03s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:14<00:00,  3.84s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:24<00:00,  4.12s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:22<00:00,  4.06s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.94s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.93s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:15<00:00,  3.87s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.93s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.93s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:20<00:00,  4.01s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.94s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:15<00:00,  3.88s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:13<00:00,  3.82s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.93s/it]
new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...
attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>
running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00,  3.94s/it]
output_tokens:28
What is the capital of United States? A) Washington D.C. B) New York C) Los Angeles D) Chicago
Answer:

python test_airllm_8B.py

>>>> bitsandbytes installed

>>>> cache_utils installed

found index file...

0%| | 0/35 [00:00<?, ?it/s]Loading shard 1/4

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.embed_tokens.safetensors

3%|███▋ | 1/35 [00:39<22:19, 39.39s/it]

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.0.safetensors

6%|███████ | 2/35 [00:55<14:09, 25.74s/it]

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.1.safetensors

9%|██████████▉ | 3/35 [01:12<11:40, 21.88s/it]

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.2.safetensors

11%|██████████████▌ | 4/35 [01:29<10:16, 19.87s/it]

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/model.layers.3.safetensors

...

saved as: meta-llama/Meta-Llama-3-8B-Instruct/splitted_model/lm_head.safetensors

100%|███████████████████ | 35/35 [10:02<00:00, 17.23s/it]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

input_tokens:8

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.

Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:18<00:00, 3.95s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:20<00:00, 4.01s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:19<00:00, 3.98s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:16<00:00, 3.90s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00, 3.92s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:20<00:00, 4.03s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:14<00:00, 3.84s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:24<00:00, 4.12s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:22<00:00, 4.06s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00, 3.94s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:17<00:00, 3.93s/it]

new version of transfomer, no need to use BetterTransformer, try setting attn impl to sdpa...

attn imp: <class 'transformers.models.llama.modeling_llama.LlamaSdpaAttention'>

running layers(self.running_device): 100%|█████████████████████████████| 35/35 [02:15<00:00, 3.87s/it]