MicroThinker 微思想家的微调过程

0. 简述

现在的AI研究大部分都在专注于提升AI的推理能力,这里我们微调了一个更小的1B实验模型 MicroThinker-1B-Preview。

这样在小的GPU硬件(RTX 4090, 24GB)环境下,更容易实现,

MicroThinker-1B-Preview 的微调模型基于 huihui-ai/Llama-3.2-1B-Instruct-abliterated

微调数据集来自 PowerInfer/QWQ-LONGCOT-500KPowerInfer/LONGCOT-Refine-500K

微调框架使用 modelscope/ms-swift

下面是微调过程:

1. 创建环境

如果在windows 下,可能需要重新安装 torch

2. 下载模型和数据集

3. 第一阶段微调

这里–num_train_epochs 1表示训练了1个epoch,

qwq_500k.jsonl#20000 表示只用了前20000条记录

下面两张图显示微调结果,其他图可以在 images 下找到

4. 保存第一阶段微调后的模型

应该会产生新的模型目录 checkpoint-1237-merged

把这个目录复制或是移动到 huihui 目录下

5. 第二阶段微调

这里–num_train_epochs 1表示训练了1个epoch,

qwq_500k.jsonl#20000 表示只用了前20000条记录,

refine_from_qwen2_5.jsonl#20000 表示也只用了前20000条记录。

6. 推理

找到微调的输出目录 output/Llama-3.2-1B-Instruct-abliterated/lora/sft 下面的目录

7. 保存最后的模型

假设你选择的lora 的目录是 checkpoint-1237,下面的命令执行完毕后,合并后的模型应在 checkpoint-1237-merged 目录里面。

8. 对保存后的模型进行推理

切换到 checkpoint-1237-merged目录的上一层目录,下使用下面的命令进行测试

测试的例子;

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部