了解 LLaMA-2 模型结构(5)

9. 转换 tokenizer.model 并保存

前面的章节转换模型的所有权重后,还需要转换 tokenizer.model 为自己需要的格式。

把 meta-llama/Llama-2-7b-chat-hf/ 目录下的 tokenizer.model 拷贝到 newsrc 目录下。

参照 https://github.com/karpathy/llama2.c 项目下的 tokenizer.py 文件,命名为 test09.py,文件保存到 newsrc 目录下:

运行 test09.py, 查看newsrc 的文件目录

10. 查看 tokenizer.bin

下面给出的例子开始的都是C/C++代码,这样更好理解文件里面的内容

参照 https://github.com/karpathy/llama2.c 项目下的 run.c 文件,命名为 test01.c,文件保存到 newsrc 目录下:

编译 test01.c

运行 test01

由于输出的内容很多,所以我们把输出重定向到 1.txt 文件中,下面是 1.txt 文件的开头和结尾部分内容

可以看到,token 的最大长度为27

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部