了解 LLaMA-2 模型结构(6)

11. 将字符串编码为令牌序列

在聊天的时候,需要把字符串通过 tokenizer 进行编码,命名为 test10.py,文件保存到 newsrc 目录下:

运行 test10.py

通过 AutoTokenizer 来编码,命名为 test11.py,文件保存到 newsrc 目录下:

运行 test11.py

下面我们通过C语言来实现,参照 https://github.com/karpathy/llama2.c 项目下的 run.c 文件,命名为 test02.c,文件保存到 newsrc 目录下:

编译 test02.c

运行 test02

从 test10.py 和 test02.c 的运行结果来看,运行结果是一致的

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部