使用 loRA 微调一个 PDF 使用手册(1)

本系列可能含有很多章节,慢慢完善,纯代码,基本上都会使用github.com 的代码

暂时把项目的名称定义为 CookDocs,这个项目是边学边做,中间可能会有变动。

这里会介绍第一步,就是把 pdf 文件转换为 md 文件

1. 创建环境

2. 安装 pdf 转换 md 工具

这里使用的项目是:https://github.com/VikParuchuri/marker

使用下面命令安装

复制你的文档文件到当前目录,假设你的 pdf 文件是 EX_UG_10x.pdf,

上面的命令会把 pdf 文件当中 English 来进行处理,会在当面目录下自动创建 output/FX_SAG_10x,目录下会有 FX_SAG_10x.md及其他文件

到这里,我们完成了第一步,pdf 转换为 md 文件

下面会介绍把 md 文件转换为 jsonl 文件,用作后面的微调

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部