本系列可能含有很多章节,慢慢完善,纯代码,基本上都会使用github.com 的代码
暂时把项目的名称定义为 CookDocs,这个项目是边学边做,中间可能会有变动。
这里会介绍第一步,就是把 pdf 文件转换为 md 文件。
1. 创建环境
1 2 |
conda create --name CookDocs python=3.10 conda activate CookDocs |
2. 安装 pdf 转换 md 工具
这里使用的项目是:https://github.com/VikParuchuri/marker
使用下面命令安装
1 |
pip install -U marker-pdf |
复制你的文档文件到当前目录,假设你的 pdf 文件是 EX_UG_10x.pdf,
1 |
marker_single "EX_SAG_10x.pdf" output --batch_multiplier 2 --langs English |
上面的命令会把 pdf 文件当中 English 来进行处理,会在当面目录下自动创建 output/FX_SAG_10x,目录下会有 FX_SAG_10x.md及其他文件
到这里,我们完成了第一步,pdf 转换为 md 文件
下面会介绍把 md 文件转换为 jsonl 文件,用作后面的微调