RAG 入门教程(PDF-Ollama)

本教程使用了surya-ocr库,实现本地RAG,

使用了嵌入模型 bert-base-multilingual-cased(支持多语言)

和 Ollama 环境下的推理模型 Qwen1.5-1.8B-Chat

Surya 是一个文档 OCR 工具包,可以处理pdf文件和图片等

  • 90+ 种语言的 OCR,与云服务相比具有优势
  • 任何语言的行级文本检测
  • 布局分析(表格、图像、页眉等检测)
  • 读取顺序检测

测试环境:Windows

1. 安装必要的库

2. 引入所有的库

3. 处理 pdf 的函数定义

4. ollama 对话函数

5. 嵌入模型

6. 参数初始化

languages=[“English”],支持多语言,可以自行加入其他语言,比如加入中文

7. 处理 pdf 文件

8. 创建 FAISS 索引和推理

显示部分结果内容:

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部