20个模型同时运行,实现多模型协同

1.实验目的

提供高质量的回复

2.硬件环境

GPU: 8块 NVIDIA RTX 4090, 每个24GB内存,合计 24*8=192GB 内存

CPU: 2颗 Intel Xeon Platinum 8360Y(36核*2),合计 72核,144线程

MEM: 4 * 64GB = 256GB 内存

Board:Supermicro SYS-420GP-TNR

3. 软件环境

OS: Windows 11 Pro

Software: python3.10, ollama 0.3.6

4. 模型

模型使用 library (ollama.com) 上截止于2024-08-17 的最流行的模型,凑够196G内存使用,具体参考下面的代码

5. 环境创建

下载 https://ollama.com/download/OllamaSetup.exe 然后进行安装

然后根据代码中提到的模型,进行下载,选择一个最大的模型对其他小模型提供一个经过改进的、准确且全面的回应。

6. 环境确认

6.1.在运行前确保所有显卡对 ollama 可见, 设置系统环境变量,重新打开 cmd 窗口

使用 set 命令显示

6.2.在当前 cmd 窗口查找 ollama 进程

6.3.杀掉 ollama app.exe 进程

taskkill /pid 6164

最好再多次检查, 看 ollama 的所有进程是否都已经关闭

6.4.然后运行 ollama ls 查看,这样, ollama 的运行环境就在 8个显卡的环境下了。

7. 运行代码测试

下面的代码是异步处理的,所以每次结果会不一样。

8. 运行结果

8.1 GPU 情况

8.2 最终显示结果

在所有模型都加载的情况下,耗时 131.29 秒

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部