在单个 4GB GPU 上运行 Meta-Llama-3-8B-Instruct – 使用 airllm 和分层推理
0. 原理 分层推理本质上是“分而治之”的方法 这没有使用量化、蒸馏、修剪或其他模型压缩技术 大型语言模型之所 […]
在单个 4GB GPU 上运行 Meta-Llama-3-8B-Instruct – 使用 airllm 和分层推理 Read More »
0. 原理 分层推理本质上是“分而治之”的方法 这没有使用量化、蒸馏、修剪或其他模型压缩技术 大型语言模型之所 […]
在单个 4GB GPU 上运行 Meta-Llama-3-8B-Instruct – 使用 airllm 和分层推理 Read More »
有些情况下,在windows 下需要代理,但又想wsl2 也可以使用此代理。 在管理员权限下操作: 在Wind
wsl2 使用 Windows 下的代理 Read More »
这里测试的是 andorid 系列手机 在 Release v0.118.0 · termux/termux-
在手机(android)上运行AI大模型llama3、phi3、qwen Read More »
使用的是树莓派(raspberrypi)5,8G 内存 0. 直接下载,然后运行 参照 ollama/docs
在树莓派上运行AI大模型 llama3、phi3 Read More »
这里接上一节 对C程序的中文注解,下面是对 train_gpt2.cu 的注解,所有注解来自ChatGPT4。
llm.c 的中文注解-20240423 Read More »
llm.c 简单、纯 C/CUDA 的 LLM 训练。不需要 245MB 的 PyTorch 或 107MB
llm.c 的中文注解-20240421 Read More »
编译环境 ubuntu 22.04 编译的版本是 openwrt-23.05 树莓派 4B 1. 安装开发环境
树莓派(raspberrypi)下编译 OpenWrt Read More »
建议在网络上广为流传。 此笔记本演示如何使用嵌入来查找要推荐的类似项目。特别是,我们使用 AG 的新
OpenAI 使用嵌入和最近邻搜索的建议 Read More »
在许多常见情况下,模型未在数据上进行训练,这些数据包含要在生成对用户查询的响应时可访问的关键事实和信息。如下所
OpenAI 使用基于嵌入的搜索回答问题 Read More »