杰力皓博

首页
信息安全产品
信息安全文章
- Android
- GitHub
- Hacking Windows
- IDA Pro
- iOS
- Kali
- Linux
- Metasploit
- MITRE
- MPIR
- OSINT
- Reverse Engineering Malware
- Sysinternals
- Wi-Fi
- Windows
- Web App Hacking
- x86matthew.com
信息安全新闻
AI
- AI 新闻
- GPT
  - ChatGPT
  - OpenAI
- LLM
例子
样本分析
本站小工具
关于
隐私政策
商店
购物车
结账
我的帐户

杰力皓博

关于
商店
我的帐户
结账
购物车
隐私政策

搜索

近期文章

MicroThinker 微思想家的微调过程
将 LLMs 精调至 1.58 比特：使极端量化变简单
python 任何有效的标识符作为变量名或函数名，包括中文字符
使用GPU内存和CPU内存装载大模型
科学 PDF 文档翻译及双语对照工具

近期评论

Lemmmnn 发表在通过ssh 暴力破解密码的IP集合（20230708-20230807)
wp_admin 发表在 LockBit 3.0 勒索软件解锁
王发表在 LockBit 3.0 勒索软件解锁
随风发表在通过ssh 暴力破解密码的IP集合（20230708-20230812)
wp_admin 发表在 Wi-Fi黑客攻击，第11部分：PMKID攻击

归档

分类

首页
llama3.cuda

llama3.cuda

发表评论 / AI, LLM, LLMS

llama3.cuda 是使用纯C/cuda 完成的代码，连接是：https://github.com/likejazz/llama3.cuda

主要特点是：

无依赖性
它简单、可读且无依赖性，可确保随时随地轻松编译。支持 Makefile 和 CMake。
没有 C++
它是一个不使用 C++ 的纯 C 实现，大多数值都被视为指针。
一个文件
即使包含大量样板代码，例如 UTF-8 字节序列处理，它也将整个代码保持在单个文件中的 900 行以下。
相同的结果
为了获得与 NumPy 实现完全相同的结果，我手动调试了 logit 值以降低浮点运算错误率，并将错误率降低到 0.5% 以下。
高性能
虽然 M2 MacBook Air 上的 NumPy 实现处理了 33 个令牌/秒，但 CUDA 版本在 NVIDIA 4080 SUPER 上处理了 2,823 个令牌/秒，速度大约快了 85 倍。这个实验真正证明了为什么我们应该使用 GPU。

Post navigation

← 前一篇文章

后一篇文章 →

相关文章

如何在 huggingface.co 上通过 ssh public key 克隆一个项目

发表评论 / LLM, LLMS, 信息安全新闻 / 作者： wp_admin / 2023年8月15日 / Git, huggingface.co, ssh

LoRA 的工作原理

发表评论 / ChatGPT, GPT, LLM, LLMS, OpenAI, 信息安全文章 / 作者： wp_admin / 2024年1月27日 / chatGPT, OpenAI API

发表评论取消回复

您的邮箱地址不会被公开。必填项已用 * 标注

在此输入...

Name*

电子邮箱*

网站

在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。

所有信息安全产品的购买和技术支持请发送邮件到
zhangxj@aqwu.net
进行咨询

Copyright © 北京杰力皓博软件系统有限公司

网站备案号：京ICP备18040786号-1

滚动至顶部