2024 年 10 月

模型在GPU内存的映射关系

发表评论 / AI, LLM, LLMS / 2024年10月22日

这里我们以 nvidia/Llama-3.1-Nemotron-70B-Instruct-HF 为例来说明问题 […]

模型在GPU内存的映射关系 Read More »

多GPU情况下,如何处理GPU内存不够

发表评论 / AI, AI 新闻, LLM, LLMS / Transformers / 2024年10月22日

多GPU情况下，模型加载成功了，但是做推理的时候，还会使用GPU，导致GPU 不够，如何处理，卸载部分到CPU

多GPU情况下,如何处理GPU内存不够 Read More »

何为奖励模型？

发表评论 / 信息安全文章 / 奖励模型 / 2024年10月15日

何为奖励模型？奖励模型（Reward Model）是强化学习（Reinforcement Learning，

何为奖励模型？ Read More »

何为强化学习？

发表评论 / 信息安全文章 / 2024年10月15日

强化学习（Reinforcement Learning，RL）是一种机器学习方法，通过让智能体（Agent）与

何为强化学习？ Read More »

强化学习的应用环境

发表评论 / 信息安全文章 / 强化学习 / 2024年10月15日

强化学习（Reinforcement Learning，RL）具有广泛的应用环境，尤其是在那些需要通过连续决策

强化学习的应用环境 Read More »