在计算、网络和图形的历史中,Nvidia 有许多独特之处。但其中之一是,它现在手头有这么多钱,而且由于其架构、工程和供应链,它在生成式人工智能市场上处于领先地位,以至于它可以沉迷于它认为可能取得进展的任何路线图。
到 2000 年代,Nvidia 已经是一个非常成功的创新者,它真的不必扩展到数据中心计算领域。但 HPC 研究人员将 Nvidia 拉入了加速计算领域,然后 AI 研究人员利用 GPU 计算并创造了一个全新的市场,该市场已经等待了四十年,以合理的价格等待大量计算与大量数据碰撞,真正将感觉越来越像思考机器的东西带入生活。
丹尼·希利斯(Danny Hillis)、马文·明克西(Marvin Minksy)和谢丽尔·汉德勒(Sheryl Handler)在1980年代创立了Thinking Machines,试图构建这样的机器,以推动人工智能处理,而不是传统的HPC模拟和建模应用程序,以及Yann LeCun,他大约在同一时间在AT&T贝尔实验室创建卷积神经网络。他们既没有数据也没有计算能力来制造我们现在所知道的人工智能。当时,黄仁勋是制造存储芯片的LSI Logic的董事,并最终成为AMD的CPU设计师。就在 Thinking Machines 在 1990 年代初期遇到困难(并最终破产)时,黄仁勋在圣何塞东侧的 Denny’s 与 Chris Malachowsky 和 Curtis Priem 会面,他们创立了 Nvidia。正是英伟达看到了来自研究和超大规模社区的新兴人工智能机会,并开始构建系统、软件和底层大规模并行硬件,以实现人工智能革命的梦想,而这些梦想从第一天起就一直是计算的一部分。
这始终是计算的最终状态,这始终是我们一直在朝着的奇点——或者说是两极性——前进的方向。如果其他星球上有生命,那么生命总是会进化到一个点,即那个世界拥有大规模杀伤性武器,并且总是创造人工智能。而且可能也差不多在同一时间。在那一刻之后,世界对任何一种技术所做的事情决定了它是否能在大规模灭绝事件中幸存下来。
这听起来可能不像是对芯片制造商路线图讨论的正常介绍。事实并非如此,那是因为我们生活在一个有趣的时代。
在台湾台北举行的年度 Computex 贸易展上发表主题演讲时,英伟达的联合创始人兼首席执行官再次试图将生成式人工智能革命(他称之为第二次工业革命)置于其背景下,并一窥人工智能的未来,尤其是英伟达的硬件。我们得到了 GPU 和互连路线图的预览——据我们所知,直到最后一刻,这才成为计划的一部分,就像黄仁勋和他的主题演讲经常出现的情况一样。
革命是不可避免的
生成式人工智能是关于规模的,黄仁勋提醒我们这一点,并指出 2022 年底的 ChatGPT 时刻只有在出于技术和经济原因的情况下才会发生。
要达到 ChatGPT 的突破时刻,需要 GPU 性能的大量增长,然后还需要大量的 GPU。英伟达确实提供了性能,这对人工智能训练和推理都很重要,重要的是,它从根本上减少了生成代币作为大型语言模型响应的一部分所需的能量。看一看:
在“Pascal”P100 GPU 一代和“Blackwell”B100 GPU 一代之间的八年中,GPU 的性能提升了 1,053 倍,后者将于今年晚些时候开始发货,并持续到 2025 年。(我们知道图表上显示的是 1,000 倍,但这并不精确。
部分性能来自浮点精度的降低 – 从 Pascal P100、Volta V100 和 Ampere A100 GPU 的 FP16 格式转变为 Blackwell B100 中使用的 FP4 格式,降低了 4 倍。如果没有精度的降低,这可以在不严重损害 LLM 性能的情况下完成——这要归功于数据格式、软件处理和执行此操作的硬件方面的大量数学魔力——性能提升将只有 263 倍。请注意,这在CPU市场已经持续了八年,每个时钟的核心性能增加10%到15%,核心数量增加25%到30%是正常的。如果升级周期为两年,则在相同的八年内,CPU 吞吐量将增加 4 到 5 倍。
如上所示,每单位功耗的降低是一个关键指标,因为如果您无法为系统供电,则无法使用它。代币的能源成本必须下降,这意味着为 LLM 生成的每个代币的能量必须比性能提高更快。
在他的主题演讲中,为了给你一些更深入的背景,在Pascal P100 GPU上生成一个令牌的17,000焦耳大约相当于运行两个灯泡两天,平均每个字需要大约三个令牌。因此,如果您生成了很多单词,那就是很多灯泡!现在你开始明白为什么八年前甚至不可能以使其在任务上表现良好的规模运行LLM。看看在 1.8 万亿个参数、8 万亿个数据代币上训练 GPT-4 Mixture of Experts LLM 所需的功率,这些参数驱动模型:
对于 P100 集群来说,超过 1,000 吉瓦时是很多果汁。令人叹为观止,真的。
黄仁勋解释说,借助 Blackwell GPU,公司将能够在大约 10,000 个 GPU 上在大约 10,000 个 GPU 上训练这款 GPT-4 1.8T MoE 模型。
如果人工智能研究人员和英伟达没有降低精度,那么在这八年的时间里,性能提升将只有250倍。
降低能源成本是一回事;降低系统成本是另一回事。在传统的摩尔定律结束时,两者都是非常困难的技巧,在传统摩尔定律中,每 18 到 24 个月缩小一次晶体管,芯片就会变得更便宜、更小。现在,计算复合体处于十字线极限,每个晶体管都变得越来越昂贵,因此,由晶体管制成的设备本身也是如此。HBM 内存是成本的很大一部分,高级封装也是如此。
在 SXM 系列 GPU 插槽中(不在 GPU 的 PCI-Express 版本中),P100 在发布时的成本约为 5,000 美元;V100 的成本约为 10,000 美元;A100 的价格约为 15,000 美元;H100 的价格约为 25,000 至 30,000 美元。B100 的价格预计在 35,000 美元到 40,000 美元之间——黄仁勋本人今年早些时候在 CNBC 上发表讲话时表示,布莱克威尔的价格。
黄仁勋没有透露的是,每一代需要多少个GPU来训练GPT-4 1.8T MoE模型,以及这些GPU或电力的运行成本是多少。因此,我们玩了一点电子表格的乐趣,基于黄仁勋所说的在大约十天内需要大约 10,000 个 B100 来训练 GPT-4 1.8T MoE。看一看:
在这八年中,GPU 价格上涨了 7.5 倍,但性能却上涨了 1,000 倍以上。因此,现在可以想象,使用 Blackwell 系统可以在 10 天左右的时间里实际训练出像 GPT-4 这样具有 1.8 万亿个参数的大型模型,而即使在两年前 Hopper 一代开始时,也很难在几个月内训练出具有数千亿个参数的模型。现在,系统成本将与该系统大约两年的电力成本相当。(GPU 约占 AI 训练系统成本的一半,因此购买 10,000 GPU Blackwell 系统大约需要 8 亿美元,而运行 10 天的电费约为 540,000 美元。如果您购买更少的 GPU,您可以减少每天、每周或每月的电费,但您也会按比例增加训练时间,这会再次提高训练时间。
你赢不了,你也不能放弃。
你猜怎么着?英伟达也不能。所以就是这样。即使 Hopper H100 GPU 平台是“历史上最成功的数据中心处理器”,正如黄仁勋在他的 Computex 主题演讲中所说的那样,英伟达也必须继续推动。
旁注:我们很乐意将霍珀/布莱克威尔的这个投资周期与六十年前的IBM System/360发布进行比较,正如我们去年解释的那样,IBM在那场投资周期中做出了仍然是公司历史上最大的赌注。1961 年,当 IBM 开始其“下一代产品线”研发项目时,它是一家年收入 22 亿美元的公司,到 1960 年代花费超过 50 亿美元。 Big Blue 是华尔街第一家蓝筹股公司,正是因为它花费了两年的收入和二十年的利润来创建 System/360。是的,它的某些部分是迟到的和表现不佳的,但它彻底改变了企业数据处理的性质。IBM 认为它可能会在 1960 年代后期推动 600 亿美元的销售额(以 2019 年的美元衡量,我们对其进行了调整),但他们推动了 1390 亿美元,利润约为 520 亿美元。
英伟达可以说为数据中心的第二阶段计算掀起了更大的浪潮。所以也许现在真正的赢家会被称为绿筹公司?
抵抗是徒劳的
无论是英伟达还是其竞争对手或其客户,都无法抗拒未来的引力以及利润和生产力的承诺,生成式人工智能不仅在我们耳边低语,而且在屋顶上大喊大叫。
因此,英伟达将加快步伐并挑战极限。该银行有250亿美元,预计今年的收入将超过1000亿美元,可能还会有500亿美元进入该银行,它有能力挑战极限,将我们所有人带入未来。
“在这个令人难以置信的增长时期,我们希望确保我们继续提高性能,继续降低成本——训练成本、推理成本——并继续扩展人工智能功能,让每家公司都能接受。我们进一步提高性能,成本下降幅度就越大。
正如我们上面的表格清楚地表明的那样,这是真的。
这将我们带到了更新的 Nvidia 平台路线图:
这有点难读,所以让我们来看看。
在 Hopper 一代中,最初的 H100 于 2022 年推出,配备六堆 HBM3 内存,带有一个具有 900 GB/秒端口的 NVSwitch,可将它们连接在一起,并配有具有 400 Gb/秒端口的 Quantum X400(以前称为 Quantum-2)InfiniBand 交换机和 ConnectX-7 网络接口卡。2023 年,H200 升级到六堆 HBM3E 内存,具有更高的容量和带宽,这提升了 H200 封装中底层 H100 GPU 的有效性能。BlueField 3 NIC 也问世了,它为 NIC 添加了 Arm 内核,因此它们可以执行辅助工作。
到 2024 年,Blackwell GPU 当然会推出 8 个 HBM3e 内存堆栈,并与具有 1.8 TB/秒端口的 NVSwitch 5 和 800 Gb/秒的 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交换机配对。
我们现在可以看到,到 2025 年,上图中称为 Blackwell Ultra 的 B200 将拥有 8 个 HBM3e 内存堆栈,这些内存高 12 个。据推测,B100 中的堆栈有 8 个高,因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少增加了 50%,并且可能更多,具体取决于所使用的 DRAM 容量。HBM3E内存的时钟速度也可以更高。英伟达对布莱克威尔系列的内存容量有点模糊,但我们在三月份的布莱克威尔发布会上估计,B100将拥有192 GB的内存和8 TB /秒的带宽。对于未来的 Blackwell Ultra,我们预计会提供更快的内存,并且看到 288 GB 的内存和 9.6 TB/秒的带宽也就不足为奇了。
我们认为 Ultra 变体在 SM 上有一些产量改进的可能性不为零,这将使它们能够表现出比非 Ultra 前辈略高的性能。这将取决于产量。
英伟达还将在2025年推出更高的基数Spectrum-X800以太网交换机,可能在盒子里有六个ASIC,以创建一个非阻塞架构,就像其他交换机通常所做的那样,将聚合带宽增加一倍,从而使每个端口的带宽或交换机中的端口数量增加一倍。
2026 年,我们将看到“Rubin”R100 GPU,它在去年发布的 Nvidia 路线图中以前被称为 X100,正如我们当时所说,我们认为 X 是一个变量,而不是任何东西的缩写。事实证明这是真的。Rubin GPU 将使用 HBM4 内存,并将有八个堆栈,每个堆栈大概有十几个 DRAM 高,而 2027 年的 Rubin Ultra GPU 将有十几个堆栈的 HBM4 内存,可能还有更高的堆栈(尽管路线图没有这么说)。
直到 2026 年,我们才看到 Nvidia 推出的 Arm 服务器 CPU,届时当前“Grace”CPU 的后续产品“Vera”CPU 问世。NVSwitch 6 芯片与这些芯片配对,端口为 3.6 TB/秒,ConnectX-9 芯片的端口运行速度为 1.6 TB/秒。有趣的是,有一种叫做X1600 IB/以太网交换机的东西,这可能意味着英伟达正在融合其InfiniBand和以太网ASIC,就像Mellanox十年前所做的那样。或者,这可能意味着 Nvidia 正试图让我们都想知道它的乐趣。2027 年还有其他暗示,这可能意味着 Ultra Ethernet Consortium 对 NIC 和交换机的全面支持,甚至可能是用于在节点内部和机架之间将 GPU 连接在一起的 UALink 交换机。
我们在开玩笑。但更奇怪的事情发生了。
原文连接:https://www.nextplatform.com/2024/06/02/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027/