当谈到人工智能系统时,我们已经很少看到这样的东西:加速器和将一堆加速器粘合在一起形成一个共享计算综合体的基础主板的标价。
但在最近于台湾台北举行的 Computex IT 会议上,急于在 AI 训练和推理方面大展身手的英特尔做了一件 Nvidia 和 AMD 都没有做过的事情:为其当前和前几代 AI 加速器提供定价。我们预计 Nvidia、AMD 或任何其他 AI 加速器和系统初创公司不会很快效仿,所以不要太兴奋。
但是,Gaudi 2 和 Gaudi 3 加速器的定价以及一些基准测试结果以及这些机器的峰值进给和速度的披露,让我们有机会进行一些竞争分析。
英特尔谈论其定价的原因很简单。该公司正试图出售一些人工智能芯片,以弥补其未来“Falcon Shores” GPU 在 2025 年底投入使用以及后续“Falcon Shores 2” GPU 在 2026 年上市的成本,为此它必须展示出良好的性价比以及具有竞争力的性能。
这一点尤为重要,因为 Gaudi 3 芯片于 4 月开始出货,是英特尔于 2019 年 12 月以 20 亿美元收购 Habana Labs 后获得的 Gaudi 加速器系列的终结者。
由于“Ponte Vecchio”Max 系列 GPU 的发热量和制造成本极高(这些 GPU 是阿贡国家实验室“Aurora”超级计算机的核心,已被安装到其他几台机器中,并且在完成这些交易后几乎立即被封存),英特尔正试图弥补延迟已久的 Ponte Vecchio 和有望于明年年底准时推出的 Falcon Shores 之间的差距。
正如英特尔在 2023 年 6 月透露的那样,Falcon Shores 芯片将采用 Gaudi 系列的大规模并行以太网结构和矩阵数学单元,并将其与为 Ponte Vecchio 创建的 Xe GPU 引擎合并。这样,Falcon Shores 可以同时进行 64 位浮点处理和矩阵数学处理。Ponte Vecchio 没有矩阵处理,只有矢量处理,这是为了满足 Argonne 的 FP64 需求而故意为之。这很好,但这意味着 Ponte Vecchio 不一定适合 AI 工作负载,这会限制它的吸引力。因此,Gaudi 和 X e计算单元合并为单个 Falcon Shores 引擎。
我们对 Falcon Shores 了解不多,但我们知道它的重量为 1,500 瓦,比预计明年初批量出货的顶级“Blackwell” B200 GPU的功耗和散热量高出 25% ,后者的额定功率为 1,200 瓦,以 FP4 精度提供 20 petaflops 的计算能力。在耗电量多 25% 的情况下,Falcon Shores 的性能最好在相同浮点精度水平和大致相同的芯片制造工艺水平下比 Blackwell 至少高 25%。更好的是,英特尔最好使用其预计在 2025 年投入生产的英特尔 18A 制造工艺来制造 Falcon Shores,并且它的浮点性能最好比这更强。而 Falcon Shores 2 最好采用更小的英特尔 14A 工艺,预计在 2026 年投入生产。
英特尔早就该停止在代工和芯片设计业务上浪费时间了。台积电的创新步伐无情,而英伟达的 GPU 路线图也毫不松懈。2025 年的“Blackwell Ultra”将带来 HBM 内存升级,GPU 计算能力也可能提升,“Rubin”GPU 将于 2026 年推出,而“Rubin Ultra”后续产品将于 2027 年推出。
与此同时,英特尔去年 10 月表示,其 Gaudi 加速器销售渠道价值 20 亿美元,并在今年 4 月补充称,预计 2024 年 Gaudi 加速器的销售额将达到 5 亿美元。这与AMD 今年预计的 40 亿美元 GPU 销售额(我们认为这个数字太低,更有可能是 50 亿美元)或 Nvidia 今年在数据中心计算领域可能获得的 1000 亿美元或更多收入(仅数据中心 GPU,没有网络,没有 DPU)相比微不足道。但清理 20 亿美元的渠道意味着要支付 Falcon Shores 和 Falcon Shores 2 的费用,因此英特尔的积极性很高。
因此,英特尔在其 Computex 简报会上公布了定价并制定了基准测试,以展示 Gaudi 3 与当前“Hopper”H100 GPU 相比的竞争力。
英特尔首先进行的比较是针对 AI 训练,针对的是具有 1750 亿个参数的 GPT-3 大型语言模型和具有 700 亿个参数的 Llama 2 模型:
上述 GPT-3 数据基于 MLPerf 基准测试运行,而 Llama 2 数据则基于 Nvidia 发布的 H100 结果和英特尔的估计。GPT 基准测试在具有 8,192 个加速器的集群上运行 - 英特尔 Gaudi 3 具有 128 GB HBM,而 Nvidia H100 具有 80 GB HBM。Llama 2 测试在仅有 64 个设备的机器上运行。
为了进行推理,英特尔进行了两次比较:一次是在一系列测试中将具有 128 GB HBM 的 Gaudi 3 与具有 80 GB HBM 的 H100 进行比较,另一次是将具有同样 128 GB 内存的 Gaudi 3 与具有 141 GB HBM 的 H200 进行比较。此处发布了 Nvidia 数据,用于在各种模型上使用 TensorRT 推理层的各种模型。英特尔数据是针对 Gaudi 3 预测的。
以下是第一个比较,H100 80 GB 与 Gaudi 3 128 GB:
以下是第二次比较,H200 141 GB 与 Gaudi 3 128 GB:
我们将提醒您在整个 AI 热潮中我们说过的两件事。首先,提供最佳性价比的 AI 加速器是您真正可以得到的。其次,如果它能够以合理的精度组合进行矩阵数学运算,并且能够运行 PyTorch 框架和 Llama 2 或 Llama 3 模型,那么您就可以出售它,因为 Nvidia GPU 供应不足。
但就英特尔而言,这是赚钱的机会:
在训练过程中,英特尔比较使用了Nvidia 的真实数据(Llama 2 7B、Llama 2 13B 和 GPT-3 175B 测试)与英特尔对 Gaudi 3 的估计值的平均值。在推理过程中,英特尔使用了Nvidia 的真实数据(Llama 2 7B、Llama 2 70B 和 Falcon 180B)与 Gaudi 3 的估计值的平均值。
如果您对这些性能/美元比率和图表中显示的相对性能数据进行反向计算,那么英特尔假设 Nvidia H100 加速器的成本为 23,500 美元,而如果我们对 Gaudi 3 UBB 进行简单的计算,则成本为 15,625 美元。
我们喜欢观察一段时间内的趋势和更广泛的峰值理论性能,以便找出谁的性价比更高、性价比更高。(它们是相反的。)因此,我们制作了一张小表格,将 Nvidia “Ampere” A100、H100 和 Blackwell B100 与英特尔 Gaudi 2 和 Gaudi 3 加速器进行了比较,这两款加速器都采用带有八个加速器的基板配置。请看一下这个:
请记住,这些是八路主板的数字,而不是设备的数字,设备将成为目前大多数 AI 客户的基本计算单元。
当然,我们完全意识到,在利用这些设备及其基板集群的计算、内存和网络方面,每个 AI 模型都有自己的独特之处。里程肯定会因工作负载和设置而异。
我们还喜欢从系统的角度来思考,我们已经估算了采用这些基板并添加双插槽 X86 服务器综合体的成本,该服务器综合体具有 2 TB 主内存、400 Gb/秒 InfiniBand 网卡、一对用于操作系统的 1.9 TB NVM-Express 闪存驱动器,以及八个 3.84 TB NVM-Express 闪存驱动器用于将本地数据存储到 UBB。
我们的表格显示了这五种机器的相对性价比。我们使用 FP16 精度来衡量所有这些设备,我们认为这是比较的良好基准,并且设备上没有激活任何稀疏性支持,因为并非所有矩阵和算法都可以利用这一点。如果您想自己做数学运算,可以使用较低的精度。
根据黄仁勋去年在主题演讲中所说,HGX H100 基板的成本为 20 万美元,所以我们实际上知道这个数字,这也与我们在市场上看到的完整系统定价一致。英特尔刚刚告诉我们,带有八个 Gaudi 3 加速器的基板成本为 12.5 万美元。H100 基板的额定速度为 8 千万亿次浮点运算,Gaudi 3 基板的额定速度为 7.34 千万亿次浮点运算,FP16 精度,无稀疏性。这意味着 H100 综合体每千万亿次浮点运算的成本为 2.5 万美元,而 Gaudi 3 每千万亿次浮点运算的成本为 17,030 美元,性价比高出 32%,对英特尔有利。
现在,如果你构建一个系统并添加那些昂贵的 CPU、主内存、网络接口卡和本地存储,差距就会开始缩小。按照我们上面概述的配置,Nvidia H100 系统的成本可能约为 375,000 美元,即每千万亿次浮点运算 46,875 美元。具有相同配置的 Gaudi 3 系统的成本约为 300,000 美元,每千万亿次浮点运算的成本为 40,872 美元。这仅比 Nvidia 系统高出 12.8% 的性价比。
如果添加相同的交换、支持、电力、环境和管理成本,那么差距就会变得更小。
因此,请从系统级别思考,并对您自己的模型和应用程序进行自己的基准测试。
现在,最后一件事:让我们谈谈英特尔 Gaudi 3 的收入和渠道。如果你算一下,5 亿美元只是 4,000 块基板和 32,000 个 Gaudi 3 加速器。而 Gaudi 渠道中剩余的 15 亿美元几乎肯定全部用于可能销售 Gaudi 3 设备 - 而不是未完成的销售积压,因此绝对不是包里的猫 - 并且仅代表销售 12,000 块基板和总共 96,000 个加速器的机会。Nvidia 今年将销售数百万个数据中心 GPU,虽然其中许多不会是 H100、H200、B100 和 B200,但其中许多将是。