有钱买卡还不够，10万卡H100集群有多难搭？一文解析算力集群技术要点

6 月 06, 2025 AI前沿

5 0

JS滚动广告

✨ AI前沿 | 每日人工智能最新资讯 ✨

Cedar-7

一些客户如微软和OpenAI正在使用Cedar Fever-7网络模块，而不是8个PCIe形式的ConnectX-7网络卡。

使用Cedar Fever模块的主要好处是，它仅需4个OSFP插槽而非8个，并允许在计算节点端使用双端口2x400G收发器。

这将每个H100节点连接到叶交换机的收发器数量从8个减少到4个；计算节点端连接GPU到叶交换机的收发器总数从98304减少到49152。

由于GPU到叶交换机的链接减少了一半，这也有助于延长首次作业失败的时间。

根据估计，每个双端口2x400G链接的平均故障时间为4年（相比单端口400G链接的5年），这将使首次作业失败的估计时间从26.28分钟延长至42.05分钟。

Spectrum-X

InfiniBand的优势在于，以太网并不支持SHARP网络内缩减。

而SHARP能将每个GPU需要进行的发送和写入次数减少2倍，因此它的理论网络带宽也增加了2倍。

但InfiniBand NDR Quantum-2交换机只有64个400G端口，而每个Spectrum-X以太网的SN5600交换机有128个400G端口，Broadcom的Tomahawk 5交换机ASIC也支持128个400G端口。

由于Quantum-2交换机的端口容量较低，在一个拥有10万节点的集群中，完全互联的GPU数量最多只能达到65,536个H100。

不过，下一代InfiniBand交换机——Quantum-X800，将通过144个800G端口解决这个问题，但从「144」这个数字可以看出，这是为NVL72和NVL36系统设计的，不太可能在B200或B100集群中广泛使用。

Spectrum-X的主要优势在于其得到了NVIDIA库如NCCL的一级支持——老黄会将你推到他们新产品线的首批客户队列中。

相比之下，如果你使用的是Tomahawk 5芯片，就需要大量的内部工程努力来优化网络以实现最大吞吐量。

然而，如果采用Spectrum-X，就必须加价购买Nvidia LinkX产品线中的收发器，因为其他收发器可能无法正常工作或者通不过英伟达的验证。

此外，英伟达在第一代400G Spectrum-X中，使用了Bluefield-3来代替ConnectX-7作为临时解决方案。（ConnectX-8预计能够与800G Spectrum-X完美配合）

在超大规模的数据中心中，Bluefield-3和ConnectX-7的价格差异约为300美元ASP，但前者要多耗电50瓦。因此，每个节点需要额外的400瓦功率，降低了整体训练服务器的「每皮焦尔智能度」。

现在，将Spectrum-X放入数据中心需要额外的5MW功率来部署10万个GPU，而使用相同网络架构的Broadcom Tomahawk 5则不需要。

Tomahawk 5

为了避免给英伟达支付高昂的费用，许多客户选择部署基于Broadcom Tomahawk 5的交换机。

每个基于Tomahawk 5的交换机与Spectrum-X SN5600交换机一样，拥有128个400G端口，如果公司有优秀的网络工程师，可以实现类似的性能。此外，你可以从任何供应商购买通用的收发器和铜缆，并进行混合使用。

大多数客户直接与ODM合作，如Celestica的交换机，以及与Innolight和Eoptolink的收发器。

基于交换机和通用收发器的成本，Tomahawk 5相比Nvidia InfiniBand便宜得多，相比Nvidia Spectrum-X也更具成本效益。

不幸的是，你需要足够的工程能力来为Tomahawk 5修补和优化NCCL通信集群。毕竟，虽然后者开箱即用，但仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。

好消息是，如果你有40亿美元用于10万个集群，就应该也有足够的工程能力来修补NCCL并进行优化。

当然，软件开发是困难的，但Semianalysis认为，每个超大规模数据中心都会进行这些优化并抛弃InfiniBand。

导航菜单