有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点
Cedar-7
一些客户如微软和OpenAI正在使用Cedar Fever-7网络模块,而不是8个PCIe形式的ConnectX-7网络卡。
使用Cedar Fever模块的主要好处是,它仅需4个OSFP插槽而非8个,并允许在计算节点端使用双端口2x400G收发器。
这将每个H100节点连接到叶交换机的收发器数量从8个减少到4个;计算节点端连接GPU到叶交换机的收发器总数从98304减少到49152。
由于GPU到叶交换机的链接减少了一半,这也有助于延长首次作业失败的时间。
根据估计,每个双端口2x400G链接的平均故障时间为4年(相比单端口400G链接的5年),这将使首次作业失败的估计时间从26.28分钟延长至42.05分钟。
Spectrum-X
InfiniBand的优势在于,以太网并不支持SHARP网络内缩减。
而SHARP能将每个GPU需要进行的发送和写入次数减少2倍,因此它的理论网络带宽也增加了2倍。
但InfiniBand NDR Quantum-2交换机只有64个400G端口,而每个Spectrum-X以太网的SN5600交换机有128个400G端口,Broadcom的Tomahawk 5交换机ASIC也支持128个400G端口。
由于Quantum-2交换机的端口容量较低,在一个拥有10万节点的集群中,完全互联的GPU数量最多只能达到65,536个H100。
不过,下一代InfiniBand交换机——Quantum-X800,将通过144个800G端口解决这个问题,但从「144」这个数字可以看出,这是为NVL72和NVL36系统设计的,不太可能在B200或B100集群中广泛使用。
Spectrum-X的主要优势在于其得到了NVIDIA库如NCCL的一级支持——老黄会将你推到他们新产品线的首批客户队列中。
相比之下,如果你使用的是Tomahawk 5芯片,就需要大量的内部工程努力来优化网络以实现最大吞吐量。
然而,如果采用Spectrum-X,就必须加价购买Nvidia LinkX产品线中的收发器,因为其他收发器可能无法正常工作或者通不过英伟达的验证。
此外,英伟达在第一代400G Spectrum-X中,使用了Bluefield-3来代替ConnectX-7作为临时解决方案。(ConnectX-8预计能够与800G Spectrum-X完美配合)
在超大规模的数据中心中,Bluefield-3和ConnectX-7的价格差异约为300美元ASP,但前者要多耗电50瓦。因此,每个节点需要额外的400瓦功率,降低了整体训练服务器的「每皮焦尔智能度」。
现在,将Spectrum-X放入数据中心需要额外的5MW功率来部署10万个GPU,而使用相同网络架构的Broadcom Tomahawk 5则不需要。
Tomahawk 5
为了避免给英伟达支付高昂的费用,许多客户选择部署基于Broadcom Tomahawk 5的交换机。
每个基于Tomahawk 5的交换机与Spectrum-X SN5600交换机一样,拥有128个400G端口,如果公司有优秀的网络工程师,可以实现类似的性能。此外,你可以从任何供应商购买通用的收发器和铜缆,并进行混合使用。
大多数客户直接与ODM合作,如Celestica的交换机,以及与Innolight和Eoptolink的收发器。
基于交换机和通用收发器的成本,Tomahawk 5相比Nvidia InfiniBand便宜得多,相比Nvidia Spectrum-X也更具成本效益。
不幸的是,你需要足够的工程能力来为Tomahawk 5修补和优化NCCL通信集群。毕竟,虽然后者开箱即用,但仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。
好消息是,如果你有40亿美元用于10万个集群,就应该也有足够的工程能力来修补NCCL并进行优化。
当然,软件开发是困难的,但Semianalysis认为,每个超大规模数据中心都会进行这些优化并抛弃InfiniBand。
发表评论