英伟达在GTC22上发布了数不胜数的重磅新品,其中大部分产品聚焦了在前沿科技领域,其中一大亮点就在于元宇宙,其中用于构建数字孪生的 NVIDIA Omniverse 软件与全新数据中心级NVIDIA OVX 系统无疑正是此亮点的创新源泉。对于该系统的骨干网络架构,英伟达还专门为此发布了NVIDIA Spectrum-4 高性能端到端以太网平台,更可谓是创新源泉的基石。
值得关注的是,Spectrum-4在实现大规模加速Omniverse上实现了以1当12的效用,其简化了128节点OVX SuperPOD连接。“过去需要12台交换机组成一个OVX SuperPOD的架构连接,现在由于Spectrum-4可以直接提供128个400G端口,这样完全可以用一台设备做直接连接,就可以替代原来的12台。”NVIDIA网络专家崔岩表示。这种以1当12的效用同样也意味着比以往10倍的绿色节能,12倍的空间节约,以及更高的管理效率,另外也会有更高的性能与更低的时延。
以1当12背后的奥秘
能够以1当12的核心关键与Spectrum-4的端到端400Gbps能力有着直接关系,英伟达通过三个组成部分共同搭建起了这一平台能力。首先是Spectrum -4 400GbE 交换机,整体交换带宽达51.2Tbps,相当于一个全线速无拥塞的架构,包转发速率达到了37.6Tbps,并可以提供12.8Tbps线速加密能力。
其次是ConnectX-7 智能网卡,作为一张400Gbps的智能网卡,在四个方面具有突出优势:一是通过ASAP技术可以加速软件定义网络,可在不消耗 CPU 资源的情况下提供线速性能;二是提供从边缘到核心的安全性,硬件引擎通过TLS、IPsec和MACsec 在线加密/解密功能来卸载和加速安全;三是存储性能上的提升,通过 RoCE 和GPUDirect 存储实现高性能存储和数据访问,并通过RoCE和TCP加速 NVMe-oF;四是精准计时,为数据中心应用程序和时间敏感型基础设施提供更精准的时间同步,这也是AI与数字孪生中的一项必要功能。
最后是BlueField-3 DPU,同样是一款具备400Gb/s连接能力的产品,还具备可编程计算、零信任安全,以及Composable Storage的能力。据崔岩透露,在不久之后,英伟达还将会同步更新DOCA SDK的开发平台,使更多的开发者能够基于BlueField-3 DPU平台开发他们自己的软件定义网络存储和安全的应用程序。同时DOCA上也将提供更多服务,方便用户直接采用容器的方式来支撑网络上的业务。
值得一提的是,Spectrum-4端到端以太网平台中的S pectrum-4 400GbE交换机、ConnectX-7智能网卡、BlueField-3 DPU这“三剑客”,不仅仅为Spectrum-4平台带来了以1当12的能力,同时也是英伟达本次GTC22上其它服务各种前沿科技领域产品的内部重要组成部分,甚至随着如Spectrum-4、ConnectX-7的迭代,为这些产品的未来也增加更多想象空间。
让前沿科技更具想象空间
本次英伟达专为满足Omniverse 数字孪生的需求而打造OVX服务器,可以能够支持真正的、实时的、始终同步的、跨行业的工业规模的数字孪生系统。简单而言将可以构建一个符合现实物理定律的数字孪生元宇宙世界。在OVX服务器中恰恰采用了三张ConnectX-6 200Gbps网卡。作为OVX超级集群,拥有32个节点的OVX SuperPOD则由Spectrum-3 和 ConnectX-6 Dx, Spectrum-3 200Gbps 交换机连接32台OVX 服务器构成。
“这里有几个重要的特性,比如Spectrum-3在32个节点里面提供的200G带宽,为什么不搭更多?为什么不搭到64台?很大的原因是200G的带宽再往上堆叠的时候就会造成服务器资源的浪费,就会等待网络的传输。 ”NVIDIA网络市场总监孟庆表示。无疑,随着Spectrum-4的登场,在未来还将会助力更加强大OVX SuperPOD,来为数字孪生带来更高性能保障。
另外,在强悍的144内核、800亿个晶体管,被外界誉为“核弹级”GPU的H100发布中,英伟达的网络产品也为其在加速大规模AI上起到了重要支撑作用,对比V100,专门升级的第4代NVIDIA NVLink结合全新的外接第三代NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达256 个H100 GPU。NVLink Switch的出现大大解决了PCIe标准不给力的问题,作为首款节点交换架构,本次采用的第三代产品能以900GB/s的速度互连每对GPU,并支持完整的多对多通信。
更值得一提的是,在发布会上的彩蛋级产品H100 CNX融合加速器,ConnectX-7在其中更是发挥了关键性作用,英伟达之所以把网卡集成到了这一GPU中,就是为了解决目前第四代PCIe通信协议200Gbps的带宽的限制。而借助ConnectX-7本身400Gbps的速度,以及具备的RDMA技术,就可以实现绕过了CPU和内存进行通信,实现对于运算的加速,也更是不负其“融合”之名。
在Quantum-2 InfiniBand中,也专门包括了ConnectX-7与BlueField-3 DPU,从而保障云原生技术的支撑,可达成400Gb/s的高性能与先进的多租户功能。“InfiniBand仍然是AI和超级计算的首选网络。我们可以看到在很多的超级计算客户那里,用来做气象研究、AI训练、地震模拟,甚至还包括药物及疫苗的研发,分析病毒的蛋白质螺旋等。”孟庆阐述了Quantum -2 InfiniBand在前沿科技研究中的重要作用。
显然,无论是元宇宙数字孪生,还是未来生活的方方面面,Spectrum、ConnectX、BlueField等英伟达网络产品正在发挥着重要的技术支撑作用,并让前沿科技的发展更具想象空间。