How NVLink and NVSwitch Power AI’s Next‑Gen High‑Performance Networks

This article, part of the 2025 AI Network Technology Whitepaper, classifies AI high‑performance networking into Scale‑Up, Scale‑Out, and frontier breakthroughs, then dives deep into NVLink’s evolution, technical features, NVSwitch’s full‑mesh architecture, and the newly opened NVLink Fusion ecosystem.

Architects' Tech Alliance
Architects' Tech Alliance
Architects' Tech Alliance
How NVLink and NVSwitch Power AI’s Next‑Gen High‑Performance Networks

本文来自“2025年AI网络技术白皮书”,本系列第一篇“AI网络架构变革与性能演进分析”。本文从三个核心维度对AI高性能网络技术进行分类阐述:Scale Up、Scale Out以及前沿突破技术。

Scale Up技术

该技术聚焦单个计算节点内部或紧密耦合节点间的性能提升,通过优化节点内/邻近节点的数据传输效率,实现计算密度的指数级增长,突破单机算力瓶颈,提供超高速、低延迟的内部通信。典型技术包括NVLink、UALink协议等。

Scale Out技术

该技术关注大规模计算节点的网络互连,通过优化集群拓扑、路由算法和传输协议,构建支持数万节点协同训练的分布式平台。核心挑战在于平衡带宽、延迟、可靠性与成本,典型技术包括InfiniBand、RoCEv2等。

前沿突破技术

此类技术代表AI高性能网络的最新探索方向,超越Scale Up/Scale Out框架,致力于未来网络架构革新、跨领域技术融合以及全新通信范式的构建,为AI发展提供强大网络基础设施。

NVLink

NVLink是英伟达开发的专有高速互连技术,旨在解决传统PCIe在多GPU系统中的带宽瓶颈和延迟问题,实现GPU之间以及GPU与CPU之间的高效数据传输和协同工作。

(一) NVLink的起源与演进

NVLink最初于2016年随英伟达Pascal架构的P100 GPU发布,提供比PCIe更高的带宽和更低的延迟。随后每代GPU架构迭代均提升了NVLink的带宽和性能。

NVLink diagram
NVLink diagram

(二) NVLink的技术特点

NVLink采用多条高速差分信号通道进行点对点通信,每条链路提供双向传输并具备极高带宽。从P100的160 GB/s迭代至B200的1.8 TB/s,单卡带宽年复合增长率超过60%。NVLink支持GPU直接访问彼此显存,无需CPU中介,显著提升数据传输效率并降低通信延迟。

此外,NVLink支持多通道并行传输,可通过NVSwitch等交换机连接更多GPU,构建跨服务器的大规模GPU集群,实现无阻塞的全互联。

(三) NVSwitch全互联架构

NVSwitch基于NVLink发展而来,作为高速交换机连接多个NVLink,提供单机架乃至多机架间的全速GPU通信。它支持完全无阻塞的全互联GPU系统,典型如NVLink5Switch拥有144个NVLink端口,交换容量14.4 TB/s,支持多达576个GPU的完全互联。

NVSwitch diagram
NVSwitch diagram

NVSwitch的优势在于所有连接的GPU可直接相互通信,无需中间节点或CPU,确保集合通信的最高效率,避免传统树形拓扑的收敛瓶颈。最新的NVSwitch系统在DGX GB200中实现GPU点对点通信带宽高达900 GB/s,并集成400 Gbps以太网和InfiniBand物理层支持,实现GPU集群与数据中心网络的无缝融合。

(四) NVLink Fusion开放互连技术

2025年5月,英伟达推出NVLink Fusion,允许第三方厂商的定制CPU或AI加速器通过NVLink协议与英伟达GPU/CPU(如Grace、Blackwell系列)实现高速互联,单端口最高带宽900 GB/s,跨节点延迟低于2 µs,并支持异构计算。

high performance computingGPU interconnectNVLinkNVSwitchAI networking
Architects' Tech Alliance
Written by

Architects' Tech Alliance

Sharing project experiences, insights into cutting-edge architectures, focusing on cloud computing, microservices, big data, hyper-convergence, storage, data protection, artificial intelligence, industry practices and solutions.

0 followers
Reader feedback

How this landed with the community

Sign in to like

Rate this article

Was this worth your time?

Sign in to rate
Discussion

0 Comments

Thoughtful readers leave field notes, pushback, and hard-won operational detail here.