智算网络组网技术研究与实践_行业研究

您的位置：文章正文

智算网络组网技术研究与实践

加入日期：2026/2/27 11:28:14

　　中财投资网(www.161588.com)2026/2/27 11:28:14讯：

　　 AI大模型的快速发展对网络提出超大带宽、超低时延、超高稳定性以及超大规模组网等需求。传统TCP/IP机制因数据需要经过操作系统内核多次复制与协议栈处理，导致CPU资源被网络协议开销占用，并引发通信时延抖动，难以满足AI大模型训练对低时延与大带宽的严苛要求。而RDMA(Remote Direct Memory Access，远程直接存储器访问)技术可通过绕过操作系统内核实现主机间内存直接访问，有效降低多机多卡通信时延，因此成为智算时代高性能网络解决方案。

　　实现RDMA的方式有IB(InfiniBand，无限带宽)、RoCE(RDMA over Converged Ethernet，基于以太网的远程直接内存访问协议)、iWARP(Internet Wide-Area RDMA Protocol，互联网广域RDMA协议)三种[1]。其中，iWARP是基于TCP/IP的RDMA技术，受TCP影响，该技术性能稍差；IB与RoCE作为主流解决方案，为应对AI大模型时代的挑战提供了关键技术路径。

　　本文聚焦智算网络的高性能传输需求，重点研究IB、RoCE两种智算网络技术及智算网络典型组网方式，并以RoCE技术为例给出智算网络组网方案，旨在为智算网络的规划和建设提供参考。

　　1 智算网络组网技术方案1.1关键技术1.1.1IB网络

　　 IB架构由IBTA(InfiniBand Trade Association，InfiniBand贸易联盟)于1999年发布，其核心技术包括远程直接存储器访问的零拷贝技术和内核旁路技术[2]，通过这两项技术可显著降低数据传输时延。作为一种面向高性能计算的计算机网络通信标准，IB采用交换式架构，设计之初便支持RDMA，并从硬件层面保障可靠传输，可实现计算机之间、服务器与存储系统之间、存储系统之间的数据流转，同时也是人工智能领域中GPU服务器的首选网络互连技术。

　　 IB网络具备低时延、大带宽、高可扩展性与高吞吐量的显著优势：它依托RDMA零拷贝技术降低系统开销；支持数十Gbit/s甚至更大的带宽，满足大规模数据传输、并行计算等场景需求；可灵活配置全局互连、树状、扁平等多级拓扑结构，还能实现多子网互连，满足大规模计算集群与数据中心的扩展需求；同时凭借低时延与大带宽的特性，支持大规模数据流并行传输。不过该技术需要配套使用支持IB的网卡和交换机，存在成本较高的缺点。

　　1.1.2RoCE网络

　　 RoCE是一种基于以太网的远程直接内存访问协议，旨在通过以太网网络实现高性能、低时延的数据传输，由IBTA于2010年提出，有RoCE v1和RoCE v2两个版本，目前的主流协议是RoCE v2，该协议作为一种基于RDMA的协议，继承了RDMA的优势，并在以太网方面进行了优化。

　　 RoCE的核心原理是通过规避传统TCP/IP协议栈的多次上下文切换与数据拷贝，并依托RDMA技术让服务器经网卡直接读写远程主机内存，全程无需操作系统内核介入，从而显著降低数据传输时延与CPU资源占用率；相较于传统TCP/IP数据传输方式，RoCE能够高效解决超大规模数据中心的内部通信瓶颈，助力服务器间数据高速流转。

　　1.1.3IB与RoCE的技术对比

　　 IB和RoCE均为面向RDMA的高性能交换协议。IB完全依赖专用硬件，从硬件层面确保了网络的低时延和高吞吐量；RoCE则将RDMA技术应用于以太网，通过PFC(Priority Flow Control，优先级流量控制)和ECN(Explicit Congestion Notification，显式拥塞通知)等协议实现无损传输。两者在性能、适用规模、成本和供应方面存在显著差异，详见表1。

　　表1IB与RoCE技术对比

　　1.2组网架构基于大模型大规模分布式训练与推理的超高吞吐量、超低时延、高可靠性组网需求，智算中心典型组网架构如图1所示，分为参数面、样本面、带内网络和带外网络四个部分。

　　图1智算中心典型组网架构

　　参数面：承担AI模型训练与推理的参数同步聚合，常采用RDMA及无损组网技术支撑大规模分布式训练，参数面网络应满足规模、吞吐量、可靠性、智能运维等核心技术要求。

　　样本面：样本面网络负责传输训练的原始与预处理数据，承载计算节点访问存储的流量，通常采用两层CLOS组网架构，接入层为1:1无收敛组网，按需配置算存比，且须满足高可靠性要求。

　　带内网络：承担系统业务调度与带内管理流量，采用多层CLOS组网架构，为TCP/IP有损网络，要求具备高可靠性。

　　带外网络：承担服务器、交换机、防火墙等的带外管理流量。带外网络的性能要求低于训练网络，一般无需部署无损网络。

　　2 智算组网案例本文以某智算私有云建设项目为例，说明RDMA网络在智算组网中的应用，该案例为满足用户DeepSeek-V3/R1(671B)模型和DeepSeek-R1Distill Llama-70B的模型部署需求，共建设8台64卡GPU国产推理服务器，采用RoCE技术组网。

　　参数面设计：采用200G接入、400G互联的RoCE组网，Spine-Leaf两层胖树架构，采用带宽1:1无收敛设计。单台AI服务器配置8块GPU，8×200G RoCE光口，上行至2台参数面RoCE Leaf交换机；Spine交换机独立部署，Leaf交换机采用400G链路双上联至Spine交换机。

　　样本面设计：存储交换网采用100G RoCE组网，考虑到资源池规模较小，因此采用单层组网架构及带宽无收敛设计。

　　带内网络：采用Spine-Leaf组网架构，配置一对管理交换机、一对业务交换机、一对存储交换机，没有无损网络要求。

　　带外网络：配备2台千兆电口交换机，分别进行带外管理接入，上行接入25G管理业务交换机，最后统一通过核心交换机对外交换数据。

　　该项目的部署可为社会提供22.4PFLOPS算力，加快相关行业DeepSeek部署和应用推广。

　　3 结论随着AI大模型对算力和数据交换需求的不断增长，目前智算网络组网技术正在经历快速创新与迭代，IB网络不仅具备高阶在网计算能力，而且拥有大规模资源池部署案例丰富、网络性能与稳定性强的优势；而对于需要快速扩展的分布式存储或中小规模AI推理集群，RoCE网络可通过现有以太网实现低时延、高吞吐量。未来，随着AI大模型向更大规模参数、更高训练效率方向演进，智算网络也将朝着更大带宽、更低时延、更加智能的方向发展。

　　参考文献

　　[1]李家清,王祎玮,李道通.智算中心IB及RoCE网络技术探究[J].电信工程技术与标准化,2024,37(1):42-47.

　　[2]陈岩,张斌,吴海涛,等.智算网络组网技术综述[J].通信技术,2025,58(9):923-931.

编辑：　来源：