
华为在 2023 年全连接大会联合信通院、科大讯飞共同发布《星河 AI 网络白皮书》

华为在 2023 年全连接大会联合信通院、科大讯飞共同发布《星河 AI 网络白皮书》,作为全球算力"第二"选择,华为算网架构意义重大。
几大要点:
高吞吐:端口带宽升至 400G,未来向 800G 演进。提高网络吞吐量提升训练效率。
高可靠:增加冗余链路,确保故障切换。加以全栈可视运维,实现亚毫秒级故障快速收敛。
可运维:全栈可视运维,实现大模型训练网络路径、流负载实时可视,完成亚毫秒级故障快速收敛。
大规模:胖树机构下,参数大小网多轨网络并行扩大网络规模。
开放性:推崇以太网架构(RoCE)多于 IB,开放性更好。
最大变化:算力运维 —大量篇幅阐述通过算力运维降低 MTBF(无故障时间)。因为训推过程中故障几乎不可避免,通过性能监测/故障感知/定位排查等解决,可提升 GPU 利用率/集群训练稳定性。
强调算网 :多处理器并行计算,之间的协作严重依赖网络。集群规模越大通信量/复杂度越大(千亿→万亿参数,端到端时延占比 20%→50%),再次重申网络架构重要性—交换机/光模块。
The copyright of this article belongs to the original author/organization.
The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.

