HCCL同交换机下2机与4机性能对比测试
910B基于单轨接入架构,单机HCCL测试实质上是衡量机内HCCS的带宽与延迟,仅反映单级内部通信性能。一旦扩展至多机集群,必须借助ROCE交换机实现跨机互联,而实际训练和推理的吞吐瓶颈正集中在跨机通信环节。
以下是单机测试结果:
mpirun -f hostfile.2 -n 16 ./bin/all_reduce_test -p 8 -b 1G -e 1G
扩展至四机互联的测试配置:
mpirun -f hostfile.4 -n 32 ./bin/all_reduce_test -p 8 -b 1G -e 1G
实际测得四机互联后HCCL带宽显著下滑,验证了此前判断:跨机互连依赖的ROCE网络,正是制约整体性能的核心瓶颈。

