众力资讯网

攻占NV腹地,国产IB封神破局了! “对中小规模的算力系统来说,计算比网络的重要

攻占NV腹地,国产IB封神破局了!
“对中小规模的算力系统来说,计算比网络的重要性略高,但是对于大规模算力系统而言,网络的重要性排在第一位。计算决定了算力系统性能的上限,而网络决定了其能力的下限,如果网络拉垮的话,有可能会把整个性能归零。”这是中科曙光高级副总裁李斌在scaleFabric发布会上的发言。
这话说得太透了。以前总觉得堆GPU就完事了,但真正跑过万卡训练的人都懂:通信耗时占比能达到30%-50% 。0.1%的丢包率,GPU利用率直接掉一成以上。算力卡那么贵,结果天天在等数据,这不就是李斌说的“性能归零”吗?
回头看国内走过的路,RoCE确实功不可没。它在以太网上嫁接RDMA能力,让RDMA技术在国内普及开来,中小规模集群靠着它跑得很欢。但到了万卡以上,它的PFC流控机制就像一脚油门一脚刹车,收不过来才喊停,丢包风险天然存在,运维团队得天天调水线,那个苦,谁调谁知道 。
而曙光这次发布的scaleFabric,走的是原生IB路线,基于信用的流控从根源上杜绝丢包,链路故障恢复小于1毫秒,训练任务完全无感。李斌说他们从曙光2000就开始用高速网络,对这门技术“用到骨子里懂”,所以才敢走最难但最对的路。
听李斌说“我们有能力把技术和产品持续迭代,保持国际先进竞争力”,真的有点泪目。从追赶到并跑,国产算力这次是真站起来了!