众力资讯网

围观FN9000直播有感,存储如何成为算力瓶颈解药? 今天看到曙光FlashN

围观FN9000直播有感,存储如何成为算力瓶颈解药?

今天看到曙光FlashNexus 9000的数据,256控集群跑到2亿IOPS,单阵列400万IOPS、40GB/s带宽。我第一反应是,这数字是不是有点太夸张了?

但仔细想想,AI时代对存储的压榨确实到了变态的程度。去年跟一个做大模型训练的朋友聊天,他说他们那个万卡集群,最头疼的不是GPU不够用,而是数据喂不饱。每次checkpoint读写,存储系统就卡住好几分钟,几百张卡干等着。那种算力等数据的场面,既心疼设备又心疼电费。

而曙光的超级隧道技术,本质上就是解决这个问题的。零中断、零竞争、零拷贝,说白了就是让CPU、内存、SSD之间别再互相堵车。我理解它有点像给数据修了一条专属的高速通道,不用跟其他任务抢资源,也不用在内存里反复拷贝。训练过程中的checkpoint从分钟级压到秒级,推理延迟降了八成,这要是真能大规模落地,那些搞大模型的公司能省下多少算力成本?

不过话说回来,技术归技术,最终还是要看实际场景的验证。曙光这次特别强调了金融、医疗、运营商的落地数据,金融峰值交易提速200%、医疗HIS响应提速90%、运营商出账时间缩短66%。这些数字比2亿IOPS更让我感兴趣,因为这说明他们不是只在实验室跑分,而是真的在各种高压场景里磨过了。

AI基础设施的竞争,已经从堆算力转向算存协同了。这么看,存储拖后腿的时代,可能真的要翻篇了。

人工智能 国产存储