CoreWeave联合英伟达和IBM参与MLPerfTrainingv5.0

百态老人 2025-06-05 09:43:49
CoreWeave联合英伟达和IBM参与MLPerf Training v5.0测试,并取得了创纪录的成绩。核心内容:测试中使用了2496块GB200 Grace Blackwell超级芯片,构成了迄今为止在MLPerf基准测试中规模最大的英伟达GB200 NVL72集群,并在Llama 3.1 405B基础模型训练中表现出色。 测试背景与意义 MLPerf基准测试:MLPerf Inference基准套件:自2019年首次推出,不断更新模型和场景,用于衡量AI计算平台的推理性能。MLPerf Training v5.0:最新版本的训练测试,引入了新的Llama 3.1 405B大语言模型(LLM)预训练基准测试,这是目前训练基准测试套件中引入的最大模型,替代了之前基于GPT3的基准。行业参与度:本轮测试收到来自20个提交机构的201项性能测试结果,参与机构数量和提交结果数量均创纪录,显示出AI领域的快速增长和演进。测试目的:衡量不同AI计算平台在大规模模型训练中的性能表现,推动AI基础设施的发展。 测试结果 集群规模:使用了2496块GB200 Grace Blackwell超级芯片,构成的集群规模比之前云服务商提交的最大规模大34倍。性能表现:在Llama 3.1 405B基础模型训练中,仅用27.3分钟完成整个流程。相比其他相似规模集群的测试结果,训练性能提升超过两倍。突显了GB200 NVL72架构的显著性能飞跃,以及CoreWeave基础架构在AI工作负载性能方面的强大实力。 参与方与平台 参与方:CoreWeave:提供AI优化云平台,强调其云平台的规模和对AI工作负载的准备充分性。英伟达:提供GB200 Grace Blackwell超级芯片。IBM:参与测试,具体贡献未在文中明确。平台:CoreWeave的AI优化云平台,能够充分利用GB200芯片的强大性能。 行业影响与观点 CoreWeave首席技术官Peter Salanki:强调AI实验室和企业选择CoreWeave的原因是其专门构建的云平台,具备规模、性能和可靠性。MLCommons MLPerf负责人David Kanter:欢迎首次提交测试的机构,并强调AI训练系统的能效问题,指出功耗基准测试的重要性。 本次测试展示了CoreWeave、英伟达和IBM在AI基础设施领域的强大合作实力,特别是在大规模模型训练中的性能优势。Llama 3.1 405B模型的引入和测试结果,进一步推动了AI行业对大规模训练的关注和投入。随着AI技术的快速发展,算力基础设施的竞赛将持续升温,未来可能会有更多的创新和突破。
0 阅读:1
百态老人

百态老人

数据老灵魂