CoreWeave联合英伟达和IBM参与MLPerf Training v5.0

CoreWeave联合英伟达和IBM参与MLPerf Training v5.0测试，并取得了创纪录的成绩。核心内容：测试中使用了2496块GB200 Grace Blackwell超级芯片，构成了迄今为止在MLPerf基准测试中规模最大的英伟达GB200 NVL72集群，并在Llama 3.1 405B基础模型训练中表现出色。测试背景与意义 MLPerf基准测试：MLPerf Inference基准套件：自2019年首次推出，不断更新模型和场景，用于衡量AI计算平台的推理性能。MLPerf Training v5.0：最新版本的训练测试，引入了新的Llama 3.1 405B大语言模型（LLM）预训练基准测试，这是目前训练基准测试套件中引入的最大模型，替代了之前基于GPT3的基准。行业参与度：本轮测试收到来自20个提交机构的201项性能测试结果，参与机构数量和提交结果数量均创纪录，显示出AI领域的快速增长和演进。测试目的：衡量不同AI计算平台在大规模模型训练中的性能表现，推动AI基础设施的发展。测试结果集群规模：使用了2496块GB200 Grace Blackwell超级芯片，构成的集群规模比之前云服务商提交的最大规模大34倍。性能表现：在Llama 3.1 405B基础模型训练中，仅用27.3分钟完成整个流程。相比其他相似规模集群的测试结果，训练性能提升超过两倍。突显了GB200 NVL72架构的显著性能飞跃，以及CoreWeave基础架构在AI工作负载性能方面的强大实力。参与方与平台参与方：CoreWeave：提供AI优化云平台，强调其云平台的规模和对AI工作负载的准备充分性。英伟达：提供GB200 Grace Blackwell超级芯片。IBM：参与测试，具体贡献未在文中明确。平台：CoreWeave的AI优化云平台，能够充分利用GB200芯片的强大性能。行业影响与观点 CoreWeave首席技术官Peter Salanki：强调AI实验室和企业选择CoreWeave的原因是其专门构建的云平台，具备规模、性能和可靠性。MLCommons MLPerf负责人David Kanter：欢迎首次提交测试的机构，并强调AI训练系统的能效问题，指出功耗基准测试的重要性。本次测试展示了CoreWeave、英伟达和IBM在AI基础设施领域的强大合作实力，特别是在大规模模型训练中的性能优势。Llama 3.1 405B模型的引入和测试结果，进一步推动了AI行业对大规模训练的关注和投入。随着AI技术的快速发展，算力基础设施的竞赛将持续升温，未来可能会有更多的创新和突破。

众力资讯网

CoreWeave联合英伟达和IBM参与MLPerf Training v5.0

热门分类