
当前,整个信息技术产业正处在一个关键的节点上。一边是生成式AI、自动驾驶等技术快速商业化,推动全球数据总量激增。另一边,基础的数据存储环节,正面临从成本、容量到性能的全维度压力。
全球存储硬件价格已进入显著的上行通道,部分产品价格短期波动剧烈。这使得企业数据中心扩容和AI基础设施建设的预算持续攀升,成本控制面临挑战。与此同时,AI的普及也改变了数据性质。自动驾驶产生海量感知数据,大模型需要处理PB级数据集,这些不仅要求“存下来”,更对存储系统的容量扩展提出了近乎无限的要求。AI推理场景中,对海量参数和亿万级小文件的实时并发调用,则将存储系统的性能短板暴露无遗。
因此,当前的存储紧张,其本质并非传统的周期性价格调整,而是一场由AI技术驱动的“数据洪峰”,与全球存储产能(特别是适应AI需求的高性能产能)爬坡缓慢之间的结构性碰撞。
行业的结构性挑战,必然呼唤结构性的解决方案。在这一背景下,任何在AI存储领域取得的实质性突破,都格外值得关注。
近日,在全球权威的存储性能评测 IO500 榜单中,京东云海存储跻身全球前四,并位列国产自研第一。这项成绩的一个关键背景在于,它是目前全球性能最强的、基于通用 NVMe 架构的 AI 存储系统,同时也是全球最大规模基于国产 CPU 的 AI 存储实践。

这一突破之所以引人注目,是因为它不依赖于极端专用硬件,而指向了一条通过全栈自研的软件和架构优化,在通用化、开放化的技术路径上实现顶级性能的路径。这无疑为应对前述行业困境,提供了一个新的、切实可行的技术视角。
01、一场非周期性的“存储荒”谈论人工智能的未来,业界有一个共识:AI 始于数据而不是 GPU。因此 AI 时代也是数据存储创新的黄金时代。
过去,存储系统的设计首要考量是容量与可靠性,性能往往是够用即可;但在 AI 的世界里,尤其是在大模型训练与高频推理场景下,数据的供给速度直接决定了价值数千万乃至上亿的 GPU 集群,究竟是在全力“炼金”,还是在无奈“空转”。
传统存储架构在处理这类元数据密集型负载时,其吞吐能力和延迟瓶颈暴露无遗,直接导致昂贵的算力资源利用率长期徘徊在低位,“算力空转”成为行业通病。
据 Gartner 预测数据,2025 年全球 Data Center 支出将激增约 46%,接近 4900 亿美元,这一增长主要是由生成式 AI 驱动,AI服务器正在消耗全球 40% 的 DRAM 和高容量SSD。这意味着海量的非结构化数据,如文本、图像、视频等,不仅需要被简单地归档保存,更需要被实时地、高并发地处理和调用。
需求的剧变,迅速传导至供给端,引发了一系列连锁反应。为满足 AI 服务器对极致内存带宽的渴求,全球主要的存储芯片制造商,如三星,SK 海力士,正将核心的晶圆产能,大规模转向生产高带宽内存(HBM)和 DDR5 等高端产品。
这种产能的“虹吸效应”,直接导致传统平价存储产品 DDR4/LPDDR4X 供给同比减少 60%。一些头部 AI 公司动辄锁定全球产量数十百分比的大额长期协议,更是加剧了这种紧张,报价模式也从季度走向“每日定价”。这意味着采购存储不再基于长期规划,而更像是应对每天价格波动的短线操作,一个由卖方主导的极端市场已然形成。
毫无疑问,我们正在经历的,并非存储器行业周而复始的周期性价格波动,而是一场由 AI 技术革命直接驱动的“结构性超级周期”。过去的周期有迹可循,供需在动态中寻找平衡;而此次,AI 带来的需求是全新的、刚性的,且仍在急剧膨胀,它从根本上重塑了存储市场的价值标准和供需关系。

因此,行业需要的是一种“不妥协”的解决方案:它必须在性能上足以喂饱最饥饿的 AI 算力,满足千万级 IOPS、TB 级带宽和百微秒级延迟的严苛门槛;也必须在成本上具备极强的抗波动韧性,能对冲硬件涨价的压力,甚至通过架构创新降低总拥有成本;同时,在金融、政务等关键领域,它还必须满足核心技术自主可控的刚性要求。
这三重要求,构成了 AI 时代存储底座必须跨越的“新三角”。
02、技术新周期,呼唤怎样的新一代AI存储如前文所言,AI 所需求的存力不只是扩大容量,而是彻底改变了“数据怎么被存、怎么使用、用得有多快”。海量的数据不仅需要被存储,更需要被高速地处理、分析和调用。
由此,AI 存储的门槛非常直观。
大模型应用场景下,数据集以文档、图片、音视频等非结构化小文件为主 —— 单文件通常仅为几十字节到几百 KB,但总量可达数亿甚至数十亿级别。这种“海量小文件”要求的储存能力是,极高的元数据管理效率与高并发小文件吞吐。
带宽亦是一大瓶颈。一般大模型应用的读取带宽需求约为 40G,写入带宽约为 20G。数千个计算节点同时访问存储系统,存储带宽的要求比电商业务顶峰时段高出几百甚至几千倍,存储性能的高低可能造成模型训练周期 3 倍的差异。再者,大模型参数实时同步要求存储延迟低于 50 微秒,而传统 NAS 系统平均延迟 500 微秒以上。
若存储带宽或并发调度等核心能力跟不上,算力就会被逼成“等数据”的闲置状态。GPU 长期低利用率、读写高延迟耽搁训练周期,直接拖慢产品落地。
传统存储性能不足,京东云海这类面向大模型场景深度优化的基础设施因此脱颖而出。
云海 AI 存储可支持千亿级参数 AI 大模型,基于自研引擎采用全追加写模型,融合超低延时 RDMA 网络与软件架构优化,实现了接近本地 NVMe 磁盘的 I/O 性能表现:4K 随机写 IOPS 达到 1000 万级,平均延迟在 100 微秒级,单节点可提供 44GiB/s 的带宽性能。
在大模型训练的并行文件存储下,单文件系统支持千万级 IOPS,上万台服务器同时并发访问,为超大规模 AI 训练任务保驾护航。

但性能拉满是一方面,性价比决定了它能否真正规模化落地。
企业本身在在大容量、高性能存储系统软硬件方面投入已经非常可观,单次投入多在数百万至数千万级别。以一台 L3 级别的自动驾驶测试车为例,其平均每天产生 60TB 的数据,完整测试产生的数百 PB 数据更需要存储 30 年以上。
除了巨量新增数据,企业还需兼顾存量数据的低成本存储。像关键领域的数据存储就有硬性要求,如政府电子档案要求保存周期为 5 年甚至更长,公检法司数据要求保存周期至少 30 年以上。
而较传统超算存储技术,云海 AI 存储不采用 PMEM 硬件,具备更强通用性的同时,也实现了更低存储成本。这是它能够一举拿下性能、成本、规模化落地多项第一的底气。
音频存储可视为一个低频文件需兼顾高安全与低成本的典型场景。像国内头部音频平台荔枝有数亿低频文件存储需求,京东云基于自研云海存储系统,为其构建过一套兼顾性能、成本与可靠性的存储解决方案。

其中包括通过存算分离架构,将计算与存储资源独立调度,打破固定配比限制,使磁盘利用率提升至 90%;独创冷热数据自动分层机制,热数据三副本保障毫秒级响应,冷数据采用 EC 低冗余技术(仅 1.1x 副本率),在保持极高数据可靠性的同时,综合存储成本直降 30%;以及建立跨机架、多节点容灾体系,实现每次读写自动多副本备份。
得益于这些设计,云海存储为荔枝 4.5 亿用户提供了高品质、零中断的音频服务,为互联网成熟期企业量身打造了经济高效、安全可靠的全新存储范式。
当然,作为国产自研第一的 AI 存储,满足国产化场景的可控需求方面,云海也做得足够扎实。
信创重点行业如金融、政务、能源等关键领域需满足信创适配要求,同时保证核心技术自主可控。这就需要企业在建设存储系统中采用大量国产硬件,又不能为性能短板所限。
云海作为京东 100% 自研产品,代码自研率超 98%,核心技术完全自主可控。且云海与主流国产化硬件和软件兼容互认,包括操作系统、数据库、中间件、服务器、CPU等等,可基于全局无锁架构充分发挥国产硬件能力。
以金融行业为例,某头部证券公司对存储系统的要求非常具体:高性能、低成本,能够无缝对接主流国产虚拟化平台,并与现有域环境和告警平台实现兼容。这些传统存储系统的“不可能任务”,云海通过采用多台鲲鹏和海光 CPU 架构存储一体机搭建分布式存储集群,解决了对应挑战。
在信息安全自主可控的前提下,提升资源利用率、降低硬件采购成本,这是现代企业数字化转型的共同议题,也只有能全面处理相应需求的存储服务,能够穿越这个“超级周期”。
03、解锁AI生产力,国产存储的破局之路其实性能、成本和可控性的三维优化,其综合效益会体现在具体服务的“高可用性”上。换句话说,京东云海提供的 AI 储蓄技术方案,让高性能存储从 “大厂专属” 变为 “大众可用”。
这种高可用性最突出的标识是部署灵活。当下,大多数云厂商倾向把存储服务与云平台高度绑定,其局限也很明显:扩容不灵活、弹性差、成本高,难以适应多样化与快速变化的业务要求。
但云海从京东云完全解耦,支持独立部署交付,给到充分的配置自由度。这使其在超百家金融、证券、汽车等企业场景交付验收,并稳定运行至今。
再者,前文提到的价格竞争力,亦包含京东集团的供应链集采优势提供的保障。前文提到,由于 AI 与存储需求激增,使得硬件供给结构受到冲击。而相较于纯软件竞品,云海在通用硬件能力的基础上,典型配置价格更低。企业用得起,且性价比优势明显。
云海在京东内部多种复杂场景的打磨实践也不能忽视。在保证高性能与低成本的同时,云海产品的稳定性历经 13 年实践验证,从 618 到 11.11 的高流量洗礼中实现零故障。其稳定性和可靠性的含金量早已全面领先,自然会吸引如科大讯飞一般的行业头部客户采用。
例如,科大讯飞 AI 营销采用“开源分布式存储软件+服务器硬件”搭建,对十亿级小文件数据量时,读写性能陡然下降。但升级京东云 AI 存储云海后,科大讯飞 AI 营销实现了一个集群一个文件系统,可轻松应对多模态大模型时千亿到十万亿的参数规模。
同时,基于高性能存储层,以及大容量存储层的自动数据分级,在大幅降低存储成本的同时,实现了大模型训练能力的大幅提升,帮助科大讯飞的 AI 营销业务降本增效。

行业普遍认为,未来不可能是一个通用大模型解决所有用户需求,而将存在多种应用大模型根据用户场景并行使用。这意味着,前文所讨论的由 AI 驱动数据量激增以及高并发推理需求,将成为常态并持续走高。
此时此刻,我们显然不能再将 AI 竞争等同于算力比拼。毕竟数据处理的需求需要长期、稳定、可扩展地服务于业务场景,如果存储不能快速响应、无法稳定承载大规模数据访问或成本过高,即使算力再强,也无法让 AI 持续高效地服务企业用户。
因此,存储能力会是 AI 竞争的一个赛点,京东云海的 IO500 榜单成绩亦是一个信号。其自研存储系统仍有非常大的上限拓展空间,还将推动高性能存储在模型训练、科学计算、大规模数据分析等垂直场景中广泛应用,助力更多企业重塑 AI 生产力。
尤其是在一个追求算力效率与自主可控的时代,云海 AI 存储这种驾驭全局复杂性的“工程思维”,也代表了一种更具韧性和普适性的基础设施构建理念。它意味着,企业获得先进存力的方式可以变得更灵活、更经济,也更能支撑起持续演进的AI战略。
毕竟,AI 的普惠未来,离不开一个同样普惠、坚实且自主的数据基座。当存储的枷锁被打开,数据的潜力才能真正奔涌,驱动智能最终抵达每一个需要它的角落。
*题图及文中配图来源于网络。