
AI 浪潮的汹涌席卷,让原本以周期波动著称的存储市场,进入前所未有的"超级繁荣周期"。在 AI 大模型训练和推理的双重驱动下,算力需求暴增,HBM 成为 AI 服务器的关键组件。它通过堆叠多层 DRAM,与 GPU 紧密结合,为 AI 计算提供更快的数据通道,成为 AI 时代最炙手可热的"黄金存储"。
而 HBM 的火热也带动了整个存储产业链的升温。三星电子、SK 海力士和美光科技等全球三大存储巨头,纷纷迎来业绩爆发。三星第三季度净利润同比增长 21%,SK 海力士创下公司史上最高季度利润,美光则实现净利同比增长三倍。SK 海力士也表示,其 2025 年前的 HBM 产能已被客户预订一空。
与此同时,传统 DRAM 和 NAND 芯片也正意外走俏。
由于存储厂集中扩产 HBM,常规内存产能趋紧,市场供需出现再平衡。亚马逊、谷歌、Meta 等数据中心巨头,为了扩充 AI 推理与云服务能力,正大规模采购传统 DRAM。事实上,在 AI 推理阶段,普通内存依然发挥着不可替代的作用——这让整个存储市场呈现"全线紧俏"的局面。
LPDDR5 的爆火
先一步爆火的,是所有智能手机几乎都会用到的 LPDDR。
近日,高通发布了全新的 AI200 和 AI250 数据中心加速器,预计将于 2026 年和 2027 年上市。据称,这两款新加速器将在运行大规模生成式 AI 工作负载时,凭借更高的效率和更低的运营成本,与 AMD 和英伟达的机架级解决方案展开竞争。此次发布也重申了高通每年发布更新产品的计划。
Qualcomm AI200 和 AI250 加速器均基于专为数据中心 AI 工作负载定制的 Qualcomm Hexagon 神经处理单元 ( NPU ) 。近年来,该公司一直在逐步改进其 Hexagon NPU,因此这些处理器的最新版本已经配备了标量、矢量和张量加速器(采用 12+8+1 配置),支持 INT2、INT4、INT8、INT16、FP8、FP16 等数据格式,以及用于减少内存流量的微块推理、64 位内存寻址、虚拟化和用于额外安全性的 Gen AI 模型加密。对于 Qualcomm 来说,将 Hexagon 扩展到数据中心工作负载是一个自然的选择,尽管该公司将为其 AI200 和 AI250 单元设定什么样的性能目标还有待观察。

高通的 AI200 机架级解决方案将是该公司首款由 AI200 加速器驱动的数据中心级推理系统,该系统配备 768 GB LPDDR 内存(对于推理加速器而言,这已是相当可观的内存容量),并将使用 PCIe 互连实现纵向扩展,并使用以太网实现横向扩展。该系统将采用直接液冷,每机架功率高达 160 kW,这对于推理解决方案而言也是前所未有的功耗。此外,该系统还将支持企业部署的机密计算,该解决方案将于 2026 年上市。
一年后推出的 AI250 保留了这一架构,但增加了近内存计算架构,有效内存带宽提升了 10 倍以上。此外,该系统将支持分解推理功能,使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案,针对大型 Transformer 模型进行了优化,同时保留了与 AI200 相同的散热、安全性和可扩展性特性。
但不少人关注的并不是又一家芯片制造商试图挑战英伟达的老故事,而是高通在这场 AI 军备竞赛中选择的一条截然不同的技术路线——每张加速卡配备高达 768GB 的 LPDDR 显存,约为英伟达 H100 配置 HBM 容量的 10 倍。
高通没有采用业界主流的昂贵 HBM,而是将其在智能手机领域发展完善的低功耗 LPDDR 技术直接搬上了数据中心,看似"降维"的选择背后,昭示了目前 AI 存储的另一种可能性。
有意思的是,高通并非孤军奋战。几乎同一时间,其他巨头也纷纷展示了类似的技术路线。
在 2025 年 GTC 大会上,GPU 霸主英伟达展示了其下一代 Vera Rubin 超级芯片。这款定于 2026 年底量产的产品首次在其 88 核 Vera CPU 周围采用了 SOCAMM2 模块搭载的 LPDDR 内存。尽管两颗 Rubin GPU 仍然配备了八个 HBM4 内存堆栈,但 LPDDR 的出现本身就是一个意味深长的信号——即便是最坚定的 HBM 拥趸,也开始在系统架构中为 LPDDR 留出位置。
值得注意的是,英伟达还推出了新的 Rubin CPX AI 芯片,这是一款专门针对推理优化的 " 分解式 " 架构产品,进一步印证了其在推理端的战略调整。
而在 2025 年 OCP 全球峰会上,英特尔发布了代号 "Crescent Island" 的数据中心 GPU,这款专为 AI 推理工作负载设计的产品配备了 160GB LPDDR5X 内存。英特尔首席技术官 Sachin Katti 直言 :"AI 正在从静态训练转向实时、无处不在的推理——由智能体 AI 驱动。扩展这些复杂工作负载需要异构系统,将正确的硅片匹配到正确的任务上。"
这款基于 Xe3P 微架构、针对风冷企业服务器优化的 GPU 预计将于 2026 年下半年开始客户采样,英特尔明确强调其 " 功耗和成本优化 " 的定位,以及 " 针对推理工作流程优化的大容量内存和带宽 "。
技术路线的分野
可以说,三大芯片巨头不约而同地转向 LPDDR,并不是什么偶然事件,而是整个产业的一次调整,有机构指出,到 2030 年,推理工作负载的数量将是训练工作负载的 100 倍。
业内人士开始将 AI 目前的瓶颈称为"马提尼吸管问题":计算引擎是酒杯,而数据却通过吸管流动。无论芯片多么强大,其性能都受限于数据流入和流出的速度。现代 AI 推理工作负载越来越受内存限制而非计算限制——随着模型规模扩大和上下文窗口扩展,挑战不在于芯片计算速度,而在于如何快速将数据输送给处理器。

存储的瓶颈,正是 LPDDR 方案的价值所在。根据高通引用的研究,LPDDR 内存的性价比比 HBM 高出 13 倍,使得大型语言模型推理工作负载可以直接在内存中运行,而无需频繁数据混洗。实际效果是 : 更快的响应速度、更低的延迟和更低的能耗。高通声称其 Cloud AI 100 Ultra 架构在某些推理工作负载下比同类英伟达配置的功耗低 20 到 35 倍。
当然,LPDDR 方案并非没有代价。相比 HBM,它存在内存带宽较低、由于较窄接口导致的更高延迟,以及在 24/7 高温服务器环境中尚未充分验证的可靠性等问题。但关键在于应用场景的差异。
在训练场景中,需要极致的内存带宽来处理海量数据的反向传播,HBM 不可替代,而在推理场景中,模型参数已固定,重点是大容量存储和高效读取,LPDDR 的容量和成本优势远超其带宽劣势。
值得关注的是,高通的 AI250 方案更进一步,引入了基于"近内存计算"的创新内存架构,声称可提供超过 10 倍的有效内存带宽和更低的功耗,实现了分解式 AI 推理以高效利用硬件。两款方案均采用直接液冷,机架级功耗仅 160 千瓦——在数据中心能源消耗每三年翻一番的当下,这个数字极具吸引力。
当数据中心开始攫取手机内存
而 AI 存储技术路线的转变,也在酝酿一场可能波及全球消费电子市场的供应链危机。
首先可以明确是,一个 AI 推理机架配备的 LPDDR 内存量级是惊人的。以高通 AI200 为例,单个机架可能包含数十张加速卡,每张 768GB,总内存容量可达数十 TB。这相当于数十万甚至上百万部智能手机的内存用量。
而这仅仅是一家公司的一款产品。当高通、英特尔、英伟达以及其他潜在进入者 ( 如 AMD、博通 ) 都在 2026-2027 年大规模量产 LPDDR 方案时,对 LPDDR 的需求将呈现指数级增长。
目前来看,LPDDR 产能并非无限,主要由三星、SK 海力士和美光三家供应商控制。数据中心客户的特点是采购量巨大、利润率高、订单稳定且长期。相比之下,智能手机市场虽然体量庞大,但单机用量小、价格敏感、季节性波动明显。
从供应商的角度,优先级显而易见。这不仅可能导致数据中心订单挤占消费电子份额,类似 2017-2018 年加密货币挖矿导致 GPU 短缺,2020-2021 年芯片荒让汽车制造商停产等,还让手机厂商面临 LPDDR 采购成本上升、交货周期延长,最终导致中高端手机可能不得不在内存配置上妥协,或者大幅提高售价。
但对其他手机厂商而言,这可能意味着 2026-2027 年将面临一个艰难的选择 : 要么接受更高的内存成本,要么在旗舰机型上降低内存配置,要么寻找替代方案。
LPDDR6 的到来
所谓的替代方案,可能就包括了更昂贵的 LPDDR6
近日,全球半导体标准制定组织 JEDEC(固态技术协会) 正式发布了最新标准文档 JESD209-6,标志着下一代低功耗内存—— LPDDR6 正式登上舞台。这不仅是 LPDDR 系列的重大进化,也是首个在官方规范中提及 DDR6 的标准。距 DDR5 标准发布已过去五年,随着 AI 算力、移动设备与边缘智能的迅猛发展,业界亟需一种兼具高带宽、低功耗与高可靠性的全新内存架构,LPDDR6 的诞生正当其时。
JEDEC 表示,LPDDR6 在性能、能效、安全性和稳定性方面均实现了系统性升级。其核心架构由传统的双通道(DDR4 的单 64 位通道在 DDR5 时代被拆分为两个独立的 32 位子通道)演进为 四个 24 位子通道,实现更高的并行度与更低的访问延迟。此外,LPDDR6 在功耗管理上进行了深度优化,不仅进一步降低了工作电压,还引入了 DVFSL(低功耗动态电压频率调节) 等新机制,可根据运行负载动态调节功耗,以延长电池续航。

在性能指标上,LPDDR6 的数据速率可达 10,667 至 14,400 MT/s,有效带宽约为 28.5 至 38.4 GB/s。这一速度已经超越目前 DDR5-12054 的超频纪录,为 AI 手机、轻薄笔电与车载智能系统提供了更充裕的带宽与响应能力。
作为全球半导体标准的制定核心,JEDEC 成员涵盖了从芯片设计到制造测试的整个产业链。此次 LPDDR6 标准发布后,Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK 海力士 等企业已率先表态支持。这意味着新一代 LPDDR6 有望在短时间内被行业广泛采用。虽然目前 JEDEC 尚未公布面向桌面平台的 DDR6 最终规范,但官方表示相关标准也将在年内发布。
从时间节奏来看,DDR5 在 2020 年发布后约一年便进入量产市场,LPDDR6 预计也将遵循类似路径。尤其在主要厂商计划于 2025 年起逐步停产 DDR4 的背景下,LPDDR6 的到来正是新旧标准更迭的关键节点。
值得一提的是,Synopsys 已率先完成基于 台积电 N2P 工艺节点 的 LPDDR6 IP "硅验证(silicon bring-up)"。所谓"硅验证"是芯片设计中首次上电测试的重要阶段,标志着其核心设计已具备可量产的技术成熟度。该 IP 包含控制器(Controller)与物理层接口(PHY)两大部分,前者负责 JEDEC 协议解析与低功耗管理,后者则基于 N2P 的金属堆叠与 I/O 库构建,实现更高信号完整性与密度。
得益于 N2P 在性能、功耗与面积(PPA)上的领先表现,Synopsys 的 LPDDR6 IP 带宽可达 86 GB/s,并具备更高的能效与更紧凑的物理尺寸,为 AI 终端与高能效计算平台提供强力支撑。JEDEC 标准的理论峰值甚至可达 115 GB/s,这意味着与 LPDDR5 相比,新一代标准在速率与能耗表现上均实现了跨代式飞跃。
随着 LPDDR6 预计在明年正式进入量产阶段,在未来可能会取代 LPDDR5,成为智能手机的标配,只不过其售价也可能愈发水涨船高。
LPDDR 5,贵到买不起?
这场从 HBM 到 LPDDR 的转向,本质上是 AI 产业从不计成本的技术竞赛走向精打细算的商业化部署的标志。
英伟达的 CUDA 软件栈在 AI 训练领域仍然无可匹敌,开发者锁定效应极强。但推理领域的情况完全不同:模型已经训练完成,只需要高效运行,开发者锁定远没有那么强大,而且对价格极为敏感。
这为高通、英特尔等公司以全新方式竞争打开了大门。它们并非试图制造更大的 GPU 来正面挑战英伟达,而是着眼于一个现实:大多数 AI 模型无需每天重新训练,只需要高效运行且能在任何地方运行。
高通的优势正在于此,其将移动领域的基因与数据中心级可扩展性相结合。英特尔也在强调其从 AI PC 到数据中心和工业边缘的端到端能力,以及与开放计算项目 ( OCP ) 等社区的协作。
未来的 AI 硬件市场可能呈现明显的分层结构,训练市场中 HBM 依然不可替代,英伟达 /AMD 继续主导,但在推理市场中 LPDDR 有望异军突起,成为新一代 AI 芯片的选择。
但 LPDDR 的崛起,可能需要全球数十亿智能手机用户来承担背后的代价。当数据中心开始攫取本属于消费电子的 LPDDR 供应,我们或许将见证一个讽刺的场景:训练 AI 的超级计算机装备着最尖端的 HBM,运行 AI 服务的推理集群使用着"手机内存",而真正的手机用户却可能在 2026-2027 年面临内存短缺、价格上涨或配置缩水。
这就是技术进步的吊诡之处:AI 推理的效率革命,可能正在以牺牲消费者利益为代价。当芯片巨头们为数据中心的 TCO 优化而欢呼时,普通用户手中的智能手机,正在成为这场产业变革中最脆弱的一环。
股票炒股配资提示:文章来自网络,不代表本站观点。