超越带宽：行业正致力于定制化内存（第二部分）

2026-03-12 电子工程专辑

阅读时间约 3 分钟

在本系列第一部分中，我们探讨了HBM4内存，其凭借2048位接口和高数据传输速率，有望提供前所未有的带宽。但对于需要更高带宽与容量的应用，业界正积极开发多种定制化内存方案。本文将介绍全球晶片（GUC）、美满电子（Marvell）、三星及 imec 在定制内存领域的最新进展，包括“逻辑芯片之上堆叠高带宽内存”（HBM-on-top-of-logic）等创新架构。

www.eic.net.cn

易IC库存管理软件

美满电子定制DRAM

美满电子是最早提出定制处理器（该公司称之为XPU，强调其为加速器而非GPU）的厂商之一，并率先公开其定制HBM4E内存策略。有较大可能，由美满设计的XPU平台将成为首批采用定制HBM4E DRAM的系统，该DRAM将由美光、三星或SK海力士生产。

美满的定制DRAM架构专为AI加速器设计，用其专有的32 GT/s 512位双向芯片到芯片（D2D）接口取代传统占用面积大的2048位HBM4物理层（PHY），该接口最高支持32 GT/s数据速率，并将内存控制器迁移至DRAM堆栈下方的定制基底芯片中。堆栈中的DRAM器件仍符合JEDEC标准（即HBM4E），整体堆栈亦维持JEDEC规定的几何规格，因此客户无需担忧使用昂贵的专有内存器件或非标准高度的内存堆栈。

美满科技公司CXL、定制HBM、内存与存储产品高级市场总监Khurram Malik向《电子工程专辑》表示：“我们希望充分利用JEDEC在DRAM堆叠方面已开展的工作。从DRAM堆栈角度看，它依然符合JEDEC规范——堆栈本身是标准HBM4E。定制仅发生在基底芯片及与计算芯片的接口部分。”

Rambus硅IP产品管理总监Nidish Kamath补充道：“即使采用定制接口，DRAM器件、制造工艺、电气参数及尺寸仍受JEDEC标准约束。DRAM层、物理尺寸与电气特性均标准化，以确保可操作性与可靠性。变化在于基底芯片与主机之间的通信方式——可能是专有方案（如‘多线连接’实现），也可能是基于标准的方案（如通过UCIe协议进行分组传输）。这种分离有助于维持供应链稳定性，同时在逻辑层面实现差异化。”

移除计算芯片上的标准2048位HBM4E PHY并替换为美满专有的32 GT/s双向D2D接口后，SoC可节省最多25%的芯片面积用于计算硬件；内存I/O功耗可降低45%至70%（视具体场景而定）；SoC支持的内存容量提升33%；或因减小芯片尺寸而降低整体成本。此外，该架构还提供高于JEDEC标准HBM4E的峰值带宽：单个HBM4E堆栈（12 GT/s，2048位）带宽达3.072 TB/s；而单个美满定制HBM4E堆栈（32 GT/s，512位）为2.048 TB/s；四个堆栈不仅容量翻四倍，总带宽更达8.192 TB/s，比同等2048位接口提升2.66倍。

在物理层，美满D2D链路每根导线双向运行于64 GT/s（单向32 GT/s），在2纳米或3纳米工艺节点下可实现超30 Tb/s/mm的带宽密度，显著优于当前UCIe链路。该IP集成通道冗余与自动修复、ECC纠错、RAS可靠性机制，以及适应突发流量的动态功耗控制功能。出于竞争考虑，美满未透露其专有接口细节。

Malik表示：“该方案包含增强型ECC、高级RAS遥测与可靠性引擎。我们不公开具体的信号编码方法，但这些功能对高速运行至关重要。”

美满提供完整的交钥匙式HBM4E解决方案，涵盖应用桥接层、链路层及物理互连，采用2纳米与3纳米级制程技术。公司还强调，其定制基底芯片可进一步集成额外功能，使加速能力更贴近内存。

Malik指出：“若超大规模企业希望在基底芯片中加入计算能力或逻辑单元以实现加速，就必须进行定制……目前的情况是，只要内存容量更大，客户就在探索如何将加速功能更靠近内存部署。”

尽管Malik未透露有多少客户正在基于专有D2D接口或含特定加速器的定制HBM4E基底芯片开发XPU，但可以合理推断该数量大于零。

全球晶片公司DRAM-on-Logic

GUC的DRAM-on-Logic（DoL）是本文所讨论中最具前瞻性的内存类型。该方案出自一家专业芯片设计服务商，定位独特，依赖台积电（TSMC）的SoIC异质键合技术。

尽管GUC官方将DoL置于片上SRAM与封装外HBM之间，但从性能、功耗与成本数据来看，DoL并非主要为与HBM或DDR共存于混合内存子系统中而设计（此类系统超出本文范围）。相反，DoL更像是一个近计算工作内存层级，速度优于HBM4，适用于对带宽敏感而对容量要求不高的应用场景，可替代HBM。

在GUC方案中，四至八层定制DRAM直接垂直键合于计算芯片上方，彻底省去行业标准的外部内存接口、PHY与SerDes模块，腾出空间用于计算硬件。据GUC在台积电论坛公布的数据，该结构可提供约5 TB/s带宽（为HBM4的两倍），延迟约30纳秒，能效约0.5 pJ/bit。相比之下，HBM4为3 pJ/bit，SRAM为0.1 pJ/bit。

就密度而言，GUC称DoL可实现10 MB/mm²至40 MB/mm²（依堆叠层数而定），单芯片可达数十GB容量，足以满足多数AI推理与网络处理任务——这些任务受限于带宽与功耗，而非原始内存容量。对这类应用，HBM4的架构与经济合理性远逊于GUC的DoL：HBM4虽容量更高，但延迟大、带宽低、成本高。HBM4在大型模型训练等需数百GB内存的场景中仍不可或缺；但在日益增多的加速器中，DoL可作为主高性能内存。需要更大容量者，也可构建DoL与DDR/LPDDR组合的混合内存系统，但此类系统能否普及尚待观察。

从成本与集成角度，GUC将DoL定位为“1倍基准价+SoIC成本”，对比HBM4为“2倍基准价+CoWoS成本”，SRAM则高达20倍。堆叠结构使内存可在不大幅占用芯片或中介层面积的前提下垂直扩展，并受益于SoC整体的功耗优化。

然而，GUC的DoL也存在潜在风险。由于内存必须与逻辑芯片精准对齐，制造过程需消除任何微小错位，这对制程节点选择极为严苛。理论上可行，但大规模量产下的良率尚不可知——低良率将推高成本。

Boolean Labs首席技术官兼首席科学家Michael Schuette（拥有多项内存领域专利）指出：“DRAM堆叠于逻辑芯片之上理想但困难重重。你面对的是两种不同制造工艺，几何尺寸越小，对齐难度越高。”

此外，尚不清楚DoL的DRAM层能否在组装前单独测试。若无法测试，单个不良DRAM层即可导致整套组件报废，大幅推高成本并影响技术推广——这正是上世纪90年代末至2010年代初RDRAM失败的原因之一。

Schuette解释道：“Rambus的RDRAM串行架构无法单独测试芯片，只能测试整个模组。一旦某一行内存损坏，整个模组即报废，因无法识别故障芯片。”

三星SAINT-D

GUC并非唯一提出DRAM堆叠于逻辑芯片之上的企业——该方式可带来传统DRAM或HBM并排布局无法实现的优势。三星在其“三星先进互连技术”（SAINT）3D堆叠平台中提供DoL集成方案，该平台包括SAINT-S（SRAM-on-logic）、SAINT-L（logic-on-logic）与SAINT-D（DRAM-on-logic），支持HBM/DRAM垂直堆叠于CPU/GPU之上。

顾名思义，SAINT-D是一个DRAM堆叠平台，为寻求垂直内存集成的系统级封装开发者提供多种选项。它支持定制DRAM、HBM或通用DRAM集成，灵活性优于GUC的DoL（后者面向特定需求与应用）。三星以交钥匙服务形式提供SAINT-D，整合其晶圆代工、先进封装与内存业务。这种一站式模式或为其独特优势：因所有组件均由三星内部生产，可全面协同优化，尤其在HBM4垂直集成面临巨大挑战的背景下。

HBM4堆叠于逻辑芯片之上

为提升性能，HBM4将接口拓宽至2048位，导致通过中介层与重布线层连接主机处理器时引脚数激增至约5500个，复杂度极高。因此业内普遍认为，采用异质键合将HBM4直接堆叠于处理器之上更具可行性。然而，HBM堆栈是AI加速器封装中的主要热源，垂直堆叠大幅提高局部功率密度与热阻，形成严重散热瓶颈。

Rambus资深研究员兼杰出发明家Steven Woo指出：“将HBM直接堆叠于处理器之上始终是诱人构想，但实际挑战犹存。热管理、供电与良率问题使该集成难以规模化，尤其当逻辑与内存密度持续提升时。行业目前仍广泛采用2.5D或芯粒（chiplet）等侧边集成方案——它们在避免3D堆叠带来的热、供电与制造难题的同时，仍可提供高带宽。”

据imec于2025年末发表的一篇论文，在无缓解措施情况下，模拟的3D HBM-on-GPU方案（GPU顶部堆叠四颗12层HBM，通过微凸点连接主机并自上冷却）峰值温度达141.7°C，而常规2.5D HBM环绕GPU设计仅为69.1°C（相同冷却条件）。该温度远超GPU逻辑芯片安全上限（约105°C）与DRAM（95°C）。KAIST估算单颗12层/16层HBM4堆栈功耗约75W（尺寸10.5×12.0 mm），未来版本热设计功耗将进一步上升。四颗HBM4堆栈满载功耗约300W；若再叠加一颗400W ASIC（如GB200/GB300中所用双ASIC之一），3D堆叠处理器总功耗达700W，而芯片面积仅约750 mm²，极难有效散热。

Woo提问：“此时逻辑芯片位于下方成为热源，你如何高效导出全部热量，并保障内存数据完整性与可靠性？”他强调：“DRAM堆栈并不耐高温——存储数据的位单元会因温度升高而漏电加剧。”

为解决3D堆叠HBM的热挑战，imec在其跨技术协同优化（XTCO）计划中提出多项强力缓解措施，涵盖系统与设计技术协同优化策略。其中最有效的包括：GPU频率减半（降温20.8°C）、合并HBM堆栈（降温17.6°C）、双面冷却（降温16.6°C）等。

综合实施XTCO措施可使3D堆叠HBM处理器温度减半，但代价是显著性能损失，并需DRAM厂商修改HBM设计——这可能影响良率与供应链，还需调整冷却方案。

imec系统技术项目总监James Myers表示：“GPU核心频率减半后，峰值温度从120°C降至100°C以下，满足内存运行关键目标。尽管此步骤带来28%工作负载延迟（即AI训练步骤变慢），但得益于3D配置更高的吞吐密度，整体封装性能仍优于2.5D基准方案。我们正利用该方法研究其他GPU/HBM配置（如GPU置于HBM之上），以应对未来热约束。”

至于AI或HPC处理器厂商是否会真正将HBM4、HBM4E或C-HBM4E三维堆叠于自身设计之上，仍有待观察；但Rambus预计，受热效应影响的架构将在未来更为普遍。

Kamath总结道：“将内存堆叠于逻辑芯片之上是一项挑战，需权衡在保障DRAM可靠运行前提下可实现多少计算任务。当前趋势是：物理设计约束正深刻影响处理器架构。全行业可见，热效应正驱动处理器与内存两侧的架构演进，未来我们将看到更多由热管理主导的架构决策。”

内存与逻辑融合：Automata、HBM-PIM、GDDR6-AIM

将定制逻辑嵌入内存芯片并非全新概念。美光2014年推出Automata处理器；三星与SK海力士于2020年代初分别试验HBM-PIM（内存内处理器）与GDDR6-AIM（内存内加速器）。将基础处理能力置于内存附近，可显著降低内存带宽需求与整体功耗。

Schuette指出：“理想情况是实现‘内存内处理’——一种能感知内存内容或至少具备模式提取能力的智能芯片。如此可将主机处理器带宽需求降低约90%……你可在数据送至主处理器前，先由内置处理器完成模式识别、图像分析等初步处理。”

然而，上述三项技术均未成功商业化，主因是目标工作负载过于狭窄或误判了性能瓶颈。

Automata处理器在DRAM中嵌入海量并行有限状态机，以加速模式匹配、正则表达式与图遍历运算。但其仅适用于特定领域，且需专用工具链、编译器及熟悉自动机理论的开发人员，通用性极差。

尽管理念不同，HBM-PIM与GDDR6-AIM本质目标一致：通过在HBM堆栈中集成简易计算单元，减少数据移动（该操作功耗高昂），从而提升可用内存带宽。三星PIM将计算单元嵌入内存层，SK海力士AIM则嵌入内存体（bank）。二者未能普及，很大程度上因GPU已为多数预期工作负载提供足够性能，并拥有成熟生态（CUDA、cuDNN、PyTorch）——即便某加速器在特定任务上大幅提升速度，其利基属性仍使其在经济与运维上缺乏吸引力。

归根结底，当前AI工作负载集中于密集张量运算，而Automata、PIM与AIM针对的是过去的问题：非规则访问、规则处理或模式匹配。

最终，美光、三星与SK海力士等内存厂商更倾向于规模化销售标准化、高毛利的HBM。其商业模式不适合资助用户基数有限的利基架构，其制造工艺也更适合重复生产的常规DRAM阵列，而非逻辑电路。因此，尽管“内存内集成逻辑”在技术上优雅，但缺乏软件支持使其商业上不可行。

不过，随着C-HBM4E及美满基于行业标准与规模经济的定制HBM4E方案出现，近内存甚至内存内处理的成功概率已高于以往，Scheute认为。

他进一步解释：“你需要一种内存加速器，能生成可被同一加速器提取的定制元数据——换言之，为非结构化数据赋予结构，并将该结构与数据一同存储，使搜索对象变为结构而非原始数据。这确实需要一定处理能力，但不必实时执行，理论上可在空闲时段后台完成。”

例如，谷歌、Meta等超大规模企业可在其自研AI加速器的内存子系统中嵌入定制内存内或近内存加速器，以进一步优化软硬件栈。

Schuette强调：“这正是他们应采取的方向。但你不能简单地在HBM中塞入加速器，就指望它自动解开 Gordian Knot（棘手难题）。你必须明确数据本质、特征属性，并将其转化为可用形式。”

www.eic.net.cn

易IC库存管理软件

← 上一篇

超越背板：光学MEMS麦克风解锁高保真音频

没有更多了