“何不试试”促成Groq200亿美元交易

2026-03-24 电子工程时报

阅读时间约 3 分钟

美国加利福尼亚州圣何塞讯——在GTC2026大会上，Groq首席执行官、现任英伟达首席软件架构师乔纳森·罗斯（Jonathan Ross）透露，两家公司已在幕后合作近一年。这项合作将大语言模型推理任务在英伟达GPU与Groq LPU之间进行解耦处理，最终促成了半导体行业史上最大规模交易之一：英伟达以约200亿美元收购Groq技术并吸纳其技术团队。

“一切始于2025年初，当时英伟达发布NVLink，并计划向合作伙伴开放连接能力。”罗斯表示。

Groq首席运营官桑尼·马德拉（Sunny Madra）主动联系英伟达，询问是否允许该公司使用原为GPU-GPU互联设计、但已授权给第三方CPU厂商的通信协议，供另一家AI加速器企业使用。据罗斯转述，英伟达首席执行官黄仁勋（Jensen Huang）的答复是：“何不试试？”

“我们拿到了一些GPU……开始尝试在GPU与LPU之间协同运行任务，将不同部分的工作负载分配至各自更擅长的芯片上。”罗斯说，“结果成功了。”

“我们将演示成果提交给黄仁勋。三天后，他打来电话说：‘我们为何不更紧密地合作？’三周后，交易敲定。再过一天，我便全职加入英伟达工作——那天恰是12月25日，圣诞节。当天我就拿到了笔记本电脑，正式开始工作。”

Groq此前的核心卖点在于单用户令牌生成速度，但其基于SRAM的架构需大量机架芯片才能容纳单一模型，经济性欠佳。

“桑尼向我提出与英伟达GPU解耦的方案，起初我持反对意见。”罗斯坦言，“并非认为想法不好，而是不确定能否实现，且当时还有其他多个可行方向。”

“我们几乎没做这个项目。”他补充道，“一年后回看，若当时已有AI辅助实验决策，这类探索会更容易获得‘同意’。如今若再面临同样选择，答案毫无疑问是肯定的——唯一顾虑只是机会成本：我们工程师数量有限，正全力满足客户交付需求；客户明确承诺了交付后的付款金额，我们已按既定路径推进。桑尼力推此方案，我最终同意：‘行，抽一小部分人试试。’”

“试想，如果我当时说了‘不’呢？”他反问。

Groq LP30芯片

在黄仁勋GTC主题演讲中高调发布的这款新品，将作为英伟达Rubin系列新一代产品线的一部分。英伟达已将Groq LP30芯片集成于标准化机架系统，命名为Groq 3 LPX机架，未来将与Vera Rubin机架并列部署于AI工厂中。黄仁勋指出，二者组合可使高交互性工作负载（即每用户每秒高令牌生成量）的吞吐量达到Vera Rubin单独运行时的35倍。

商业逻辑清晰：用户愿为速度付费。低交互性令牌（用户感知为“慢”的响应）价值较低甚至免费；而高速令牌——如黄仁勋举例的每用户每秒200或400个令牌——将按“高端”层级收费，因其单位价值更高。正是Groq芯片与配套软件实现了此类高价值令牌的生成能力。即便最新Rubin代GPU具备高吞吐量，仍无法达到最高交互水平；Groq芯片则在性能曲线右端将Rubin的交互能力向上拉升（见下图右上角浅褐色线）。

“这或许是关乎AI工厂未来最重要的图表。”黄仁勋强调，“全球每位CEO都将深入研究它。”他指出，该图表将直接转化为AI工厂的收入增长。

“若多数工作负载为高吞吐型，建议仅采用100% Vera Rubin。”黄仁勋解释，“若大量任务涉及编程及高价值工程类令牌生成，则应搭配Groq芯片——例如在25%的数据中心部署Groq，其余75%仍用Vera Rubin。”

Groq芯片配备大量SRAM（v3版本达500MB），其编译器在编译阶段即完成全部计算调度，专为推理场景优化。

“这本质上是一个工作负载。而事实证明，它恰恰就是AI工厂的核心工作负载。”黄仁勋表示，“随着全球对高速令牌——即‘超智能’令牌——需求持续攀升，此次整合的价值将进一步放大。”

黄仁勋坦言，Groq此前难以进入主流市场。

“倘若我们重构推理流程：将最适合Vera Rubin的部分（高吞吐）保留在其上，而将解码生成、低延迟、带宽受限环节卸载至Groq，会如何？”他提问，“我们整合了两种极端差异的处理器：一个专注高吞吐，一个专注低延迟。”

换言之，Vera Rubin的短板恰是Groq的长项，反之亦然。大语言模型推理任务将被拆分至相邻异构硬件机架中：Vera Rubin负责预填充（prefill，通常为计算密集型）及解码阶段中的注意力计算（memory capacity-bound）；Groq 3 LPU则承担解码阶段的前馈网络（FFN）部分——即生成句子下一令牌的关键环节，该环节通常受内存带宽限制。Groq芯片无法独立完成全部解码任务，因其缺乏足够内存容量存储上下文（尤其是KV缓存），但单个机架可容纳完整模型权重以支持令牌生成。

最佳配比为1台Vera Rubin机架对应1至4台Groq LPX机架。

黄仁勋称，Vera Rubin与Groq 3 LPU组合为英伟达客户释放的营收潜力接近每吉瓦3000亿美元，主要源于高价值令牌的生产能力提升。

在Groq LPX机架内部，计算托盘含8块LPU，单机架共256块，采用与GB200及Vera Rubin相同的MGX机架架构。该机架命名为LPX，采用液冷散热，功耗包络与整套Vera Rubin机架一致。系统内嵌FPGA用于跨芯片工作负载同步，保障精准执行。

Groq 3（LP30）芯片采用Groq专有的以太网基片间互联技术。Groq产品与商业营销负责人斯图尔特·皮茨（Stuart Pitts）——现任职于英伟达加速计算与推理产品部——向《电子工程时报》介绍：“我们将持续联合创新。LP30单芯片配备96条直连链路，集群扩展能力显著。”

NVLink-C2C技术预计将在下一代Groq 4芯片中引入，目前单NVLink域可支持72块GPU；Rubin Ultra将借助共封装光学技术将域规模提升至576。每LPX机架含256块Groq芯片。

Groq平台此前基于2019年推出的初代芯片构建，第二代芯片始终未面世。LP30被定位为第三代产品。

“我们跳过了V2。”皮茨透露，“签约前已与英伟达协作一段时间；协议签署后，黄仁勋直接表示：‘来吧，我要V3，明天就要。’我们实际上实现了多代技术跃升。”

www.eic.net.cn 提供的易IC库存管理软件可高效支撑此类高性能芯片研发与供应链协同，确保关键元器件及时到位，助力企业快速响应市场需求。

软件栈整合

生成式AI下一阶段需应对万亿参数模型、50万令牌上下文及每秒千级令牌生成的需求。

“256块Groq芯片组成的LPX机架，或其与Vera Rubin组合，可使下一代工作负载具备可行性、经济性与高性能，从而支持智能体间以万亿参数级智能进行对话。”英伟达超大规模与高性能计算副总裁伊恩·巴克（Ian Buck）表示，“但现实是：芯片若无强大软件支撑，无法发挥效能。”

巴克指出，软件可带来关键变量：英伟达Dynamo推理集群编排软件使Blackwell性能提升7倍。

“关键不在谁的芯片更快，而在谁拥有深度集成与软件能力以真正执行任务——我们远未止步，模型仍在加速进化。”

Groq编译器是其核心知识产权之一，负责统筹芯片上全部工作负载执行；公司还开发了针对海量芯片分片推理的专用软件。英伟达将如何利用Groq软件栈？

“我们已全面授权并计划全部采用。”巴克确认，“Groq拥有极为出色的编译器以适配该处理器，以及卓越的模型分片与跨芯片编译技术——这是必需的。解耦软件至关重要。”

Groq工程师已并入英伟达Dynamo团队。

“我们正整合全部技术栈：在保留现有LPU互联基础上加速优化，增派人力推进其LPU软件路线图，并将GPU纳入该体系。”巴克补充道。

他证实，英伟达正大力投资Groq软硬件体系。

Groq此前通过API向客户提供令牌服务，其底层软件栈属内部私有。作为CUDA发明者，巴克是否计划效仿CUDA模式开放Groq软件环境，允许用户编写底层代码？

“LPX第一阶段将优先服务最大客户。”巴克回应，“后续将逐步向基础模型构建者乃至全球开发者开放编程环境，但首代产品仍将延续Groq原有模式。”

在Groq交易前，英伟达原计划推出一款小型GPU（Rubin CPX），通过调整算力与内存配比实现更快预填充（缩短首令牌时间）。交易达成后，该方案已被搁置。

“我们决定聚焦解码环节，以提升每令牌收益与生成速率。”巴克解释，“Vera Rubin仍可完成预填充——CPX本意是降低成本，但其影响有限：仅改善首令牌延迟，而非实际令牌生成速度。”

“Rubin CPX仍是好方案，我们预计将在费曼（Feynman）代产品中重新评估。”他补充道。

← 上一篇

功率模块封装技术演进：材料与供应链重塑电力电子产业

没有更多了