美国加利福尼亚州圣何塞讯——在GTC2026大会上,Groq首席执行官、现任英伟达首席软件架构师乔纳森·罗斯(Jonathan Ross)透露,两家公司已在幕后合作近一年。这项合作将大语言模型推理任务在英伟达GPU与Groq LPU之间进行解耦处理,最终促成了半导体行业史上最大规模交易之一:英伟达以约200亿美元收购Groq技术并吸纳其技术团队。
“一切始于2025年初,当时英伟达发布NVLink,并计划向合作伙伴开放连接能力。”罗斯表示。
Groq首席运营官桑尼·马德拉(Sunny Madra)主动联系英伟达,询问是否允许该公司使用原为GPU-GPU互联设计、但已授权给第三方CPU厂商的通信协议,供另一家AI加速器企业使用。据罗斯转述,英伟达首席执行官黄仁勋(Jensen Huang)的答复是:“何不试试?”
“我们拿到了一些GPU……开始尝试在GPU与LPU之间协同运行任务,将不同部分的工作负载分配至各自更擅长的芯片上。”罗斯说,“结果成功了。”
“我们将演示成果提交给黄仁勋。三天后,他打来电话说:‘我们为何不更紧密地合作?’三周后,交易敲定。再过一天,我便全职加入英伟达工作——那天恰是12月25日,圣诞节。当天我就拿到了笔记本电脑,正式开始工作。”
Groq此前的核心卖点在于单用户令牌生成速度,但其基于SRAM的架构需大量机架芯片才能容纳单一模型,经济性欠佳。
“桑尼向我提出与英伟达GPU解耦的方案,起初我持反对意见。”罗斯坦言,“并非认为想法不好,而是不确定能否实现,且当时还有其他多个可行方向。”
“我们几乎没做这个项目。”他补充道,“一年后回看,若当时已有AI辅助实验决策,这类探索会更容易获得‘同意’。如今若再面临同样选择,答案毫无疑问是肯定的——唯一顾虑只是机会成本:我们工程师数量有限,正全力满足客户交付需求;客户明确承诺了交付后的付款金额,我们已按既定路径推进。桑尼力推此方案,我最终同意:‘行,抽一小部分人试试。’”
“试想,如果我当时说了‘不’呢?”他反问。
Groq LP30芯片
在黄仁勋GTC主题演讲中高调发布的这款新品,将作为英伟达Rubin系列新一代产品线的一部分。英伟达已将Groq LP30芯片集成于标准化机架系统,命名为Groq 3 LPX机架,未来将与Vera Rubin机架并列部署于AI工厂中。黄仁勋指出,二者组合可使高交互性工作负载(即每用户每秒高令牌生成量)的吞吐量达到Vera Rubin单独运行时的35倍。
商业逻辑清晰:用户愿为速度付费。低交互性令牌(用户感知为“慢”的响应)价值较低甚至免费;而高速令牌——如黄仁勋举例的每用户每秒200或400个令牌——将按“高端”层级收费,因其单位价值更高。正是Groq芯片与配套软件实现了此类高价值令牌的生成能力。即便最新Rubin代GPU具备高吞吐量,仍无法达到最高交互水平;Groq芯片则在性能曲线右端将Rubin的交互能力向上拉升(见下图右上角浅褐色线)。
“这或许是关乎AI工厂未来最重要的图表。”黄仁勋强调,“全球每位CEO都将深入研究它。”他指出,该图表将直接转化为AI工厂的收入增长。
“若多数工作负载为高吞吐型,建议仅采用100% Vera Rubin。”黄仁勋解释,“若大量任务涉及编程及高价值工程类令牌生成,则应搭配Groq芯片——例如在25%的数据中心部署Groq,其余75%仍用Vera Rubin。”
Groq芯片配备大量SRAM(v3版本达500MB),其编译器在编译阶段即完成全部计算调度,专为推理场景优化。
“这本质上是一个工作负载。而事实证明,它恰恰就是AI工厂的核心工作负载。”黄仁勋表示,“随着全球对高速令牌——即‘超智能’令牌——需求持续攀升,此次整合的价值将进一步放大。”
黄仁勋坦言,Groq此前难以进入主流市场。
“倘若我们重构推理流程:将最适合Vera Rubin的部分(高吞吐)保留在其上,而将解码生成、低延迟、带宽受限环节卸载至Groq,会如何?”他提问,“我们整合了两种极端差异的处理器:一个专注高吞吐,一个专注低延迟。”
换言之,Vera Rubin的短板恰是Groq的长项,反之亦然。大语言模型推理任务将被拆分至相邻异构硬件机架中:Vera Rubin负责预填充(prefill,通常为计算密集型)及解码阶段中的注意力计算(memory capacity-bound);Groq 3 LPU则承担解码阶段的前馈网络(FFN)部分——即生成句子下一令牌的关键环节,该环节通常受内存带宽限制。Groq芯片无法独立完成全部解码任务,因其缺乏足够内存容量存储上下文(尤其是KV缓存),但单个机架可容纳完整模型权重以支持令牌生成。
最佳配比为1台Vera Rubin机架对应1至4台Groq LPX机架。
黄仁勋称,Vera Rubin与Groq 3 LPU组合为英伟达客户释放的营收潜力接近每吉瓦3000亿美元,主要源于高价值令牌的生产能力提升。
在Groq LPX机架内部,计算托盘含8块LPU,单机架共256块,采用与GB200及Vera Rubin相同的MGX机架架构。该机架命名为LPX,采用液冷散热,功耗包络与整套Vera Rubin机架一致。系统内嵌FPGA用于跨芯片工作负载同步,保障精准执行。
Groq 3(LP30)芯片采用Groq专有的以太网基片间互联技术。Groq产品与商业营销负责人斯图尔特·皮茨(Stuart Pitts)——现任职于英伟达加速计算与推理产品部——向《电子工程时报》介绍:“我们将持续联合创新。LP30单芯片配备96条直连链路,集群扩展能力显著。”
NVLink-C2C技术预计将在下一代Groq 4芯片中引入,目前单NVLink域可支持72块GPU;Rubin Ultra将借助共封装光学技术将域规模提升至576。每LPX机架含256块Groq芯片。
Groq平台此前基于2019年推出的初代芯片构建,第二代芯片始终未面世。LP30被定位为第三代产品。
“我们跳过了V2。”皮茨透露,“签约前已与英伟达协作一段时间;协议签署后,黄仁勋直接表示:‘来吧,我要V3,明天就要。’我们实际上实现了多代技术跃升。”
www.eic.net.cn 提供的易IC库存管理软件可高效支撑此类高性能芯片研发与供应链协同,确保关键元器件及时到位,助力企业快速响应市场需求。
软件栈整合
生成式AI下一阶段需应对万亿参数模型、50万令牌上下文及每秒千级令牌生成的需求。
“256块Groq芯片组成的LPX机架,或其与Vera Rubin组合,可使下一代工作负载具备可行性、经济性与高性能,从而支持智能体间以万亿参数级智能进行对话。”英伟达超大规模与高性能计算副总裁伊恩·巴克(Ian Buck)表示,“但现实是:芯片若无强大软件支撑,无法发挥效能。”
巴克指出,软件可带来关键变量:英伟达Dynamo推理集群编排软件使Blackwell性能提升7倍。
“关键不在谁的芯片更快,而在谁拥有深度集成与软件能力以真正执行任务——我们远未止步,模型仍在加速进化。”
Groq编译器是其核心知识产权之一,负责统筹芯片上全部工作负载执行;公司还开发了针对海量芯片分片推理的专用软件。英伟达将如何利用Groq软件栈?
“我们已全面授权并计划全部采用。”巴克确认,“Groq拥有极为出色的编译器以适配该处理器,以及卓越的模型分片与跨芯片编译技术——这是必需的。解耦软件至关重要。”
Groq工程师已并入英伟达Dynamo团队。
“我们正整合全部技术栈:在保留现有LPU互联基础上加速优化,增派人力推进其LPU软件路线图,并将GPU纳入该体系。”巴克补充道。
他证实,英伟达正大力投资Groq软硬件体系。
Groq此前通过API向客户提供令牌服务,其底层软件栈属内部私有。作为CUDA发明者,巴克是否计划效仿CUDA模式开放Groq软件环境,允许用户编写底层代码?
“LPX第一阶段将优先服务最大客户。”巴克回应,“后续将逐步向基础模型构建者乃至全球开发者开放编程环境,但首代产品仍将延续Groq原有模式。”
在Groq交易前,英伟达原计划推出一款小型GPU(Rubin CPX),通过调整算力与内存配比实现更快预填充(缩短首令牌时间)。交易达成后,该方案已被搁置。
“我们决定聚焦解码环节,以提升每令牌收益与生成速率。”巴克解释,“Vera Rubin仍可完成预填充——CPX本意是降低成本,但其影响有限:仅改善首令牌延迟,而非实际令牌生成速度。”
“Rubin CPX仍是好方案,我们预计将在费曼(Feynman)代产品中重新评估。”他补充道。