易IC电子行业销售管理系统 - 易IC电子行业库存管理软件
首页 / 行业新闻 / 正文

Taalas实现极致优化提升令牌速度

2026-02-19   EE Times
阅读时间约 3 分钟
AI芯片初创公司Taalas由Tenstorrent联合创始人兼前首席执行官和首席技术官Ljubisa Bajic共同创立,正在展示其首款具有非凡性能的芯片。Taalas的HC1在Llama3.1-8B上每用户每秒可达到超过16,000个令牌,是竞争对手Nvidia、Cerebras和Groq的数倍,但有一个问题——该芯片仅运行Llama3.1-8B。
通过将整个模型包括其权重硬接线到芯片上,几乎消除了所有可编程性(HC1具有一小块SRAM,可用于存储微调权重和KV缓存),从而实现了卓越的性能。
已经有专注于LLM推理的芯片公司如SambaNova和D-Matrix在市场上,但大多数关注内存和计算的最佳平衡以及它们之间的带宽,保留可编程性以运行任何模型。初创公司Etched正在追求更针对transformer的架构,以性能换取灵活性,但尚不清楚它们会提供多少可编程性。Taalas的方法是AI芯片行业迄今为止最极端的专业化。
Taalas首席执行官Ljubisa Bajic告诉EE Times,这种极端方法并不适合每个应用,但它可能适合某些应用。
www.eic.net.cn
易IC库存管理软件
“基本上,我们寻找了为了经济性和速度而做出痛苦权衡的方法,”Bajic说。
“没有人进入这个[灵活性-性能]角落,因为每个人都认为AI变化如此迅速,这样做将是巨大的风险……这在某种程度上是正确的,”Bajic说。“但我们想看看这个角落里有什么,如果我们探索它能获得什么,你可以得到很多。我们得出结论,肯定有一组应用会从这种程度的优化中受益。有多少最终会成为这样……我们会发现。”
“令牌每秒”
Taalas的在线聊天机器人演示在EE Times尝试时达到了15,000+令牌每秒,但内部测试在某些条件下接近17,000,该公司表示(Taalas承认其Llama3.1-8B版本被“激进地”量化)。目前Taalas最快的竞争对手是Cerebras,它可以在Llama3.1-8B上每用户每秒达到接近2,000个令牌,SambaNova约为900,Groq约为600(这些数字来自Artificial Analysis)。Taalas表示,它在内部测试了Nvidia Blackwell代硬件,大约为350。
Taalas的HC1采用台积电N6工艺,芯片尺寸为815平方毫米,一个芯片可以容纳整个8B模型。该芯片耗电约250W,因此10个HC1卡在一个服务器中需要约2.5kW,这意味着它们可以在标准风冷机架中部署。
根据Taalas的数据,总拥有成本(TCO)也显得有利,即使假设GPU刷新周期为四年,而Taalas芯片每年都需要重新流片和更换。Taalas上的100万个Llama3.1-8B令牌成本为0.75美分。
“两个掩模”
Taalas借鉴了2000年代初的结构ASIC的一些想法,以制造其硬接线模型专用芯片。结构ASIC使用门阵列和硬化IP块,仅改变互连层以适应特定工作负载。当时,这被视为比全定制ASIC更经济的替代方案,全定制ASIC性能优于FPGA。
“确实有相似之处,”Bajic说。“这与eASIC和门阵列的想法类似,但底层技术看起来完全不同。”
Taalas仅改变两个掩模来为特定模型定制芯片,但这两个掩模可以同时改变模型权重和数据流通过芯片。在HC1上,模型及其权重通过基于掩模-ROM的回忆结构与(可编程)SRAM一起存储,SRAM可用于存储微调权重和/或KV缓存。未来几代芯片可能会将SRAM分割到单独的芯片上,这意味着它们可以比HC1更密集。
“目标是证明我们的架构有效,并展示我们的方法如何用于扩展到更大的模型,”Taalas的产品副总裁Paresh Kharya告诉EE Times。“我们必须做出许多技术突破才能使这种方法奏效。通过选择较小的模型,我们基本上清空了整个过程。”
HC1可以将整个8B版本的Llama3.1放在一个芯片上,但更大的模型需要更多的芯片。Taalas已经模拟了DeepSeekR1-671B多芯片解决方案的样子。将SRAM部分分割到单独的芯片上可以将密度提高到约20B参数每Taalas芯片(在MXFP4格式中)。Bajic表示,Taalas的密度也得益于一项创新,即存储4位模型参数并在单个晶体管上进行乘法运算(他拒绝提供更多细节,但确认计算仍然是完全数字的)。即使有这些密度优势,持有整个671B模型仍需要大约30次定制流片。
“这意味着30次增量流片,这是烦人的部分,但流片成本很低,因为它只有两个掩模,”Bajic说。“这个想法的核心是假设客户愿意为此[芯片/模型]承诺一年。肯定会有很多人不会,但有些人会。”
Taalas对其30多个芯片的DeepSeekR1模拟表明,它每用户每秒可以达到约12,000个令牌(根据公司说法,目前GPU的最高水平是每用户每秒约200个令牌)。Taalas的计算表明,DeepSeekR1在30个芯片上运行时,每百万令牌成本为7.6美分,低于基于吞吐量优化的GPU等效成本的一半,即使考虑到每年需要流片30个新芯片,而不是四年一次的GPU刷新周期。
通常,速度与成本之间存在权衡,但Taalas希望为两者提供优势。
“从我们的角度来看,我们已经有了相当严重的妥协,所以我们希望让它成为唯一的妥协,”Bajic说。“是的,它不太灵活,但从另一方面来看,其他一切都更好。”
降低成本的一部分是定期快速流片,任何大于8B的模型都可能需要多次流片,这就是Taalas的部分秘诀所在。
“我们建立了一些自动化,以便我们可以从模型快速转到[RTL],”Bajic说。“这不是完全一键式,但目前需要大约一周的努力。”
Bajic表示,Taalas预计能够提供定制模型专用芯片,两个月内完成。
“这是一个晶圆尺寸的芯片,你正在移动和改变连接,仅仅验证它在正常方式下是否工作就太慢了,”Bajic说。“你怎么能在不花费六个月的情况下对这些东西进行设计规则检查?”
增加的问题是Taalas故意缺乏可编程性。
“因为我们是硬接线的,错误的余地基本上是零,”Bajic说。“你只能通过运行整个模型的模拟来确保它有效,因为你在流片后无法更改任何东西,或者你的更改能力非常有限。”
但模拟30个芯片协同工作也不是一件容易的事。Bajic表示,Taalas的工作流程使其能够在大型计算集群上运行如此大规模的模拟,并且这些模拟的结构使得它们可以向潜在客户展示,而不会泄露Taalas的秘密或违反其EDA工具合同的条款。
“最终结果是我们建立了一些别人没有的东西,”Bajic说。“从工程角度来看,我们在其他人没有的地方点亮了一盏灯,那里有上百个相当困难的问题需要解决……挑战主要是没有人以前做过这件事。”
“销售芯片”
Taalas仍在定义其商业模式,但Kharya表示,公司有许多选项。
“我们想与开发者合作,”Kharya说。“未来,我们可以构建自己的基础设施运行开源模型并提供API访问[以及销售芯片]。同时,我们还愿意与模型开发者合作,为他们的模型创建定制芯片,用于他们自己的服务基础设施。这两种可能性都是开放的。”
Kharya称之为模型最优硅片的东西是不可避免的。虽然它不会取代满载GPU的大数据中心,但它将适合某些应用,特别是当模型成熟到变得有用时,因为它会使它们更具粘性。
“对于我们要交谈的人群来说,期待模型运行重要用例的亲和力可能是一年甚至更久,”Kharya说。
HC1主要用于演示,今天正在运行推理。Taalas计划在夏季初生产一款针对“合理大小”推理模型的第二款芯片,并计划在年底运行前沿级模型。该公司已筹集超过2亿美元,目前有大约25名员工。
下一篇 →
没有更多了

|
|
|
|
TOP
©Copyright www.eic.net.cn 2003-2026 BeiJing MengKaiGuan Software Exploiture Co.,Ltd. All Rights Reserved.    北京梦开关科技有限公司
IC元器件库存管理软件 IC元器件库存管理系统 IC元器件管理软件 IC元器件进销存 IC元器件库存管理软件 IC元器件库存管理系统 快递查询接口
QQ: 880717
18500810082