Taalas实现极致优化提升令牌速度

2026-02-19 EE Times

阅读时间约 3 分钟

AI芯片初创公司Taalas由Tenstorrent联合创始人兼前首席执行官和首席技术官Ljubisa Bajic共同创立，正在展示其首款具有非凡性能的芯片。Taalas的HC1在Llama3.1-8B上每用户每秒可达到超过16,000个令牌，是竞争对手Nvidia、Cerebras和Groq的数倍，但有一个问题——该芯片仅运行Llama3.1-8B。

通过将整个模型包括其权重硬接线到芯片上，几乎消除了所有可编程性（HC1具有一小块SRAM，可用于存储微调权重和KV缓存），从而实现了卓越的性能。

已经有专注于LLM推理的芯片公司如SambaNova和D-Matrix在市场上，但大多数关注内存和计算的最佳平衡以及它们之间的带宽，保留可编程性以运行任何模型。初创公司Etched正在追求更针对transformer的架构，以性能换取灵活性，但尚不清楚它们会提供多少可编程性。Taalas的方法是AI芯片行业迄今为止最极端的专业化。

Taalas首席执行官Ljubisa Bajic告诉EE Times，这种极端方法并不适合每个应用，但它可能适合某些应用。

www.eic.net.cn

易IC库存管理软件

“基本上，我们寻找了为了经济性和速度而做出痛苦权衡的方法，”Bajic说。

“没有人进入这个[灵活性-性能]角落，因为每个人都认为AI变化如此迅速，这样做将是巨大的风险……这在某种程度上是正确的，”Bajic说。“但我们想看看这个角落里有什么，如果我们探索它能获得什么，你可以得到很多。我们得出结论，肯定有一组应用会从这种程度的优化中受益。有多少最终会成为这样……我们会发现。”

“令牌每秒”

Taalas的在线聊天机器人演示在EE Times尝试时达到了15,000+令牌每秒，但内部测试在某些条件下接近17,000，该公司表示（Taalas承认其Llama3.1-8B版本被“激进地”量化）。目前Taalas最快的竞争对手是Cerebras，它可以在Llama3.1-8B上每用户每秒达到接近2,000个令牌，SambaNova约为900，Groq约为600（这些数字来自Artificial Analysis）。Taalas表示，它在内部测试了Nvidia Blackwell代硬件，大约为350。

Taalas的HC1采用台积电N6工艺，芯片尺寸为815平方毫米，一个芯片可以容纳整个8B模型。该芯片耗电约250W，因此10个HC1卡在一个服务器中需要约2.5kW，这意味着它们可以在标准风冷机架中部署。

根据Taalas的数据，总拥有成本（TCO）也显得有利，即使假设GPU刷新周期为四年，而Taalas芯片每年都需要重新流片和更换。Taalas上的100万个Llama3.1-8B令牌成本为0.75美分。

“两个掩模”

Taalas借鉴了2000年代初的结构ASIC的一些想法，以制造其硬接线模型专用芯片。结构ASIC使用门阵列和硬化IP块，仅改变互连层以适应特定工作负载。当时，这被视为比全定制ASIC更经济的替代方案，全定制ASIC性能优于FPGA。

“确实有相似之处，”Bajic说。“这与eASIC和门阵列的想法类似，但底层技术看起来完全不同。”

Taalas仅改变两个掩模来为特定模型定制芯片，但这两个掩模可以同时改变模型权重和数据流通过芯片。在HC1上，模型及其权重通过基于掩模-ROM的回忆结构与（可编程）SRAM一起存储，SRAM可用于存储微调权重和/或KV缓存。未来几代芯片可能会将SRAM分割到单独的芯片上，这意味着它们可以比HC1更密集。

“目标是证明我们的架构有效，并展示我们的方法如何用于扩展到更大的模型，”Taalas的产品副总裁Paresh Kharya告诉EE Times。“我们必须做出许多技术突破才能使这种方法奏效。通过选择较小的模型，我们基本上清空了整个过程。”

HC1可以将整个8B版本的Llama3.1放在一个芯片上，但更大的模型需要更多的芯片。Taalas已经模拟了DeepSeekR1-671B多芯片解决方案的样子。将SRAM部分分割到单独的芯片上可以将密度提高到约20B参数每Taalas芯片（在MXFP4格式中）。Bajic表示，Taalas的密度也得益于一项创新，即存储4位模型参数并在单个晶体管上进行乘法运算（他拒绝提供更多细节，但确认计算仍然是完全数字的）。即使有这些密度优势，持有整个671B模型仍需要大约30次定制流片。

“这意味着30次增量流片，这是烦人的部分，但流片成本很低，因为它只有两个掩模，”Bajic说。“这个想法的核心是假设客户愿意为此[芯片/模型]承诺一年。肯定会有很多人不会，但有些人会。”

Taalas对其30多个芯片的DeepSeekR1模拟表明，它每用户每秒可以达到约12,000个令牌（根据公司说法，目前GPU的最高水平是每用户每秒约200个令牌）。Taalas的计算表明，DeepSeekR1在30个芯片上运行时，每百万令牌成本为7.6美分，低于基于吞吐量优化的GPU等效成本的一半，即使考虑到每年需要流片30个新芯片，而不是四年一次的GPU刷新周期。

通常，速度与成本之间存在权衡，但Taalas希望为两者提供优势。

“从我们的角度来看，我们已经有了相当严重的妥协，所以我们希望让它成为唯一的妥协，”Bajic说。“是的，它不太灵活，但从另一方面来看，其他一切都更好。”

降低成本的一部分是定期快速流片，任何大于8B的模型都可能需要多次流片，这就是Taalas的部分秘诀所在。

“我们建立了一些自动化，以便我们可以从模型快速转到[RTL]，”Bajic说。“这不是完全一键式，但目前需要大约一周的努力。”

Bajic表示，Taalas预计能够提供定制模型专用芯片，两个月内完成。

“这是一个晶圆尺寸的芯片，你正在移动和改变连接，仅仅验证它在正常方式下是否工作就太慢了，”Bajic说。“你怎么能在不花费六个月的情况下对这些东西进行设计规则检查？”

增加的问题是Taalas故意缺乏可编程性。

“因为我们是硬接线的，错误的余地基本上是零，”Bajic说。“你只能通过运行整个模型的模拟来确保它有效，因为你在流片后无法更改任何东西，或者你的更改能力非常有限。”

但模拟30个芯片协同工作也不是一件容易的事。Bajic表示，Taalas的工作流程使其能够在大型计算集群上运行如此大规模的模拟，并且这些模拟的结构使得它们可以向潜在客户展示，而不会泄露Taalas的秘密或违反其EDA工具合同的条款。

“最终结果是我们建立了一些别人没有的东西，”Bajic说。“从工程角度来看，我们在其他人没有的地方点亮了一盏灯，那里有上百个相当困难的问题需要解决……挑战主要是没有人以前做过这件事。”

“销售芯片”

Taalas仍在定义其商业模式，但Kharya表示，公司有许多选项。

“我们想与开发者合作，”Kharya说。“未来，我们可以构建自己的基础设施运行开源模型并提供API访问[以及销售芯片]。同时，我们还愿意与模型开发者合作，为他们的模型创建定制芯片，用于他们自己的服务基础设施。这两种可能性都是开放的。”

Kharya称之为模型最优硅片的东西是不可避免的。虽然它不会取代满载GPU的大数据中心，但它将适合某些应用，特别是当模型成熟到变得有用时，因为它会使它们更具粘性。

“对于我们要交谈的人群来说，期待模型运行重要用例的亲和力可能是一年甚至更久，”Kharya说。

HC1主要用于演示，今天正在运行推理。Taalas计划在夏季初生产一款针对“合理大小”推理模型的第二款芯片，并计划在年底运行前沿级模型。该公司已筹集超过2亿美元，目前有大约25名员工。

← 上一篇

实现零运行时错误

没有更多了