
在AI芯片竞争持续升温的背景下,曾主导AMD Zen架构、苹果A系列处理器以及特斯拉Dojo芯片设计的传奇芯片架构师、Tenstorrent CEO Jim Keller,近日在接受《EE Times》采访时表示,AI芯片竞争已经不再是单点算力的比拼,而是系统架构、成本结构与生态能力的全面竞争,Tenstorrent 将全面击败晶圆级AI芯片厂商Cerebras。
Jim Keller还重点谈及了Tenstorrent的产品路线、与Cerebras的竞争关系、RISC-V CPU IP战略,以及公司潜在IPO计划。
以下是报道原文翻译:
一年前,当《EE Times》造访Tenstorrent首席执行官Jim Keller的办公室时,他门外的白板上写着:“我们会赢!”(We're going to WIN!)。一年后再次造访,白板上写着:“天哪,真快!”(Holy Shit, That's Fast!)。
在Tenstorrent的TT-Deploy活动之后,Jim Keller告诉《EE Times》,凭借其BlackHole Galaxy服务器,Tenstorrent能够在性能上击败GPU和更专业的AI硬件。他坚信,AI推理归根结底是一个网络和内存问题,而Tenstorrent的架构现在正在规模上证明这一点。
在TT-Deploy上,该公司展示了在各种工作负载下的性能。例如,16台Tenstorrent Galaxy服务器(512颗芯片)可以在批量大小为32的情况下,以每用户每秒高达350个Token的速度对DeepSeek-671B模型进行推理。
Jim Keller表示,Tenstorrent能够轻松地将大型张量分割到数百颗芯片上,是其实现快速Token生成的直接原因。Galaxy机箱每个拥有56个以太网端口,而GPU服务器每个可能只有8个外部端口。
Jim Keller引用了IBM在1960年代提出的Rent规则,该规则指出,逻辑块所需的I/O随逻辑量的增长呈次线性增长;在实践中,这意味着计算区域增长速度超过了可用于通信的“海滩前沿”面积。他认为,这通常是其他架构的致命缺陷。
“没有新的法则,”他说,“AI计算的基础植根于20世纪70年代的高性能计算(HPC),这些原理几十年来已被充分理解。” 他强调,成功的AI基础设施仍然归结于计算、内存和I/O之间的平衡。
“AI主要是矩阵计算和非线性向量运算,然后要使其快速运行,你需要足够的SRAM来保存计算数据和结果,并需要一个缓冲区用于数据在内存、张量处理器和芯片之间移动,这些我们都有,”他说,“如果你把内存做得太大,它帮助不大;如果太小,那情况就非常糟糕。”
“我们将在所有方面击败Cerebras”
对于近期刚刚完成IPO、并迅速成为AI芯片领域焦点公司的Cerebras,Jim Keller并未表现出回避态度,反而给出了相当直接的评价。他表示,Cerebras上市反而有助于Tenstorrent的发展,因为它让市场更加清晰地看到AI芯片创新路线的多样性,也让投资者重新评估不同架构路径的价值。
Cerebras走的是12英寸晶圆级AI芯片(Wafer Scale Engine,WSE)路线,试图通过极大规模单芯片提升算力密度。而Tenstorrent则基于自研RISC-V核心+Chiplet架构,通过灵活扩展与更低成本实现系统级部署优势。
Jim Keller表示,Tenstorrent可以用其BlackHole Galaxy服务器的大规模部署,以远低于Cerebras的硬件成本击败其性能。“Cerebras(的IPO和随后的估值)对我们有帮助,特别是因为我们将在所有方面击败他们,”他说,“挑战已接受!”
分离式推理
AI芯片市场领导者英伟达已获得Groq的技术授权,以加速LLM推理的解码部分,这项技术被称为分离式推理。Jim Keller指出,Tenstorrent无需为快速解码采取任何额外步骤。“我经常被问及我们如何处理KV缓存,”他说,“它就在与解码相同的芯片上的DRAM中,我们甚至不用去考虑它。我们非常擅长这个。”
这个关键在于Tenstorrent可以连接任意数量的张量处理器。Jim Keller解释说,如果有足够多的芯片,张量将完全适合SRAM;但如果芯片数量不足,数据可以从DRAM中流式传输,只是会牺牲一些性能。他指出,像Groq和Cerebras这样没有任何DRAM的架构则无法做到这一点。
Tenstorrent的硬件能否像英伟达的分离式架构一样,与GPU一起用于解码加速?“我们有一个客户正在使用Galaxy来加速他们购买的GPU,”Jim Keller说,“我们有一款带有BlackHole芯片的PCIe卡,我们使用第二层以太网进行传输,所以连接起来相当容易。”
据Jim Keller称,该客户使用这种方法将Token速率提高了一倍或两倍。“如果他们一开始只购买Tenstorrent,那会更便宜,因为我们也能做预填充,而且更简洁,”他说,“但(客户)已经购买了GPU,他们希望利用已有的投资。” Jim Keller补充说,将这一想法产品化目前还是“也许”。
工作负载协同设计
关于超大规模计算公司和前沿AI实验室因垂直整合(即他们深知自己的工作负载,因此可以协同设计芯片和模型)而在硬件设计方面具有优势的看法,可能被夸大了。 Jim Keller表示,与其他公司一样,Tenstorrent在其硬件中对一些流行的非线性函数进行了优化,但这些优化可以在后续几代硅芯片中根据需要进行调整。
他说,在芯片规模上,重要的是为大型模型构建、获得正确的精度,并妥善处理巨大的KV缓存和像扩散模型这样的计算密集型工作负载。“到目前为止,如果你拥有DRAM、SRAM、计算、矩阵向量和片上网络(NoC)的平衡,一切都能正常工作——Rent规则似乎很稳固,”他说。
另一个以新方式适用的旧规则是阿姆达尔定律,该定律通常用于说明任何工作负载的加速都受到无法加速部分的限制。“代理式计算是一个阿姆达尔定律问题,”凯勒说,“AI消耗了惊人的计算量,所以CPU会发送AI任务并等待其完成……代理式AI已经开始推动CPU需求,因为AI终于变得足够快,以至于问题的标量部分成为了瓶颈。”
目标是独立IPO
Jim Keller拒绝评论有关包括英特尔和高通在内的公司提出的收购要约的报道,仅证实他确实会见了这两家公司的CEO,以及所有主要超大规模计算公司的负责人,以向他们推销Tenstorrent的硬件IP。
“我希望从其中一家公司那里拿到大单,因为我们的RISC-V CPU IP非常出色,” Jim Keller说,“一家超大规模计算公司也在考虑我们的AI IP,用于制造小型芯片。”
Jim Keller表示,虽然超大规模计算公司已经开发了自己的大型AI芯片,但用于边缘设备等场景的小型AI芯片不能直接使用相同IP的缩减版。Tenstorrent的AI IP被设计为可扩展的,并且已经完全产品化(凯勒说,它附带从单核扩展到1000核所需的一切)。
对于Tenstorrent的初创公司竞争对手来说,过去六个月的两个重大退出分别是(实际上被)收购和IPO。 Jim Keller证实,Tenstorrent的目标是IPO,并正在为此建立其供应链和国际影响力。“目前,我们的投资者对IPO非常热衷,”他说。
Tenstorrent作为解码加速器的潜力是否必然使其对GPU公司具有收购吸引力?凯勒表示,某种战略交易或联合进入市场的可能性更大。他说,无论是主权基础设施还是大型前沿实验室,都希望在硬件和软件方面掌控自己的命运。“很多事情都可能发生,”他补充道。
Jim Keller表示,在TT-Deploy之后,Tenstorrent已经收到了硬件订单,其中最大的采购订单是一个96台Galaxy集群(即3072颗Blackhole芯片),将发往美国以外的地区。Tenstorrent迄今为止最大的客户仍然是日本的AI&,其CEO是Tenstorrent前高管David Bennett。
“发生的一部分情况是,许多人在英伟达那里有1亿美元的订单,但英伟达一年内无法发货,所以他们购买了一台2000万美元的Tenstorrent机器,因为它便宜得多,” Jim Keller说。他表示,Tenstorrent正在制造1000台Galaxy服务器的过程中,其中至少一半已经售出。
“我们的产品运行得相当好,我们有10个客户的Galaxy已经到位,我们已经过了概念验证阶段,”Jim Keller说,“我们开始收到后续订单……我希望先有10个满意的客户,然后是20个,然后是30个。”
编译:芯智讯-浪客剑