Taalas 推出首款专用 ASIC 加速卡 声称实现亚毫秒级推理

多伦多——2026 年 2 月 19 日,专注于人工智能专用集成电路( ASIC )的初创公司 Taalas 宣布,其首款商用产品——基于自研 HC1 平台、硬件实现的 Llama 3.1 8B 模型加速卡已正式面世。公司在当天的新闻稿( https://taalas.com/the-path-to-ubiquitous-ai/)中称,该加速卡的推理吞吐速率约为每秒 1.7 万 token ,成本和功耗分别比同类 GPU 方案低约 20 倍和 10 倍。 Taalas 的宣传材料列出三项核心设计理念: 全专用化——为每个 AI 模型单独定制硅片,以期在算力和能耗上实现更高效率。 存算合一——将存储单元与计算单元整合在同一芯片上,旨在消除传统的存储‑计算分离所带来的带宽和能耗瓶颈。 激进简化——在去除存算边界的前提下,重新构建硬件堆栈,避免使用高带宽存储( HBM )和液冷等高成本技术。

在量化方面,首代产品采用公司自行研发的 3‑bit/6‑bit 混合量化方案。Taalas 在新闻稿中指出,这一方案在保持亚毫秒级响应的同时可能导致与 GPU 基准相比的质量下降。第二代 HC2 芯片计划采用业界标准的 4‑bit 浮点格式,以兼顾精度与性能。 为支持其性能主张,Taalas 在公开网页 https://chatjimmy.ai/ 上提供了实时聊天演示。用户可在该页面直接与硬件实现的 Llama 3.1 8B 交互,现场观察响应时间和生成文本的质量。 同时,Taalas 在 https://taalas.com/api-request-form 提供了推理 API 的申请表格。潜在客户可填写项目概述、预期流量和技术需求,待审核通过后获得相应的 API 访问凭证。 Taalas 于 2023 年在多伦多成立,创始团队包括前 Tenstorrent 创始人兼 CEO Ljubisa Bajic 以及两位早期 Tenstorrent 工程师 Drago Ignjatovic 和 Lejla Bajic 。2024 年 3 月,Taalas 完成了总额 5,000 万美元的融资,分别由 Quiet Capital 和 Eclipse Ventures 顾问 Pierre Lamond 领投。Quiet Capital 合伙人 Matt Humphrey 在当时的声明中指出,公司的“一站式硅实现平台”有望降低 AI 硬件的成本结构,并支持模型规模的显著扩大。 在过去几年里,AI 模型的推理成本和延迟已成为业界关注的焦点。传统 GPU 和专用加速器往往需要依赖外部高带宽存储( HBM )和复杂的散热系统,这在一定程度上限制了在边缘设备或成本敏感场景中的部署。Taalas 的存算合一方案旨在通过单芯片完整容纳模型来规避这些限制。 截至本文撰写时,除了公司提供的演示站点外,尚未有第三方机构发布对该 ASIC 的独立基准测试。分析师普遍认为,若该芯片能够在真实生产环境中实现新闻稿所称的性能与成本优势,可能对边缘计算、实时交互和低功耗终端产生影响。但也有观察者指出,量化带来的质量损失以及模型规模的限制仍需在更大规模的实测中加以验证。 Taalas 透露,第二代 HC2 芯片已进入量产准备阶段,计划于今年冬季推出更高密度的前沿大模型。基于 HC1 平台的中等规模推理模型预计将在今年春季进入内部测试并随后开放服务。 本次发布标志着 Taalas 从概念验证向商用化迈出第一步。公司提供的在线演示和 API 申请渠道为外部评估提供了入口,后续的独立性能测评将决定该技术在竞争激烈的 AI 硬件市场中能否实现其宣传的成本和时延优势。