The path to ubiquitous AI

概要

Taalas が Llama 3.1 8B を最大 17,000 tokens/sec という超爆速で推論することができる専用チップを開発・公開
同時にデモサイトも公開
技術の鍵はシリコン上にモデルの重みを直接焼き付けた専用チップ

詳細

2026年2月20日（日本時間）に、カナダ・トロントを拠点とするスタートアップ「Taalas」が、Llama 3.1 8B を hard-wired（ハード配線）した “Silicon Llama” が、17,000 tokens/sec per user という驚異的なスピードでの推論を可能にしたとの報告をリリースした。

これは、Cerebras（1981 tokens/sec per user）の約 8.5 倍、NVIDIA H200（230 tokens/sec per user）の約 74 倍の速度である。先日 OpenAI が Cerebras のチップを使用した高速推論モデル「GPT-5.3-Codex-Spark」を発表したばかりだが、このモデルで 1,000 tokens/sec 程度（それでも見た目上は極めて高速な推論が実現されている）である。もちろん GPT-5.3 と Llama 3.1 8B の推論速度を比較するのはアンフェアだが、それを差し引いたとしても「17k」のインパクトは大きい。デモサイトで出力全文が一瞬で表示される様子を体験できる。なお、Taalas が発表したこの数字は入力長 1k、出力長 1k の条件でもたらされたものであり、特段有利な条件で記録された Champion Data という訳ではない。

爆速推論を可能にした鍵は、Llama 3.1 8B の重み情報をシリコン上の ROM のような部位に直接焼き付けて、演算コアと同居させた点にある。通常の GPU ではモデルの重みを載せたメモリと GPU の演算コアとの間で大量のデータ転送が発生するが、Taalas のチップはこれを大幅に削減する。その代わり、Taalas のチップはモデルごとに専用設計が必要となり、モデルの切り替えなどはできない。

モデルごとに専用設計が必要になる点は大きな制約に思われるが、実際にはおよそ 100 層のほぼ完成したチップを用意し、最表層の 2 層分をカスタマイズする。製造委託先は TSMC であり、現時点での製造期間は 2 ヶ月程度とのことである。したがって、モデルごとの専用設計とはそれほど大掛かりなものではなく、ビジネス的に非現実的な話でもないと思われる。

CEO の発言として、次世代は 20B/チップ程度の規模を見据えているとのこと。巨大なモデルに対してはチップ数を増やして対応することを想定しているようであり、「トリリオン級でも数十個のチップで済む」と主張している。

未来予測

ここからは僕の未来予測という名の妄想だが、このチップの将来像としてパッと2つのパターンが思い浮かんだ。

フロンティアモデルの爆速推論 API を提供

Cerebras と組んだ OpenAI が GPT-5.3-Codex-Spark を提供したように、推論の一部を Taalas のモデル専用チップが担うというものである。このシナリオにおいては「専用設計」がある程度足枷となり、現状 2 ヶ月の製造期間はハンデキャップになりうる。GPT-5.3-Codex-Spark が実際には GPT-5.1-Codex-mini と同程度のタスク処理能力であるように、Taalas のモデル専用チップは数世代前のモデルの能力相当としてリリースされる可能性も考えられる。
ローカル LLM 推論用チップとして販売

個人的にはこちらのシナリオの方があり得そうだし面白いなと感じる。すなわち、ある特定の推論モデルをチップとして販売する、というものである。例えば、「GPT-5 相当の推論能力を持つモデルがローカルで無制限に超爆速で永久に動く」チップが 50 万円で販売されるとしたらみんな買うだろうか？もちろんフロンティアモデルに比べたら能力が劣るのは間違いないし、そのモデルの能力と価格次第ではあるのだが、先に挙げたような条件であれば僕は買うと思う。実際には USB メモリのようにいろんなモデルチップを差し替えて使うような設計になるかもしれない。なお、KV cache は従来通り RAM に載せるようなので、依然として大きいモデルを扱いたければ大容量の RAM が求められる可能性は高い。

さいごに

総合してとてもワクワクする面白い技術であり、Taalas の将来が楽しみに感じたので記事にまとめた。

そしてさすがに僕は TSMC の株を買った。