Google 推第八代 TPU：兩款 AI 晶片分攻訓練與推論，挑戰 Nvidia 痛點

Google 在 Cloud Next 2026 發布第八代 TPU，首次將訓練與推論任務分拆到兩款專用晶片：TPU 8t 與 TPU 8i，聲稱效能每美元提升達 80%。
（前情提要：Anthropic 宣布合作博通、Google 擴大採用 TPU 晶片，年營收跳至 300 億美元）
（背景補充：輝達親兒子也不行！Core Scientific「最大股東」拒絕 CoreWeave 收購：90 億美元估值太低）

本文目錄

Google 的第一代 TPU（張量處理器，一種專為 AI 計算設計的自研晶片）在 2016 年問世時，市場預測它將成為 Nvidia 的終結者。結果是：Nvidia 在這十年間的市值從千億美元成長了幾十倍，而那些預言大多沒有兌現。

這一次，Google 在 Cloud Next 2026 大會上推出第八代 TPU，做了一個過去從未做過的決定：把訓練與推論拆開，各用一顆晶片處理。

一分為二的邏輯

所謂「訓練」與「推論」，是 AI 計算的兩個完全不同的階段。

訓練是讓模型從大量資料中學習的過程，需要極高的算力密度
推論則是模型學完之後，回應使用者每一次查詢的過程，需要的是低延遲與低成本。

過去 Google 用同一款 TPU 應對這兩種需求，但第八代起，兩者正式分家。

TPU 8t 是訓練專用晶片：具備 12.6 petaFLOPS 的 4 位元浮點運算能力（petaFLOPS，即每秒千兆次浮點計算，數字越大運算越快），216 GB 高頻寬記憶體，以及 6.5 TB/s 的記憶體頻寬。Google 宣稱這顆晶片比上一代訓練速度快 3 倍，並可讓超過 100 萬顆 TPU 同時協作於單一叢集。

TPU 8i 是推論專用晶片：具備 10.1 petaFLOPS 的 FP4 運算能力，288 GB 高頻寬記憶體，以及更大的 384 MB 片上記憶體（用於減少資料搬移延遲）。Google 稱其在每美元推論效能上比上代 Ironwood TPU 提升 80%，在低延遲目標下尤為突出。

兩款晶片預計將在 2026 年內正式對外開放。

Nvidia 的護城河有多深？

Google 這次分拆晶片的方向，直接對準了 Nvidia 的弱點之一：通用性。

Nvidia 的 GPU 是一條單一產品線同時服務訓練與推論。Nvidia 即將推出的 Vera Rubin 晶片規格為 35 petaFLOPS FP4 運算、288 GB HBM4 記憶體、22 TB/s 記憶體頻寬 — 原始算力數字仍然領先 Google TPU 8t 的 12.6 petaFLOPS。

但純粹比較 petaFLOPS 會遮蔽另一個維度：成本結構。推論市場的競爭，本質是「每一次模型回答的費用」。Google 把 TPU 8i 的設計目標定為壓低推論單位成本，而這正是 Anthropic、OpenAI 等大型模型廠商最在意的數字。

值得注意的是，Anthropic 已宣布將旗下 Claude 的訓練與服務擴充套件至「多 gigawatt 級別」的 TPU 容量，成為目前公開揭露中最大的 TPU 客戶、OpenAI 也開始取用 Google 的 TPU 容量。

不過，Google 本身也沒有否定 Nvidia。它同步宣布，自家雲端將在 2026 年底提供 Nvidia Vera Rubin 晶片。更進一步，兩家公司正在合作強化「Falcon」網路協議，這是 Google 在 2023 年開源的資料中心網路技術，目的是讓 Nvidia 系統在 Google 雲端跑得更有效率。