谷歌挑战英伟达,TPU崛起之路
近期,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthropic计划直接采购近一百万颗谷歌最新一代TPU v7系列芯片。这一交易尚未得到谷歌确认,但已引发广泛关注。
在大模型训练与推理的核心算力市场,英伟达的GPU几乎是最优选择。凭借其强大的CUDA软件生态和通用计算能力,英伟达得以制霸行业基础设施。然而,相比之下,谷歌自研的TPU虽然存在多年,却鲜少进入公众视野。
但是,近期发生了变化。全球两款顶尖大模型——谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,被爆出大部分训练和推理都依赖于TPU。这导致苹果、Meta、Midjourney甚至OpenAI也传出在不同场景下已使用或计划使用TPU的消息。
与此同时,谷歌对TPU的供给方式,也从单纯依附云服务租赁,转向更为灵活的商业化路径。TPU与GPU究竟有何不同?它是否正在成为AI算力竞争中的有力变量?
TPU的诞生源于谷歌内部的一场算力危机。早在2006年,谷歌就考虑过为人工智能构建专用芯片(ASIC)的可能性。但直到2013年,谷歌才真正意识到,未来对AI计算的需求,或将远超当时基础设施所能承载的上限。
那时,谷歌正计划在全球范围内推出语音识别功能。其首席科学家杰夫·迪恩曾在采访中介绍,团队做过粗略估算,如果数亿用户每天使用3分钟语音识别服务,所需算力将是谷歌全部数据中心算力的两倍。
谷歌团队评估了多种现有方案,结论是它们甚至难以满足其产品当下的基础机器学习需求,更无法支持未来增长。于是,谷歌决定设计一种全新的芯片。
硬件工程师诺曼·乔皮于2013年加入谷歌,成为TPU项目的关键推动者之一。他后来向媒体回忆,团队曾考虑像微软一样,采用FPGA(可编程芯片)路线。这类芯片可以按需编程以适配不同任务。但在实际测试中,它在AI计算上的性能表现并不优于GPU,成本还更高。最终,团队转向自研专用芯片TPU。
按照谷歌的划分,CPU(中央处理器)如同计算机的“通用大脑”, handling 各类复杂指令;GPU(图形处理器)配合CPU,用于图形处理、图像渲染和复杂的数学计算。而TPU只专注一件事,高效执行AI所需的大量矩阵运算。其核心在于一种名为“脉动阵列”的架构。
这使得GPU和TPU之间有着显著的区别。CPU和GPU的计算方式,本质上都是指令驱动型,为了通用性,数据在计算过程中往往需要被反复读取和搬运。而在TPU里,成千上万个乘加单元被紧密排列在“脉动阵列”中,以实现高效的矩阵运算。
近期,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthropic计划直接采购近一百万颗谷歌最新一代TPU v7系列芯片。这一交易尚未得到谷歌确认,但已引发广泛关注。
在大模型训练与推理的核心算力市场,英伟达的GPU几乎是最优选择。凭借其强大的CUDA软件生态和通用计算能力,英伟达得以制霸行业基础设施。然而,相比之下,谷歌自研的TPU虽然存在多年,却鲜少进入公众视野。
但是,近期发生了变化。全球两款顶尖大模型——谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,被爆出大部分训练和推理都依赖于TPU。这导致苹果、Meta、Midjourney甚至OpenAI也传出在不同场景下已使用或计划使用TPU的消息。
与此同时,谷歌对TPU的供给方式,也从单纯依附云服务租赁,转向更为灵活的商业化路径。TPU与GPU究竟有何不同?它是否正在成为AI算力竞争中的有力变量?
TPU的诞生源于谷歌内部的一场算力危机。早在2006年,谷歌就考虑过为人工智能构建专用芯片(ASIC)的可能性。但直到2013年,谷歌才真正意识到,未来对AI计算的需求,或将远超当时基础设施所能承载的上限。
那时,谷歌正计划在全球范围内推出语音识别功能。其首席科学家杰夫·迪恩曾在采访中介绍,团队做过粗略估算,如果数亿用户每天使用3分钟语音识别服务,所需算力将是谷歌全部数据中心算力的两倍。
谷歌团队评估了多种现有方案,结论是它们甚至难以满足其产品当下的基础机器学习需求,更无法支持未来增长。于是,谷歌决定设计一种全新的芯片。
硬件工程师诺曼·乔皮于2013年加入谷歌,成为TPU项目的关键推动者之一。他后来向媒体回忆,团队曾考虑像微软一样,采用FPGA(可编程芯片)路线。这类芯片可以按需编程以适配不同任务。但在实际测试中,它在AI计算上的性能表现并不优于GPU,成本还更高。最终,团队转向自研专用芯片TPU。
按照谷歌的划分,CPU(中央处理器)如同计算机的“通用大脑”, handling 各类复杂指令;GPU(图形处理器)配合CPU,用于图形处理、图像渲染和复杂的数学计算。而TPU只专注一件事,高效执行AI所需的大量矩阵运算。其核心在于一种名为“脉动阵列”的架构。
这使得GPU和TPU之间有着显著的区别。CPU和GPU的计算方式,本质上都是指令驱动型,为了通用性,数据在计算过程中往往需要被反复读取和搬运。而在TPU里,成千上万个乘加单元被紧密排列在“脉动阵列”中,以实现高效的矩阵运算。