当今 AI 由 5 种硬件架构主导,每一种都在灵活性、并行性和内存访问之间做了不同的权衡。


CPU:通用计算设计,只有少量强大核心,擅长复杂逻辑、分支判断和系统级任务。它有深层缓存和片外 DRAM(主内存),适合操作系统、数据库等,但对神经网络所需的重复矩阵乘法不太高效。
GPU:不是少数强大核心,而是成千上万个较小核心同时执行相同指令(SIMD)。这种高度并行性完美匹配神经网络的数学运算,因此主导了 AI 训练。
TPU(Google 设计):进一步专业化。核心是乘累加(MAC)单元组成的网格,数据以“波浪”形式流动——权重从一边进入,激活值从另一边进入,结果直接传播,无需每次回写内存。整个执行由编译器控制(非硬件调度),专门为神经网络工作负载优化。
NPU(Neural Processing Unit):边缘设备优化版。内置 Neural Compute Engine(大量 MAC 阵列 + 片上 SRAM),但使用低功耗系统内存而非高带宽 HBM。目标是在手机、可穿戴设备、IoT 等场景下以个位数瓦特功耗运行推理(Apple Neural Engine、Intel NPU 都属于此类)。
LPU(Language Processing Unit,由 Groq 推出):最新成员。完全移除片外内存,所有权重都放在片上 SRAM 中。执行完全确定性、由编译器调度,无缓存缺失、无运行时调度开销。代价是单芯片内存有限,需要数百个芯片互联才能服务大型模型,但延迟优势非常明显。
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论