NPU是专为神经网络推理设计的固定功能或高度专用化加速引擎,在特定AI任务上提供优于移动GPU 2-10倍的能效比。NPU将芯片面积和内存带宽完全专用于推理吞吐量,不支持图形渲染或其他通用计算任务。代表产品包括Apple Neural Engine(M系列芯片集成)、Qualcomm Hexagon NPU(骁龙系列)、MediaTek APU(天玑系列)等,算力覆盖0.5 TOPS(可穿戴设备)至275 TOPS(汽车SoC)。
GPU凭借其大规模并行计算架构,在边缘AI领域提供最优的编程灵活性和模型架构适应性,尤其适合频繁更新模型的机器人、智能视频分析等快速演进应用场景。NVIDIA Jetson系列(Orin NX 70 TOPS、Orin AGX 275 TOPS)在边缘GPU市场占据主导地位,支持CUDA、TensorRT等成熟软件生态。AMD Radeon RX和Instinct系列也在边缘服务器和推理场景中逐步获得市场份额。GPU方案的典型功耗范围为10-60瓦特,高于同算力水平的NPU方案。
FPGA通过硬件逻辑的动态编程能力,可针对不同AI算法定制加速单元,在工业自动化、智能驾驶等需要快速迭代和长生命周期维护的场景中具有独特优势。FPGA可在部署后重新配置加速逻辑,适应算法升级而无需更换硬件,显著降低总拥有成本。2025年从Intel独立后的Altera公司及AMD(Xilinx)是FPGA领域的主要供应商。FPGA方案功耗范围为5-75瓦特,算力密度低于同制程的ASIC方案,但灵活性远超固定功能加速器。
ASIC为特定AI推理工作负载定制设计,在已知、固定的推理任务上提供最优的效能比和面积效率。代表产品包括Google Edge TPU、Amazon Inferentia边缘变体、Tesla Dojo推理模块等云厂商自研芯片的边缘适配版本,以及汽车级ASIC解决方案。ASIC开发成本高、周期长,但量产后的单片成本和功耗表现优异,适合大规模部署场景。