随着人工智能技术和应用的发展,作为深度学习和人工智能领域的专用芯片,NPU正逐渐走向舞台中央。
NPU,神经网络处理单元,用于高效执行神经网络的计算,通常具有优化的硬件架构,如向量处理单元、矩阵乘法单元、卷积单元和激活函数单元等,能够在硬件级别上执行大规模矩阵运算和卷积运算,以提高神经网络计算效率。
当前各类AI算法主要利用深度神经网络等算法模拟人类神经元和突触,NPU能够实现更高效率、更低能耗处理人工神经网络三晖机械科技、随机森林等机器学习算法和深度学习模型。如今,多家手机厂商已搭载NPU,AIPC也将通过“CPU(中央处理器)+NPU+GPU(图形处理器)”打造本地混合计算。那么,NPU会是继GPU之后的又一风口吗?
“相比于CPU和GPU,NPU的优势在于高效能、低功耗、易于编程、降低了开发门槛,同时支持多种语言和框架方便开发者进行模型开发和部署。”IDC中国分析师杜昀龙告诉第一财经。
传统的CPU通常用于执行通用计算任务,但对于处理大规模的神经网络计算,CPU的处理效率相对较低。
GPU通常作为CPU的协处理器,和CPU相比逻辑运算单元更少直流断路器,处理并行计算优势明显,能够分担CPU的计算量,也是目前数据中心侧应用最广的加速计算芯片。
NPU采用“数据驱动并行计算”的架构,在电路层模拟人类神经元和突触,特别擅长处理视频、图像类的海量多媒体数据。区别于CPU、GPU所遵循的冯诺依曼架构常州新型碳材料先进制造业集群,NPU能够通过突触权重实现存储计算一体化,提高运行效率,因此比GPU更擅长推理。且NPU芯片设计逻辑更为简单,在处理推理工作负载时具有显著的能耗节约优势。
不过,由于GPU已经具备英伟达CUDA等完善的生态,杜昀龙认为,缺少像GPU那样完善的生态环境是目前NPU渗透率提升最大的瓶颈。
据IDC数据,2022年中国实现数据中心计算加速仍以GPU为主,GPU在人工智能芯片市场中出货量占比达86%;NPU占比为12%,较以往具有明显增长。
与云侧不同的是,端侧对于功耗更加敏感,对低功耗芯片的需求更明显。因此,随着人工智能应用场景陆续落地,NPU易开发、高效能、低功耗等优势逐渐突显。业内普遍认为,在大算力需求爆发下,云侧的算力需求将传递至端侧。目前,实现智能终端算力的最常用方式是在SoC芯片中内置NPU模块。
“NPU是专门为人工智能应用而设计的芯片嘉峪检测:第三方专业检测服务平台,目前看NPU通常用于边缘侧和端侧场景更多,比如人脸识别、人脸解锁、影像处理等。”杜昀龙表示。
AIPC有望在2024年批量上市,而AIPC普遍搭载NPU,与CPU、GPU共同构成AIPC核心算力。
英特尔近期发布了内置NPU的第14代酷睿Ultra移动处理器。英特尔表示,2024年,将有230多款机型搭载酷睿Ultra。苹果也将在2024年发布搭载M3处理器的MacBook,并透露其M3处理器的NPU性能相较于M1提升了60%。
手机端则更早开始搭载NPU温岭新闻,华为最早在Mate10采用寒武纪NPU,后在990系列上采用自研的达芬奇NPU。苹果从A11SoC开始加入Neuralengine,最新公布的A14SoC中,NPU算力已有巨大提升,Neuralengine结合CPU上的机器学习加速器能够大大提高AI应用体验。
除智能手机、AIPC外,在汽车、边缘侧如XR及各类物联网智能终端中,NPU也有应用。随着大模型走进千行百业,端侧AI、边缘侧AI渗透率提升,也将带来更多NPU需求。
目前,国内芯片厂商正奋力自研NPU,以把握AI浪潮。以阿里平头哥为代表的芯片公司已推出面向数据中心AI应用的人工智能推理芯片,目前含光800已成功应用在数据中心、边缘服务器等场景。
NPU在SoC中的典型应用为机器视觉。以瑞芯微(603893.SH)的新一代机器视觉方案RV1106及RV1103为例,两颗芯片在NPU、ISP、视频编码、音频处理等性能均有显著升级,集成度与性价比较高,可以在低待机功耗的同时提供优秀的边缘AI算力。瑞芯微高性能的RV1126具备四核ARMCortex-A7和RISC-VMCU,2.0TopsNPU一体风口,活体检测率可以高达98.48%,最新旗舰芯片RK3588支持6Tops的NPU算力。
晶晨股份(688099.SH)A311D在采用高性能A73内核的同时,搭载了5TOPS的高性能NPU,可以广泛用于各类中高端AIOT(人工智能物联网)设备。
NPU IP方面,芯原股份(688521.SH)通过2016年对图芯美国的收购,芯原获得了图形处理器(GPU)IP,在此基础上自主开发出了NPU IP。芯原股份此前告诉第一财经,目前,在AIoT领域,公司用于人工智能的神经网络处理器IP已经被50多家客户的100多款芯片所采用,被用在物联网蜗杆直径系数、可穿戴设备、安防监控、服务器、汽车电子等10个应用领域三秦游。