IBM 正在从人脑中寻找设计 AI 硬件的灵感,并推出了一款新芯片,据称该芯片比现有 GPU 具有更好的延迟且更节能。
这家科技巨头的 12 纳米 NorthPole 芯片拥有全新的神经网络硬件架构,针对图像分类和目标检测等神经推理任务进行了优化。
IBM 表示,在 ResNet50 基准测试中,该芯片的能效比同类 GPU 高 25 倍,延迟低 22 倍。它的性能记录在刚刚发表在《科学》杂志上的一篇论文中。
NorthPole 拥有 220 亿个晶体管和大量片上存储器,这意味着它可以用于存储和运行片上计算,而无需访问外部存储器,从而进一步提高速度和效率。
IBM 博客文章称:“与 NorthPole 最大的区别之一是该设备的所有内存都位于芯片本身上,而不是单独连接。”人类的大脑同样是独立的。
通过将所有内存放在芯片上,它不必不断地来回移动来自内存、处理器和芯片中任何其他组件的数据。这称为冯诺依曼瓶颈。
“这是一个芯片上的整个网络,”IBM 类脑计算首席科学家达门德拉·莫达 (Dharmendra Modha) 说道,他与他的团队一起开发了该芯片。他表示,NorthPole 的性能甚至优于采用更先进工艺(例如 4 纳米 GPU)制造的芯片。
相关:摩尔定律继续存在——人工智能芯片证明了这一点
IBM 还希望迭代 NorthPole,例如试验尖端的 2 nm 节点。目前最先进的 CPU 尺寸为 3 nm。
优点也是缺点
但是,NorthPole 无法访问外部存储器。因此,它通过“将神经网络分解成更小的子网络”来支持更大的神经网络,以适应其内存,并将多个 NorthPole 芯片上的子网络连接在一起,这种技术被称为“横向扩展”。
“我们无法在此基础上运行 GPT-4,但我们可以提供企业所需的许多模型,”Modha 说。此外,该芯片“仅用于推理”。
另一方面,NorthPole 可能“非常适合”需要实时处理大量数据的边缘应用,例如自动驾驶汽车中的数据。
PCIe 卡上的 NorthPole 芯片。图片来源:IBM
在设计芯片时,莫德哈和他的团队从人脑中汲取了灵感。 NorthPole 的 NoC(片上网络)将核心互连起来,统一并分配计算和内存——IBM 的研究人员将其比作大脑中的长距离白质和短距离灰质通路。
还有密集的交叉点,可以改善神经激活的局部流动,类似于大脑的局部连接,从而在附近皮质区域的神经元之间建立通路。
相关:微软正在制造自己的人工智能芯片,名为 Athena
IBM 还尝试模仿大脑的突触精度 – 与使用较高位精度(8 到 16)的传统 GPU 相比,选择较低的位精度(2 到 4)。选择这样做是为了大幅减少内存和电力需求。
北极的下一步是什么
NorthPole 还处于早期阶段,IBM 计划进行更多研究。但这家科技巨头已经在探索它们的可能应用。
在测试过程中,NorthPole 主要应用于计算机视觉相关的用例,因为该项目的资金来自美国国防部。此类用例包括检测、图像分割和视频分类。
但该芯片也在其他地方进行了试验,包括自然语言处理和语音识别。
其背后的硬件团队目前正在探索将仅限解码器的大型语言模型映射到 NorthPole 横向扩展系统。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。