英特尔今日正式发表了专为 AI 工作负载设计的 Gaudi 3 加速器。尽管这款新处理器在 AI 和 HPC 方面速度不及 NVIDIA 广受欢迎的 H100 和 H200 GPU,英特尔仍寄望 Gaudi 3 能凭借较低的价格和总拥有成本(TCO)取得成功。
Gaudi 3 处理器采用双芯片设计,搭载 64 个张量处理器内核(TPCs)、8 个矩阵乘法引擎(MMEs)和 96MB 片上 S内存 缓存,带宽高达 19.2 TB/s。此外,它还集成了 24 个 200 GbE 网络接口和 14 个支持多种视频编码格式的媒体引擎。Gaudi 3 配备 128GB 的 HBM2E 高带宽内存,分布在 8 个内存堆栈中,总带宽达 3.67 TB/s。
相较于前代 Gaudi 2,Gaudi 3 在各方面都有显著提升。但值得注意的是,英特尔似乎简化了 TPCs 和 MMEs 的设计,Gaudi 3 仅支持 FP8 矩阵运算和 BFloat16 矩阵、矢量运算,不再支持 FP32、TF32 和 FP16。
英特尔表示,Gaudi 3 在约 600W 功耗下可提供高达 1856 BF16/FP8 矩阵 TFLOPS 和 28.7 BF16 矢量 TFLOPS 的性能。
以下是双方(Intel Gaudi 3 以及 NVIDIA H100)性能的比较:
- 矩阵运算:
- 矢量运算:
Intel Gaudi 3 在矩阵运算方面的性能接近 NVIDIA H100,但在矢量运算和 FP8 格式的矩阵运算上落后较多。然而,现代深度学习模型特别是大型语言模型(如 GPT),主要依赖于大规模矩阵乘法。Gaudi 3 可能针对的是对价格更敏感,但仍需要强大 AI 计算能力的客户群体。
英特尔目前展示的数据显示,Gaudi 3 在性价比方面可能比 NVIDIA H100 更具竞争力。但考虑到 NVIDIA 新一代产品可能带来的巨大性能提升,英特尔能否保持这一优势仍有待观察。
软件优化也是一个重要的因素。英特尔高层强调,AI 需求正推动数据中心市场的巨大变革,客户渴望在硬件、软件和开发工具方面有更多选择。
英特尔指出,Xeon 6 处理器和 Gaudi 3 AI 加速器的推出将为客户提供一个开放的生态系统,让企业能够更高效、更安全地处理各种工作负载。Gaudi 3 将通过 IBM Cloud 和 Intel Tiber Developer Cloud 提供服务,同时包含这些新硬件的系统预计将于今年第四季度由 Dell、HPE 和 Supermicro 等大厂陆续推出。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除