在今年的 AWS re:Invent 年度大会上,AWS 正式推出新一代 AI 训练专用芯片 Trainium2(简称 T2)。这款被不少人期待已久的芯片可专攻大型语言模型(LLM)的训练与运算需求,再度展现 AWS 在 AI 芯片领域的雄心。
根据 AWS 的数据,Trainium2 的性能较前代产品提升四倍,单一运算运行个体就能集成 16 颗芯片,创下惊人的 20.8 petaflops 运算力。
以实际应用来说,在 Amazon Bedrock 平台上运行 Meta 的 Llama 405B 模型时,token 生成吞吐量可提高 3 倍。
AWS 还打造了搭载 64 颗 Trainium2 芯片的「EC2 Trn2 UltraServer」超级服务器,通过自家 NeuronLink 互连技术串接,可将运算性能一举推升至 83.2 petaflops。
其中,20.8 petaflops 的标准是以密集模型和 FP8 精度计算,而 83.2 petaflops 则是针对稀疏模型的 FP8 性能。AWS 指出,这些 UltraServers 使用 NeuronLink 互连技术来链接所有 Trainium 芯片。
与 Anthropic 合作,以全球最大 AI 运算集群训练模型
AWS 还与重点投资伙伴 Anthropic 展开合作,正在建置一座规模空前的 AI 运算中心,将部署数十万颗 Trainium2 芯片。这座超级运算中心的性能较 Anthropic 现有的训练集群强大五倍,可望成为全球最大规模的 AI 运算设施。
值得注意的是,Trainium2 的规格已超越目前市场上供不应求的 NVIDIA GPU。不过 NVIDIA 也已公布下一代 Blackwell 系列规格,声称单一机架可集成 72 颗 GPU,达到惊人的 720 petaflops FP8 性能,预计明年初问世。
为了持续领先市场,AWS 也抢先预告下一代 Trainium3 芯片的计划。这款采用 3 纳米制程的新芯片,将在明年底推出,UltraServer 的性能更预计提升四倍,再次展现 AWS 在 AI 基础建设的野心。
目前 Trn2 运行个体已在 AWS 美国俄亥俄州的数据中心率先上线,其他地区也将陆续跟进。至于 UltraServer 则处于预览阶段。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。