Meta 表示它很快将拥有世界上最快的 AI 超级计算机

2023-05-23 0 589

Meta 表示它很快将拥有世界上最快的 AI 超级计算机

到 2022 年年中,Meta 将控制它认为将成为世界上最快的人工智能超级计算机。 该公司周一在一篇博客文章中表示,该系统被称为 AI Research SuperCluster (RSC),已经在运行,并且是世界上最快的 AI 超级计算机之一。

RSC 的开发正在进行中,但一旦第二阶段在今年下半年完成,该系统将提供近 5 exaflops 的混合精度计算。

Meta,前身为 Facebook,已经在使用超级计算机来训练自然语言处理 (NLP) 和计算机视觉方面的大型模型以进行研究。 该公司使用大规模人工智能模型来处理持续的优先事项,例如检测其社交平台上的有害内容。 不过,最终,它希望训练具有数万亿参数的模型,以帮助它为虚拟世界提供动力——Meta 打算通过其平台和产品支持的虚拟世界。

“我们为元宇宙打造的体验需要巨大的计算能力(每秒五亿次运算!),而 RSC 将启用新的 AI 模型,这些模型可以从数万亿个示例中学习,理解数百种语言等等,”Meta 首席执行官马克扎克伯格 在一份声明中说。

目前,RSC 共有 760 个 Nvidia DGX A100 系统作为其计算节点,总共有 6,080 个 GPU。 GPU 通过 Nvidia Quantum 200Gb/s InfiniBand 两级 Clos 结构进行通信,该结构没有超额订阅。 RSC 的存储层拥有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系统缓存存储和 10 PB 的 Pure Storage FlashBlade。

相比之下,美国能源部的 Perlmutter AI 超级计算机于去年夏天作为世界上最快的 AI 超级计算机亮相,配备 6,159 个 Nvidia A100 Tensor Core GPU,可提供近 4 exaflops 的混合精度性能。

到 Meta 的 RSC 完成时,InfiniBand 网络结构将连接 16,000 个 GPU 作为端点,使其成为迄今为止部署的最大此类网络之一。 此外,Meta 还设计了一个缓存和存储系统,可以提供 16 TB/s 的训练数据。 该公司计划将其扩展到 1 艾字节——相当于 36,000 年的高质量视频。

RSC 正在取代 Meta 于 2017 年设计的遗留基础设施,该基础设施在单个集群中拥有 22,000 个 Nvidia V100 Tensor Core GPU,每天执行 35,000 个训练作业。 RSC 的早期基准测试表明,它运行计算机视觉工作流程的速度比旧系统快 20 倍,运行 Nvidia Collective Communication Library (NCCL) 的速度快 9 倍以上,训练大型 NLP 模型的速度快 3 倍。

虽然 Meta 之前的人工智能研究基础设施仅使用开源和其他公开可用的数据集,但 RSC 包括隐私和安全控制,这将允许它使用来自 Meta 生产系统的真实世界数据来教授模型。

RSC 利用加密的用户生成的数据,这些数据在训练前被解密。 该系统与互联网没有直接的入站或出站连接,流量只能从 Meta 的生产数据中心流出。 从 Meta 的存储系统到 GPU 的整个数据路径都是端到端加密的。 在将数据导入 RSC 之前,它必须经过隐私审查流程以确认它已正确匿名化。 然后,数据在可用于训练 AI 模型之前被加密,并且解密密钥会定期删除,以确保旧数据仍然无法访问。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 Meta 表示它很快将拥有世界上最快的 AI 超级计算机 https://www.7claw.com/56758.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务