人工智能挑战者 Cerebras 组装模块化超级计算机“仙女座”以加速大型语言模型

2023-05-03 0 1,198

人工智能挑战者 Cerebras 组装模块化超级计算机“仙女座”以加速大型语言模型

当前流行的处理大量自然语言输入的机器学习程序正在推动计算的边界,促进其自身的超级计算机军备竞赛。

超级计算机曾经只用于解决科学问题,而被称为大型语言模型 (LLM) 的人工智能程序的开发正在促使企业寻求与世界顶级研究实验室拥有的相同能力。

例如,AI 芯片的标准承载者 Nvidia 在 9 月宣布了一个专门用于大型语言模型的云计算设施,企业可以将其作为服务租用。

周一,Cerebras Systems 这家成立 6 年、总部位于加利福尼亚州桑尼维尔的初创公司是众多挑战 Nvidia 统治地位的公司之一,推出了一台名为 Andromeda 的超级计算机,该计算机每秒执行千万亿次浮点数学运算,与 世界顶级超级计算机 Frontier,它可以在 LLM 等任务上实现超越数千个 GPU 芯片能力的显着加速。

与惠普和 IBM 等系统制造商需要数年才能组装的专用超级计算机不同,仙女座机器采用积木式方法,使其模块化并能够在短短几天内完成组装。

Cerebras 联合创始人兼首席执行官 Andrew Feldman 在通过 Zoom 接受采访时将 Andromeda 与 Frontier 进行了比较,他说:“他们花了数年时间,我们在三天内站起来了,他们花费了 6 亿美元,而我们花费了不到 3000 万美元。”

在 Andromeda 完全组装后的 10 分钟内,“我们能够在不更改代码行的情况下演示线性缩放,”Feldman 说。 线性扩展意味着随着更多的单独机器被添加到集群中,执行计算所需的时间成正比下降。

例如,能源部阿贡国家实验室的科学家在早期使用 Andromeda 机器,通过将机器数量从两个增加到四个,将训练大型语言模型的时间从 4.1 小时缩短到 2.4 小时。

Andromeda 机器将于周一由 Cerebras 的费尔德曼在 SC22 会议上展示,该会议是本周在德克萨斯州达拉斯举行的超级计算机技术专家聚会。 阿贡实验室的科学家们还展示了他们的研究论文,描述了使用 Cerebras 机器的情况。

Andromeda 的集群结合了 Cerebras 的 CS-2 计算机,以及宿舍冰箱大小的专用 AI 机器。 每台 CS-2 机器的芯片,世界上最大的半导体晶圆级引擎,拥有 850,000 个并行运行的计算核心,由 40 GB 的快速片上 SRAM 内存提供支持。

Andromeda 集群汇集了 16 个 CS-2,总共有 1350 万个计算核心,比 Frontier 系统多 60%。 数百万个核心并行执行矩阵乘法线性代数运算,这些运算是转换神经网络每一层数据样本所必需的。 每个 CS-2 都会得到一份神经网络训练数据来处理。

CS-2 通过 Cerebras 去年推出的特殊数据交换机 Swarm-X 连接在一起,它将 CS-2 连接到第三台机器 Memory-X。 Memory-X 充当神经“权重”或参数的中央存储库,这些参数会广播到每个 CS-2。 每个 CS-2 中矩阵乘法的结果然后通过 Swarm-X 传回 Memory-X 作为权重的梯度更新,Memory-X 完成重新计算权重的工作,并且 循环再次开始。

Andromeda 集群由总部位于加利福尼亚州圣克拉拉的 Colovore 作为云可用机器安装,该公司在托管服务市场上与 Equinix 等竞争。

模块化设计的秘诀在于,CS-2 机器可以编排为一个单一的系统,而无需超级计算机通常需要的奇异并行编程工作。 一次最多可以同时运行 192 个 CS-2,Cerebras 软件负责将计算分配给每个 CS-2 的低级功能,并管理 Swarm-X 结构中的权重和梯度流量。

另外:Cerebras 为 120 万亿参数神经网络时代做准备

“与传统的超级计算机不同,你可以将你的工作作为单个 CPU 上的单个作业来发送,”费尔德曼直接从 Jupyter 笔记本上说道。 “你所要做的就是指定四件事:什么型号和什么参数;你想使用 16 个 CS-2 中的多少个;完成后你希望将结果发送到哪里;以及你想要多长时间 要运行的模型——仅此而已,没有并行编程,没有分布式计算工作。”

Argonne 团队等早期用户证明 Andromeda 方法可以击败一些使用数千个 Nvidia GPU 的超级计算机,甚至可以执行一些由于内存限制而无法在超级计算机上运行的任务。

Argonne 的研究是对大型语言模型的一种新颖改造:一种生物语言模型,它预测的不是句子中的单词组合,而是基因序列中的生物化合物。 特别是,他们设计了一种方法来预测 COVID-19 的 SARS-CoV-2 病毒 DNA 变体的基因序列。

使用初创公司 OpenAI 创建的 GPT-2 大型语言模型的方法,主要作者 Maxim Zvyagin 及其同事构建了一个程序来预测 DNA 和 RNA 中四种核酸碱基的顺序,即腺嘌呤 (A)、胞嘧啶 (C)、 鸟嘌呤 (G)、胸腺嘧啶 (T)。

通过向 GPT-2 程序提供超过 1.1 亿个原核基因序列的序列,然后对 SARS-CoV-2 的 150 万个不同基因组进行“微调”,该程序开发了一种能力来预测出现在 SARS-CoV-2 中的各种突变。 COVID-19 的变种。

结果是 Zvyagin 和团队称他们的程序为“基因组规模语言模型”或 GenSLM。它可用于病毒监测,以作为一种早期预警系统来预测新 COVID 变体的出现。

他们写道:“我们提出了一个系统,该系统可以根据观察到的数据使用 LLM 来学习对全基因组进化模式进行建模,并能够根据适应性和免疫逃逸措施来跟踪 VOC [关注的变体]。”

作者在两台超级计算机 Polaris 上测试了 GenSLM 程序,这是一个由两千多个 Nvidia A100 GPU 组成的集群; 和 Selene,一个由 4,000 多个 A100 组成的星团。 这两台机器是世界上排名第 14 和第 8 的最快的超级计算机。 他们还在仙女座上运行了这项工作,看看它会如何叠加。

Andromeda 系统将训练时间从一周多缩短到几天,他们写道:

[T]这些训练运行在专用 GPU 资源(例如 Polaris@ALCF)上经常需要超过 1 周的时间。 为了能够在全序列长度(10,240 个标记)上训练更大的模型,我们利用 Cerebras CS-2 等 AI 硬件加速器,无论是在独立模式下还是作为互连集群,并获得了收敛的 GenSLM 在不到一天的时间里。

Zvyagin 和同事写道,有一个版本的 GenSLM 任务甚至无法在 Polaris 和 Selene 机器上运行。

语言模型将一定数量的字母、单词或其他“标记”作为输入,这些标记将被视为一个序列。 在自然语言任务的情况下,例如下一个单词预测,一个 500 或 1000 个单词的序列可能就足够了。

但遗传密码,如核酸碱基序列,必须考虑跨越数千个标记,称为“开放阅读框”,其中最长的是 10,240 个标记。 由于更多的输入标记占用了芯片内存,因此 Polaris 和 Selene 中的 GPU 无法处理超过一定大小的语言模型的 10,240 个标记字符串,因为权重内存和输入标记都耗尽了 GPU 的可用内存。

“我们注意到,对于 25 亿个神经权重或参数以及 250 亿个神经权重的较大模型大小,”由于内存不足错误,在 GPU 集群上对 10,240 长度的 SARS-CoV-2 数据进行训练是不可行的 在注意力计算期间。” 然而,仙女座机器能够处理 10,240 个令牌序列,因为每个 CS-2 芯片中的巨大 40 GB 片上存储器使用具有多达 13 亿个参数的模型。

根据 Feldman 的说法,虽然 Argonne 论文仅描述了 Andromeda 的两节点和四节点版本,但本周在 SC22 上的演示显示,随着更多机器的添加,计算时间继续缩减。 在使用所有 16 台机器时,四向仙女座在 10,240 个输入令牌和 13 亿权重上训练 GenSLM 所需的相同 10.4 小时可以减少到 2.7 小时。

Feldman 认为,除了简单的速度和规模之外,GenSLM 论文还暗示了在生物数据与语言模型的混搭中正在出现的一些深刻的东西。

另外:人工智能的真正目标可能不再是智能

“我们将整个 COVID 基因组放在那个序列窗口中,我们在整个基因组的背景下分析了每个基因,”费尔德曼说。

“为什么这很酷?这很酷,因为我们在过去 30 年中学到的是,就像文字一样,基因会根据邻居的不同来表达自己。”

Feldman 说,从商业角度来看,运行大型语言模型的市场已经成熟。

“大型语言模型,我们已经到了人们想要它快的地步,”他说。 “如果一年前我们建立了一个大集群,每个人都会说,什么?但是现在,人们渴望在 130 亿参数下训练 GPT-3,或者 GPT-Neo,这是一个 200 亿参数的模型 ”

他建议,对于单个作业的并行处理和组织内的多用户场景,集群可能是未来的前沿技术。

“我认为正在出现一个新兴市场,人们希望在大型集群上花费时间,他们希望通过 SSH 登录,他们不想要任何花哨的东西。他们只想交付数据然后走。”

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 人工智能挑战者 Cerebras 组装模块化超级计算机“仙女座”以加速大型语言模型 https://www.7claw.com/55856.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务