近年来,人工智能程序一直在推动计算机芯片设计的变革,新型计算机使人工智能中的新型神经网络成为可能。
有一个强大的反馈循环正在进行。
在这个循环的中心是将神经网络程序转换为在新硬件上运行的软件技术。 其核心是最近获得动力的开源项目。
Apache TVM 是一种运行方式与其他编译器不同的编译器。 它不是将程序转换为 CPU 或 GPU 的典型芯片指令,而是研究神经网络中计算操作的“图形”,并根据操作之间的依赖关系找出如何最好地将这些操作映射到硬件。
该操作的核心是成立两年的初创公司 OctoML,它提供 ApacheTVM 作为服务。 正如 ZDNet 的 George Anadiotis 在 3 月份所探索的那样,OctoML 处于 MLOps 领域,致力于将 AI 操作化。 该公司使用 TVM 帮助公司针对各种硬件优化神经网络。
在硬件和研究反馈循环的最新发展中,TVM 的优化过程可能已经在塑造 AI 开发方式的各个方面。
“已经在研究中,人们正在通过我们的平台运行候选模型,观察性能,”OctoML 联合创始人兼首席执行官 Luis Ceze 在通过 Zoom 接受 ZDNet 采访时说。 详细的性能指标意味着 ML 开发人员可以“实际评估模型并选择具有所需属性的模型”。
今天,TVM 专门用于推理——AI 的一部分,其中使用完全开发的神经网络根据新数据进行预测。 但在未来,TVM 将扩展到训练,即首先开发神经网络的过程。
“训练和架构搜索在我们的路线图中,”Ceze 说,他指的是通过让神经网络搜索最佳网络设计来自动设计神经网络架构的过程。 他解释说,“这是我们土地和扩张方式的自然延伸”来销售 TVM 的商业服务。
神经网络开发人员会使用 TVM 来影响他们的训练方式吗?
“如果他们还没有,我怀疑他们会开始,”Ceze 说。 他还指出,如果你“[带着训练工作来找我们,我们可以为你训练模型”,同时考虑到训练后的模型在硬件上的表现。
TVM 和 OctoML 服务不断扩大的作用是因为该技术是一个比编译器通常代表的平台更广泛的平台。
“你可以将 TVM 和 OctoML 扩展为一个灵活的、基于 ML 的自动化加速层,它运行在机器学习模型运行的各种不同硬件之上——GPU、CPU、TPU、云中的加速器,” Ceze 告诉 ZDNet。
“这些硬件中的每一个——哪个并不重要——都有自己编写和执行代码的方式,”他补充道。 “编写该代码并弄清楚如何最好地利用当今的硬件,今天由 ML 开发人员和硬件供应商手工完成。”
编译器和服务取代了手动调整——今天在推理级别,模型准备好部署,明天,也许,在实际的开发/培训中。
TVM 吸引力的症结在于在吞吐量和延迟方面的更高性能,以及在计算机功耗方面的效率。 这对于不断变得越来越大、运行起来更具挑战性的神经网络来说变得越来越重要。
“其中一些模型使用了大量的计算,”Ceze 观察到。
对于自然语言处理模型尤其如此,例如 OpenAI 的 GPT-3,它们正在扩展到万亿个神经权重或参数等等。 随着此类模型的扩大,它们会带来“极高的成本”,并且“不仅在训练时间,而且在服务时间”进行推理。
“所有现代机器学习模型都是如此,”Ceze 说。
因此,如果不“按数量级”优化模型,最复杂的模型在生产中并不真正可行; 他们仍然只是研究好奇心。
但是使用 TVM 执行优化涉及其自身的复杂性。 “要按照需要的方式获得结果需要大量工作,”Ceze 解释说。
OctoML 通过使 TVM 更像是一个按钮事件来简化事情。 Ceze 将云服务描述为“一个优化平台”。
“从最终用户的角度来看,他们上传模型,比较模型,并优化大量硬件目标的值,”Ceze 说。 他补充说,“关键是这是自动的——编写代码的低级工程师没有汗水和泪水。”
OctoML 负责确保模型可以针对不断增加的硬件群进行优化的开发工作。 这意味着“将机器代码专门用于特定硬件目标上特定机器学习模型的特定参数。” 例如,典型的卷积神经网络中的单个卷积可能会被优化以适应特定硬件加速器的特定硬件块。
结果是有目共睹的。 在 9 月发布的用于神经网络推理的 MLPerf 测试套件的基准测试中,OctoML 在每秒处理的图像方面对古老的 ResNet 图像识别算法的推理性能得分最高。
自 2020 年 12 月以来,OctoML 服务一直处于预发布、抢先体验状态。
为了推进其平台战略,OctoML 本月早些时候宣布,它已从对冲基金 Tiger Global Management 以及现有投资者 Addition、Madrona Venture Group 和 Amplify Partners 的 C 轮融资中获得 8500 万美元。 该轮融资使 OctoML 的总融资额达到 1.32 亿美元。
这笔资金是 OctoML 将 Apache TVM 的影响传播到越来越多的 AI 硬件的努力的一部分。 同样在本月,OctoML 宣布与 ARM Ltd. 建立合作伙伴关系,这家英国公司正被 AI 芯片巨头 Nvidia 收购。 此前宣布与 Advanced Micro Devices 和 Qualcomm 建立合作伙伴关系。 Nvidia 也在与 OctoML 合作。
ARM 的合作伙伴关系有望将 OctoML 服务的使用扩展到 ARM CPU 内核的被许可人,该内核在手机、网络和物联网领域占据主导地位。
反馈回路可能会导致神经网络设计之外的其他变化。 它可能会更广泛地影响 ML 的商业部署方式,毕竟这是 MLOps 的全部意义所在。
Ceze 预测,随着通过 TVM 进行优化的传播,该技术可以显着提高 ML 服务的可移植性。 由于云提供了与各种硬件产品的权衡,能够针对不同的硬件目标进行即时优化最终意味着能够更灵活地从一个目标转移到另一个目标。
“从本质上讲,能够从云中的任何硬件目标中榨取更多性能是有用的,因为它提供了更多的目标灵活性,”Ceze 描述道。 “能够自动优化提供了可移植性,而可移植性提供了选择。”
这包括在云配置中的任何可用硬件上运行,还包括选择对于相同 SLA(例如延迟、吞吐量和美元成本)而言恰好更便宜的硬件。
“只要我达到 SLA,我就希望以尽可能低的成本运行它,”Ceze 说。