谷歌的超级模型:DeepMind Perceiver 是迈向可以处理任何事物的人工智能机器的一步

2023-06-08 0 1,098

谷歌的超级模型:DeepMind Perceiver 是迈向可以处理任何事物的人工智能机器的一步

可以说,近年来让 AI 受到广泛关注的首屈一指的事件之一是 Ashish Vaswani 和 Google 的同事在 2017 年发明了 Transformer。Transformer 催生了许多语言程序,例如 Google 的 BERT 和 OpenAI 的 GPT-3 已经能够产生令人惊讶的类似人类的句子,给人的印象是机器可以像人一样写作。

现在,谷歌旗下的英国 DeepMind 的科学家们希望利用 Transformer 超越文本的优势,让它彻底改变其他材料,包括图像、声音和视频,以及汽车用 LiDAR 记录的那种空间数据 .

Perceiver 本周由 DeepMind 在 arXiv 上发表的一篇论文中公布,它对 Transformer 进行了一些调整,使其能够处理所有这些类型的输入,并执行各种任务,例如图像识别,其中不同类型的神经网络 网络通常是发达的。

DeepMind 的工作似乎是通往设想的深度学习超级模型的途中的一个中转站,一个可以执行大量任务的神经网络,并且可以更快地学习并且使用更少的数据,谷歌人工智能的负责人杰夫迪恩, 被描述为该学科的“重大挑战”。

这篇名为 Perceiver: General Perception with Iterative Attention 的论文由作者 Andrew Jaegle、Felix Gimeno、Andrew Brock、Andrew Zisserman、Oriol Vinyals 和 Joao Carreira 撰写,将于本月在 7 月开幕的国际机器学习大会上发表 18 日,今年将作为虚拟活动举行。

Perceiver 延续了多年来一直在进行的通用化趋势,这意味着越来越少地内置到特定于任务的 AI 程序中。 在 Vaswani 等人的 Transformer 之前,大多数自然语言程序都是根据对特定语言功能的感知构建的,例如问答或语言翻译。 Transformer 消除了这些区别,通过创建足够熟练的语言表示,生成了一个可以处理大量任务的程序。

同样,Perceiver 挑战了不同类型的数据(例如声音或图像)需要不同的神经网络架构的想法。

然而,感知者指出了更深刻的东西。 去年,在旧金山举行的年度技术研讨会国际固态电路会议上,谷歌的院长在他的主题演讲中将深度学习的一个未来方向描述为“能够训练出可以执行数千或数百万的模型的目标” 单个模型中的任务。”

“构建一个可以处理数百万任务的单一机器学习系统……是人工智能和计算机系统工程领域真正的重大挑战,”Dean 说。

在会议上与 ZDNet 的对话中,Dean 解释了多年来在结合“模态”、文本和图像等不同类型输入以及已知模型组合的神经网络上如何建立一种超级模型 作为“专家组合”:

我认为,专家式方法的混合将很重要,多任务和多模态方法,你可以在其中学习对许多不同事物有用的表示,并且可以共同学习好的表示 这可以帮助您更快地解决新任务,并且使用更少的数据,更少的任务示例,因为您已经在利用您对世界已知的所有事物。

Perceiver 本着多任务处理方法的精神。 它接受三种输入:图像、视频和所谓的点云,点云是描述汽车顶部的 LiDAR 传感器“看到”的道路的点的集合。

一旦系统经过训练,它就可以在基准测试中执行一些有意义的结果,包括图像识别的经典 ImageNet 测试; Audio Set,谷歌开发的一项测试,需要神经网络从视频中挑选出各种音频片段; ModelNet 是 2015 年在普林斯顿开发的一项测试,神经网络必须使用空间中的 2,000 个点才能正确识别物体。

Perceiver 设法使用两种技巧来完成任务,或者,也许是一种技巧和一种作弊。

第一个技巧是减少 Transformer 需要直接操作的数据量。 虽然大型 Transformer 神经网络已经输入了千兆字节和千兆字节的文本数据,但图像、视频或音频文件或点云中的数据量可能要大得多。 想一想来自 ImageNet 的 244 x 244 像素图像中的每个像素。 对于声音文件,“标准采样率下的 1 秒音频对应于大约 50,000 个原始音频样本,”Jaegle 和团队写道。

因此,Jaegle 和团队开始寻找一种方法来减少这些数据类型的所谓“维度”。 他们借鉴了牛津大学的 Juho Lee 及其同事的工作成果,后者介绍了他们所谓的 Set Transformer。 Set Transformer 通过创建每个数据样本的第二个版本来减少 Transformer 所需的计算,这是一种摘要,他们称之为诱导点。 将其视为数据压缩。

Jaegle 和团队将其调整为他们所谓的“学习潜在数组”,样本数据被归结为一个数据需求量小得多的摘要。 感知器以“非对称”方式运行:它的一些能力用于检查实际数据,但一些能力只查看摘要,即压缩版本。 这减少了花费的总时间。

第二个技巧,实际上是一种欺骗,是为模型提供一些关于数据结构的线索。 Transformer 的问题在于它对图像的空间元素或音频剪辑的时间值一无所知。 Transformer 始终是所谓的置换不变性,意思是对特定类型数据结构的这些细节不敏感。

这是 Perceiver 普遍存在的一个潜在问题。 例如,为图像构建的神经网络对二维图像的结构有一定的了解。 经典的卷积神经网络将像素作为图像部分中的组进行处理,称为局部性。 Transformer 和 Perceiver 等衍生产品并不是以这种方式构建的。

令人惊讶的是,作者引用了 18 世纪德国哲学家伊曼纽尔康德的话,他说这种结构性理解至关重要。

“空间关系对于感官推理至关重要,”Jaegle 和团队援引康德的话写道,“这种限制显然不能令人满意。”

因此,为了将图像或声音的结构感反馈给神经网络,作者借用了谷歌的 Matthew Tancik 及其同事去年采用的一种技术,即所谓的傅立叶特征。 傅里叶特征用一些有意义的结构信息明确地标记每个输入。

例如,图像中像素的坐标可以“映射”到数组,从而保留数据的局部性。 然后,感知器在其训练阶段考虑该标签、该结构信息。

正如 Jaegle 和团队所描述的那样,

我们可以通过将特定于位置和模态的特征与每个输入元素(例如每个像素或每个音频样本)相关联来弥补我们架构中缺乏显式结构——这些可以使用高保真傅里叶特征来学习或构建。 这是一种用位置和模态的高保真表示来标记输入单元的方法,类似于通过将特定单元的活动与 语义或空间位置。

基准测试的结果很有趣。 Perceiver 在精度方面优于 ImageNet 上的行业标准 ResNet-50 神经网络,并且优于已适配图像的 Transformer,今年由 Alexey Dosovitskiy 及其在 Google 的同事推出的 Vision Transformer。

在 Audio Set 测试中,Perceiver 超越了大多数但不是所有最先进的模型的准确性。 而在点云的ModelNet测试中,Perceiver也获得了相当高的分数。

Jaegle 和团队声称他们的程序具有一种超级熟练的能力,这种能力通过在各方面都是最好的而获胜:“当比较这些模型时,在论文中考虑的所有不同模式和组合中,Perceiver 总体上做得最好。”

Perceiver 存在许多突出的问题,使其实际上可能不是 Dean 描述的理想的百万任务超级模型。 一个是该程序并不总是像为特定模式制作的程序那样好。 它仍然无法针对某些特定模型。 例如,在 Audio Set 上,Perceiver 不及去年由 Facebook 的 Haytham M. Fayek 和 Anurag Kumar 推出的“融合”音频和视频信息的程序。

在点云方面,它远不及斯坦福大学的 Charles Qi 及其同事在 2017 年专门为点云构建的神经网络 PointNet++。

在 ImageNet 上,显然 Perceiver 得益于具有标记图像结构的傅里叶特征的欺骗。 当作者尝试删除傅立叶特征的 Perceiver 版本(称为“学习位置”)时,Perceiver 的表现几乎不如 ResNet-50 和 ViT。

第二个问题是,Perceiver 似乎没有任何东西能带来 Dean 提到的更高效计算和更少数据的好处。 事实上,作者指出,他们使用的数据并不总是足够大。 他们观察到,有时感知器可能无法成功地概括,并打趣说“灵活性越大,过度拟合越多。” 过度拟合是指当神经网络比其训练数据集大得多时,它能够简单地记住数据,而不是实现概括数据的重要表示。

因此,“在未来的工作中,我们希望在非常大规模的数据上预训练我们的图像分类模型,”他们写道。

这就引出了一个更大的问题,即感知者“学到的”到底发生了什么。 如果 Google 的 Jeff Dean 是对的,那么像 Perceiver 这样的东西应该学习相互增强的表示。 显然,尽管通用模型具有通用性,但它能够表现良好这一事实表明,这种情况正在发生。 但是什么?

我们所知道的是,感知器可以学习不同种类的表征。 作者展示了许多所谓的注意力图,这些视觉研究旨在代表感知者在每组训练数据中强调的内容。 这些注意力图表明 Perceiver 正在调整它放置计算焦点的位置。

正如 Jaegle 和团队所写,“它可以调整自己对输入内容的注意力。”

作者特别强调了第三个弱点,即傅里叶特征问题,即作弊。 在某些情况下,作弊似乎有所帮助,目前尚不清楚如何或什至可以免除拐杖。

正如作者所说,“端到端模态不可知学习仍然是一个有趣的研究方向。”

从哲学的角度来看,想知道 Perceiver 是否会导致新的特别是多模态的能力是很有趣的。 Perceiver 没有显示出不同模态之间有任何明显的协同作用,因此图像、声音和点云仍然彼此分开存在。 这可能主要与任务有关。 评估中使用的所有任务都是为单个神经网络设计的。

显然,谷歌需要一个新的基准来测试多模态。

对于所有这些限制,重要的是要认识到 Perceiver 可能只是通往 Dean 所描述的道路上的一个阶段。 正如 Dean 告诉 ZDNet 的那样,最终的超级模型是一种进化过程:

能够拥有一个模型来完成一百万项任务的愿景的好处在于,在此过程中有很好的中间点。 你可以说,好吧,我们不会放弃多模式,而是让我们先尝试在同一个模型中完成一百个视觉任务。 然后是它的一个不同实例,我们尝试执行一百个文本任务,而不是尝试将它们混合在一起。 然后说,这似乎运作良好,让我们尝试将百个视觉和百个文本任务结合起来,希望它们能够相互改进,并开始尝试多模态方面。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 谷歌的超级模型:DeepMind Perceiver 是迈向可以处理任何事物的人工智能机器的一步 https://www.7claw.com/57385.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务